抄録
精神疾患をはじめとした複雑な疾患に対し,その遺伝要因はゲノム科学的手法により,環境要因は疫学的手法により,それぞれ探求されてきた。しかし,ゲノム科学は「失われた遺伝率」問題により,また疫学は小効果のリスク因子の再現性の危機により,それぞれ限界を迎えつつある。これらの限界を乗り越えると期待されるのが,前向きゲノムコホートとよばれる研究デザインである。前向きゲノムコホートでは定義された集団に対し,ゲノム情報と環境曝露情報を収集し,血液や尿などの生体サンプルを一定の品質管理のもと保管する(バイオバンキング)。また疾患発症情報や,検査値・画像・アンケート結果などの多様で多層的な中間表現型情報を前向きに取得していく。これにより,遺伝子・環境相互作用も含めた解析が可能となり,新たなリスク因子が同定されると期待される。しかしゲノムコホート研究には特有の困難が存在する。一つはp>>n問題であり,もう一つは多様で多層的な中間表現型情報から意味のある特徴量を抽出する問題である。これらの問題を解決すると期待されるのが統計的機械学習および深層学習技術である。本稿ではこれらの技術を適用した筆者らの研究例を紹介する。