生命科学分野で取得されるデータ集合は、雑多(ヘテロ)な構造になり、ヘテロなデータ構造を扱える理論的な枠組みがもとめられている。本連載では、汎用的なヘテロバイオデータの解析手法である行列・テンソル分解を紹介していく。第5回では、第4回で紹介しきれなかったグラフデータの解析の仕方、特にグラフ上でのランダムウォークをベースとした行列・テンソル分解に注目する。
バイオインフォマティクスやヘルスケア分野では、テーブルとして表現されるデータを解析する場面が多く現れる。その中でも、テーブルデータ生成は、一塩基多型の補完、遺伝子発現量のノイズ除去、二次利用可能なヘルスケアデータの作成など幅広い応用分野を持つ。本稿では、深層学習技術を用いたテーブルデータ生成の手法とその応用を解説する。まず、テーブルデータ生成の応用例として、欠損値補完、ノイズ除去、合成テーブルデータの生成を挙げ、手法と適用例を紹介する。次に、深層生成モデルの1つである変分オートエンコーダを用いた欠損値補完について、2通りのアプローチ(再構成、マスクモデリング)を解説する。また、多様な項目を持つテーブルを扱えるように変分オートエンコーダを改良したモデルであるHI-VAEも紹介する。最後に、深層生成モデルを用いた欠損値補完の事例として、我々が取り組んでいる仮想人体生成モデルを解説する。
すでにアカウントをお持ちの場合 サインインはこちら