ノンコーディングRNA (non-coding RNA: ncRNA)は、名前の通りタンパク質を「コードしていない」という特徴のみで分類される多様な転写産物の総称であり、ncRNAが生体内で担う機能は非常に多岐に渡ることが知られるようになってきた。21世紀に入って以来、様々な生物のゲノム配列が解読され、さらに次世代シークエンサーの登場によって膨大な量のRNA配列データが取得できるようになったことで、細胞の中に存在する様々なncRNAの存在が明らかとなってきた。ゲノム配列を使った新規ncRNAの探索や、シークエンサーから生み出される大量のRNA塩基配列のデータ解析、RNA配列からの高次構造予測など、RNA研究を行う上で、配列データを用いたバイオインフォマティクスは、必要不可欠な存在になっているといっても過言ではないであろう。本稿では、様々な実験手法により生み出される大量のRNA配列データの現状と、発見が相次ぐncRNAとその新たな機能について解説する。
2003年4月14日にヒトゲノム計画完了宣言がなされてから約20年後の2022年4月1日にThe Telomere-to-Telomere (T2T) consortium によりヒトゲノム「完全」解読論文が発表された[1]。本稿では技術的限界まで精確なヒトゲノム配列を追い求めたヒトゲノム計画の国際チームがなぜ当時ヒトゲノム配列を完全解読することができなかったか、そして近年開発された様々な技術を駆使してどのようにT2T consortiumがヒトゲノム完全解読を達成したかについて概説する。
生命科学分野で取得されるデータ集合は、雑多(ヘテロ)な構造になり、ヘテロなデータ構造を扱える理論的な枠組みがもとめられている。本連載では、汎用的なヘテロバイオデータの解析手法である行列・テンソル分解を紹介していく。第3回では、行列を一般化したデータ表現であるテンソルと、行列分解の発展型であるテンソル分解手法について説明する。
すでにアカウントをお持ちの場合 サインインはこちら