抄録
全ゲノムショットガン法により多くの生物のゲノム解読が進むようになったが、どこにどのような遺伝子があるかのアノテーションについては困難であった。
セン類のヒメツリガネゴケPhyscomitrella patensは約480 Mbの概要ゲノムが公開され、約3万6千の遺伝子モデルが予測されている(Rensing et al 2009)が、遺伝子モデルの多くは、予測のみによって構築されており、実際にcDNAを単離すると違いを見いだす事が多い。我々は、これまで完全長cDNAライブラリーのシーケンシング、オリゴキャッピングによる5’SAGEタグ、454システムを用いた3’ 末端配列データを蓄積して来た。さらにSOLiDシステムを用いて、テンプレートスイッチによるmRNA 5’末端データ(25-nt, 3億6千万配列以上)と平均化cDNAライブラリーのランダムシーケンシングによる内部データ(50-nt, 1億4千万配列以上)とを大量に取得した。
SOLiDによる内部50ntの配列データを直接、参照ゲノム配列にGap入りアラインメントすることによりイントロンを同定することが可能な事がわかった。このデータを用いて遺伝子モデルを構築するシステムのプロトタイプを作成した。このシステムを発展させて、他のデータとも組み合わせて、ゲノム全域の処理を行なうことが可能なシステムの開発を目指している。