Galaxy は、ウェブブラウザ上でマウスを操作して行う GUI ベースのデータ解析環境である。今回も前回に引き続いて、Galaxy 上で行う RNA-seq データ(GSE107337)の発現定量に関する解説を行う。まず、アノテーション情報を含む GFFファイルの前処理(フィルタリング)を行い、遺伝子領域に対応するゲノム中の塩基配列情報を抽出する。次に、得られた塩基配列群をリファレンス配列として Kallisto quant プログラムを実行し、遺伝子ごとのカウント値や発現量に相当する TPM 値を得る。カウント値と周辺情報から CPM、CPK、FPKM、そして TPM といった様々な補正値を導き出す考え方について述べる。最後に、今回得られた結果を、GSE107337 の原著論文および第 14 回で得られたものと比較・検証する。ウェブサイト(R で)塩基配列解析のサブ(URL: http://www.iu.a.u-tokyo.ac.jp/~kadota/r_seq2.html)中に本連載をまとめた項目(URL: http://www.iu.a.u-tokyo.ac.jp/~kadota/r_seq2.html#about_book_JSLAB)が存在する。ウェブ資料(以下、W)や関連ウェブサイトなどを効率的に活用してほしい。
抄録全体を表示