2022 年 33 巻 2 号 p. 94-103
遺伝子発現データは、各行に遺伝子、各列にサンプルが配置された数値行列のことを指し、各要素には対応するサンプル中の遺伝子がどれだけ働いているかを表す発現量の数値情報が格納されている。本稿では、第 15 回で得た 2,949 遺伝子 × 9 サンプルからなる Lactobacillus rhamnosus GG の酸ストレス応答を調べた数値行列データを用いる。まず、データ解析環境 RStudio の基本的な利用法として、パッケージのインストールやロードといった基礎的な事柄を述べる。次に、似た発現パターンを示すサンプルのクラスタリングについて、その意義や目的、そして結果の解釈について述べる。遺伝子のクラスタリングについては、RNA-seq 用の代表的なパッケージである MBCluster.Seq について、その概要と入出力形式を述べる。最後に、我々が最近開発したMBCluster.Seq の改良版という位置づけの MBCdeg 法について紹介する。ウェブサイト(R で)塩基配列解析のサブ(URL: http://www.iu.a.u-tokyo.ac.jp/kadota/r_seq2.html)中のウェブ資料(以下、W)を併用してほしい。