次世代シーケンサーデータの解析手法 第 20 回 RNA-seq カウントデータの性質と統計モデル

牧野 磨音; 坂本 光央; 清水 謙多郎; 門田 幸二

doi:10.4109/jslab.34.21

総説

次世代シーケンサーデータの解析手法第 20 回 RNA-seq カウントデータの性質と統計モデル

牧野磨音, 坂本光央, 清水謙多郎, 門田幸二

著者情報

キーワード: negative binomial distribution, RNA-seq, R Markdown, ggplot2

ジャーナルフリー

2023 年 34 巻 1 号 p. 21-29

DOI https://doi.org/10.4109/jslab.34.21

詳細

抄録

RNA-seq 解析の目的の多くは、比較する状態または群間で発現の異なる遺伝子（DEG）の同定である。ほとんどのプログラムは R のパッケージとして提供されており、その入力は、カウントデータとよばれる各行が遺伝子、各列がサンプルからなる数値行列である。本稿では、なぜ負の二項分布とよばれる統計モデルが DEG 検出目的でよく用いられるのかについて、数式を交えて解説する。また、このカウントデータの性質を説明する手段としてよく用いられる平均－分散プロットについて、データの前処理から ggplot2 による描画まで述べる。

責任著者(Corresponding author)

J-STAGEへの登録はこちら（無料）