2023 年 34 巻 1 号 p. 21-29
RNA-seq 解析の目的の多くは、比較する状態または群間で発現の異なる遺伝子(DEG)の同定である。ほとんどのプログラムは R のパッケージとして提供されており、その入力は、カウントデータとよばれる各行が遺伝子、各列がサンプルからなる数値行列である。本稿では、なぜ負の二項分布とよばれる統計モデルが DEG 検出目的でよく用いられるのかについて、数式を交えて解説する。また、このカウントデータの性質を説明する手段としてよく用いられる平均-分散プロットについて、データの前処理から ggplot2 による描画まで述べる。