Japanese Journal of Social Psychology
Online ISSN : 2189-1338
Print ISSN : 0916-1503
ISSN-L : 0916-1503
Book Reviews
[title in Japanese]
[in Japanese]
Author information
JOURNAL FREE ACCESS FULL-TEXT HTML

2024 Volume 40 Issue 1 Pages 47-48

Details

本書は,「シミュレーション」をキーワードとする新しいタイプの心理統計学のテキストである。シミュレーションを通じて,統計のしくみを体験的に理解させること,そして,それを足がかりにさらに読者を統計学の学習にいざなうことに,著者らのねらいがある。これまでの心理統計学のテキストにも,恐らく同様のねらいで,読者に統計ソフトを触らせながら統計学の概念や手続きを理解させようとするものはあった。少なくとも統計ソフトの操作の仕方やコードを掲載するようなテキストは,評者の本棚や“積ん読”の山にもたくさんある。しかし本書のように,心理統計を使う人々を対象に,プログラミングをその初歩から指南し,かつシミュレーションを通じて体感的に統計のしくみの理解を目指す日本語テキストは,(Web上での教材を除けば)ほとんどなかったのではないか。加えて,著者に名を連ねるのは,これまで心理学界全体に対して統計に関する啓蒙的活動を実践されてきた専門家である。こうした点からも,心理統計学の理解を深めたい人々(もちろん評者を含めて)が手に取るべき1冊であることは,間違いない。少なくとも評者は,心理統計学に関する“積ん読”の山は,しばらく高くする必要がないと思うほどである。

本書をオススメする理由は,これでも十分であろう。ただ1つ懸念があるとすれば「シミュレーション」という言葉に,なにか異質なものを,あるいはハードルの高さのようなものを感じる方々もいるかもしれないということだ。それは大変もったいない。シミュレーションがどのような点で統計のしくみの理解に重要なのかは,「はじめに」や「第1章 本書のねらい」にも述べられていることであるが,以下では評者なりの論点も加えつつ,この点を考えてみたい。

確率変数の視点の難しさ

まず本書においてシミュレーションは,「データとは確率変数である」という視点を読者に植え付けるために著者らが用いるしかけであると言える。この確率変数の視点は,統計のしくみの理解に欠かすことができない。私たちは研究をする際,ある母集団を想定し,その一部を標本としてデータを得ている。すると,母集団で実現されているだろう値(真値)が標本でも実現されているとは限らず,確率的に誤差(標本誤差)が生じるし,標本を取り出す度にその誤差は変動することになる。そして,この誤差を評価するために,さまざまな推測統計上の概念が考案されている。この点は,統計学についての本・授業などで,必ずと言ってよいほど説明される事項である。

ところが,この確率変数の視点は,時として意識されなくなってしまうようである。例えば,信頼区間や有意確率といった概念は,確率変数の視点を持っていれば適切に理解できると期待される。しかし,信頼区間については「95%信頼区間には95%の確率で母数が含まれる」のような誤った理解がされていることが指摘されているし,有意確率についても「帰無仮説が正しい確率」など,さまざまな形で誤解されていることが報告されている。他にも,予測と一致した結果が得られるまで研究を繰り返したり,サンプルサイズを段階的に大きくしたりする行為は第一種の過誤の確率をインフレさせることが指摘され,現在ではQuestionable Research Practices(QRPs)として問題視されている。真ではない仮説を支持する統計的に有意な結果を,標本誤差を利用して得ようとする行為だからである。しかし逆に言えば,こうした行為が研究者間で許されたり,実施されたりしていたのは,論文出版のシステムや研究者のプレッシャーの中で確率変数の視点を欠いてしまったことも一因ではなかっただろうか。これらの点に加えるならば,統計的仮説検定を含む研究の手続きは慣習化・儀式化されてしまい,その背後にある統計のしくみを知らなくても使えてしまう。こうした理解なき利用も統計上の概念の誤解やQRPsの温床となったと思われる。さらには研究者にとって,苦労して取得し,目の前に,具体的な形を取って存在するデータはとても貴重なものである。それが,確率的に変動するデータのあり得る形の1つに過ぎないとメタ的・俯瞰的に捉えるのは心理的に難しいのかもしれない。このように,データが確率変数であるという見方は,具体的研究実践の中で必要とされなかったり忘れられてしまったりする可能性がある。

シミュレーションと「実感」

そこで著者らがしかけるのがシミュレーションという手法である。そして,おそらくそれに伴う「実感」をねらっている。確率変数の視点を理解するためのシミュレーションでは大抵,ある性質を持つ母集団や標本を作成し,その際に事前に設定する母集団や標本,あるいはサンプリングの性質や条件を設定し,最終的に検討したい統計値の算出を指示する。数学的な計算・演算はソフトウェアに任せて,読者は指示した結果を観察するのである。

この例として,本書(p. 4)では標本相関係数の分布やその無相関検定を扱っているが,ここでは標本誤差についてのシミュレーションを取り上げてみよう(p. 145)。先述の通り,母集団におけるあるスコアについての平均値(母平均)と,標本におけるその平均値(標本平均)は通常一致しない,とされる。これは数学的な証明があると思うのだが,数学の素養のない評者には,母集団の中のどの個体が標本になるかには途方もない組み合わせが存在するのだから,何度も標本を取ったらそのうち1つくらいでは母平均と一致する標本平均も算出されるのでは…と考えたくなってしまう。本書によれば,標本誤差について次のようなシミュレーションが実施できるという。まず母集団を,例えば「平均μ=0,標準偏差σ=1というパラメータを持つ正規分布に従う(数値の)集合」として表現する。またこの集合から100個数の数値を取り出すことで,サンプリングと標本を表現する。そして取り出した標本の平均値を算出するという作業をk回繰り返して,標本平均=μ=0となる回数をカウントするのである。実際,本書にしたがってシミュレーションしたところ,kを100にしても10,000にしても,「えい,やけくそだ」と100万回に設定しても,標本平均=μ=0となる回数は0回であった。本当に一致しないのである。もちろん,シミュレーションで設定される乱数と,実際の研究で扱う測定値とは異なるので,そういった点で違いはあるかもしれない。しかし量的変数を扱う限り,理論的には一致しないことが「実感」とともに理解できる。頭でわかっていたことが体験としてわかる瞬間である。この瞬間の高揚感を,ぜひとも体験してみて欲しい。

このようなシミュレーションとは,いわば“神の視点”を取る作業である。現実世界で母集団とは抽象的な集合であり,存在することは想定できても,それを観察することは難しい。それをシミュレーション上で作り上げることで,標本統計量が確率的に散らばることを目撃することができる。さらに言えばシミュレーションとは,(ある高名な社会心理学者の言葉を無断で借りれば)“貧者の数学”なのだという。本来なら数学的・確率的に表現されたり証明されたりする事象を,そのままだと難しいので,具体的な数値の頻度から理解しようとするわけである。物事のロジックが十分理解できる人なら,数学的素養が十分でなくても,複雑な統計の概念も体感的に理解できるだろう。

シミュレーションへの道

シミュレーションという手法の有効性については,多少なりとも伝えられたのではないかと思う。それでも,具体的にはどうすればいいのかと案じている方もいるだろう。そうした読者に対しても,本書はしっかりケアをしてくれている。

まず第2章で,本書で使用するソフトウェアRでのプログラミングの基礎を,第3章で乱数生成のシミュレーションの基礎を扱っている。これらの章は,明らかにRでのプログラミング経験がない読者を対象に書かれているので,Rを扱ったことがないという人も問題なく取り組める。またRのインストールサイトや,Rを便利に使うためのRstudioというソフトの解説書についても,脚注で紹介しくれている(p. 11)。こうした箇所に,なんとしてもR言語で脱落させずにシミュレーションさせようという著者らの意気込みを感じる。さらには,はっきりとコードの「写経」を読者に課している(p. 9)。ともかくRで本書のコードを写せば,シミュレーションが完遂できるという道筋を作ってくれている。加えて,評者がとても素晴らしいと感じたのは,本書が基本的なRの機能のみで(パッケージを追加でインストールするなどの読者の作業を最小限にして)そのほとんどが成立している点である。ここも著者らが心をくだいたであろうことを想像させる。

最後に,本書はシミュレーションを,単なる統計のしくみの理解だけでなく,研究場面でも実践的に利用することを勧めている(p. 3)ことに触れておきたい。シミュレーションでは特定の分布(例えば正規分布)から乱数を発生させる手続きを用いるが,これはデータの生成過程に注目することでもある。これを応用して実際の研究でも,これから取るデータがどのような生成過程から生まれてくるのか,それに対応してどのような分析モデルが適用できるのかを考え,データ分析のシミュレーションを行うことで,「データは取ってみたが,どういう分析をすればよいかわからない/適切でない分析を使ってしまう」といった事態を避けることができるという。こうしたデータ生成過程への注目は,儀式化された統計的手続きに盲目的にしたがうことで生じるデメリット(誤った検定の利用など)を避ける意味でも重要であるし,統計モデリングという考え方をするのにも大切である(p. 304)。そして本書を読み終えた方には,一般化線形混合モデル・ベイジアンモデリングなど,さらに発展的な分析についての文献に進むことができるだろう(本書で紹介されている以外では,『データ解析のための統計モデリング入門(久保,2012)』や『Statistical Rethinking(McElreath, 2020)』は評価の高い書籍である)。統計のしくみの理解だけでなく,こうした分析方法の理解の足がかりにもなるのが,本書であろう。

以上のように,本書には活用する価値があり,シミュレーションを実行するための障害も著者らによって取り除かれている。後はやってみるのみである。本書に割く時間がうまく作れない方は,同僚や友人を誘って勉強会をしてみるのはどうだろう。Rやシミュレーションに馴染みにある人と,数学が得意な人などが集まれば,互いが刺激になって,心理統計学への理解が会の参加者全体で深まることだろう。これまでの活動を考えると,こうした形での“啓蒙”効果もが,著者らのねらいだったのではあるまいか。

引用文献
  • 久保 拓弥(2012).データ解析のための統計モデリング入門——一般化線形モデル・階層ベイズモデル・MCMC(確率と情報の科学)—— 岩波書店
  • McElreath, R. (2020). Statistical rethinking: A Bayesian course with examples in R and STAN (2nd ed.). Chapman and Hall/CRC.
 
© 2024 The Japanese Society of Social Psychology
feedback
Top