データ分析の理論と応用
Online ISSN : 2434-3382
Print ISSN : 2186-4195
特集
特集にあたって
鈴木 督久
著者情報
ジャーナル フリー HTML

2024 年 13 巻 1 号 p. 1-3

詳細

特集「調査データ収集法の新展開」を編集委員会が企画した背景には,デジタル化が進み「データの時代」も高度化していくとの認識があると思われる.長期的にはデータはすべてデジタル化され入手できる時代がやってくると,個人的にも信じている.しかし,当面は長い「過渡期」が続くとも思っている.

国家の誕生と同時にデータ収集が始まり,徴税を目的に人口を数える政策が始まったという説がある.近代は「科学的」にデータを集める枠組みを発見した.「実験」によって因果関係を実証する.「調査」によって母集団を推測する.目的をもった設計であり,大規模なほど正確だという素朴な非科学と区別された.統計科学の誕生は,実験計画法や標本調査法というデータの収集法と表裏一体であり,データを所与とし解析法だけで存立したわけではない.

一方で,実験や調査は必要に迫られた結果に過ぎないかも知れない.ビッグデータという用語が流行した時期があった.データサイエンスという概念もその後に続く.自然科学,社会科学のあらゆるデータが全数で誤差なく記録できれば,実験や調査をするより適切かも知れない.しかし技術的にも制度的にも倫理的にも,現状はそうではない.

特集では,調査の分野に絞って現状を展望することを意図した.統計的方法に対して,最も保守的な統計調査,次に世論調査,そして統計的であるべきだという制約の最も弱い市場調査の3分野の実務家から3 編の論文を得た.図らずも3 論文ともに,取り上げた実例は新型コロナウイルス感染症の流行期と関連するものであった.これも何かを示唆しているのであろう.

統計調査の最大のユーザーは,民間では金融機関である.中でも日本銀行はあらゆる統計調査の結果を検討して金融政策決定に利用している.しかしアナリストを筆頭に統計調査への批判は「迅速性」を中心として止まない.活用できるデータが存在しているのに活用していないのではないかという雰囲気は一般化しているようである.日本銀行はオルタナティブデータの利用に関する研究を実施した.公的統計調査とくに基幹統計調査の報告が迅速性に劣るとして,正確性や代表性や継続性と比較した冷静な判断は必要である.どの側面で優位性と利用価値があり,どこに課題があるかを明確にした議論が求められる.

菅沼・亀田論文はオルタナティブデータの経済分野における活用を展望している.頻度や速報性で威力を発揮したのが新型コロナウイルス感染症への対応であったことは,人々の記憶にも残っているだろう.その後の「平時」でも,その成果の好循環を期待できると指摘しつつ,課題も明確に示された.ビッグデータが登場した頃の議論と似ているが,データの取得容易性と範囲拡大は継続している.課題を克服して公的統計に代替するよりも,お互いの利点を共有し,欠点を補いあう利用法が正しい方向性であろう,との示唆を得る.

齋藤他の論文は世論調査ではなく選挙調査であるが,報道機関はこれまで両者に同じ調査方法を適用してきた.そのため選挙予測が的中することが,世論調査の正当性の裏付けになるとの議論もあった.ところが本論文は「世論調査と選挙調査は異なる」と表明する.新型コロナウイルス感染症対策の影響で,調査員を使った電話調査のコストが急増したため実施可能性のある調査方法に転換せざるを得なかった.2021 年の衆院選挙の予測調査はコスト増と非接触性という背景で設計され,それは各社とも同じ事情であったが,朝日新聞の予測だけが的中したといっても過言ではない.戦後の選挙予測における失敗は,1979 年衆院選と1998 年参院選で経験したが,いずれも「各社一斉に」「同じ方向で」外れた.各社がほぼ同じ調査方法と予測方法を使っていたからでもある.

2021 年は従来と異なる方法で対応した社が多く,手法も各社間で多様化した.なかでも朝日新聞だけがインターネット調査を採用したのである.確率標本ではなく,大きな偏りがあることを前提とした.ボランティア・パネル方式の調査会社のモニター標本を使い,分析方法の工夫によって予測モデルを構築したという.その手法の詳細は報告されていないが,大筋の手順は示されている.重要な点は,大規模なインターネット調査を単独で予測に使ったのではなく,電話調査と同時に実施して,数回分の知見を蓄積利用したこと.そして,インターネット調査データを電話調査データに向かって定式化することで,「過去の予測モデル」を適用できるように変換した点にある.そこから共変量のような機能の変数も想像されるが,実務的領域からの報告には公開の限界がある.ただし,インターネット調査の単純集計では大きく外れている数値が明示されている.

朝日新聞の予測的中を受けて「今後はインターネットを大胆に取り入れないと当たらない」と解説した評論家もいる.調査・統計の専門家は機会あるたびに,この種の性急と俗論に注意喚起する必要があろう.ちなみに,確率標本を抽出して世論調査や社会調査を実施した事例の回収率をいくつか確認すると,郵送調査70%,訪問調査50%程度だが,インターネット調査はさらに低く30%台である.日本最大のインターネット調査は国勢調査だろうが,最新(令和2)年のインターネット回答率は37.9%だった.郵送調査を選択した世帯の方が多い.インターネット調査が全世代・全地域でメジャーになるのは未来であり,現在ではない.

市場調査は利用者である企業の責任で結果を解釈する.公的統計調査や報道機関による世論調査のように,確率標本の設計が常に要請されるわけではない.それよりも使えるものは使い,生活者を理解できて商品開発に役立ち,コストと時間も節約できれば,有用な選択肢とする.POSデータもすぐに利用して購買「行動」を分析した歴史もある.ただし,商品の購買理由や嗜好などの「心理」的背景は調査してきた.

佐藤・光廣論文は,検索「行動」データを分析しつつ,そこから興味・関心を探る「意識」データに変換できる可能性を示したことで,従来よりもデータ利用の次元を高めたとみることができよう.「このように行動した」という個人のデータから「このような関心や選好がある」と仮定することで,リアルタイムに行動データから意識データを獲得できるなら,調査の欠点の一部を克服できる.国民すべての意識分布である必要はなく,日常でちょっと検索して調べる行動をとる人々を想定するだけでよい.企業にとって有益な示唆となる場面で利用できればよい.オルタナティブデータの利用意図と通じるものがある.市場調査は調査という方法にこだわりはなく,マーケティングに役立てば価値がある.最初にインターネット調査を始めたのも市場調査であり,現在は調査手法の構成比でトップにまで拡大した.今後も統計調査と市場調査を両極とし,中間に世論調査や社会調査が位置して,データ収集のデジタル化が進展するのだろうとの予感を抱かせる.

実験では因果関係の実証が最後まで残るだろうが,調査では母集団と標本という枠組みが岐路になるだろう.データの時代が全数記録可能な時代ならば標本誤差は消えてしまう.一部ではそのようなデータが取得できるようになっているが,現在では非標本誤差は消えないか,むしろ大きい.もしも母集団の推測という枠組みからも解放された時には課題も解消するが,何が「真の値」か不明という意味では,データの価値も不確かになりそうである.

統計調査(とくに基幹統計調査)が保守的であるのは,母集団と標本,標本誤差と非標本誤差という枠組みに,証拠としての根拠を置いているからである.世論調査も同様であり,その前提があるから,報道機関は「これが現在の世論だ」と主張できる.調査の分野では,この枠組みから自由な場合に.新しいデータ収集法が積極的に受容される.本特集では市場調査であり,選挙調査である.市場調査も選挙調査もデータに偏りがあっても利用価値がある.偏りを知ったうえで,必要なら構造化して補正や変換をすればよい.統計調査も別の側面では同じ問題に直面する.回収率の低下による誤差の増大は避けられずに,欠損値問題の研究に迫られる.人々が調査に協力しない国家や社会ほど,欠損値問題の研究は進むのではないか.調査は嫌われている.それならば調査せずにデータを得る方を向く.そして調査ではなく行政記録を使うようにもなる.自由主義国家においても,行政記録はデジタル化と広範囲化を一層進めるだろう.

仮説だが,遠い将来には人々に関する事実も意識もデジタル化される仕組みができるだろう.そこから振り返ると,私たちの現在は「調査の時代」だったと呼ばれる.調査という方法論でデータを集める時代があった,と説明される.本特集の議論の内容は,それまでの過渡期の様子を描いているのかも知れない.上述の趣旨で「調査の時代」と数年前に私に耳打ちしたのは,ことし100 歳になられた西平重喜氏である.立ち話であったが,妙なリアリティーを感じて記憶に残っている.

 
© 2024 日本分類学会
feedback
Top