情報管理
Online ISSN : 1347-1597
Print ISSN : 0021-7298
ISSN-L : 0021-7298
視点
視点 データ駆動科学技術を担う人材の育成:確率的思考と逆推論
樋口 知之
著者情報
ジャーナル フリー HTML

2016 年 59 巻 1 号 p. 53-56

詳細

1. めまぐるしく変遷するバズワード

計算機演算能力の劇的な向上を示す経験的指標として「ムーアの法則」がよく知られているが,データ量の増大スピードはそれとは比較にならないスケールである。ムーアの法則では5年で性能が約10倍になる一方,たとえば遺伝子配列を読むシーケンサーが単位時間当たりに吐き出すデータ量は5年で1万倍以上にもなっている。その差は5年でなんと1,000倍である。犯人の特定や追跡に効果をあげているビデオ・サーベイランスの性能向上も著しいが,時間・空間の解像度の改善は結果として桁違いな量のデータを算出している。データ源もインターネットコンテンツだけでなく多様となり,スマホに搭載された諸センサー,RFID(Radio Frequency IDentification)リーダー,POS(Point Of Sales)レジなど,情報システムと実生活空間との接点でのデータ発生頻度は増大の一途である。いわゆるビッグデータ時代が到来したのである1)3)

ビッグデータがバズワード(buzzword)となる前には,Smart Cityや CPS(Cyber Physical System)が,社会イノベーションに資するICT(Information and Communication Technology)としてよくメディアに取りあげられていた。一昨年あたりからは,IoT(Internet of Things),インダストリー4.0といった,通信やセンサーにより力点のある総合的な技術が注目を浴びている。このようにICT業界では流行語は1年単位で変わっていくが,システム科学の視点とビッグデータの利活用の重要性は一貫している4)。要は,これらの技術は,インターネットを神経に,神経内を走る信号をビッグデータとした,社会インフラをボディー(システム)と見なす概念の実現形であるといえる。その産業界,特に製造業への進展のありさまがインダストリー4.0であり,神経の張り巡らされ方がより細かくなったシステムがIoTともいえる。IoTについては,センサーが比較的よくコントロールされた環境下に設置された状況のものを指すことが多いため,よりオープンな環境下に設置された形態を,IoE(Internet of Everything)と呼ぶ。

2. データ駆動科学技術

ビッグデータに関する記事は新聞の科学技術の欄だけでなく社会面でも頻繁に目にするようになり,その社会へ与える影響については一般にも浸透してきた。一方,科学技術を先導するアカデミアの動きはどうであったのか。2009年にMicrosoft社から“The Fourth Paradigm: Data-Intensive Scientific Discovery”が刊行された5)。そこには,特に自然科学を中心とした研究アプローチの変遷が簡潔にまとめられている。太古の時代での自然現象を記述する「経験(主義)」から,自然現象をモデル化し,それを汎化(はんか)する「理論研究」の登場,また,計算機の出現が促した複雑な現象をシミュレートする「計算的方法」の台頭の後,まさに今,「データ中心科学」あるいは「データ駆動科学」ともいうべき新しい方法の誕生――第四のパラダイムへのシフト――をわれわれは眼前にしつつあることが記されている。この数年の産業界の動きは,データ駆動科学を技術開発に積極的に応用しようというもので,それを本稿では「データ駆動科学技術」と呼ぶことにする。米国のマテリアル・ゲノム・イニシアチブ6)に代表される,マテリアルズ・インフォマティクスにかかわる国家研究プロジェクトも,その考えの具現形といえる。

このように,データ駆動科学技術の重要性は国外では十分に認識され大型研究開発プロジェクトが始動しているのに対して,国内においては,その革新的時代性の理解は一部の研究領域にとどまっているようにみえる。その主たる原因は,日本は諸外国と比してビッグデータの本格的な利用に必要な人材の系統的な教育システムが脆弱(ぜいじゃく)であるため,成長が見込めるさまざまな分野に適切な人材を配置する余裕がないことにある7)。事実,国内において統計学を学べる学科あるいは専攻は,統計数理研究所を基盤機関とする総合研究大学院大学の統計科学専攻のみという,驚くべき状態である。3年ほど前に,データサイエンティストを増やす提言を本誌に執筆させていただいたが7),それ以降,ようやく滋賀大学にデータサイエンス学部が生まれつつある(2017年4月設置計画中)以外,大学や研究機関レベルで大きな取り組みがいまだ見受けられない。

3. 確率的思考とリスク解析

先日,ベクトル計算機の開発に著しい貢献のあった三浦謙一先生(国立情報学研究所名誉教授)の擬似乱数の生成法に関する講演を聴く機会があった。優れた擬似乱数はさまざまな場面に有益であるが,特に多重数値積分のためのモンテカルロ計算には直接的な効果がある。その講演の結論の1つが,大規模科学計算におけるモンテカルロ計算の有用性をもっと認識すべきでは,という問題提起であった。

近年,研究対象の複雑さやその機能の多様性から,それらの表現に利用する数理モデルに含まれる変数の次元(自由度)が顕著に高くなっている。モデルの柔軟性を増大させるとともに,将来の環境下でのモデルの頑健(がんけん)性(予想外の外界変化にもある程度適応できる能力)も担保させるために,多種の複雑な拘束条件が課されることも普通である。その結果,変数値の同定や対象挙動の将来予測には近似計算が必須となり,雑な言い方になってしまうが,超高次元積分の唯一の救世主であるモンテカルロ計算の登場機会は増すばかりである。ところが日本においては,乱数を利用するモンテカルロ計算はなぜか日陰の存在であった(と自虐的に筆者はとらえている)。その背景に,一般には唯一の解を正確に求めると期待されている科学計算に対して,“サイコロを振る行為”が,心理的に好まれていないことがある。

この確率的思考を忌避する傾向は,リスク解析の研究動向にも見て取れる。リスク解析には,まず不確実性の把握を慎重に行い,次に多数の因子の変化を未知の部分も含めて確率的な振る舞いとして記述する。外界との相互作用を切り離せない開放系や準開放系(1)での問題設定となると,不確実性の表現作業は数多くの困難をともなう8)。たとえば,人工物の利用上のリスク研究においては,外界(環境)との接触が開放系であることを大前提として,状況変化に柔軟に適応できる人工物の設計に力点が置かれている。外界の動きは未知である(われわれのもつ知識には限界がある)ため,人工物機能の確率的構造を備えたモデル化(便宜的かつ近似的表現)が必要となる。人工物の活躍の場が準開放系だけでなく生活にまで深く浸潤してくると,人間の多様な価値観と接触せざるをえず,個々のユーザーの満足度(不満足度)を最大限考慮した人工物の機能と性能が求められる。よって今後は,その場,その時だけでなく,各ユーザーの満足度(不満足度)に適応できるかどうかも重要になり,リスク解析はより複雑化する8)

不確実性の把握と表現以外にも難問は数多く残る。リスクをもたらす源因子からその結果にいたるパスが複雑になると,モンテカルロ計算なしにはリスク評価は実現不可能となる。にもかかわらずモンテカルロ計算は,その近似計算であるが故に,解析的計算による精度保証を期待するリスク評価には好まれない。また,生起可能性の評価にゼロを期待する,一般の方々の安全性リスクに関するリテラシーも問題である1)8)9)。このように,確率的思考の明らかな必要性と現実の差を目の当たりにすると,モンテカルロ計算やリスク解析に代表される確率的思考は,高等教育レベルでしっかりと体得しておくことが望まれる。教育カリキュラムにおいても,確率的思考ができる科学的センスを磨くために,確率構造を利用して複雑な課題を近似的に解く演習がもっとあってもよいと思う。

図1 外界との相互作用の模式図

4. ユーザー主導と逆推論

統計学を記述する際の言語となる確率論は,偶然現象に対して数学的なモデルを与え,解析する数学の1分野である。確率論(正確には確率解析)は,原因(理論,仮定,モデル)から結果(実現値,データ)を導く順問題(前向きの推論)といえる(2)。上述したモンテカルロ計算もそうである。それとは反対に統計学は,データから原因を読み解く,逆問題(後向きの推論)を取り扱う。なお,ベイズの定理を用いると,その反転性から,順解析であるモンテカルロ計算を逆推論に利用することが可能となる10)。この反転トリックこそが,数値シミュレーションと大規模データ解析を統合するデータ同化の基礎となっている8)10)3)。

ビッグデータの利用においては,そもそも順問題の起点となる理論やモデルがない場合が多く,結果から原因を探る逆推論(帰納的推論)が主役となる。特に,EC(Electronic Commerce:電子商取引)サイトのビッグデータのように,データが購買行動などの個人の行動結果である場合は,個人ごとに逆推論をカスタマイズせねばならない。企業が提供する製品・サービスを個人ごとにカスタマイズする技術を「個人化技術」と呼ぶ。テーラーメード,オーダーメードのような形容詞が前についた,「コ」(個人・個性・個別・固有など)に特化した製品やサービスを提供するための技術も個人化技術である1)。日本は順解析(演繹(えんえき)的推論)の教育および研究推進に重点が置かれているため,ビッグデータの本格的利用に関して,特に産業界においては世界から大きく立ち遅れる可能性がある。そもそも社会,生活,産業においては逆問題解決の方が本質的であり,これまでの教育のあり方に,初等教育を含めて議論が必要と思う11)

図2 順解析と逆解析を模式的に示した図
図3 ベイズの定理

5. ビッグデータ時代の科学的センスとスキル

ビッグデータ時代はさまざま分野において,データ駆動科学技術のアプローチがイノベーションの推進に大きな役割を果たしつつある。本稿ではその推進を担う人材に具備されるべき科学的センスについて私見を披露した。データ駆動科学技術を担う人材には,当然ながら,データサイエンスの十分な習得が期待される。ここでのデータサイエンスは「アナリティクス」,つまり,統計学,機械学習,最適化,データマイニング,自然言語処理などの統合領域を指す9)。残念ながら日本においては,データサイエンスを系統的に行える組織が少ないため,データ駆動科学技術を担う人材が圧倒的に不足している7)

この量的問題は一般にもよく周知されつつあるが4)7)9),あわせて本稿では,確率的思考や逆推論を鍛錬する機会の少なさを課題として指摘した。これ以外にもそのような人材には,応用分野で問題を発見してアナリティクスの問題に落とし込む力,また,アナリティクスの結果を現場に適用して応用分野の成果につなげるためのコミュニケーション力も要求される。そのため,データサイエンスを再定義すれば,「データから価値を見いだす(引き出す)手法やプロセスの研究分野」と大くくりにすべきであろう。データ駆動科学技術を振興するには,確率的思考と逆推論のセンスを備え,生活者の視点や目線に立てる研究者がもっともっと増えなくてはいけない。

次回は,データ駆動科学技術におけるAI(Artificial Intelligence)の役割を解説しながら,今後の科学研究における人とマシンの関係を論説してみたい。

執筆者略歴

  • 樋口 知之(ひぐち ともゆき)

1984年東京大学理学部地球物理学科卒業。1989年同大大学院博士課程修了。理学博士。同年文部省統計数理研究所助手。以来,時系列解析,ベイジアンモデリング,データ同化の研究に従事。現在,情報・システム研究機構理事・統計数理研究所長。日本学術会議情報学分野の連携会員。

参考文献
  • 1)  樋口知之. ビッグデータと個人化技術. 統計. 2012, vol. 63, no. 9, p. 2-9.
  • 2)  樋口知之. 木を見て森も見るビッグデータ解析技術. NHK技研R&D. 2014, no. 146, p. 16-26.
  • 3)  樋口知之. 機械エンジニアのためのビッグデータの基礎知識. 日本機械学会誌. 2015, vol. 118, no. 1163, p. 610-615.
  • 4)  樋口知之. スモールデータ,ビッグデータ,そしてスマートデータ:人口知能ブームの中での統計学. 統計. 2016, vol. 67, no. 1, p. 9-14.
  • 5)  Hey, T.; Tansley, S.; Tolle, K. eds. The Fourth Paradigm: Data-Intensive Scientific Discovery. Microsoft Research. 2009, 287p.
  • 6)  "Materials Genome Initiative". https://www.whitehouse.gov/mgi, (accessed 2016-02-05).
  • 7)  樋口知之. データ・サイエンティストがビッグデータで私たちの未来を創る. 情報管理. 2013, vol. 56, no. 1, p. 2-11. http://doi.org/10.1241/johokanri.56.2, (accessed 2016-02-05).
  • 8)  樋口知之. 統計学からのロボティクス研究への期待. 日本ロボット学会誌. 2015, vol. 33, no. 2, p. 68-71.
  • 9)  樋口知之. ビッグデータが変える日常と非日常の境目. 電子情報通信学会誌. 2016, vol. 99, no. 1, p. 30-35.
  • 10)  樋口知之. 予測にいかす統計モデリングの基本:ベイズ統計入門から応用まで. 講談社, 2011, 146p.
  • 11)  樋口知之. 教育小景:生きる力を育む統計学. 中等教育資料. 2014, vol. 65, no. 5, p. 2-3.
 
© 2016 Japan Science and Technology Agency
feedback
Top