2012 Volume 55 Issue 8 Pages 543-551
多様な品質のデータが構造化されないまま大量に流通する時代である。そうしたビッグデータの時代における学術データの流通の新たな様相と課題を説明した。多様なデータを時間,空間,意味から整理した例として,ビッグヒストリー,ビッグマップ,データサイエンスの事例を紹介し,ビッグデータの整理法について論述した。特に3.11東日本大震災以降,明らかになった重要なデータに関する課題は,結果が示された後の事後的な説明ではなく,利用可能なデータを活用した先見的な予測と対策,危機管理である。この小稿の結論としてデータの意味を基にした数理とデータ科学の根本的な課題を列挙し,今後の本格的な課題解決のための準備とした。
データ全体の俯瞰に基づく大局観と,キーとなるデータの品質と意味を適切に理解するための知力が必要とされている。今世紀はメディアやインターネットを通してゼタ Z(1021)バイトの多種多様なデジタルデータが奔流のように世界を駆け巡る時代である。ネットワーク上にアップロードされているデータを探せばどこかに関係するデータがあり,世界の出来事,人々の心のゆらぎ,そして生命や物質のミクロな世界から宇宙全体のマクロな挙動にいたる壮大な世界を手元のPCで垣間見ることがたやすくできるようになってきた。
では,私たちはこのデータの奔流にのみ込まれることなく必要なデータを着実に探り当てて合理的な判断をすることができるであろうか?脳の処理能力にも限界がありなかなか先が見えない。記憶力の限界を超えて,すべてが整理され構造化されているとは限らない大規模データを上手にさばくためのデータリテラシーが必要である。データを通して自分で考え,先の見えない先例のないデータの不足している世界へ踏み出す経験を積み重ねることが,脳の処理能力,知力と知性を向上させる。大切なモノやコトを守りながら未知のリスクに備えるためには多様なデータから構築されるサイバースペースを俯瞰するための“地図” と探索するための“羅針盤”,そしてデータの不足を補いデータの背景にある本質や意味を理解するための“知性” が必要である。観測装置の高度化や視点の多様化により,多くのデータが多様な工夫を凝らした“地図” 上に関係付けられ,さらにたくさんの“地図” が相互に関係付けられる。こうした状況では,矛盾の少ない全体像を獲得するためにデータの品質の向上と標準化がますます重要になる。
不断の注意が要請される。科学技術は強力な知的生産性によって膨大なデータと価値を創り出す。コンピューターの処理能力はペタP(1015)フロップス(1秒間に浮動小数点演算が何回可能かで表現したコンピューターの性能指標の1つ)の領域での競争に突入し,機器分析の性能は向上し,データ・知識はアトa(10-18)からナノn(10-9)で表現される時空間へと向かいつつある。地球表面に対応した大航海時代の地図と違って,データ・知識が創りだす巨大なサイバースペースの地図は約70億の多様な人々の想像力と知性を刺激し,人々をデータ共有を通しての大局観と共通の使命感の獲得へと誘う。
しかしながら世界は複雑である。人口の増大,市場の拡大,経済成長,工業製品の大量生産,エネルギー・資源の大量消費が連動し,CPUやメモリーは安価となり,計測機器は大量で多様なデータを吐き出す。たたき込まれるデータの量が私たちの脳の情報処理能力を超えそうになると,脳は棄却,強調,単純化,抽象化,統計,汎化,類推,分節化,専門化,構造化,標準化,体系化,コピー・ペースト,モデリング,並列化などのさまざまなデータ処理のテクニックを駆使して知的資源の再利用を図り,思考プロセスを最適化する。一方,この20年間にデータの蓄積は期待以上に進み,対象も品質も多種多様なデータが複製され,編集されてネットワーク上にあふれるようになった。しかしデータの活用は不十分で,最初に期待したようには進んでいない。脳は基本的に“怠け者”なので,全体像を獲得し,本物を見極め,方向を定めるための知性の獲得には,サイバースペース探索のための道具(“羅針盤”)と,不完全で断片的な“地図”を読み,活用し,改訂し,作成し,共有し,補完し,保全する訓練が必要である。
学術データを社会にわかりやすい表現で公共財として届けることは,データの生産者である専門家側の責任である。一方,そうした学術データの利用者は,データ生産者側から公共財として準備されたデータの提供を受けて,社会的価値の創出あるいは産業基盤強化という観点からデータを活用し,厳しく評価して,真の公共財として社会に定着させる役割が期待されている。データの生産者と利用者が相互に刺激し合う形で連携し,多様な大規模データから構成されるサイバースペースの構築とデータ活用への大展開は既に始まっている1)~6)。新たな時代の社会的な含意については現時点では明らかでないが,この小稿では,以下,データを基にした社会についての将来ビジョンの検討を行った後,多様なデータを,それぞれ時間,空間,意味から整理したビッグヒストリー,ビッグマップ,データサイエンスの挑戦事例の紹介を通して,ビッグデータの時代への準備について考えてみたい。
データの品質を高めるための戦略が必要である。基本的な方針は共通目的の設定と一次データから知識にいたるデータ加工のライフサイクルの品質管理である。前者は領域化された専門性の壁を超えるための作業,後者は普遍的な指標である時間,空間,エネルギー,目的,意味に沿ったデータの評価と事実関係の再編集として位置付けられる。
2.1 データを介した共通目的の設定:社会に資する大局観の獲得に向けた専門性の壁の超克近年,安全や健康,気候変動と経済発展,格差の是正と紛争の解決,人間の安全保障といったグローバルな課題が社会から専門家に問いかけられるようになってきた。この社会からの大きな要請に真摯に応えるためには,単一の専門分野のデータや知見をそのまま応用するだけでは不十分で,課題解決に向けて複数の学術分野の成果をバランスよく組み合わせて,データおよびモデルの補正・改良を行い,目標達成に向けて調整することが必要である。競争的な研究によって先端科学技術はますます先鋭化・多様化・複雑化し,専門分野の深掘りは限りなく進む。データは統一的な品質管理もなく時々刻々生産され,戦略性もなくアーカイブされる。データマイニングや可視化技術を使って必要な情報を抽出する試みはあるが,「専門性の壁」は高くて厚く,ますます多様化し複雑化しながら進歩を続ける学術データ間には十分な相互運用性が確立できていない。それぞれの成果を社会に還元するためには,データの生産者と利用者とが不断の連携を通してデータの品質・粒度を整理し,可能ならばデータの不足している領域の推定・処理方法を準備するなど,手間と時間のかかる個別具体的な忍耐強い編集作業が必要である。
しかしながら専門性の壁を超えたデータの活用はちっとも進まない。その理由の1つは,データの生産者と利用者のインセンティブの不一致である。さらに専門領域の体系化,抽象化が不十分であることにより学術領域全体にわたる普遍性の高い知識体系が形成されていない。このため,異分野の知見の活用を促進するためのインターフェイス,メタデータ,オントロジーなどの近代的装備が未整備である。専門家の体力,知力,気力,使命感,時間の限界を補完し,専門家間のコミュニケーションを促進するための知的基盤の充実が不可欠である。例えば事象間の変換モデル,データ不足領域を補完するモデル,モデルの評価基準,重層的なモデルの構築と活用手順,モデルのセマンティックスの表現方法など,専門家の知恵の集積と共有機能を具備した情報ポータルサイトを活用し,使い込むほど賢くなり使いたくなる環境の整備が必要であろう。
2.2 データのライフサイクルの近代化:進化と深化を通した品質の向上専門性からのアウトカムはデータの品質である。データ全体の品質は関連する実験,理論,統計処理のすべてを総合的に活用して普遍性の高い指標に基づいて全体の論理的な整合性が高められたとき向上する。そこにはデータとモデルの相補的な関係がある。高品質のデータの中の異常値が新たな理論・モデルの構築へのきっかけとなり,新規モデルによるデータの検証がデータの品質を高める。そして既往のモデルでは説明できないような異常値の発見があると,理論・モデルが再度改善され,さらに新たな異常値の発見につながるという学術の進歩のライフサイクルが作動する7),8)。
手順としてはアーカイブされた学術データを共有・活用して,異分野の専門家間のコミュニケーション,専門家と社会とのコミュニケーションを図ることであろう。1つのアイデアは,研究提案,一次データの取得・生産からデータベース構築,モデル構築,論文投稿・査読・公開,生産活動への活用,関連データの集約,そして社会的意思決定にいたるデータ活動を全体として有機的に関係付けて知的生産性を高めるためのライフサイクル全体の再設計である。すなわち個々のデータ活動をデータの付加価値生成のライフサイクルとして関係付け,論文ではなく一次データ,オリジナルデータを中心にした電子ジャーナルの刊行,データ利用者の利便性を考えたデータベースポータルの構築,計算結果のデータベース化による計算コードの意味(セマンティックス)表現を強化する計算ポータルの構築などがある。つまりコンテンツの一次表現であるデータの流通のための装置を開発することと,そうした一次データから結論を導きだすための筋道(コンテクスト)を共有し活用可能な状態を実現することが目標である。例えば共同事実確認を通して整備されつつある福島原発関連の膨大なデータ・知識・情報に関しては,デジタル技術で統一的に操作可能なアーカイブとしては整備されていない。核エネルギーの利用に関して社会から信頼される学術体系を構築し,今後,世界が直面し,あるいは直面するであろう多くの課題の解決に資するためには普遍性の高い指標に基づいた戦略的な情報環境の整備が必要である。
2.3 挑戦事例視点の違いを克服してデータを戦略的に統合するための挑戦事例を紹介する。時間,空間,意味から整理したビッグヒストリー,ビッグマップ,データサイエンスの事例である。
2.3.1 ビッグヒストリー:時間を基軸にした大局観の獲得例示した図1 は,137億年の宇宙の歴史を1枚のスクリーンにまとめ,その大きな文脈の中で太陽系,地球,生命そして人間の歴史を俯瞰できるようにした,ビッグヒストリーを堪能するためのシステムのスナップショットである。
このシステムは,数年前にカリフォルニア大学バークレー校の歴史学の老教授と天文学の若くて元気のよい学生たちが中心になってマイクロソフトの支援で開発を始めたプロトタイプシステムが進化したバージョンである。最近になって数理や情報科学を専門とするモスクワ大学の若手教員と学生が合流して国際的な協力の下で共同開発が開始されている。人類全体の膨大な知的財産をインクルーシブに吸収し,ビッグデータのプラットフォームとして増殖の可能性のあるシステムである。マイクロソフトのChronoZoomというブラウジングツールを軸に先進的な情報管理システムを徹底的に使い抜き,情報技術と情報資源を駆使して,歴史データを通し,科学を通して,宇宙の歴史の中で人間の歴史を俯瞰的に考えることを可能にしており,データの時代を拓き,新たな学術の創成を視野に入れていて極めて挑戦的である。
ビッグヒストリーを構築するための共同作業は,実体験を通して自分で考え,考えたことを隣人にわかりやすく説明することから始まる。読者には,手始めに図のキャプションに示したURLをクリックして,ヒッグス粒子の発見で話題になっている宇宙創成の歴史から,現代社会まで一気にズームアップする感触を楽しんで欲しい。そうすれば,情報技術を駆使すれば誰もが137億年前のビッグバンから今日の出来事,そして広大な宇宙から頭の中のニューロンのパルスの動きに至るまで広がる世界の豊かさ,広さを満喫できる時代としての現代社会を感じてもらえると思う。第4の科学パラダイム,ビッグデータ,データジャーナリズム等々の言葉が飛び交う理由も実感を持って同意してもらえるだろう。
経路依存で時間発展型の事象のコレクションを吸収する情報システムとしての要件,すなわち,膨大な時空間の中に位置づけられるデータを時間的前後関係,空間的な包含関係,意味的な関係,例えばオントロジーに沿って再編集する機能と137億年~1秒という時間の中で快適にズームイン,ズームアウトするブラウジング機能を準備すれば,インターネット上に蓄積された情報を1つの壮大な歴史として動態保存できる可能性を示す範例である。
2.3.2 ビッグマップ:空間データと社会図2の例は,人口,サステイナビリティ,貧困,健康,災害,環境保全,統治,気候変動などの世界の状況を俯瞰するための地図である。世界各国の環境に関する脆弱性が,気候変動,生物多様性,水,農業,漁業,健康,砂漠化,自然災害などに関する50の数値を基に計算されている。
ここで示されたデータは,いわゆる加工データである。例えば,環境脆弱性の評価に使用するパラメーターの1つである生物多様性に関しては,生物分類学の体系があり,日々,世界のどこかで新たに発見,あるいは絶滅してしまった種の膨大な報告を集約した統計データを基にして導出された指標である。こうした指標は,特定の基準に準拠した順序関係,大小関係についての相対的な目安であり,数値データの微分値に意味があり,絶対値としての不確実性は大きい。地球上に存在する種の数にしても,観測可能性の制約から180万~1億種と大きな幅をもって推定されており,推定モデルと推定値とを合わせて,それぞれのデータの定義,導出方法を追確認可能とする必要がある。ここで例示したマップ群は,そうした粒度や精度の異なる一次データや加工データを対象別のモデルを介して編集し,世界の人類全体に関わる諸課題の解決に資するための俯瞰図として作成され,特定の地域の一次データへのリンクが付与されている。
こうしたビッグマップの背景には世界の将来ビジョンとアクション策定の参考となる膨大な試行錯誤に関するデータがあり,世界に拡大する格差や社会的なストレスについての根源的な問いかけと,課題解決に向けた具体的な議論がある。これまでとの違いは,諸問題の俯瞰図としてのマップには,全体を俯瞰する社会統計だけではなく,一つ一つのファクト,あるいは一人一人のケアへのリンクが準備されていることである。つまり粗雑な集計値や平均値,分散といった古典的な統計に依拠した社会の理解から脱皮し,人間の安全保障を考えたきめ細かな個のケアを基軸にした新たな社会への変革のための羅針盤付きの地図としての意味が込められている。すなわち,集団ではなく一人一人のデータが中心なのである。
2.3.3 データサイエンス:データ量と知識離散的なデータをどこまで集めたら,換言すれば,集めたデータ点がどこまで高密度で“ビッグ”になったら,連続した領域を定義できるのか?図3はさまざまな無機結晶についてのX線結晶構造解析の実験データを集め,電子密度,内部エネルギーや格子定数から導かれる2つの軸で整理し,配位数を指標にして2次元的にプロットした構造安定性マップの例である。データの整理と知識の発見にあたっては,実験データを大量に集めても図示した2つの結晶構造の境界は帰納的にしか推算することができないので,物理的な意味と計算精度の評価が可能な第一原理計算による演繹的な推算結果を重ね合わせて,構造安定性に関する包括的な説明を試みている。
この例題は,物質の安定性に関する知識発見というだけでなく,ビッグデータの意味,物理モデルの意味,データマイニングの意味に関して示唆に富む。以下に,着目点を例示する。
以上の3つの挑戦事例を敢えて総括すれば,データ点の集合は普遍的な指標による評価により文脈を与えられてネットワークを形成し,ネットワークは領域を形成してパターンとなり,社会の価値観を反映して言語表現が与えられる。ビッグデータの時代に大切なことは,この一次データから言語表現に至るプロセスの透明性,論理性,包括性・開放性・進化性にある。それは百科全書を編集したダランベールの「技術と学問のあらゆる領域にわたって参照されうるような,そしてただ自分自身のためにのみ自学する人々を啓蒙すると同時に,他人の教育のために働く勇気を感じている人々を手引きするのにも役立つような」9)事典を作成するという精神と相通ずる。
結果が示された後の事後的な説明ではなく,利用可能なデータを活用した先見的な予測と対策,危機管理が大切である。社会は個人という点の集まりである。個人の集まりは組織となり,会社となり,社会となり,国家となり,世界となる。ビッグデータは高度化し複雑に絡み合った現代社会のダイナミックスを理解し,制御するためのアジェンダとして登場したが,その基本は個人という点と点とをつなぎ,そこに適切な文脈を与え,そのダイナミックなプロセスをより良い方向に導くための環境である。その環境は,常に新しいオープンなデータ,情報で満たされている必要がある。健康データや基本的人権の保障など,個人を基軸にした共時的なデータ共有・活用と通時的なデータ・情報の時間をかけた編集・集積とは歴史として蓄積され,普遍的な存在としてわれわれをとりまく。
約100年前に,アンリ・ポアンカレは「科学が進むに従ってその全部を包括することがだんだん困難になる。そこで人は科学を片手に切り離して,その一片を以って満足する。即ち専門的になる。若しこのような傾向が増長するならば,それは科学の発達にとっては憂うべき障害であろう。異なる部分の思わぬ接触からこそ科学の進歩が起こるのである」と指摘した10)。
約100年後の今日の世界では,ビッグデータの存在と活用を前提として気候変動,地震,災害,天然資源,エネルギー資源などの地球関連の課題が国際組織やG8,G20 などの政治・経済の中心的な議題となり,データが専門分野の壁を超えて意思決定と行動計画に大きな役割を担うようになってきた。温暖化対策,原子炉に代表される巨大人工物の耐震設計や安全,食品の安全,健康などの具体的対策の策定においても,信頼性の高いデータと当該専門分野の洗練された構成概念が必要となる。一次データから安全基準や行動指針にいたる論理の筋道を体系的かつ現実的に逐次整理し,諸科学間あるいは諸科学と社会との適正なインターフェイスを確立し,品質の良いデータ・情報を整備・共有して意味のある建設的な議論ができるようになれば,社会全体の知的生産性は飛躍的に増大する。
1755年にリスボンを襲った地震と津波への衝撃は中世から近代への大きな歴史的な変化のきっかけとなった。地震・津波と原発事故が日本社会に与えた影響は大きい。電力という社会的なインフラに関する学術が肝心な時に無力であったことを白日の下にさらしてしまった。明示的に表現可能で,蓄積され,構造化できるような知識は極めて限定的で,そのように外在化された明確な基準体系,決定論的なモデル,科学的合理性によって社会的課題のすべてを塗りつぶすことはできない。科学技術への信頼の構造が崩れ,社会的混乱が続く中で,今まで以上に先入観を捨ててリアルタイムでデータを通して迅速に状況の変化を理解し,先見的に社会を問題解決へと先導する知性のひらめきが要求される。不正確なデータや解釈による荒唐無稽な議論を避けるためには,実証的な実験の実施と実績データに基づく作業が必要である。何が大切で,何が可変的であり,何が不変的であるかを識別し,再利用可能な知識を組み合わせ,必要ならば新しい方策を創出し,社会が本質的に必要としている変化を誘発する知性が必要となる。
社会にとって大切な未解決のやっかいな課題の処理を政治・行政,企業や運に責任転嫁し,わかりやすい先端科学を重点的に推進してきた責任は学術の側にもある。未解決の課題は,正解が未知であいまいであるからこそ歴史的な視点が重要な意味を持つ。科学的なリスク論だけでは問題は解決しない。科学の不完全性,データの不完全性,情報伝達・広報の不完全性を認識し,それぞれの可能性と限界の変化を歴史として理解した上で,何が大切かを考え続けることが必要である。それはビッグデータを最初から一挙に俯瞰・総括するような輝かしいスマートな科学ではなく,謙虚に一つ一つのデータの含意を味わって理解することと,データに基づいた科学的理解を社会に説明し,併せて何がわからないか,わからない時にどうするのか,社会の理解が得られるまで説明を継続するという,遠回りであっても地道で謙虚な密度の高い知的作業の積み重ねによって初めて実現する。前例のない未経験の課題を解決するためには,問題の原点に立ち戻り,利用可能となった根拠のあるデータ点を手掛かりにしながら,新たな発想で現場の諸問題を一つ一つ解決し続ける努力が必要である。そうした努力の積み重ねがあって初めてどのような危機でも乗り越えることのできる本物の知性が涵養(かんよう)される。
3.11以降の国内外の状況を斟酌(しんしゃく)しながら,結果が明らかになった後の事後的な説明ではなく,ビッグデータ環境を活用して先見的な予測と対策,危機管理を実施するための根本的な課題を以下に整理して列挙する。
こうした根本的な課題の解決のための個々の方策は具体例を通して前述した。残された現代的な課題は多種多様なデータから構成されるビッグデータの時代におけるテラバイトの一次データの生産が日常的になったデータの品質の維持,多種多様な大規模データのエコロジーとでもいうべきものである。生産された膨大なデータは,加工され,共鳴できる言説はコピーを繰り返して増殖する。そして技術的には約70億の人々がデータを共有して協力して世界全体の課題に立ち向かうことも可能になった。この情報通信技術がもたらしてくれた大きな可能性を有効に利用するためには,ビッグデータの洪水にのみ込まれ,煽られるような粗雑な情報社会ではなく,それぞれの利用者がデータを通して自分で何が大切かをしっかり考えることができる環境とデータリテラシーの涵養が必要である。そして,この環境の構築にはデータ提供者のインセンティブが必要である。つまり,データの提供者がデータを正しく評価し,正しく記述し,公共財としての良質のデジタルデータを準備することが報われる制度の確立が条件となる。間違ったデータの訂正と良質のデータの蓄積があってデータのエコロジーは健全となる。そうした健全なデータ環境の存在があって初めて先見的な予測や危機管理も有効となり,本格的なデータの時代は拓く。低品質のデータの劣化は速いが,高品質のデータの含意は深く寿命は無限である。