情報管理
Online ISSN : 1347-1597
Print ISSN : 0021-7298
ISSN-L : 0021-7298
視点
視点 シチズンサイエンス:相互監視それとも共進化?
樋口 知之
著者情報
ジャーナル フリー HTML

2016 年 59 巻 9 号 p. 629-635

詳細

1. はじめに:Sharing(共用)とエコシステムの発想

前回は人工知能研究についてその歴史を簡単に振り返りつつ私見を述べた1)。そこでは,科学技術側からみた人工知能が社会に与える影響についての考察が中心であったが,今回は逆の視点で,現代社会でのインターネット環境が科学技術側に与える影響について解説する。

インターネットの整備拡充およびスマートフォンが一人ひとりにまで普及したという2点により,Facebook, LINE, Twitter,オンラインゲームなど各種SNS(Social Networking Service)の常時利用に表されるような,「即時的にみんながつながっていること」が日常生活の必須基盤となっている。これにより個人の知識や体験がフラットに結合された状態が常時維持されるため,知識の探索に「検索行為」が極めて有効に機能するようになった。特に若い世代においては,検索でしか欲しい知識にたどり着けないという,レジリエンスの観点からみると,危険なレベルといえるだろう。その一方で,情報交換が即時的でフラット,そしてインタラクティブな特性は,若い世代にSharing(逆にいえば所有意識が希薄)やエコシステムといった新しい価値観を醸成し,それらに基づいたUber(自家用車レンタル)注1)やAirbnb(自宅の一部を宿泊先として提供)注2)などの新しいビジネスが次々と誕生している。

アカデミアに目を向けても,Sharingやエコシステムの発想を活用した新しい動きがみえつつある。オープンあるいはシチズン(市民参加型)の言葉を冠したキーワードで語られる諸活動がそれにあたる。本稿では,その中でもシチズンサイエンス2)を取り上げ,それが学術コミュニティーの基盤的仕組みや研究の枠組みに与える影響について概説する。

2. 研究の再現性と研究者の行動基準

発見や新しい知識は,その信頼性と頑健性が担保されて初めて,人類の英知となる。専門家集団による学術雑誌での論文審査の仕組みは,それを実現する確立されたシステムである。しかしながら,学術分野があまりにも細分化された結果,高度な専門的知識と長年にわたる経験なしには,当該領域の先端的成果を理解するのが困難になってきた。お隣さんが何しているかもわからず,悪くすると,無関心の状態となっている。

さらに,グローバルな研究開発競争の過熱と,競争を公正化するための処方としての論文引用数のみによる評価システムの一般化により,膨大な数の学術論文が世に送り出されている。これらを主原因とする,学術成果の検証性に関する構造的な脆弱(ぜいじゃく)点を,組織的かつ巧みに突く事件も増えてきた。つまり研究不正の発覚である。

データにかかわる不正行為としては,データの改ざんや捏造(ねつぞう)が代表格である。それらに関した残念なニュースが国内外で近年頻繁に報道されたことを受け,研究の再現性についての分析やアンケート調査をよく目にする。2013年8月のNature誌に「医学生物学論文の70~90%以上が,再現できない!」と題して,実験結果を再現できない重要な研究論文がコンスタントに大量に発表されているとする分析記事がでた3)。研究者であれば,特に医学生物学領域では,再現できない場合でも,それがすぐに研究不正につながらないことはよく理解している。ほとんどの研究者は発表された論文を依然として信頼している認識が同誌による読者アンケートの結果にもでている4)。そこでは,科学論文の再現性は大いに危機的な状況にあると答えた人が52%もいたのに対して,再現性がないなら結果は間違っていると考える人は31%未満であった。

しかしながら,Nature誌は世界トップクラスの高品質雑誌としての地位維持および科学技術の健全な発展のために,研究結果の解釈を容易にし,その信頼性を高めることに最も効果的な,研究の方法論を詳細に記載させるように2013年5月から編集方針を変更している5)。具体的には,Method 欄の文字数制限を撤廃するなど,実験と解析に関しては十二分に説明を求める。さらに,データ解析については統計家の意見を重要視することで,解析や解釈の恣意(しい)性を排除するよう努めている。

データ解析の専門家集団である統計学コミュニティーにおいても大きな動きがある。2015年2月には早速,米国国立科学財団(NSF: National Science Foundation)の支援により,統計的観点からの再現性の問題に関してワークショップが開催された(ワークショップのサマリーがWebからダウンロードできる)注3)。すぐさま統計学の学術雑誌でも具体的な対応策が実施された。統計学においては,米国統計学会の出版する Journal of the American Statistical Association(JASA)と,英国王立統計協会の出版するJournal of the Royal Statistical Society(JRSS)が2大トップジャーナルである。

そのJASAが2016年9月から新しい編集方針を実施し始めた6)。その改革の大きな目玉は,Associate Editor for Reproducibility(AER)とよぶ新しいタイプの編集委員を編集委員会に追加したことである。AERの役目は,通常の論文審査を経て出版が決まっている論文に対して科学的価値の観点からさらに審査を行うことである。

作業をもう少し具体的にいうと,著者から提出されたコード(解析や計算プログラム)と論文に使用されたデータに対して,そもそもそれらは利用可能であるか,またそれらを用いて論文に示された結果を他人が再現しようと試みた際に適切に動作するかを確認する。したがって著者らは,論文投稿にあたり,コードとデータを同時に提出することが義務化されている。コードとデータ双方の利用の可能性を担保する仕組みは,生物系分野の雑誌ではかなり前から先行して実現されていたが,他人による再解析(再計算)の実効性にまで踏み込んでいるのは先駆的である。

誰でも結果の再現性についてチェックできる体制を整えれば,相互牽制(けんせい)が自然と働き,結果として研究不正の少ない科学研究の発展が期待できるかもしれない。ただ依然として,お隣さんが何しようと関知しない風潮が蔓延し,「都会砂漠」が出現する可能性は大きい。

先ほどデータの提出は必須と述べたが,機密データに対しては例外措置が適用される。一方,コードは例外なく提出が求められる。またコードとデータはJASAのWebサイトで公開,あるいはそれらの保管場所にWebページからリンク付けされる。そもそも計算機が学術分野に導入され始めた黎明(れいめい)期を振り返ると,そのころはプログラムコードをAppendix(付録)で示すのが普通であった。コードがだんだん長くなり,それらを論文誌という紙媒体に掲載するのが量的にも,また読者の主たる興味の観点からも適当でなくなったため,論文公表時にプログラムを開示する義務感は学術コミュニティーから次第に薄れていった。

もちろん,論文とは関係なくプログラムそのものに対して審査を行い,受領されたものを紙媒体の雑誌(あるいはWebサイト)で刊行する仕組みはいくつかの機関で継続されている。統計数理研究所のComputer Science Monographs もその一つである注4)

論文査読においてデータ解析上の職能集団である統計家に期待される役割は増すばかりである。欧米ではずいぶん昔から統計家の行動基準が制定されており,たとえば,国際統計協会(ISI: International Statistical Institute)における倫理規定(Professional Ethics)策定の動きは1979年ごろから始まり,1985年に制定された7)。前述の米国統計学会では,相当昔の1949年から倫理規定(Ethical Guidelines for Statistical Practice)の策定作業を開始した。実際に正式に制定されたのはかなり後の1989年で,現在の版は2016年4月に改訂されたものである8)。12ページの短い文書であるが,統計家の果たす役割の大きさが明示されているばかりでなく,科学者すべてが十分に認識しなければならない行動規範がコンパクトにまとめられている。

前述の英国王立統計協会では,規定(Code of Conduct)が1993年に出され,2014年版が最新版である9)。日本においてもようやく日本計量生物学会にて「統計家の行動基準」が2013年に制定された10)。そこでは,統計家の責任と義務として,「統計家は,データを収集し,統計手法を用いて不確実性の程度を定量的に明らかにしたうえで結論を導き,科学,医学,経済,社会などのさまざまな領域における意思決定に関与し,人々の健康や安全,福利の増進や環境の保全,社会や経済の安定と発展に貢献する専門家である」とうたっている。策定の経緯および諸外国の動向については,佐藤らの論文11)に丁寧に記されているので一読をおすすめする。

3. 集団知と人工知の積極的導入

Peer Review の査読制度自体も今の諸環境に適しているのかを疑問に思うことが増えてきた。最近われわれの研究グループでは,研究成果を米国地球物理連合学会とヨーロッパ地球科学連合が合同で出版する英文雑誌Nonlinear Process in Geophysics (NPG)に投稿した12)。NPGは2014年からInteractive Public Peer Review という興味深い査読システムを採用している13)。その仕組みをごく簡単に図解(1)した。

投稿された論文はまず編集長によって,雑誌のスコープにあっているか,科学的見地から基本的な質に問題はないかが判断され,さらにタイポ(入力ミス)などの簡単なテクニカルチェックを受けると,著者らによる軽微な修正の後に Discussion Paper としてNPGのWebサイトに8週間掲載される。この間,編集長が指定した査読者(通常のReferee)以外に,事前登録(登録は無料)した者なら誰でも,記名によってショートコメントを寄せることができる(登録のReferee)。通常のRefereeは記名でも無記名でもよく,またそのコメントの長さに制限はない。著者らは寄せられたコメントに真摯(しんし)に対応し,それらのやりとりも原則,Webサイトで随時公開される。当然編集長は,このOpen Discussionが不毛あるいは不適切にならぬよう,議論の進行役を務める。ここまでが1st ステージである。

Open Discussion の後,著者らは4~8週間以内に論文を改訂し,その後,再度通常のReferee の審査を受け,論文の採否が決まる。このステップは 2ndステージと呼ばれ,通常の査読システムと変わりない。最終的に受領された版だけでなく,投稿された版(つまりオリジナル)ばかりか,途中何回かの改訂がされたならその途中版もアーカイブされ,それらすべてが誰でもアクセス可能な状態におかれる。

このように,集団的知能(集団知:Collective Intelligence)を大いに活用することで論文の質を高めるとともに,改訂作業のプロダクトをすべて公開することにより研究不正を防ごうとしている。著者らに対する悪意をもった特定の書き込み行為を編集長が上手に排除すれば,集団知の活用は,多様な見方や思いもかけない発想の集積を自然に実現するばかりか,研究不正への誘惑を抑制する効果がある。たとえばわれわれが論文を投稿した際にも,Open Discussionで“面倒くさい”コメントをもらったが,やや分野の遠い方からの新鮮なコメントで自分らの論法の弱さに気付かされるなど,集団知により批評してもらうことのメリットは大きいと実感した。また,Open Discussionでの議論の活発度などをモニターすれば,多くの研究者が今もっている興味や,研究の将来トレンドがわかるなど,学術全体にとってもメリットは大きい。今後,学術雑誌の編集スタイルは集団知をもっと活用する方向に向かうのではないだろうか。

増え続ける論文の量も,査読システムに大きな課題を投げかけている。雑誌の発行形態が紙媒体からデジタルに移行したことで,学会や出版社にとってトータルページを抑えることが深刻な関心事ではなくなったことも論文が増える主原因である。一方,イノベーションは,異分野の融合を起点にすることも多く,縁のなさそうな領域の研究動向把握も大切である。したがって,お隣さんの行動がわからないにもかかわらず,遠くの町の見知らぬ人の思いがけない行動にも目配りしないといけない時代になってきた。人間が読む論文数に限界があるのは明らかであり,世の中には論文以外にも膨大な情報が玉石混交の状態であふれかえっている。この問題解決に人工知能を導入し成功したのが東京大学医科学研究所の宮野教授らの研究チームである14)

医学論文データベースとして有名なPubMed注5)に2015年に収録された論文数は約360万本で,もし紙で積み上げると「800mほどの高さになる。2050年には(累計で)100kmに達し“成層圏を超える”と予想されている」とのこと14)15)。宮野教授らは,IBMの開発したワトソンに2,000万件以上のがんに関する医学論文と1,500万件を超える薬の特許情報を“読ませ”,あまりにもまれな難症例であったために正確な治療法がわからず長年苦しんでいた白血病患者の本当の病名を明らかにし,適切な治療法で病態を退院にいたるほど劇的に改善することに成功した。

がんの論文は1年間に20万本ほど出版されるらしいので,過去の論文も含めて人間が目的に有益な論文を読み,知識を整理することはもはや不可能である。査読を行ううえでの最も大切な観点である新規性の判断は,過去の論文情報などに基づいて行われるが,その判断を人間のみに委ねると適切に行われない可能性が相当に高まっている。すでに判断行為を支える基盤が揺らぎつつあるようにみえる。したがって査読システムにおいても人工知能の導入は不可避であろう。

図1 雑誌Nonlinear Process in Geophysics(NPG)の査読システムの図解

4. 市民からの情報提供とベイズ統計学

これまでは,今の学術雑誌の査読システムが抱える課題に対して,主に科学者コミュニティー全体の力を活用している事例を取り上げてきた。後半は,私たち一般市民全体が抱える課題に,市民の自発的な参加による各人の力を集結した取り組み(プロジェクトやビジネス)を紹介したい。本稿前半からはがらりと変わった明るい話題である。

ビッグデータの特徴はVで始まる3つのキーワード「Volume(量),Velocity(発生速度や更新頻度),Variety(多様性)」で語られることが多い。この3つにVeracity (情報の正確さ/信憑(しんぴょう)性)とValue(価値)を加えた5Vが,ビッグデータを特徴付けるキーワードといわれている16)。ビッグデータの解析に,市民参加による集団知を利用する方策の有効性が言いはやされ,最近は5Vに Volunteer が加わった。Volunteerというと日本では無償奉仕のイメージがあるが,本来,自発的参加を意味するので以後混乱されぬようお願いしたい。

機械学習の分野ではクラウドソーシングと呼ぶ,不特定多数の人の寄与を募り,必要とするサービス,アイデア,またはコンテンツを取得するプロセスがある。不特定多数の人に業務を委託するという新しい雇用形態をクラウドソーシングと呼ぶことも多いが,それは狭義と考えていただければよい。5VにVolunteerを追加する理由は,ビッグデータビジネスにおいてクラウドソーシングの存在感が増してきたためである。

たとえば,時々刻々の変化を伝える天気予報サービスを行っているウェザーニューズ社注6)は,全国250万人のウェザーリポーター(登録したユーザー)からの写真や言葉による天気レポートと,気象庁が提供する高精度の数値天気予報情報を統合することで,ゲリラ豪雨などの高空間解像度の天気予報サービスを実現している。ユーザーが同社のWebサイトで提供される天気予報情報を見るためには,まずは自分がいる場所の天候をレポートしなくてはならない。レポートの形式は,メニュー形式によるその場の天候に関するアンケートや,空の様子を写真で送付するなど,利便性に配慮したハードルの低いものである。これにより,膨大なレポートが時々刻々と自然に集まるようになっている。ビジネスに集団知を上手に活用した成功事例の一つである。

ビジネスに全く関係ない集団知の活用事例を次に紹介する。アサギマダラは旅するチョウとして有名で,渡り鳥のように春から夏にかけて南から北へ集団で移動し,秋になると逆に南下するが,その1,000~2,000km以上にも及ぶ長距離移動の実態や理由は全くわかっていなかった。純粋に科学的なこの疑問の解決のために,Volunteerによるマーキング調査が実施された。チョウの翅(はね)に捕獲場所や月日,マーキングした人の名前が識別できる記号などを油性マーカーで書き込み,チョウを再び放し,それが誰かに再捕獲されるとアサギマダラの旅のルートがみえてくるというからくりである。この挑戦が成功するためには,多くの住民の参加は当然だが,各人がチョウの写真を自由にアップロード(投稿)できるWebサイトの管理が本質的な必要条件である。これにより,マーキング調査情報を天気情報と組み合わせることも容易になり,チョウは台風を活用して移動したり,雨が降る前に一気に移動したりと気象を読む能力に優れていることが初めて明らかとなった17)

この例は,問題の選択も解決の仕組み作りもVolunteerによるものだったが,この種のアプローチの有効性が認識されるにつれ,科学者がデザインしたフォーマットに沿って一般市民の参加者がデータを集めるなど,もっと組織的なスタイルが普及してきた。データを集める目的は,環境問題や社会課題の解決を目指す,比較的一般市民の意識の高さに期待するものが多い。これが「シチズンサイエンス」の典型である。

具体的事例としてQueensland University of TechnologyのMengersen教授らのチームの活動を少し紹介したい。彼女は,ベイズ統計学の理論的専門家および時空間データ解析のスペシャリストとして非常に有名である18)。ベイズ統計学は,結果から原因を探る統一的な枠組みを具備しており,観測データからの情報だけでなく,原因に関連したさまざまな情報を事前分布の形で推論計算に直接的に取り込む点がユニークである。なお私はベイズ統計学の応用が専門である。彼女らの研究チームは自然環境破壊の問題に熱心に取り組んでおり,ベイズ統計学の応用にシチズンサイエンスを導入している。

自然環境破壊を網羅的にモニターするためには,リモートセンシングのように物理/化学特性値を面的に計測するだけでなく,その場(in situ)計測が欠かせない。さらには,自然破壊の決定的証拠である生態系への影響値,たとえば生物資源の損失(個体数や種数の減少)をできるかぎり多くの点でモニターしたい。しかしながらそのような観測・計測を面的に稠密(ちゅうみつ)かつ高頻度に実施するのは,時間および経済的理由により実質的に不可能である。

そのため彼女らは,一般市民らのVolunteerにより,生物資源データを継続的に得る仕組みを整備した。具体的には,サンゴ礁(グレートバリアリーフ)の保全のために,ダイバーから写真によりサンゴ礁の状態についてレポートしてもらう19)。あわせて,海底・海流情報やサンゴ礁の分布に関する空間情報を事前情報としてベイズ推論に取り込むことにより,面的(地理的)に不均等かつ非常に粗に分布した観測点(ダイバーレポート情報)から,生物資源の空間情報を推論している20)

ほぼ同様の仕組みで,アマゾンのジャングル地域に生息するジャガーの数の捕捉を行っている21)。この場合,ダイバーの替わりは住民である。住民の住居にはインターネットの環境が整備されていないため,研究プロジェクトが時折現地を訪問し,住民が関心をもつイベントの開催実施とあわせて,どこでジャガー(あるいはその糞)を見たか,どのあたりでは最近見ていないかなどの情報を対面アンケートで得る。これらを不均等・不確実データとして取り扱い,ジャングルの生態系にかかわる他のさまざまな空間データや知識を事前情報として結合し,ベイズ推論によってジャガーの生息分布および生息数を推定している。場合によっては,ジャガーに発信器を付け,その行動パターンを直接GPSによって計測することも行う。

このように今後のフィールドワークには,シチズンサイエンスとベイズ統計学は必須のものとなろう。

5. おわりに:「つながる」が創り出す新世界

情報社会の急速な進展を受け,学術および社会が大きく変容しつつあることを,3回にわたり,ビッグデータ,人工知能,そしてシチズンサイエンスを題材に私見を交えて解説した。

今起きつつあることは,視認できること以上に大規模かつ潜在的である。あらゆる人とマシンが即時的につながることは,Sharingやエコシステムといった発想法の普及を後押しする一方で,フラットな知識体系に依存する生活を慣習化させる。この結果,以後の世代の脳神経の配線は,生理的にも変わってしまうのではなかろうか。ハリウッド映画の「マトリックス」のように,バーチャルとリアルが一体となった世界は,ポケモンGOの登場により,AR(Augmented Reality:拡張現実)で語られる今後可能な技術の延長上でなく,もはや生活空間そのものとして一般に受け入れられてしまった。社会を変革しつつあるこれらの新しい枠組みによって学術コミュニティーを支えてきた基盤も大きく変化していくのであろう。

今後学術コミュニティーは,一般市民と即時的かつインタラクティブにつながることを,相互監視のための捕縄でなく,共に進化する命の手綱として享受していかねばならない。

執筆者略歴

  • 樋口 知之(ひぐち ともゆき)

1984年東京大学理学部地球物理学科卒業。1989年同大大学院博士課程修了。理学博士。同年文部省統計数理研究所助手。以来,時系列解析,ベイジアンモデリング,データ同化の研究に従事。現在,情報・システム研究機構理事・統計数理研究所長。日本学術会議情報学分野の連携会員。

本文の注
注1)  Uber:https://www.uber.com/ja/

注2)  Airbnb:https://www.airbnb.jp/

注3)  Statistical Challenges in Assessing and Fostering the Reproducibility of Scientific Results:http://bit.ly/1pl2D0r

注4)  Computer Science Monographs:http://www.ism.ac.jp/editsec/csm/index_j.html

注6)  ウェザーニューズ社:http://weathernews.jp/

参考文献
 
© 2016 Japan Science and Technology Agency
feedback
Top