世界最遅のコンピューター

有田 正規

doi:10.1241/johokanri.57.413

世界最遅のコンピューター

30年前のパソコン通信は，ピーピーガーガーという音声を介して行われていた。音響カプラという受話器を大きくしたようなスピーカーをパソコンにつなぎ，デジタルデータをわざわざアナログ音に変換して，電話回線で送っていた。速度はわずか毎秒数百から1,000ビット。bit per secondという単位をbpsと記した。通信速度も遅かったが，パソコンのメモリーも32～64キロバイトしかなかった（1バイトは8ビット）。しかも，プログラムをカセットテープから読み込むのに10分ほども待たされた。

現在は光ファイバー通信が数メガバイト毎秒の速度を出し，安価なパソコンですら4ギガバイトのメモリーを搭載する。30年前に比べれば通信速度もメモリー量も10万倍，鉄腕アトム並みの進歩である。また，生活の中でじっと待つという行為も減少した。待たないどころか，LINE（ライン）を扱う子供たちの間では，即座に返事をしないと仲間はずれになるらしい。

そんな時代になってすら，入出力スピードが30年前と同じ機械が，いまだに，世界のいたるところで使われていることにわれわれは気づくべきである。この世界一遅いコンピューターとは，われわれの脳である。

発見するための眼・検証するための言語

脳が文章を処理できる速度は，日本語ならたかだか毎分1,000文字程度。これを前出の単位で記せば270bps^注1），音響カプラのレベルである。人類が文字を普及させてからわずか数千年しか経っていない。人間の世代にすればせいぜい100世代程度で，遺伝子はほとんど変化していない。進化の観点からも，文字の処理速度が音声のそれと同程度なのは当然に思われる。

他の動物と同様，人間は情報処理の多くを視覚に頼っている。視覚だけは大量情報を扱うことができ，見慣れたものほど即座に違いを判断できる。そのこだわりたるや，たった2時間の映画を収めるために1枚25ギガバイトのブルーレイ技術を要求するほどである。話題の4K画質になると，そのブルーレイですら単層録画では収まらないらしい。確かに，われわれの視覚には驚くほど高度な部分がある。たとえば，一目で部屋の掃除の行き届き具合を識別したり，実写とコンピューターグラフィックス（CG）を見分けたりできる。美的感覚，またはセンスと呼ばれるものも，高度な視認能力のたまものである。

だが大変残念なことに，この高性能デバイスは論理的思考能力とは別の原理で動いている。視覚は特徴を素早く取捨選択することに特化しているため，経験や思い込みに頼る部分があまりにも大きいのである。掃除の仕上がり具合やCGの識別も，プロなら一瞬でできるが素人にはできない。また，元来はとっさに行動するためであろう，思い込みと呼ばれるメカニズムは印象を強調する方向に傾いている。思わず振り返る美人とか目の覚めるような美女という表現があるが，論理的に考えれば，振り返ったり目が覚めたりしないほうが幸せだと，皆さんも「頭では」わかるだろう。

人間の行動についてよく考えると，視覚という高性能だが原始的な機能を大量情報のフィルタリングに利用し，言語（＝思考）という高次脳機能を，絞り込んだ情報の検証や解釈に用いている。そのバランスには個人差もあるだろう。しかし，言語プロセスの入出力の上限値が黒電話と同程度である，という事実は肝に銘じた方がよい。

ビッグデータで麻痺（まひ）する思考

最近は個人情報を含む超大規模データ，いわゆるビッグデータを活用した研究やビジネスが宣伝されている。その背景には，情報量が多いほど科学的で的確な問題解決ができる，さらには，これまで気づかなかった驚きの発見を伴って解決できるかのような幻想がある。その元祖ともいえる逸話は「紙おむつとビールは同時に売れる」というデータマイニング（バスケット分析）の結果だろう。20年以上も前，米国の小売チェーン店の販売データを分析したことに端を発するらしい。理由は不明だが，夕刻に両者が一緒に売れることを発見したという^1）^～^3）。このエピソードは各所においてデータマイニングの有効性・意外性を示す好例として使われる。しかし，本当は大量データからも誤りの結果が出る例なのではないか。どの店も紙おむつとビールを並べては売らないし，データを分析したチェーン店ですら並べた事実はないとある。現実には役立たない事例が，意外ながらも科学的に正しい結論であるかのように語り続けられるのはおかしい。

人間の脳は，自分の力ではどうにもならない状態に接すると思考を遮断し，状況に盲従するようにできている。その弱みにつけ込むキーワードの1つが，ビッグデータである。「脳ミソでは一生かけても受信しきれないほどのデータが示した事実だよ」と脅かすことで，真実だと思わせてしまう。データをもって示されたことに反論するには，同等かそれ以上のデータが必要であると，われわれは考えがちである。しかし一般に成り立たない，つまり再現性のないことを，あたかも科学的帰結であるかのように語る行為は，情報詐欺といってよい^注2）。

データの中身より背景が重要

東日本大震災以降，東京電力や政府がさまざまな情報を隠蔽（いんぺい）または歪曲（わいきょく）したために，多くの人は原子力事業を疑いの目でみるようになった。このような疑いの目はあらゆる分野に適用してしかるべきだろう。最近の報道によれば，降圧薬ディオバンが脳卒中や心臓病に効かないだけでなく，抗ウイルス薬のタミフルやリレンザもその効能が疑わしいということである。

タミフルは新型インフルエンザの特効薬とされている。日本では，1人あたり安くても2千円弱かかる薬を6千万人分も備蓄している。これまでなら，備蓄によって生じる期限切れの廃棄分ですら，高額すぎると議論されてきた薬である。しかし，その臨床試験データは販売元であるロシュ社から全容が公開されていない。英国を中心に活動する非営利団体コクラン共同計画（The Cochrane Collaboration）と英国医師会の学術雑誌『British Medical Journal（BMJ）』は2014年4月，入手可能な情報からはタミフルの有効性が認められないことを明らかにした^注3）。ロシュ社は反論し，さらなる情報公開を約束している。

タミフルの有効性は，これから国際的な議論を経て検証されるだろう。しかしそこまで待たずとも，原発問題と併せて，さまざまな教訓が読み取れそうだ。世の中に出てくるデータが常に正しいとは限らないこと，大多数の人には部分的な情報しか届かないこと，そして，科学が進んでも社会が常によい方向に進むとは限らないことである。ビッグデータ時代になると，情報過多で感覚が麻痺させられるぶん，過誤や不正はむしろ増えるのかもしれない。

データとは，決められた目的のために，誰かが責任をもって，収集するものである。そのため，集める時点で何らかの恣意（しい）性が入ることは避けられない。その背景をよく理解したうえで，そこから論理的に導かれる内容を検証するプロセスが科学である。同じデータでも解釈によっては異なる結論すら導きうる。したがって，データの背景を熟知することはデータの中身以上に重要である。実際，前述の小売チェーン店はおむつとビールを並べる配置を試さなかった。小売業者としての経験から，その効果が限定的だとわかるからだ。この教訓は重要である。データの背景にある知識を理解し，活用する能力を専門性と呼ぶ。そのために専門職という職業がある。

データは何も語らない

データ駆動型科学だとか，データ中心科学などと宣伝する人たちが増えている^注4）。データさえあれば専門的な知識を上回る結果を得られるだとか，統計学さえ修めれば最強の知識が得られるように説く書籍すらある。しかし少なくとも筆者には信じられない。そのように言う人たちには2通りあるように思う。このキーワードをネタにして国から資金を引き出そうとする研究者たち，そして，データに真っ向から取り組んだことがないために背景の重要さが理解できていない初心者である。

あらためて書けば，データは重要だが，それを扱うための背景知識はもっと重要である。今の時代，資金さえあれば，データの数や量を揃えることはできるだろう。しかし，そのようにして都合よく集めたデータがひとりでに真実や理論を語ることはない。それにもかかわらず，データを取得する労力や背景を知らない人ほど，データさえあれば問題がすべて解決するかのように言う。そうした人たちの発言意図を読み取るための簡単な試金石は，データ駆動型で導かれた結果に自分で責任を取れるかどうかだろう。自分は統計処理を施しただけだとか，すべてをデータのせいにするならば，その人の能力も貢献もその程度である。数あるデータの中から真理を拾い上げていく能力もプロフェッショナルの資質の1つだからだ。

科学がまだ「個人のもの」であった時代，データの解釈は，できる限り全体像を把握できたと自負する1人ひとりが，名誉をかけて行っていた。個々の研究者は，真理を究めたいという熱意をもって研究に従事していたし，結果に対する責任も負っていた。責任という観点からみれば，ビッグデータはとても扱いたくない代物である。情報量が大きくなり多元化しているため，個人のレベルでは全体像をとらえきれない。ビッグデータをビッグな予算のプロジェクトで扱うことは，ある意味，当を得ているのかもしれない。データを処理する作業がチームワークに任されれば，個々人は業務として研究を遂行する歯車の1つにすぎない。結果の吟味や解釈における責任の所在も不明瞭になる。業務に携わる末端研究者にとっては好都合である。しかしトップの面々までも責任がないとはいえないはずだ。データ中心科学とはどのようなマインドで推進されているのだろう。

しばしばカムフラージュに用いられるのが，「社会のための科学」と称する動きである。世の中のため，社会のためと言えば聞こえがよいが，多くの場合，偉くなった研究者や官僚が巨額の予算を国から引き出すための方便にすぎない。トップダウン型科学の登場は科学界に国家予算をつぎ込む名目を与え，研究活動の規模を大きくした。見かけだけは，社会に役立つという体裁も整えた。しかしその反面，個々の研究者の意欲は削がれ，真理を究めたいという熱意も維持しづらい時代になっている。責任の所在も曖昧（あいまい）のままである。最近の研究不正事件は，こうした歪（ゆが）みからも生じているように思える。

トップダウン型の研究において，多くの末端研究者がこき使われ，捨てられていく。彼らは自分の眼を使わずに大量情報を処理し，出てきた結果に尾ひれをつけて売り込む作業に思考力を費やしている。これでは研究所や大学と名乗るブラック企業に就職したのと変わりない。必要なのは，自分の眼で発見し自分の言葉で解釈する研究者を評価する仕組みである。そして1人ひとりの研究者が，自分たちがもつのは電話線入力でもスパコンだという自負をもてる仕組みである。

執筆者略歴

有田正規（ありた　まさのり）

1999年東京大学大学院理学系研究科情報科学専攻博士後期課程満期退学。同年博士（理学）。電子技術総合研究所と生命情報科学研究センター（経済産業省）を経て2003年より東京大学大学院新領域創成科学研究科情報生命科学専攻（助教授）。その後同大学理学系研究科生物化学専攻を経て2013年11月より現職（教授）。

本文の注

注1) 日本語は2バイトコードで表現されるので2,000byte/分として計算すると，おおよそ270bpsとなる。

注2) 断っておくが，最初の発見者や用語辞典を詐欺だと言っているのではない。ニュースにすぎない面白エピソードを，たとえば，データマイニングの授業や研究費獲得のプレゼンテーションにおいて科学的であるかのように披露する人たちを指している。

注3) 正確にはコクランのWebサイトを見てもらいたいが，ランダム化比較試験（Randomized Controlled Trial: RCT）という対照群をきちんと取った研究のみから導いた結果である。RCTでも，大人の感染期間を17時間短縮することは示されている。ただし重篤な合併症や入院数を減らす効果は得られない。RCT以外であればタミフルの有効性を示す観察的研究報告が複数あり，専門家の意見も分かれている。つまりタミフルが効かないと決まったわけではない。筆者が不思議に思うのは，この重要なニュースを日本の大手メディアでは朝日新聞しか報道しなかった点である。

注4) データ中心科学とは，太平洋上で失踪した計算機科学者Jim Grayが提唱した概念とされる。マイクロソフト・リサーチが無償で電子版を配布する書籍“The Fourth Paradigm: Data-Intensive Scientific Discovery”（http://research.microsoft.com/en-us/collaboration/fourthparadigm/）の冒頭に詳しい。この書籍自体は本コラムが批判するいい加減な内容ではない。ちなみに筆者の所属機関が属する情報・システム研究機構はデータ中心科学という言葉が大好きである。

参考文献

1) Wilke, J. R. Retailing: Supercomputers manage holiday stock. Wall Street Journal. 1992-12-23, p. B1.
2) Birth of a legend. Forbes. 1998-04-06, http://www.forbes.com/forbes/1998/0406/6107128s1.html, (accessed 2014-06-12).
3) ITメディアエンタープライズ情報マネジメント用語辞典. http://www.itmedia.co.jp/im/articles/0504/18/news086.html, (accessed 2014-06-12).

責任著者(Corresponding author)

J-STAGEへの登録はこちら（無料）