情報管理
Online ISSN : 1347-1597
Print ISSN : 0021-7298
ISSN-L : 0021-7298
記事
「デジタル台風」におけるキュレーションとオープンサイエンス:持続可能なデータプラットフォームに向けた課題
北本 朝展
著者情報
ジャーナル フリー HTML

2016 年 59 巻 5 号 p. 293-304

詳細
著者抄録

「デジタル台風」とは,台風に関するあらゆる情報を整理し,誰でもアクセス可能なデータプラットフォームの構築を目標とするプロジェクトである。気象データや社会データなどさまざまな大規模データを統合するだけでなく,データの意味を類似性やランキングといった相対値の文脈で解釈する機能など,「デジタル台風」にしか存在しないユニークなデータや機能が人気を集めている。本稿はこのデータプラットフォームを2つの観点から考察する。第1に,公開から約13年間の約1億6,300万ページビューのアクセス解析に基づき,時間変動する情報価値や情報流通におけるソーシャルメディアの価値などを考察する。第2に,デジタル台風が直面するさまざまな持続可能性の問題を,パスファインダーによるキュレーションや,市民科学とオープンサイエンスのかかわりといった観点から論じるとともに,持続可能なデータプラットフォームに向けて目指すべき方向を展望する。

1. はじめに

「デジタル台風」注1)1)とは,台風に関するあらゆる情報を整理し,誰でもアクセス可能なデータプラットフォームの構築を目指すプロジェクトである。1999年4月に最初のアイデアを提案して以来,データプラットフォームの構築を17年以上にわたって継続的に続けてきた。研究プロジェクトや事業プロジェクトでは,一般的に革新性と持続性を両立させることは難しいが,デジタル台風はこの相反する要求を満たす解決策を自らのプラットフォームを対象に試行錯誤してきた点に独自性がある。しかし持続性は個人的な努力に依存する面が大きく,長期的に維持可能な仕組みはまだ確立できていない。そこでデータプラットフォームの持続可能性という問題について,キュレーションやオープンサイエンスなどのさまざまな観点から論じてみたいというのが本稿の目的である。

本稿の構成を述べる。2章でデジタル台風の歴史,3章ではデジタル台風の特徴を簡単に紹介した後,4章ではデジタル台風の利用を分析する。そして,持続可能性に影響を与える要因として,5章ではキュレーション,6章ではオープンサイエンスの観点から現状と課題を論じ,最後に7章で本稿をまとめる。

図1 デジタル台風のWebサイト・トップページ

2. デジタル台風の歴史

デジタル台風の出発点は,気象衛星画像の検索という研究プロジェクトにある。当時,筆者は類似画像検索の研究を進めていたが,そこで対象に選んだのが台風だった。この研究に不可欠となるのが画像検索用データセットであったため,過去の気象衛星ひまわり画像から台風中心周囲の部分画像を切り抜き,それに位置や気圧などのメタデータを付与するという手順で台風画像コレクションを構築した1)2)。この時点では,プロジェクトの目的はあくまで過去のデータ検索のためのアルゴリズム開発にあったが,その方針を大きく変えた出来事が,2002年ごろに開始した台風画像コレクションのリアルタイム更新機能である。

これをきっかけとして,デジタル台風は現在と過去を「シームレス」に接続するデータベースへと性格を大きく変えることになった。なぜなら,現在のデータを「最新の過去データ」として扱えば,類似検索機能は「現在の状況に類似した過去の状況を検索する機能」となるからである。一般的な気象データベースでは,現在と過去のデータは完全に分離されていることが多いが,デジタル台風では現在と過去のデータがシームレスに一体化しているため,過去から学んで現在に生かすことを意図した「最新状況に基づく検索」を実現することができた。

ここでいう「シームレス」という言葉は,米国の政治家アル・ゴアが1998年1月に行った演説3)で使ったコンセプトである「デジタルアース」に源流がある。「デジタルアース」とは,過去から現在までの地球観測データへのシームレスなアクセスを提供する情報基盤を指すものであり,環境問題への理解などを深めるためにもこうした情報基盤が必要であるというのがゴアのビジョンであった。後にそのコンセプトの一部はGoogle Earthなどのソフトウェアに結実したが,筆者が「デジタル台風」をプロジェクト名として選んだのも,デジタルアースのコンセプトに共鳴したからであった。デジタルアースの台風版として,台風に関するあらゆるデータに継ぎ目なくアクセスでき,社会課題の解決に寄与するプラットフォームを構築すること,それがプロジェクトの目的となった。

しかしデジタルアースはあくまでコンセプトであり,それを具体的にどう実現するかは個人の創意工夫による。「未来を予測する最良の方法はそれを発明することである(The best way to predict the future is to invent it)」というアラン・ケイの言葉にならえば,デジタルアースの台風版という世界を予測するには,それを実現してみせるのが最良の方法である。しかし,すべてのデータがシームレスにつながった世界を具体化するには,全体像を明確に想像しながら個別の構成要素を積み上げていく必要があり,これを筆者はサグラダ・ファミリアの建設事業のような長期的に拡大成長するプロセスととらえている。最初に大きな世界観を描き,その実現に向けて終わりなき増築を続けていくというアプローチを用いたことが,デジタル台風というデータプラットフォームを長期間にわたって持続させる一つの要因となった。

3. デジタル台風の特徴

3.1 長期・多様なデータの統合

デジタル台風の第1の特徴は,台風に関連する多様なデータを長期的にアーカイブしている点にある4)。たとえば気象衛星「ひまわり」が観測した画像については,1978年12月から約40年(一部抜けあり)という長期間に及ぶ画像データを一般に公開している。これらの生データは気象庁もアーカイブしているが,一般の人々も利用しやすい画像データとしての公開はデジタル台風が唯一である。またアメダスデータ注2)や雨雲レーダーデータ注3),さらに数値予報データなどの各種気象データも利用しやすい形式で長期アーカイブを公開しており,気象庁のWebサイトからは得られないデータもある。

またデジタル台風は,気象データと他のデータとの統合においても独自の価値を提供している。気象データは大気で起こった現象を把握できるが,それによって地上で引き起こされた現象を知るには不十分であるため,気象データを災害データなどと統合し,「この大雨で発生した災害を検索する」などの機能を実現した。さらにマスメディアデータを統合することで,「この台風に関してどんなトピックが報道されたか」などを調査したり,ソーシャルメディアデータを統合することで,「この台風について現地の人々は何を言ったのか」などを分析したりする機能を提供できるようになった。つまり,気象現象を中心に多様なデータを連結することで,現象の全体像を多角的に把握できることがデジタル台風の特徴である。

さらに長期のデータを対象としたデータベースとして,「100年天気図データベース」注4)も紹介しておきたい。これは1883年以来およそ130年に及ぶ天気図のアーカイブである。現在も残っている最も古い日(1883年3月1日)の天気図(2)では,日本付近の等圧線が2本しか描かれていないが,それでも低気圧や高気圧の位置という天気予報に重要な情報を天気図から読み取ることができる。この天気図アーカイブは,日本の気象観測の歴史を伝える科学データアーカイブともいえ,科学的な観測データといえども歴史資料としての扱いも必要となる5)

図2 現存する最も古い日の地上天気図

3.2 類似性とランキング

デジタル台風の第2の特徴は,類似性とランキングという機能を中心に据えている点にある。類似性とは「似たような事例があるか」,ランキングとは「この事例はどのぐらい顕著か」を示すための機能である。こうした情報は通常の検索では得られないが,データの意味を解釈する場面では重要な手がかりとなる。

まず類似性とは,過去の経験に学んで現在の対策に活用するための概念である。最近の天気予報では台風に関する解説として,「この台風は過去の××台風に似ています」という説明方法が増えてきた。こうした気象情報の作成には類似台風の検索機能が必要となるが,一般の気象情報サイトの貧弱な検索機能ではニーズを満たせないことから,デジタル台風にしか存在しない独自の検索機能に頼る場面が増えてくる。実際に気象予報士や気象情報会社はデジタル台風の類似検索機能を利用しており,それが天気予報解説の充実に寄与している面がある。

次にランキングとは,現象の顕著性の理解を促進するための概念である。気象情報はさまざまな数値データから構成されるが,降水量××ミリや中心気圧××ヘクトパスカルといった絶対値は,専門知識がないと現象の顕著性を適切に解釈できないという点に改善の余地がある。そこで絶対的な表現を,「過去最強の台風」や「過去最大の大雨」などの相対的な表現に変換することで,現象の顕著性が一般の人々でも理解しやすくなる。そこでデジタル台風では,絶対値を相対値に変換するアルゴリズムを用意することで,現在のデータの顕著性を過去のデータという文脈で評価するための機能を提供している。これは防災上の警戒通知を出すにも有効な基準となる。

このような類似性とランキングという2つの方法論の根本にあるのが「データを孤立させない」という考え方である。これは,データの意味を適切に解釈するという目的を達成するには,類似性やランキングなどデータの相対的な関係性を「見える化」できる適切な文脈の設定が必要,という考え方である。このような問題意識は,データを早く探すという検索のパラダイム6)から,データを編集によってみせるというキュレーションのパラダイムへの移行を後押しすることになる。このテーマについては5章であらためて論じる。

3.3 成長するプラットフォーム

デジタル台風は今も成長し続けるデータプラットフォームである。最近新しく追加されたデータや,今後開発したい機能について紹介する。

まず新しいデータとして,2015年7月7日に登場した次世代気象衛星「ひまわり8号」を紹介したい注5)。これは従来と比べて性能が大幅に向上した気象衛星であり,特に2.5分間隔で観測できる高頻度観測は,地球の変化をリアルタイムで映像化できるという点で画期的である。このデータを使えば,台風の成長を発生から消滅まで2.5分間隔で追跡できるため,予想をはるかに超えるダイナミックな台風の一生が定量的に分析可能となった。そしてデジタル台風は,台風高頻度動画に初めて「ブレ補正」機能を導入することで,滑らかな動きの動画を公開して大きな反響を得た。さらに,ひまわり8号では観測波長が5波長から16波長に増えたため,静止気象衛星としては世界初のカラー画像を生成することが可能となった。34で可視画像と近赤外画像を組み合わせたハイブリッドカラー画像を示す。これはデジタル台風が独自に階調を補正したもので,地球という星の美しさを可視化した迫力ある画像となっている。

反面,データ量の増加もすさまじく,非圧縮の状態で年間150TBに達するデータが生成されるようになった。これをきちんとアーカイブして処理するには高性能かつ広帯域の情報基盤が必須であり,そうしたインフラを持続可能とする資源の確保も重要な課題となっている。

さらに長期的な課題として,新しいメディアの創生という研究テーマを挙げておきたい。デジタル台風が日々成長するにつれて,巨大化したWebサイトから必要な情報をピンポイントで探し当てることは難しくなってきた。この問題を解決するには,現在のようなプル型インターフェースだけでなく,利用者にとって重要な情報をシステム側が選別し,それをプッシュするメカニズムも必要になると考えている。そこでは人工知能を活用したニュースの自動生成なども重要な要素技術となるだろう。こうした技術の発展を踏まえたうえで,ビッグデータ時代における報道のあり方を考えるためのプラットフォームとなることが,デジタル台風の将来的な役割として重要になると考えている。

図3 気象衛星ひまわり8号の最初の観測画像
図4 気象衛星ひまわり8号が観測した月

4. デジタル台風の利用

4.1 概要

デジタル台風の利用状況を,Webサイトのアクセスログから探ってみたい。2003年に本格公開をしてから2016年6月まで,13年間のページビューは約1億6,300万件注6),単純に年数で割ると約1,250万ページビュー/年となる。また当初から日本語と英語の2言語で提供しているため,日本のみならず海外からの利用も多い。このように多くの利用者を得ることは,提供者に対するポジティブなフィードバックとなってモチベーションを高めるため,データプラットフォームの持続性を高める効果がある。ただし利用者が無秩序に増加すれば,運用が困難となってネガティブなフィードバックが増えるリスクもある。あくまでも,多くの利用者が喜んで使っているという実感が得られることが,データプラットフォームの持続性を高める重要な要因である。

続いて,ページビューの推移をより詳細に分析してみたい。台風という自然現象を扱うことから,デジタル台風のアクセスパターンには台風に依存する特異な変動がある。そこで,トレンドの分析を短期と長期に分けることで,それぞれの特徴を分析する。

4.2 短期的なトレンド

短期的なトレンドとして注目すべき点は,近未来情報の重要性である。このことを分析するため,まずは台風の経路図とページビューとの関係に着目してみよう。

5は,2015年台風15号(6)の日本への接近から上陸に伴うページビューの日次変化を,地図と時系列グラフで表示したものである注7)。ページビューは台風の発生(8月14日)から徐々に増加し,日本列島に接近する予報が出たタイミングで最初のピーク(8月20日頃)を迎える。その後はいったん横ばいになるが,上陸が迫るタイミング(8月24日頃)でページビューが急速に増加して最大のピークを迎えることになる。ところが台風が九州に上陸するタイミング(8月25日頃)ではページビューはすでに減少傾向に入っており,日本列島を縦断する最中にも利用者の関心はさらに低下していく。これが日本に接近し上陸する台風の典型的なページビュー推移である。

この結果から読み取れるのは,人々の真の情報ニーズは近未来にあるという点である。台風がこれから接近するという予報情報への関心に比べると,台風が今どこにあるかという事実情報への関心は低い。では人間はなぜ近未来情報に関心を示すのだろうか。それは,近未来情報とは人間が何らかのアクションを取れる情報だから,というのが筆者の考えである。たとえば天気予報なら,傘を持つか持たないかという意思決定が雨にぬれる未来を変えるし,台風予報なら,農作物を収穫するかしないかという意思決定がそのシーズンの収入を左右することにもなる。このように,自分がアクションを取ることによって未来が変わる可能性がある情報は価値が高い。このことを一般化するなら,逆に既存の情報もアクションの可能性を示す形式で見せることによって,情報の価値を高められるかもしれない。このトピックについては,5章のキュレーションであらためて触れたい。

図5 台風の経路とページビューの関係
図6 2015年台風15号(中央)と2015年台風16号(右)

4.3 長期的なトレンド

長期的なトレンドとして注目すべき点は,情報流通の通時的な変化である。このことを分析するため,デジタル台風の月次時系列(7),および年次時系列(8)に着目してみよう注8)

7では,ページビューの季節変動の大きさに注目したい。平常時とピーク時では,月次で見ても10倍以上の差があり,日次ではさらに大きな差がある。もちろんピークに達するのは,台風が接近または上陸する前後の時期であり,これは気象災害に関する情報では一般的なパターンといってよい。

次に8では,年次時系列に2つの山がある点に注目したい。2004年には約1,000万ページビュー/年という最初のピークを迎えた。この年に利用が急速に増えた要因の一つは,日本に台風が10個も上陸するという前例のない状況が,台風情報に対する人々の関心を高めたからである。ところが以後は利用の増加は止まり,特に2010年から2012年は利用の停滞が目立つ状況が続いたが,2012年以降は利用の増加が復活し,2014年には約2,000万ページビュー/年へと利用が倍増することとなった。このような推移は何が要因なのか,いくつかの観点から探ってみたい。

第1に検索エンジンの要因である。そのエビデンスとして,9にGoogleトレンドによる「デジタル台風」の検索ボリュームの推移を示す注9)。Googleトレンドは検索の絶対数を示すものではない点に注意を要するものの,大まかな傾向としては「デジタル台風」の検索ボリュームは2004年をピークに緩やかな減少傾向にある。つまり検索エンジンは近年の増加の要因ではなさそうである。

第2にソーシャルメディアのTwitterである。デジタル台風Twitter版を開始したのは2008年1月であり,ボットアカウント8個を用いて最新情報を発信してきた。その効果はどうなったか。2008年以降はページビューが低下した時期であることを考えると,TwitterはWebサイトの利用増に寄与したとは必ずしもいえない。Twitterの価値は,Webサイトにアクセスせずとも単純な事実情報を入手できる点にあるが,これはWebサイトの利用実績にはつながらない可能性がある。ただし全体としてみれば情報の拡散効果は大きく,Twitterにはそれ固有の価値がある点は付け加えておく。

第3にソーシャルメディアのFacebookである。デジタル台風Facebook版を開始したのは2012年6月であり,Facebook公式ページに台風の予測情報を中心に,筆者自身が書き込むことで情報を発信してきた。その効果はどうなったか。2012年以降はページビューが増加した時期であることを考えると,Facebookはページビューの増加に寄与した可能性が高い。

ただしこれは一概にFacebookというメディアの効果とはいえず,むしろ複合的な要因が絡んでいると解釈すべきだろう。Twitterでは事実情報をテキストのみでボットが発信したのに比べ,Facebookでは予測情報をテキストと画像で人間が発信したため,そもそも両者の間では公平な比較ができない点には留意したい。また,スマートフォン等のモバイルデバイスの本格的な普及が2012年ごろから進み,台風関連サービスに加えて「雨雲レーダー」など外出先での利用が想定されるサービスへのアクセス頻度が大きく増加しているが,デバイスの変化が与えた情報流通への巨大なインパクトの詳細な分析は今後の課題である。

いずれにしろソーシャルメディアへの発信を通して,新たな利用者や利用方法を獲得できたことは確かである。そして利用者を獲得するためには利用者の関心をとらえる必要があり,そのためには利用者のアクションにつながる情報をタイミングよくプッシュすることが重要である。利用者の関心は,すでに述べたように現在や近未来にある。そこにどう応えるかが次章の課題である。

図7 デジタル台風の月次ページビューの推移
図8 デジタル台風の年次ページビューの推移
図9 「デジタル台風」の検索ボリューム推移

5. キュレーション

5.1 概要

デジタル台風におけるキュレーション注10)は,システムを継続的に改善する駆動力であり,それが利用者の利便性にも寄与することで,システムの持続的な成長を促す仕組みを有するものである。すでに存在するデータを組み合わせ,見せ方にもひと手間をかけることによってデータに埋もれている価値を引き出すためには,データを編集するという新たな視点の導入が不可欠である。そして既存のデータから組み合わせ的に価値を引き出す仕組みを作れば,データプラットフォームの価値をより持続的に成長させることができる。

ミュージアムにおける展示が,既存作品の新しい組み合わせに意味を与えて人を集めるように,データベースのデータでも同様の「展示」ができるはずである7)。それは言い換えれば,プロの目で選別したリストを用いて,情報へのアクセス性を高めるための試みであるともいえる。

そこでデジタル台風におけるキュレーションについて,以下ではパスファインダーのニュース化とキュレーション駆動開発という2つのテーマについて論じる。より広い観点に基づく議論についてはアーカイブのBCDEF駆動開発8)を参照してほしい。

5.2 パスファインダーのニュース化

デジタル台風では多様なデータを提供しているが,あまりにWebサイトが巨大化したため,どこに何があるかを把握することが利用者にとっては難しくなった。そこで,どこに何があるかを案内する,いわゆるパスファインダー注11)が必要となる。

特にデジタル台風においてパスファインダーが有用となる理由は,リアルタイム性にある。デジタル台風は防災を一つの用途とするデータプラットフォームであり,利用者は何らかの台風対策アクションを取るためにアクセスする。ところが,防災対策というアクションには時間的な制約があるため,情報収集に余分な時間をかけたくないというニーズもある。そうしたニーズを満たすには,一般的な状況でシステムをどう使うかというヘルプではなく,「いま見るべきデータは何か」という現在の状況を反映したパスファインダーこそが必要となる。

そこで用意したのが,新聞のように日々新しい記事が追加されるパスファインダーである。日々の記事に重要なデータへのリンクとデータの読み方をまとめ,現在の状況を読み解くにはこのデータをこのように解釈するのがよいといった情報を提供する。したがって,パスファインダーのテーマは常に「現在(の台風)」となるが,記事で紹介するデータは必ずしも最新情報に限定する必要はない。たとえば現在の台風に類似した過去の台風を示し,その台風で何が起こったかを参考情報として示すことは,過去から学んで現在に活かす防災対策にもつながるからである。

デジタル台風の台風ごとの利用実績注12)をみても,最新情報へのニーズは確かに大きいものの,過去情報に対するロングテール的な利用にも無視できないボリュームがある。たとえば1959年の伊勢湾台風(195915号 VERA)に関するデータには今も多くのアクセスがあり,これを教訓として参照する人々が多いことがわかる。過去データの網羅性を高めることはロングテール的な利用を可能とし,それが利用者の信頼感の向上につながるという意味では重要である。

このような目的で,2003年1月にデジタル台風ニュース・ウェブログを開設した。以来13シーズンの間に発生した台風にはすべて1つ以上の記事を書いており,利用者によるデータの発見を通してWebサイトの利便性を高めている。

5.3 キュレーション駆動開発

パスファインダーのニュース化は,もともと利用者の利便性向上を目的としていたが,それには副次的な効果もあることがすぐに明らかとなった。ニュース的パスファインダーの記事となる材料を探す行為には,システムを使い倒すことでシステムの不備をあぶり出す効果がある,という利点がみえてきたからである。このように,キュレーションには一石二鳥の効果があることを認識したうえで,それをデータプラットフォームの改良に活用していく方法論を,ここではキュレーション駆動開発と呼ぶ。

IT業界では「ドッグフーディング」ともいわれるが,自分が作ったシステムを自分自身で使い倒すことは,システムの機能向上に有効であることが広く知られている。同様にシステム開発者がキュレーターになることは,開発者モードから利用者モードに視点を切り替え,システムを使い倒すよい機会を提供する。いざ利用者目線になってみると,この検索方法は使いにくい,こういう検索はできないものか,などシステムの不備にいやでも気づかされる。そこで再び開発者モードに戻れば,その問題をどう修正するべきか,あるいは修正は困難か,といった判断をすぐに下せる。このように,キュレーションという利用者目線を積極的に活用することで,システムのデバッグを行いつつ利便性の向上も同時に達成できることが,キュレーション駆動開発のメリットである。

デジタル台風の成長を持続させた最大の要因は,このキュレーション駆動開発にあるといっても過言ではなかろう。利用者目線になって初めて気づき,実装または改善した機能は多数存在する。現代の大規模なデータプラットフォームでは開発者と利用者の分離は避けられないが,開発者自身が使い倒さないシステムは成長が遅くなる。両者の視点を交換できる仕組みを導入することが,データプラットフォームの持続性には重要な課題となる。

6. オープンサイエンスと持続性

6.1 市民科学と社会性

デジタル台風の利用目的は多様である。科学的なデータの典型的な利用者は研究者であるが,一般市民にも利用が広がることでデータプラットフォームの機能にも幅が出てくる。学校で理科を教える先生,台風で商売が影響を受ける農家や漁師,台風が趣味の大きな関心事になっているサーファー,天気予報のネタ探しに利用する気象予報士や,とにかく気象が好きなマニアなど。これほど多様な利用者が集まる理由は,台風という自然現象が社会のすべての人々に関係するからである。

そうした人々に対してデジタル台風が引き起こした一つの変化は,エビデンスベースの議論を可能とした点にある。開架式アーカイブ8)のデザイン原理に基づき,オンラインで参照可能なURLを公開することで,デジタル台風は議論におけるエビデンスの参照先として幅広く利用されるようになった。過去データのURLを共有することで,研究者だけでなく一般市民も共通のデータに基づく議論が進められるようになったことは,デジタル台風の社会的な価値として重要なものである。

このように多くの人が参加可能なオープンな研究環境の実現は,最近ではオープンサイエンスと呼ばれるようになった。たとえば市民科学においては,科学研究に貢献するデータ収集に市民が協力するだけでなく,科学の考え方に市民が触れて知識を学ぶ機会を提供するとともに,市民自身が科学研究や社会実装を共にデザインする協働者となることを奨励するといった活動を通して,社会に開かれた科学を実現していくことに意義がある。このように,オープン性をキーワードとして科学研究を超学際的に開くことには,社会的にも強い要請がある。こうした文脈の中で,科学研究と社会を接続するためのデータプラットフォームとしてデジタル台風を位置づけられれば,社会の中で持続させるべきデータプラットフォームとしての評価を得ることにもつながるだろう。

6.2 研究評価と属人性

デジタル台風は,台風に関する情報ならいつでも必要なものが見つかるというコンビニエンスストアのような存在であり,台風データや気象データのワンストップサービスとして利用者から高い信頼を得ている。長期にわたって個人が研究費を獲得して運用を続ける学術情報サービスの中で,これだけの利用実績を積み重ねてきた事例は珍しいであろう。とはいえ個人運用には大きな問題がある。属人性が高いプラットフォームは持続性が高いとはいえないという点である。

デジタル台風はプラットフォームの独自性が高いため,他に運用者を見つけることが難しいというジレンマを抱えてきた。しかしデジタル台風に限らず,研究データプラットフォームは一般的に属人性が高いように思える。それはなぜだろうか。理由の一つは,研究者にとってこうしたテーマにかかわることが,キャリア構築上,決して有利でない点にあるだろう。データをオープン化することに費やす努力は,一般的な研究評価においては研究業績として認められにくいからである。

近年のオープンサイエンスの潮流においては,研究データの公開が研究者の義務になりつつあるが,義務としての公開では品質向上へのインセンティブが働かないため,研究者が積極的にデータ公開に取り組むという好循環のシナリオに到達することは難しい。データのオープン化が研究貢献として評価されてこそ,データの品質が向上して利用も増え,データのオープン化を支える人材も厚くなる。逆に,データ公開に積極的に取り組む研究者が少数にとどまれば,コミュニティーの形成が遅れて特定の研究者がデータのオープン化を担い続けることになる。デジタル台風でも,一部または全体のタスクを引き継げる研究者や組織を見つけることは簡単ではなく,筆者がすべてを担当するという属人性が非常に高い状態が続いている。

さらに大きな問題となるのがデータプラットフォームの永続性である。オープンサイエンスにおいてはデータ公開の永続性を担保するため,データプラットフォームの運用にも永続性が求められるようになってきた。たとえばデータに永続的な識別子(DOIなど)を付与する場合の条件は,データプラットフォームの持続的な運営体制が確立されていることである。これは変動する研究費に支えられた個人的な取り組みでは達成できない条件であり,より安定した研究費に支えられた組織的な取り組みにどこかの時点で移行しない限り,データプラットフォームの持続性は危機に陥ることになる。

6.3 外部依存とオープン性

持続性のもう一つの重要な論点は外部依存であり,具体的にはデータの外部依存とサービスの外部依存が問題となる。

まずデータの外部依存の問題である。デジタル台風では多くのデータを外部のWebサイトから収集しているため,データへのアクセスが持続性に不可欠の要件である。たとえば,気象データは国民の公共財であり,オープンデータとしてアクセスできることが望ましいが,データは受益者負担で提供すべきとの考え方も根強く,高品質データへのアクセス性を高めることは簡単ではない。そこでデジタル台風では,有償データの購入や,複数の協力機関からの収集,さらにはネットサービスからの収集など,複数の方法を組み合わせてデータ収集を継続している。しかしそれに要する金銭的コストおよびシステム対応コストは決して無視できるものではない。各種のデータがオープンデータとして,利用しやすいAPIで安定的にアクセスできる環境を実現することが,持続性に関しては重要な課題である。

次にサービスの外部依存の問題である。これはデータプラットフォームの持続性が外部サービスの運用方針に依存する問題である。たとえばデジタル台風では「伊勢湾台風メモリーズ2009」注13)を2009年に公開したが,その際に利用した外部サービス「Google Maps for Flash」が2014年9月に廃止され,代替サービスを見つけることも困難だったため,「伊勢湾台風メモリーズ2009」の運用をやむを得ず廃止する事態に追い込まれた。このようなリスクを避けるには,すべてを自前で用意することが理想であるが,現代では外部APIの利用は一般的であり,自前ですべてを用意することはさまざまな面で得策ではない。

サービスの持続性を高めることが難しいのは,それが動的な存在だからである。静的なものは凍結保存できるが,動的なものは凍結保存できない。データやソフトウェアは,必要ならばオープンデータやオープンソースとしてリポジトリにデポジットできるが,それらを実行するサービスとそこから得られる経験をデポジットすることは困難である。仮想マシンやコンテナなどの仮想化技術は,確かに動的なサービスを閉じ込めて保存する道を開くが,セキュリティー更新などがいずれ非互換な実行環境の変更を強制し,そこで長期的な持続性が壊れてしまうことは避けがたいであろう。

サービスの持続性を高めることが難しいのであれば,静的なスナップショットの保存で我慢せざるをえない。とはいえ,オープンソースおよびオープンデータとしてスナップショットを保存しておけば,未来の誰かがサービスを復活させるための出発点にもなる。もしデータプラットフォームに本物の価値があるなら,世界の誰かがそれを拾って復活させてくれることが期待できるだろう。

7. おわりに

本稿は,持続可能なデータプラットフォームの一例としてのデジタル台風について,歴史や特徴,利用の観点からその意義を分析した後で,キュレーションとオープンサイエンスという観点からデータプラットフォームの持続性の問題を中心に論じた。特にネット環境の変化が大きな現代においては,いったん構築すれば後はそれを維持するだけという考え方では,長期的に持続可能なプラットフォームを生み出すことはできない。とはいえ,いたずらに短期的な流行を追っても消耗するだけであり,長期的に大きな変化を起こす本質的なトレンドを選んで対応していくセンスが必要となる。

そして最終的に持続性を大きく左右する要因は何かといえば,やはりデータプラットフォームが社会に提供できる価値の重みということになろう。そして,こうしたチャレンジに価値を見いだす研究者や実務者が増え,そのチャレンジが正当に評価されるようになる世界を作ることが,オープンサイエンスの大きな目標でもある。デジタル台風がそうしたデータプラットフォームの一つとして未来に向けて持続できるよう,今後もさまざまな観点から試行錯誤を続けていきたいと考えている。

執筆者略歴

  • 北本 朝展(きたもと あさのぶ) kitamoto@nii.ac.jp

国立情報学研究所 コンテンツ科学研究系 准教授。東京大学工学系研究科電子工学専攻修了。博士(工学)。大規模な実世界データから価値を創出する研究に興味を持ち,地球環境データや災害データから人文科学データまで,幅広い分野におけるデータ統合・解析に取り組む。2016年4月から,情報・システム研究機構 人文学オープンデータ共同利用センター準備室長。

本文の注
注1)  デジタル台風:台風画像と台風情報:http://agora.ex.nii.ac.jp/digital-typhoon/

注2)  デジタル台風:アメダス統計-過去のアメダスデータの分析と観測地点の情報:http://agora.ex.nii.ac.jp/digital-typhoon/amedas/

注3)  デジタル台風:雨雲レーダー画像:http://agora.ex.nii.ac.jp/digital-typhoon/radar/

注4)  デジタル台風:100年天気図データベース-過去の天気図アーカイブと日本の気象観測の歴史 : http://agora.ex.nii.ac.jp/digital-typhoon/weather-chart/

注5)  デジタル台風:次世代気象衛星「ひまわり8号」画像/動画:http://agora.ex.nii.ac.jp/digital-typhoon/himawari-3g/

注6)  ページビューの計測に大きな影響を与えるロボット(クローラー)の除去にはJAIRO Crawler-List(Version 1.2)を活用し,ブラウザへの表示に関係するリソースへのHTTP 200番台のアクセスのみをカウントした。

注7)  デジタル台風:台風201515号(GONI)-アクセス解析マップ(Google Maps版):http://agora.ex.nii.ac.jp/digital-typhoon/summary/wnp/a/201515.html.ja

注8)  デジタル台風:アクセス解析:http://agora.ex.nii.ac.jp/digital-typhoon/access/

注9)  Google Trendsに「デジタル台風」をキーワードとして入力した結果 : https://www.google.co.jp/trends/explore#q=%E3%83%87%E3%82%B8%E3%82%BF%E3%83%AB%E5%8F%B0%E9%A2%A8

注10)  キュレーションとは,もともとは美術館のようなコレクションを持つ組織において,専門知識に基づいてコレクションの管理や展示などを行うことを指していた。近年ではその意味が拡大し,分子生物学を中心とした分野におけるデータアノテーションや,Webの世界における情報整理(いわゆるまとめサイト)にも適用されるようになった。いずれも,既存のデータにひと手間かけることによって,データの価値を引き出すことに焦点を合わせている。

注11)  パスファインダーとは図書館でよく使われる用語であり「探し方案内」とも呼ばれる。代表的な例に「レファレンス協同データベース」(http://crd.ndl.go.jp/reference/)があり,このテーマについてはこの資料を参照するのがよいという情報が全国の図書館から集められている。このようなパスファインダーは,ヘルプとは異なる観点からシステムの利用を支援する。ヘルプは「使い方案内」であり,機能単位で具体的な使い方を示すのに対し,パスファインダーは「探し方案内」であり,テーマごとに具体的な資料を示すものである。

注12)  デジタル台風:アクセスランキング(2003-2015):http://agora.ex.nii.ac.jp/digital-typhoon/ranking/

注13)  伊勢湾台風メモリーズ2009:http://memories.eye.tc/isewan-typhoon-2009/

参考文献
  • 1)  北本朝展, 小野欽司. 台風画像コレクションの構築および台風解析への応用. NII Journal. 2000, no. 1, p. 7-22.
  • 2)  北本朝展. Holistic Analysisを用いた台風雲パターンの解析. 電子情報通信学会技術研究報告:信学技報. 2001, vol. 100, no. 702, p. 129-136.
  • 3)  Gore, Al. "The Digital Earth: Understanding our planet in the 21st Century". Open GIS Consortium. 1998-01-31.
  • 4)  北本朝展. 大規模マルチメディアデータの統合と検索による気象イベントのモニタリング. 映像情報メディア学会誌. 2012, vol. 66, no. 11, p. 907-912.
  • 5)  北本朝展. “100年天気図データベース:気象庁天気図を対象とした長期データアーカイブの構築”. 日本地球惑星科学連合(JpGU)2016年大会. 2016-05-22/26, no. MGI21-05.
  • 6)  北本朝展著;高野明彦監修. “実世界と紐づいた検索:時間と空間を検索する”. 角川学芸出版, 2015, p. 127-158, (角川インターネット講座08:検索の新地平:集める,探す,見つける,眺める).
  • 7)  北本朝展. “遷画:展示の数学モデルに基づく参加型アーカイブの分析とミュージアムでの展開”. 人文科学とコンピュータシンポジウム論文集:じんもんこん. 情報処理学会. 2014, p. 9-16.
  • 8)  北本朝展著. “デジタル・アーカイブの鍛え方:公開から始まる継続的な改善を駆動する方法論”. デジタル・アーカイブとは何か:理論と実践. 岡本真, 柳与志夫編. 勉誠出版, 2015, p. 157-180.
 
© 2016 Japan Science and Technology Agency
feedback
Top