情報管理
記事
オープンデータがもつ「データ開放」の意味を再考する:自由な利用と再利用の担保に向けて
大澤 剛士
著者情報
ジャーナル フリー HTML

60 巻 (2017) 1 号 p. 11-19

詳細
PDFをダウンロード (1109K) 発行機関連絡先
著者抄録

G8オープンデータ憲章以降,オープンデータという言葉が広く流通するようになり,主に行政や研究の分野においてすでに定着したようにもみえる。しかし,オープンデータという言葉自体には厳密な定義が存在しないため,それらがもたらす恩恵や,何によって恩恵がもたらされるのか,その可能性を担保するために必要なこと等,オープン化のソフト面について,興味はもちつつも具体的なイメージを描きにくい方が多いのではないだろうか。今後さらにさまざまなデータのオープン化を推進していくにあたり,具体事例の提示や現状の課題を広く共有することは重要である。本稿は,筆者がこれまで実施してきたオープンデータの再利用にかかわる研究の紹介を通し,オープンデータがもたらす恩恵の具体例を提示するとともに,その恩恵は何によってもたらされうるのかについて議論したい。

1. はじめに

2013年に主要国首脳会議G8で合意されたオープンデータ憲章1)を皮切りに,世界中で政府データを中心としたデータのオープン化が積極的に行われるようになった2)3)。これに呼応するように,研究データのオープン化,さらには,オープン化された研究データや成果を利用し,より自由に科学的行為を行おうとするオープンサイエンスという考え方も広がってきた 4)6)。日本でも,公的資金によって得られたデータや研究成果をオープンにし,利活用を促進する動きが具体化しつつある4)6)。しかし,「オープンデータ」は,厳密な定義が存在しない概念的なものであること,さらには近年急速に発展してきたものであることから,その考え方や取り組みについても十人十色というのが現状である。このため,オープンデータに興味があっても,目にする事例がデータ自体のオープン化であったり,整備活動であったり,データの利用を目的としたものであったりと多岐にわたり過ぎて混乱する場合や,自身の興味や専門分野とオープンデータの関係性が測りにくく,実際にかかわることに二の足を踏んでいる方も多いのではないだろうか。こういった混乱は,新しい概念が定着するために必要なプロセスであると同時に,その概念が本来の意義から外れてしまう危険性を含んでいる無視できない問題でもある。そこで本稿は,改めてオープンデータの概念を振り返り,それがもたらす恩恵や,その可能性を担保するために必要なこと,その実現に向けた課題等について,筆者が取り組んできたオープンデータ利用に関係する研究の具体例紹介を軸に議論する。なお,筆者はオープンデータの専門家を自認しているわけではないが,一人の研究者として,自身の研究において結果的にオープンデータと密接に関係し,多くの恩恵を受け,さまざまな論考を得ることになった。オープンデータの一利用者という立場からみえてきた利点や課題は,多くの方々にとって参考になると確信している。

2. オープンデータの定義と現状の理解

データのオープン化は,オープンデータの活用推進を図るグループであるOpen Knowledge Foundationの定義に従うと,データを「無償かつ自由に利用可能にする」ことであり,オープンデータとは,

  • (1)利用できる,そしてアクセスできる
  • (2)再利用と再配布ができる
  • (3)誰でも使える

という3点をすべて満たすことが要件とされている7)

この要件を満たすために最も簡単な方法は,データにクリエイティブ・コモンズ・ライセンス(CC-0,CC-BYあるいはCC-BY-SA。以下,CCライセンス)を適用し,インターネット上に置くことである(自由にアクセスできることとは,事実上インターネット上に存在することと同義である)。ライセンス,データの置き場所はすでに具体的な解決策が提示され,事実上の標準(デファクトスタンダード)手法が確立している7)。同様に,ユーザー側の利便性を高めるための標準データフォーマットやLinked Data化等8)10),オープンデータにまつわる技術論,いわばハード面は議論や研究が進み,ある程度目指す方向性についても収束しつつあるといってよさそうだ。しかし,何のためにオープン化するのか,なぜオープン化するのかというソフト面については,オープンデータ憲章の主題である政府データの透明化9)11),研究データや成果のオープン化4)10)12)等,個別的に議論が進んでおり,全体的な方向性がみえにくい現状にある。そこで次節から,政府データや研究データという区別をせず,より広くオープンデータ一般を対象に,オープン化とは,どういった哲学によって作成される(べき)ものなのかというソフト面について,改めてOpen Knowledge Foundationによるオープンデータの定義を振り返るとともに,それに基づく筆者の考えを述べたい。

2.1 「データ開放」の意味

オープンデータはすでに確立した名称であると考えられるが,あえて日本語に訳すと,「開放された事実,あるいは資料」ということになる。実際,漢字を利用する台湾ではオープンデータを「資料開放」と表記しているようだ注1)注2)。この「開放」がオープンデータを特徴づける極めて重要な概念である。すなわちオープンデータは,すべての「制限から開放」されているべきなのである。制限とは,著作権であったり,アクセスであったり,用途であったり,社会に存在するさまざまな制御メカニズムを意味する。最小限の制約下において自由な利用を保証するCCライセンスを付与し,自由なアクセスが保証されるインターネット上に置くことの最も重要な意義は,まさにここにある。もちろん観測機器の問題等,データの品質によって生じる制限は考慮する必要があるが,オープンデータの利用者は,データの品質以外の何にも制限されないことが保証されるべきなのである。これが保証されて,初めてデータは開放された,すなわちデータが「オープン化」されたといえるのである。

2.2 「自由な利用」と「再利用」

続いて,オープンデータの要件として挙げられている「再利用と再配布」について考えてみる。このうち,再配布は容易に理解できるであろう。オープンデータは,利用者の手によって改めて別のリポジトリ等から公開することが許可されているのである。再配布するデータは,利用者が改変等を行った二次加工データであってもよい。では,再利用とはいったい何だろうか。自由な利用と何が違うのだろうか。結論から述べると,筆者は,再利用とは,データの供給者とは別の人間が利用することであると考えている。それも,供給者と無関係な他人が,供給者が想定している目的とは別の目的で利用することが望ましい。なぜなら,データ供給者と無関係な他人による目的外の利用は,自由な利用が保証されているからこそ実現できるからである。言い換えると,利用者も用途も制限されず,「開放」されているからこそ「自由な利用が保証」され,これによって,第三者による「再利用」が実現するのである。この観点から,自由な利用と再利用は,密接に関係しているといえる。データは利用されてこそ真価を発揮するので,オープン化されることで,データ取得者以外による利用,想定外の利用,すなわち再利用が促進され,データの価値が見いだされる機会も増えることになる。

次章からは,より具体的なイメージをもってもらうために,筆者自身が行った「データの再利用」,すなわち供給者とは無関係の立場で,目的外利用を行うことによって新しい知見を得た研究を紹介する。

3. データ再利用の具体事例

研究成果,たとえば論文等の公表物を,英語ではpublicationと表現する。publicationには,public(公共)という単語が含まれている。すなわち,研究成果として論文等で公表された情報は公的なものとみなされ,誰でも自由に利用できることが事実上保証される(このため,研究成果の製品化や財産化を目指す場合は,論文等での公表前に特許を取得することが推奨されている)13)。実際,研究者は論文を発表する等,新しい研究成果を公表する際に,過去の研究成果を引用という形で自由に利用している。しかし,多くの場合,引用される論文は同じ,あるいは極めて近い分野のものであり,研究においては「再利用」が行われつつも,供給者が想定している範囲内に収まっている場合が多い。これに対し筆者は,恐らく供給者が想定していなかった用途で研究データの再利用を試み,一定の成果を得ることができたので14),この研究を再利用の例として紹介したい。

3.1 事例1:研究データの目的外利用

利用した研究データは,1940年代から1970年代にかけて昆虫分類学者,土生昶申(はぶあきのぶ)氏(故人)によって収集されたオサムシ科昆虫の標本を目録化したもの(吉武ほか 2011)15)から抜粋したものである。この標本コレクションは,190点のホロタイプ標本(種の学名を付ける記載論文中で使用され,学名の基準として指定された標本)を含み,昆虫分類学上,極めて重要なコレクションである。このコレクションは種同定の参照標本としてはもちろん,国内昆虫相の解明や生物多様性研究にも有用と考えられ,その利用促進を目指して目録が出版された。

筆者は,この目録から一部分類群についてラベル情報,すなわち標本がいつ,どこで採集されたかという情報を抜き出し,過去の分布情報を作成し,それと2000年以降に採集された同種の分布情報,つまり自分自身のデータと組み合わせることで,自然環境が安定的に保たれている物理条件を推定する手法を確立し,論文として公表した14)1)。

研究の詳細は本稿の主題ではないので割愛するが,研究の位置づけを本稿の文脈で概説すると,筆者にとって面識のない方(土生氏)の収集した標本が,筆者のかかわらない場所(昆虫分類学者 吉武氏ら)で研究データとして公開され,それを筆者が自身の研究分野において活用した,ということになる。この研究は,昆虫分類学のために収集され,その利用促進のために公開された研究データが,環境科学という近年発展してきた分野において「再利用」された例として,研究成果そのものの価値だけでなく,データのオープン化がもたらす価値向上という観点からも意義があったと考えている。すなわち,このデータは,当初想定されていた昆虫分類学以外の研究分野で利用されたことにより,その価値が向上したと考えている。利用した研究データは,本稿で論じるオープンデータとして公開されていたものではないが,研究の世界におけるルール,すなわち研究成果は,後人が利活用できるように積み重ねるという考え方にしたがって自由な利用が保証され,アクセス可能な状態で公開されていたからこそ,「再利用」が実現できた。データの「再利用」は,データの価値向上に直結する重要な要素であり,価値向上のために,データのオープン化は極めて有効な手段である。

図1 オサムシ科昆虫の分布情報から,自然環境が安定していると考えられる場所

3.2 事例2:市民科学データの利用

オープンサイエンスの文脈で注目を集めつつあるのが,非専門家である市民と専門家が協力して科学的行為を行う「市民科学」である5)16)17)。市民科学の成功事例としてしばしば挙げられるのが,宇宙望遠鏡によって撮影された銀河をインターネット上で分類するGalaxy Zoo注3)と,野鳥の目撃情報をインターネット上で共有するeBird注4)である。これらはともに,インターネットやデジタルツールを利用して,非専門家,専門家を問わず広く市民が科学データを取得し,得られたデータをオープンに共有することで,効率よく科学を発展させようという取り組みである16)。こういった市民に対する研究データ収集のクラウドソーシング的なアプローチに対して,研究者が市民を研究のための道具として扱うような体制に偏りつつあるという批判もあるが18),科学をより開かれた,誰にとっても身近なものに変える機会として価値が高い取り組み方法であることには疑いの余地がない17)。筆者は,博物館学芸員が主導し,インターネットを活用して100人を超える市民によって収集された鉄道駅におけるツバメの営巣データを再利用し,都市に点在する河川や緑地の重要性を示す研究を行ったので,ここではこの例を紹介したい。

この研究の位置づけを本稿の文脈で概説すると,100名を超える市民,それも必ずしも相互に知り合いではない方々が,それぞれ個々人で収集したツバメの営巣データをインターネット上で一元化し,公開されたデータの一部を筆者が研究利用した,すなわち「再利用」したということになる。

利用したデータは,大阪市立自然史博物館の和田岳学芸員が博物館活動の一環として,近畿2府4県(京都・大阪・兵庫・滋賀・奈良・和歌山)の鉄道駅を対象に,駅舎におけるツバメの営巣についての情報を市民に広く募集し,収集した結果の一部である。この調査は,参加者が通勤時等に駅舎を見て回り,ツバメの巣の有無や状態,個数をメールやTwitterを通して和田氏に知らせ,結果は和田氏によってインターネット上で集約,公開されていくというもので,124名の参加によって約1,500駅におけるツバメの営巣データが約2か月で集まった。結果は大阪市立自然史博物館のWebサイト内,和田氏の個人スペース19)において公開するとともに,学会における発表,大阪市立自然史博物館のイベントである大阪バードフェスティバルへの出展等,博物館活動で利用された。ここでデータ利用は一区切りついていたのだが,その後に筆者は和田氏から公開データの提供を受け,研究で利用しやすいように加工を施し,ツバメが営巣している駅の立地条件を周囲の土地利用から検討するという研究を実施し,論文として公表した20)2)。加工とは,駅名の情報を緯度経度に変換する,調査に含まれていた3種のツバメ(ツバメ,イワツバメ,コシアカツバメ)を別レコードに分割したうえで,GISデータ化する,データをツバメの巣の在/不在データに変換する等,もともとのデータに含まれている情報の再整理である。市民調査によって収集されたデータが,少々の再整理を行うだけで,科学論文において利用できる性質のデータになったということもできる。データ収集をとりまとめた和田氏自身は,学会発表を行うなど,データの研究利用の可能性について考えていたが,実際にツバメの営巣を調査した市民の大部分は,筆者が行ったような研究利用は想定していなかったであろう。これも,研究としての価値だけでなく,データ取得者が想定しない利用を実現した,すなわち「再利用」したという点においても価値がある研究であった。研究目的で取得されたわけではないデータであっても,オープン化されることによって研究利用,すなわち取得者の目的とは異なる利用が実現する可能性が生まれる。

図2 近畿2府4県の鉄道駅におけるツバメの営巣状況

3.3 データの「再配布」

これまで紹介してきたデータのオリジナルには今でも自由にアクセスできるが(オサムシ15),ツバメ19)),筆者の研究によって新たな用途が示されたので,その用途において利用しやすい形で「再配布」することで,さらに利用が増え,データの価値も高まると期待できる。特に,もともと研究データではなかったツバメの営巣データについては,研究データとして再配布することで,新たな研究が実施される可能性が高まる。そこで筆者は,ツバメデータをデータペーパー(研究データそのものを論文として公表する形)として発表することで,研究用に加工したデータをオープンデータとして「再配布」した21)。これを本稿の文脈で表現すると,「自由な利用」に基づいて「再利用」した結果を基に,二次加工を施したデータを「再配布」したということになり,オープンデータのライフサイクルを実践したととらえることができる。

オープン化されたデータは,再利用者によって自由に再配布することが許可されるため,再利用者が自身の用途に合わせて加工したデータを再配布することで,その用途における利用をさらに促進することが期待でき,データの価値が向上する。なお,このデータは,生物多様性にかかわる情報を広くオープン化しようとする国際的枠組みであるGlobal Biodiversity Information Facility(GBIF)ネットワーク上において英語での「再配布」を行っており注5),将来的には日本語圏外での「再利用」も期待できる。近年,データペーパーで公開したデータをオープンデータにする動きは活発化しており(たとえば参考文献22)23),近い将来にこれは標準手法になると期待される。

4. データ開放の本質

これまで筆者が実施したデータの「再利用」,さらには「再配布」の例を紹介してきたが,これら事例に共通していることは,利用者である筆者がデータを前に,データ取得者が想定していない利用方法を着想し,データの一部を加工して利用した点である。これは,データへのアクセス,利用目的,加工が制限されていなかった,すなわち事実上オープン化されていたからこそ実現できたといえるだろう。オープンデータは,すべての「制限から開放」されているべきであり,だからこそ新しい利用が生まれ,新しい価値が付加されうる。本稿で特に強調したいのは,利用目的についての開放である。CCライセンスをはじめとするオープンデータライセンスの付与やインターネット上にデータを置くことは技術的な問題,いわばハード面であるが,利用目的はデータ取得者,供給者がどのように考えるかというソフト面に該当し,利用者の目には見えにくい。しかし,ここに見えない制限が存在してしまうと,データは真に開放されず,新しい利用方法は生まれず,データの価値も制限されることになるのではないだろうか。この見えない制限を取り払うために筆者が主張したいのは,データをオープン化する際に,供給者による選別は行うべきではないということである。データ供給者にとっては無価値に思えるデータであっても,自由な利用が保証されていれば,第三者によって価値が見いだされ,「再利用」され,データに新たな価値が付与される可能性がある。しかし,供給者の判断によって選別されたデータは,自覚,無自覚を問わずに提供者が想定する利用に適した形になり,第三者による「再利用」の可能性を大きくそぎ落とすことになる。

2016年に日本学術会議,オープンサイエンスの取組に関する検討委員会によって公表された「オープンイノベーションに資するオープンサイエンスのあり方に関する提言」24)において,研究データのオープン化とは,「オープンイノベーションに資するためのデータを,現状よりもオープンにすることを求めるものであること」とある。イノベーション(innovation)とは,既存概念にとらわれない新しいものを意味するはずである。果たして,イノベーションを目指すために,既存概念下において,それに資すると考えられるものを選別してしまってよいのであろうか。筆者は大いに疑問に感じている。データの選別は第三者による「再利用」の可能性を大きくそぎ落とし,これは公開前から「制限」することと同義といってもよい。データの可能性をそぎ落とし,事実上利用を制限することは,オープンデータの本質からも,目指すべきイノベーションからも遠く離れた考え方である。

先に紹介した研究において,筆者は過去に採集されたオサムシ科昆虫の標本コレクションを利用した。土生氏がコレクションに含まれる標本を最も積極的に採集していた1950~1960年代には,恐らく現在よりオサムシ相も豊かで,大部分の種は普通種であったと想像される。土生氏も半世紀後にそれら昆虫の多くが絶滅危惧種となっており,自身の標本が環境科学において利用されるとは想像すらしていなかったのではないだろうか。しかし,土生氏は2万点を超える標本を後世に残した15)。もちろん土生氏は将来的なデータ利用の可能性を考慮して多数の標本を残したわけではないだろうが,結果的に重要な示唆を残している。仮に土生氏が標本として後世に残す種や個体数を著しく選別していたら,筆者の研究は決して生まれることはなかっただろう。現代においてデータをオープン化しようとするわれわれも,現在の物差しでデータの利用性や価値を測ってしまって制限をかけ,選別を行ってしまっては,将来的なデータの価値を著しく損なうことになる可能性がある。データを「開放」するためには,自分が理解できないような用途を想定し,自分の価値観では役に立たないデータも含めて公開し,自分の知らない利用がなされることを期待するというおおらかな気概が極めて重要である。

5. おわりに

本稿は,筆者自身の研究を事例に,オープンデータの可能性と,それを担保するために何が必要かについて議論してきた。オープンデータは新しい概念であり,既存の考え方とは異なる考え方が必要とされる面がある。データの利用目的を想定しないままオープン化することは,まさに既存の考え方とは大きく異なる考え方であろう。既存と異なる考え方に対して慎重になる,不安に感じるのは当たり前のことであるが,その先には間違いなく新しいさまざまな可能性が存在している。データがオープン化されることで,提供者が想定しない利用,研究者の立場からいうと,自身の分野外における利用が実現される可能性が飛躍的に高まるのである。オープンデータは,特定の分野に限らず,さまざまな専門,個別分野の方々がかかわれる概念なのである。実際,筆者はオープンデータをキーワードに,自身の専門分野である生物多様性,環境科学はもちろん,情報科学,政策科学,さらには考古学分野の方々と知り合い,専門性を超えたさまざまな議論をする機会に恵まれ,新しい研究や取り組みを始めるきっかけを与えられた。オープンデータをキーワードにさまざまな専門性をもった人間がシームレスに議論を行うこと,これはオープンサイエンスの実現に向けた一つの形といってよいかもしれない。そしてその先にあるものは,現在では細分化された「専門分野」という壁がなくなったシームレスな科学の姿かもしれない。こういった間口の広さ,自由さの先にある新しい可能性の発見こそがオープンデータ,ひいてはオープンサイエンスの本質であり,目指すべきものであり,この実現に向けた必須要件が,データの「開放」であると筆者は考えている。本件については引き続き議論を続けていきたい。

謝辞

本稿の内容は,「平成28年度NII公募型共同研究 オープンサイエンスでフィールドサイエンスの新時代を拓く」(総合地球環境学研究所 近藤康久氏),ならびに2016年12月21日に開催された科学技術・学術政策研究所(NISTEP)講演会(ホライゾンセミナー)における筆者の講演「データの“再”利用を再考する」,および当講演後の議論内容が基になっている。上記関係者,特に近藤康久氏,NISTEP 林和弘氏には格別のご協力をいただいた。(研)農研機構 農業環境変動研究センターの岩崎亘典氏,酪農学園大学・MIERUNE, LLC. の古川泰人氏には草稿に対して有益なコメントをいただいた。ここに記して謝意を表する。

執筆者略歴

  • 大澤 剛士(おおさわ たけし) arosawa@gmail.com

(研)農研機構 農業環境変動研究センター 主任研究員。博士(理学)。専門は生物多様性情報学。生物の分布情報を中心に,環境科学にかかわるさまざまな情報のデータベース化および,それらを利用した研究に取り組んでいる。世界中の生物多様性に関する情報の収集およびオープン化を進める国際的取り組みGBIF(Global Biodiversity Information Facility)日本ノードJBIF運営委員。

本文の注
注1)  台湾資料開放:http://data.gov.tw/

注2)  台湾高雄市:http://data.kaohsiung.gov.tw/opendata/

注3)  Galaxy Zoo:http://www.galaxyzoo.org/

注5)  "A nest-site survey of Barn swallow a…". GBIF portal:http://www.gbif.org/dataset/2488cd13-4f80-479c-ae54-257de312054e

参考文献
 
© 2017 Japan Science and Technology Agency
feedback
Top