2016 年 59 巻 2 号 p. 105-112
情報学研究においては大規模データセットが不可欠となってきているが,実際には多くの課題がある。そこで国立情報学研究所では,民間企業などからデータセットを受け入れて研究者に提供する共同利用の取り組みとして情報学研究データリポジトリ(IDR)の活動を行っている。本稿では,最初にその背景にある大学や民間企業の状況を概観し,次に研究コミュニティーにおけるデータセットの位置付けの進展に沿ってその共同利用の意義を明らかにしている。また,IDRがデータセット提供のために民間企業や研究者に向けて行っている活動内容や,提供中のデータセットとそれらの利用状況について紹介し,最後に今後の展望を示している。
近年,情報学研究においては実社会で生成された大規模データが不可欠な研究資源となってきた。これには,ITの社会への浸透やビッグデータ処理技術の発展,そして最近ではディープラーニングに代表される人工知能研究の進歩が技術的背景にある。新たに開発された最先端の研究成果を取り入れたツールが次々と公開され,誰でも最先端の技術を利用できる環境となっている。
また,大学などには実用的な研究成果を要請する声が高まっているといった社会的背景もある。基盤的な研究資金が削減される中,競争的研究資金を獲得するためにも実用化への道筋を示すことが重要となっており,そのためにも実社会で生成された大規模データが必要となっている。
一方で,大規模データを取り扱う民間企業,特にインターネット上で事業展開する企業では,先進技術をいち早く事業に取り入れて競争優位性を確保できるかどうかが業績拡大や企業の存続自体をも左右する。しかし,このような企業においても社内に十分な研究開発能力を備えているところは多いとはいえず,保有する大規模データを十分に活用できていないのが現状である。このため,大学との共同研究などを通じて技術開発や若手の人材確保などを図るため,大学などにデータを提供しようとするインセンティブが働いている注1),1)。
このように大学研究者と民間企業との利害が一致しているにもかかわらず,現実には民間企業から大学への大規模データの提供が広く行われてきたとはいい難い。この理由としては次に挙げるような障害があると考えられる。
第1に,データを利用したい研究者とデータを提供したい民間企業の担当者が互いを見つけるための体系的な手段が存在しなかった。このため,知り合いなどを頼って相手を探すしかなく,特に分野外の研究者などにとってはほとんどコンタクトが取れる可能性がなかった。
第2に,データを提供した研究者が不適切な利用を行った場合に,企業にはさまざまな損失が生ずるリスクがある。たとえば,経済的価値が大きいデータが流出して利益機会を喪失したり,データに含まれる著作権やプライバシーなどが不適切に扱われて第三者から損害賠償を求められたり,あるいはいわゆる「炎上」状態となって業務に支障が出たり社会的信用を失ったりする懸念がある。
第3に,企業側の担当者は,研究者の利用目的と意義を解釈し,自社にとって利益になること,また不利益が生じないことを社内で説明し,経営者や事業部門の理解を得なければならない。
第4に,企業にとっては個々の研究者の要望に対応するための手間が過重な負担となる。これには,研究者のニーズと企業側の提供可能なデータ範囲との調整を行ってデータの仕様を定め,業務用システムからデータを抽出し,必要な加工を行ってデータを準備するためのプロセス,機密保持や知的財産処理に関する契約などの組織間の手続き,さらにはデータ提供後の利用状況や成果のフォローアップなどが含まれる。
そこで,国立情報学研究所(National Institute of Informatics: NII)注2)では「情報学研究データリポジトリ」(Informatics Research Data Repository: IDR)注3)の活動を通して,これらの障害を取り除き,あるいは低減することによって,企業等が有するより有用なデータをより多くの研究者に提供できるように取り組んでいる。
以下では,まずデータセットを共同利用することの意義を主として研究コミュニティーとの関連の視点から述べる。次に,IDRがデータセット提供のために行っている活動について説明し,続いてデータセットの提供と利用の現状を示す。最後に,今後のデータセット共同利用の深化に向けた取り組みについて述べることにする。
なお,本稿では,各データセットの内容や提供方法,利用条件などについては詳述しないので,興味のある方はIDRのWebサイトを参照されたい。
研究におけるデータセットの位置付けを,筆者の専門である情報アクセス技術に関する研究経験を踏まえて整理すると,典型的には以下に述べるように,個別利用から共有へ,そして共同利用という経過をたどると考えられる。
まず,ある研究分野の立ち上がりの時期には,研究者自らが研究目的に即してデータを作成あるいは収集し,データセットを構築して研究を開始する。この段階では,
(1)新規に研究を始めるためのハードルが高く研究者が増えにくい
(2)データセットが公開されない場合が多く,他の研究者が研究成果を検証できない
(3)各研究者が統一性のないデータセットを使用するため相互比較ができない
その後,研究コミュニティーが大きくなると,先行研究者から提供を受けたり,複数の研究者が協力して構築したりすることで,コミュニティー内でのデータセットの共有が進む。この段階になると(1)~(3)の問題は解消するが,一方で
(4)コストがかかりすぎて十分な規模が確保できない
(5)偏りなくデータを集めることが難しい
(6)データセット構築時に想定していなかった目的を異にする研究にはうまく使えない
また,ここまでの段階を通じて,
(7)データセットの構築方法や利用方法の適法性が明確でない場合がある
(8)データセット中の個々のデータに含まれる未処理の著作権や個人情報などが顕在化する
(9)これらの恐れがあるためにデータセットの構築や利用を躊躇する研究者が現れる
このように,研究者が研究目的で大規模データセットを構築し,共有しようとするとさまざまな限界に突き当たる。そこで次の段階として,民間企業などの,法的・技術的な能力と責任のある機関がその本来の業務を通して構築したデータを,研究者がその企業から直接提供してもらって研究に利用するという動きが生ずることになる。また,ある程度余力がある企業では,研究者をインターンシップなどの形で企業内に滞在させてデータを提供することも行われる。これにより,上記の多くの問題は解消するが,やはり(2),(3)の問題が残る。
この状況を打開するため,研究者が研究会などのコミュニティーとして企業と協議し,データ提供を受けて共有する動きが出てくる。その際には,データ仕様を慎重に検討して決定し,必要な処理を行うことが必要であるが,ここまで到達できると,上記の問題はほぼ解消できることになる。しかし,
(10)コミュニティー外の研究者がデータを利用することが難しい
(11)コミュニティーの組織的・経済的な裏付けが弱いため継続的にデータ共有体制を維持することが難しい
ここで,IDRがコミュニティーの役割を代替してデータセットの共同利用を行うことにより,これらすべての問題を解消することが可能となるばかりでなく,さらなる利点として,
(a)多くのデータセットを集約し,企業と研究者の両方に対して統一的な窓口を提供できる
(b)ノウハウを蓄積し企業に提供することにより企業は負担が減るとともに安心してデータを提供できる
(c)さまざまなチャンネルを通じて企業の学術貢献を社会一般に周知できることにより,企業イメージの向上につながりデータセットを提供する動機付けが強くなる
(d)統一的な条件でデータ提供が受けられるため,利用者が増えるだけでなく他分野の研究者にも利用しやすくなる
などの効果が得られる。これらが好循環を生み,データを保有している企業からのデータ提供の申し出が増加し,異なるタイプのデータが増えることにより利用者層が拡大するという結果を生んでいる。
NIIは,大学共同利用機関の活動の一環として,情報学分野における共同利用・共同研究を推進するため,2015年4月に「データセット共同利用研究開発センター」(Center for Dataset Sharing and Collaborative Research: DSC)注4)を設置した。DSCでは,情報学研究に有用なデータセットを整備して研究者に提供するとともに,データセットの構築とその共有基盤に関する研究開発を行い,これらを共同研究へと展開することを目標としている。現在,IDRはこのセンターの下でデータセットの提供を行っている。
DSCでは,データセットの提供だけでなく,データセットの構築,コンテンツ共有型研究プラットフォームの研究開発,およびプラットフォーム上での共同利用型共同研究の推進を行っている。これらのうち,図1には主にデータセットの提供に関係する活動の概念を示す。
DSCは提供者となる民間企業や大学あるいは研究者(以下,提供者という)からデータセットを受け入れ,保存・管理し,希望する研究者に配布する。
このためには,まずデータセットの権利関係,利用者および利用目的の範囲,提供者/NII/利用者の権利・義務,利用制限事項,データセットの取り扱い,等々を提供者と協議することが必要である。ここで,これまでの経験を通じてIDRが蓄積してきたノウハウが有効に機能する。たとえば,大学などの状況に詳しくない民間企業などに対して,利用者の実情に合った形での提供形態を提案したり,データセットや研究成果の著作権処理に関するアドバイスをしたりすることができる。またたとえば,企業内の事業部門や法務部門がデータの流出や乱用について過度の懸念を抱いている場合などは,これまでの実績を示すことにより現実的な判断をしてもらうことが容易となる。
これらの協議の結果に基づいて,データセット提供の根拠となる契約を,NIIと提供者との間で締結する。また同時に,利用者への提供の際に行う利用契約の内容を定める。これには利用者管理,データセットの利用範囲や取り扱い方法などが定められている。ここでも,前例を参考にしながら個別事情に適応させることにより,組織間の調整が効率的に行える。
なお,利用契約の締結形態は,データセットの性質や提供者の方針によりいくつかのパターンに類型化される。たとえばNIIが提供者からサブライセンスを受けられる場合はNIIと利用者との間の覚書,そうでない場合は提供者と利用者との間の直接契約の形となっている。また,書類のやりとりを簡略化して,利用者がオンラインで利用規約に同意するだけという形もある。オープンデータの場合は,明示的な利用者契約は締結しないが,クリエイティブ・コモンズ・ライセンスにより提供条件を明示している。
提供者が民間企業の場合はオープンデータとすることはほとんど不可能であるので,IDRとしては,利用契約や利用者管理の効率性の観点から,NIIがサブライセンスを受け,NIIが利用契約を締結する形態を推奨している。
データセットの内容は,提供者から受け入れた状態のままで利用者に提供することを原則としているが,配布しやすいように,必要に応じてファイルの形式やサイズの調整などを行うことがある。IDRがデータセットを保存・管理することにより,利用者に提供するデータセットの同一性を保証している。
提供開始時には,内容や状況に応じて記者発表やニュースリリースを行い,またNIIが広報に利用しているメールマガジンやWebサイトのニュース欄への掲載,FacebookやTwitterへの投稿などを通じて周知を図っている。幸いにも,これまで提供したすべてのデータセットについて,ネットニュースなどのメディアに取り上げていただいた。これらを通じて,情報学ばかりでなく他分野の研究者にも広くデータセットの存在が知られるようになった結果,利用者の研究分野が確実に拡大している。また,学術界はもとより学生や一般社会へもデータ提供者の学術貢献を可視化することができ,企業イメージの向上にも寄与している。
各利用者への提供に当たっては,提出された利用申請書に基づいて,利用資格,利用目的の適合性,研究組織構成などをIDRが確認したうえで,利用契約の手続きを行う。これらの確認作業を提供者に代わって行うことにより,大学などの状況に詳しくない民間企業などが直接申請を受け付ける場合に比べて,はるかに効率的な利用契約処理が可能となっている。
利用者の専門分野が多様化するに従い,データセットの内容や形式に関する問い合わせなども増えてきており,必要に応じてIDRが提供者への確認や修正依頼を行い,あるいはこれらの情報を集約して提供することも行っている。
利用開始後はIDRが定期的に利用者から利用報告を提出してもらうことにより,利用者情報の管理・更新や利用状況の把握,研究成果の収集などを行い,必要に応じてデータセット提供者に報告を行っている。その結果,提供者が,利用者の個別および全体の状況や研究成果を容易に把握し,データセット提供の効果を適正に評価できるようになる。
これらの活動の効果が提供者に評価されてきた結果,データセットの追加や更新も行われるようになり,新たな企業から提供の申し出を受けることも多くなってきた。
一方で,研究者と提供者の間のコミュニケーションの円滑化にも貢献している。たとえば,研究者から,提供中のデータセットを評価ワークショップやコンペティションに利用したいという相談を受けることがあり,可能な範囲で提供者への仲介を行っている。このような用途ではデータセットの通常の提供条件の範囲では利用が認められないことが多く,提供者,利用者の双方にアドバイスを行って調整を手助けしている。また,提供者が企画する研究集会やアイデアソン,ハッカソンなどに講演やデータセット提供といった形での協力も積極的に行っている。
IDRが2016年2月末現在で提供しているデータセットの一覧を表1に示す。この中には民間企業6社から受け入れた13種類とその他4種類のデータセットが含まれる。これらのうち,統計が取れるものについて,2016年2月末現在の利用状況を示す注5)。
ニコニコデータセットを除く民間企業提供データセットについては,利用手続きが完了しデータを配布した利用者数(研究室単位)の合計は延べ482,重複を除いた異なり数は354である。大部分は日本国内の大学および公的研究機関の利用者である。図2には累計の延べ利用者数と,異なり利用者数の推移を示す。延べ利用者数,異なり利用者数ともに,最近2年ほどは新規データセットの提供開始により増加が加速傾向にある。
一方,ニコニコデータセットについては,2013年4月の提供開始からの利用申請者数(登録メールアドレスの異なり数)は1,377(個人単位)であり,所属は大学が565(41.0%),民間が301(21.9%),研究機関が33(2.4%),その他が478(34.7%)となっている。民間や個人などにもこのようなデータセットへの需要がかなりの程度あることが見て取れる。
国文研データセットについては,2015年11月の提供開始から2016年2月末までにダウンロードされた作品数は12万5,216点(同一IPアドレスからの重複を除く)である。アクセス元IPドメインなどの分析はまだ行っていないが,印象としては他のデータセットと比較して商用プロバイダからのアクセスがかなり多く,利用者層が大きく異なっていることがうかがわれる。
データセットを利用した研究成果については,利用者から毎年,発表した論文を報告してもらうこととしている。提供から数年が経過しているYahoo!データセットと楽天データセットについての2014年度末分までの発表論文数の合計は約350となっており,図3にその推移を示す。
その他の民間企業提供のデータセットについても,今後,同様の方法で研究成果の収集を行う予定である。
一方,国文研データセットについてはオープンデータとして公開しており,利用者を把握していないため,利用者からの報告により研究成果を収集することは困難である。今後はデータDOIを付与し,利用者にこれを論文の参考文献に記載してもらうことによって,研究成果を把握できるようにすることが課題となる。
(1)民間企業提供データセット | |
---|---|
【Yahoo!データセット】 | 提供機関:ヤフー(株) |
・Yahoo!知恵袋データ(第1版) 提供2007/04 |
(現在は提供中止) |
・Yahoo!知恵袋データ(第2版) 提供2011/01 |
2004年4月~2009年4月に解決済みとなった質問(約1,600万件)と回答(約5,000万件)。本データを用いたテストコレクション「NTCIR-8 CQA」も併せて提供 |
【楽天データセット】 | 提供機関:楽天(株) |
・楽天市場データ 提供2010/08;更新2011/08,2014/04 |
全商品データ(約1億5,600万件),レビューデータ(約6,400万件) |
・楽天トラベルデータ 提供2010/08;更新2016/01 |
施設データ(約13万件),レビューデータ(約558万件) |
・楽天GORAデータ 提供2010/08;更新2011/08 |
ゴルフ施設データ(1,669件),レビューデータ(約32万件) |
・楽天レシピ 提供2010/08;更新2016/01 |
レシピデータ(約80万件),レシピ画像(約80万枚),Pickupレシピ(1,854件),デイリシャスニュース(362件) |
・楽天オークション 提供2014/04 |
取引評価情報(約1,200万件) |
・アノテーション付きデータ 提供2014/09 |
研究用にアノテーションが付された3種のデータ ・筑波大学文単位評価極性タグ付きコーパス (TSUKUBAコーパス) ・カテゴリラベル付き商品画像データセット ・文字領域アノテーション画像 |
・楽天Viki 提供2016/01 |
Rakuten-Viki Global TV recommender challenge(2015年)で使用されたデータ |
【ニコニコデータセット】 | 提供機関:(株)ドワンゴ,(有)未来検索ブラジル |
・ニコニコ動画コメント等データ 提供2013/04 |
2012年11月初旬までに投稿された動画のメタデータ(約830万件)とコメントデータ(動画データ本体は含まれない) |
・ニコニコ大百科データ 提供2014/03 |
2014年2月上旬までに投稿された全ての記事データと付随する掲示板全データ |
【リクルートデータセット】 | 提供機関:(株)リクルートテクノロジーズ |
・ホットペッパービューティーデータ 提供2014/09 |
2012年1月~2014年1月に掲載された店舗(約8万件),店舗ブログ(約361万件),口コミ(約73万件)など |
【クックパッドデータセット】 | 提供機関:クックパッド(株) |
・クックパッドレシピデータ 提供2015/02 |
2014年9月までに公開されたレシピ(約172万件)とそれを含む献立 |
【HOME'Sデータセット】 | 提供機関:(株)ネクスト |
・賃貸物件データ,画像データ 提供2015/11 (高精細間取り画像データ 提供2016/01) |
不動産・住宅情報サイト「HOME'S」に2015年9月時点で掲載されていた賃貸物件データ(約533万件),間取り図や室内写真などの画像データ(約8,300万枚) |
(2)研究機関・研究者等提供データセット | |
【国文研データセット】 | 提供機関:人間文化研究機構 国文学研究資料館 |
・国文研古典籍データセット(第0.1版) 提供2015/11 |
「日本語の歴史的典籍データベース」の先行公開分の書誌データ(350点),画像データ(約6万3,000枚)など。クリエイティブ・コモンズ 表示-継承4.0国際 ライセンス(CC BY-SA)で公開 |
(3)その他データセット | |
【NTCIRテストコレクション】 | 提供機関:国立情報学研究所 |
・各種タスクデータ 提供2012/09以降(窓口をIDRに移行) |
NTCIRプロジェクトで構築したテストコレクションのうち11分野,27種類のタスクデータ |
・文書データ 提供2012/09 |
NTCIR Webタスク用に主に日本のWebサイトから収集した2種類のWebデータ ・NW100G-01(2001年版,約1,100万文書,100GB) ・NW1000G-04(2004年版,約1億文書,1,400GB)) |
【音声コーパス】 | 提供機関:大学,民間企業等 |
・各種コーパス 提供2010/01(窓口をIDRに統合) |
SRCがさまざまな機関やグループから受け入れた約40種類の多様な音声研究用コーパス |
本稿では,情報学におけるデータセットをめぐり,提供の背景,研究における位置付けや意義,IDRの活動内容,提供と利用の現状などについて記した。
IDRの活動は,民間企業等の実務の中で作成された,通常では共有が難しいデータセットを中心に共同利用に供し,研究の透明性と再現性を高め,多くの多様な分野の研究者に平等に研究の機会を提供するという意味で,オープンサイエンスの推進に貢献するものと考えている2)。
DSCが掲げた目標において,データセット提供は最も基礎となるものであり,その意味でDSCは活動の端緒についたばかりといえる。今後は,情報学や関連諸分野の研究推進のため,提供するデータセットの数を増やすことは無論のこと,データセットの共同利用の深化に向けた新たな取り組みも求められよう。
その1つは,多様な研究を行うために必要となる,性格の異なるデータセットをいかに提供するかという課題である。この課題に取り組む過程では,ライセンスやプライバシーなどの困難な問題を避けて通ることはできないため,DSCでは1つの解決方法としてデータセットを配布しない共有方法の研究開発を計画している。
もう1つは,データセットに対して研究者が付与した付加価値としてのデータを集積し,共有可能とすることで,研究の自律的発展を支援するためのエコシステムを構築することである。それには研究成果を積極的に提供するための動機付けが鍵となり,論文に加えてデータをも評価する仕組みが求められる。これはDSCだけでは解決できない課題であるので,NII内の他組織や国内外の関連団体などと協力しながら取り組んでいきたい。
3つ目は,データセットとともに現実的な研究課題やアイデアを共有するための仕組み作りである。民間企業などが抱える課題を研究コミュニティーが共有し,アイデアを出し合うとともに,技術を競うことにより,イノベーションを加速する,いわばデータセットに基づくオープンイノベーションの場を構築することが望まれる。DSCが中心となって提供者と利用者が参加する共同研究を組織し,取り組みを進めたいと考えており,すでにいくつかの検討を開始している。
これらすべてをDSCだけで行うことは到底できないため,研究者コミュニティーや関係諸機関の協力を仰ぎながら進めていきたいと考えているので,ぜひとも読者諸兄からもご支援をお願いしたい。
国立情報学研究所教授,総合研究大学院大学複合科学研究科教授。1985年東京大学大学院工学系研究科電気工学専攻博士課程修了。工学博士。その後,東京大学文献情報センター助手,学術情報センター助手・助教授・教授を経て現職。データセット共同利用研究開発センター長を兼務。情報検索やWeb情報アクセス・利用技術などの研究に従事。
国立情報学研究所データセット共同利用研究開発センター特任研究員。2006年千葉大学大学院自然科学研究科博士後期課程修了。博士(工学)。2003年日本学術振興会特別研究員。2006年より国立情報学研究所にて音声言語資源の構築・整備やデータセットの共同利用に関する事業に従事。