Journal of Information Processing and Management
Online ISSN : 1347-1597
Print ISSN : 0021-7298
ISSN-L : 0021-7298
Meeting
NII-IDR User Forum 2016
Yoji KIYOTA
Author information
JOURNAL FREE ACCESS FULL-TEXT HTML

2017 Volume 59 Issue 12 Pages 867-871

Details

  • 日程   2016年11月30日(水)
  • 場所   国立情報学研究所(NII) 19階会議室ほか(東京都千代田区)
  • 主催   国立情報学研究所
  • 協賛   情報処理学会,データベースシステム研究会,電子情報通信学会,食メディア研究会
  • 協力   アカデミック・リソース・ガイド株式会社

1. はじめに

情報学およびコンピューターサイエンスの分野では,ディープラーニングに代表される人工知能関連技術の研究が盛んになっているが,このような研究が成果を上げるためには,実社会で生成された大量のデータが欠かせない。WWW1)やWSDM2)などのトップレベル国際会議では,企業などが保有・整備する巨大なデータセットを利用した発表が大半を占める。しかし,ほとんどのデータセットは米国を中心に整備されており,日本の研究コミュニティーの存在感は大きくない。

データセットの研究資源としての共有には,いくつかの課題がある。大山氏ら3)は,(1)データ利用者とデータ提供者をマッチングする仕組みの不在,(2)データの不適切な利用が企業活動に与えるリスク,(3)企業側の担当者が社内の経営者や事業部門から理解を得なければならないこと,(4)企業側が個々の研究者とやりとりするにあたっての手間,などが障害になるとしている。

国立情報学研究所 情報学研究データリポジトリ3)4)(以下,NII-IDR)は,これらの障害を取り除き,あるいは軽減することによって,企業などが保有する有用なデータをより多くの研究者に提供することを目的に,NII教授の大山敬三氏がセンター長を務めるデータセット共同利用研究開発センターによって運営されている。2016年11月現在,民間企業7社が提供するデータセット,NTCIR プロジェクト注1)5)のテストコレクション,および音声・会話コーパス,映像データベースが提供されている。

NII-IDRユーザフォーラム20166)は,データセットを提供する企業と利用者が一堂に会し,直接意見交換できる場を設けることを目的に,初めての試みとして開催された。当初の想定を超える100名以上の参加者を得て,いずれのセッションも盛況であった(1)。本記事では,招待講演およびパネルディスカッションで提起されたトピックを中心に報告する。

図1 オープニングセッション

2. データセット利用者の立場からの提言

午前中の招待講演セッションでは,NII-IDRのデータセット利用者の立場から,東京大学准教授の山崎俊彦氏と,関西学院大学教授の角谷和俊氏による講演が行われた(2)。

山崎氏による講演「不動産テック:ICTを利用した不動産革命とNII-IDRデータセットへの期待」では,HOME'Sデータセット7)を活用した家賃の回帰分析や直感的な間取り検索システムの研究紹介とともに,データセット整備の意義および今後の課題についての提言があった。山崎氏の専門分野である画像処理研究の世界では,ImageNet注2)8)をはじめとした学術界・産業界で整備されつつある巨大なデータセットの存在が不可欠であることに触れたうえで,NII-IDRでは以下に挙げる事項が今後の課題になるという考え方が示された。

  • (1)   ただ企業が保有するデータをそのまま出すのではなく,共通タスクの設定や正解データの作成,コンテストの開催などの動機付けも含めたデータセットの「デザイン」が求められること
  • (2)   Git注3)によるソースコード共有など,研究成果の共有やフィードバックがなされる仕組みづくり
  • (3)   実サービスでの実証実験など,より強い産学連携の取り組み

一方,角谷氏による講演「オンライン情報サービスのデータ特性を用いた情報分析・推薦システム」では,楽天データセット9)の商品カテゴリ構造データを用いたアイテム推薦システム10),クックパッドデータセット11)のレビュー投稿データ「つくれぽ」を用いた料理タイトル自動生成12)など,NII-IDRの資源を活用した多数の興味深い研究が紹介された。実世界のデータからの発想およびデータによるアイデアの検証のループがうまく回っていることや,実世界のデータ活用が国際会議での受賞など高い評価につながっていることが強調されていた。また,すでに提供されているデータセットに関連する他のデータ(ユーザーのアクセスログデータなど)が拡充されることへの期待も表明した。

図2 招待講演の様子

3. データセット提供者の立場からの議論提起

招待講演に続いて,NII-IDRユーザフォーラム2016の参加企業である6社の担当者(筆者を含む)が登壇するパネルセッションが行われた(3)。各パネリストから,データセット提供の目的や経緯,提供によって得られた成果などが紹介された後,主に以下に挙げるテーマについての議論が交わされた。

図3 パネルセッション

(1) ステークホルダーの理解

各企業が保有するデータ資源の背景には,ビジネスにかかわる多様なステークホルダー(消費者,取引先,社内の事業部門,経営陣など)が存在する。データセットの提供にあたっては,すべてのステークホルダーからの理解を得ることが不可欠である。

リクルートテクノロジーズ社の櫻井一貴氏は,リクルートデータセット13)の提供開始にあたって感じた悩みとして,事業部門にとってのデータセット提供の費用対効果の課題に言及した14)。データベースからのデータ抽出や個人特定につながる情報のマスキングなどに多大な工数がかかること,それらのコストに見合う成果が得られる見込みがあるかどうかは,各社に共通する課題のようである。データセット提供も含む産学連携の取り組みを,経営戦略の中でどのように位置付け,事業に生かす仕組みを構築するかが,筆者の所属企業も含めて重要なテーマであると感じた。

(2) フィードバックとしての研究成果の収集・活用

参加者から寄せられた「データセットを利用した研究発表論文を読んでいますか」という質問をきっかけに議論が盛り上がった。ドワンゴ社が提供するニコニコデータセット15)以外のデータセットでは,研究発表リストの報告を利用者に義務づけている。パネリストの多くは,大部分を読んではいるものの,得た知見を社内に届け,イノベーション創出に生かすまでには道半ばであるという点で各社とも意見が一致した。クックパッド社の原島純氏は,「料理に関する研究が広がる」「研究者が先行研究との比較を行うのが容易になる」というデータセット提供の目的は達成できているものの,ユーザーに研究成果を価値として届けるところはこれからの課題だとしている16)。山崎氏が提起した「強い産学連携の取り組み」をどう実践するかにも議論が及び,米国企業と同じように大学の研究者を訪問研究者として受け入れることで,企業外に出せないデータへのアクセスを可能にする仕組みも検討すべきではという意見も出された。

ニコニコデータセットは,他社のものと異なり,研究目的であれば誰でも(研究者ではない個人でも)利用可能となっている。ドワンゴ社の小田桐優理氏は,研究発表の報告を利用者に義務づけていないためすべての研究は把握できていないものの,個人ブログなどで発信している取り組みについては積極的に収集していると述べた。NIIの大須賀智子氏からは,NII-IDRにおいて,各データセットにデジタルオブジェクト識別子(DOI)を付与し,DOIによる引用を義務づけることで,研究成果を収集しやすくする取り組みを検討していることが紹介された。

(3) データセット利用の動機付け

データセット利用者にとっては,研究成果が業績として認められることが必要である。日本の研究コミュニティーが国際的に存在感を発揮するためには,国際会議や英文論文誌に日本のデータセットを用いた研究発表が採択されることも非常に重要である。筆者がHOME'Sデータセットに寄せられている要望として言及した「評価用データ」や「海外の研究者からのアクセシビリティー確保」などの研究業績に直結する要素17)についても議論が交わされた。

評価用の正解データの必要性は前述のとおり山崎氏が言及しており,楽天データセットに付与されているアノテーション付きデータについても話題に上った。また,Yahoo! データセット18)および楽天データセットについては,すでに英語版の申請書や契約書が整備されていることも紹介された。NII教授の神門典子氏からはNTCIR-13 OpenLiveQタスク19)におけるYahoo!知恵袋の実サービス環境での評価実験の紹介があり,今後は,NTCIRのようなタスク共有,中でもOpenLiveQタスクのような実サービスを共通プラットフォームとして利用する取り組みや,国際的に影響力をもちうる研究課題の設定なども必要になるだろう,という議論がなされた。

(4) データセット更新の課題

NII-IDRのデータセットの大半は固定されたスナップショットデータであり,更新頻度は高くない。スナップショットデータは研究の再現性という側面ではメリットがあるものの,角谷氏が言及したデータに基づいた発想および検証という実世界データセットのよさを生かすという側面では,可能な限り最新のデータが得られる仕組みがあることが望ましい。一方で,前述のように実サービスからデータを抽出するためには多大なコストがかかっているという現状がある。また,企業は実サービス上の要求によって一部データを削除せざるをえないこともあり,更新前のデータセットへのアクセスを認めるかどうかも問題になる。

パネルディスカッションでも,データセット更新の課題および可能性に議論が及んだ。不満調査データセット20)を提供する不満買取センター社の中島正成氏は,データセットの更新を検討していることに触れたうえで,実サービスから定期的に取得してデータセットを更新できる仕組み構築への取り組みを提言した。今後は,NII-IDRを運営するデータセット共同利用研究開発センターを中心として,こういった仕組みを構築することが重要なテーマになるだろう。

4. 参加者からの期待

午後のポスターセッションでは,各社が提供するデータセットを利用した21件のポスター発表が行われ,企業担当者や一般参加者が熱心に聞き入っていた(4)。発表の過半は学生によるものであり,自分の研究へのフィードバックを企業から得る機会をもちたいという大きなニーズを感じた。

続いて行われた個別企画セッションでは,おのおののデータセットに焦点を当てて,企業担当者と利用者との間で密度の高い意見交換がなされた。筆者も含め,各企業担当者はいずれも極めて有益なフィードバックを得られたという感想をもった。

NII-IDRユーザフォーラムは,データセット提供企業および研究者を主な参加者層と想定して開催されたが,データセットをまだ提供していない企業の担当者も多数参加していた。データセット提供も含めた産学連携やオープンイノベーションの取り組みに,多くの企業が関心を抱いているという印象をもった。

図4 ポスターセッション

5. おわりに

筆者の所属企業ではデータセットの提供を開始してから1年が経過したが,さまざまな分野の研究者との情報交換の接点をもてた点が,これまでのところ最大の収穫であると感じている。このような新たなつながりをイノベーション創出につなげる仕組みづくりが,筆者にとっての大きなテーマである。

今回のユーザフォーラム開催の試みは各参加企業からも大変好評であったことから,クロージングでは大山氏から2017年以降もぜひ開催したいとの意向が示された。「情報管理」読者の皆さまには,NII-IDRの今後の動向に引き続きご注目いただけると幸いである。

(株式会社ネクスト リッテルラボラトリー 清田陽司)

本文の注
注1)  NTCIRとは,NII Testbeds and Community for Information access Researchの略で,「エンティサイル」と呼称。情報検索,質問応答,要約,テキストマイニング,機械翻訳など,情報の理解や活用を支援する技術の大規模な評価基盤を国内外の多数の研究者が共有し,その共通基盤のうえでそれぞれの研究を進め,検証,比較評価を行うことを目的として,1997年より開始されたプロジェクトである。おおむね1年半を1サイクルとして,共通タスクの設定・実施,ベンチマーク用のデータセット構築,国際会議の開催が行われており,現在はNTCIR-13のタスク実施に向けた準備が進められている。

注2)  英語の概念辞書であるWordNetの同義語セット(synset)に対応付けられた画像データベースであり,画像物体認識の研究促進を目的としている。用途は非商用利用に限られている。2016年12月現在,2万件以上のsynsetに対応付けられた1,400万点以上の画像データベースが構築されている。2012年に開催されたImageNet Large Scale Visual Recognition Challenge (ILSVRC 2012)にて,ディープラーニングによる手法を採用したチームがImageNetの画像物体認識タスクで圧倒的に高い精度を達成したことが,ディープラーニングの有効性が広く認識されるきっかけとなった。

注3)  プログラムのソースコードなどの変更履歴を記録・追跡するための分散型バージョン管理システムの一つ。Linuxカーネルのソースコード管理を目的にLinus Torvaldsによって開発され,現在では多数のプロジェクトで採用されている。GitのホスティングサービスとしてはGitHub (https://github.com/)が著名であり,プレプリントサーバーの代表格であるarXivとあわせて,コンピューターサイエンス分野での素早い研究成果の共有に活用されている。

参考文献
 
© 2017 Japan Science and Technology Agency
feedback
Top