The Journal of Information Science and Technology Association
Online ISSN : 2189-8278
Print ISSN : 0913-3801
ISSN-L : 0913-3801

This article has now been updated. Please use the final version.

Development of a graph database to support team building in interdisciplinary research
Hisanori WAKAMATSU
Author information
JOURNAL FREE ACCESS FULL-TEXT HTML Advance online publication

Article ID: 2024-013

Details
発表概要

第6期科学技術基本計画のもと,総合知を活用した社会課題の解決やイノベーション推進を図るための取り組みが進められており,各方面において融合研究のあり方とその研究成果の評価について検討が続けられている。

本研究では,融合研究推進を支援するには機関の枠を超えて多様な人材を結集させることが不可欠との観点から,研究活動を包括的に収集,多面的な分析,可視化できるグラフデータベースの構築を目指す。単独機関での運用のみならず,科学研究費助成事業データベース等のオープンデータとも連携し,他機関との情報の連結・展開を可能にする体制構築を普及させ,グラフデータベースが生み出す様々な視点からの分析をもって,チームビルディングを支える汎用的なツールとなることを目標とする。

1. はじめに

総合知とは,異なる分野や専門性を持つ人々の知識や経験を結びつけ,それらを総合的に活用することで,より効果的な問題解決や価値の創造を図るというものである。第6期科学技術基本計画においても総合知の重要性が強調されており,総合知を活用した社会課題の解決やイノベーション推進を図るための取り組みが進められ,データの活用やAI技術の進化を活かした総合知創出に貢献するため,デジタル・ヒューマニティーズや国際共同研究のあり方について議論されている。特に,人文学・社会科学の在り方を研究のインプットからアウトプットまで含めて可視化することは他分野との協働という観点からも重要視されている。

このような背景を受けて,URAのような研究マネジメントを担う人材が融合研究のチームビルディングに関わる場面も増えてきているが,研究者マッチングは多様な視点でチーム構成を検討する必要があり,熟練のURAでも困難な作業である。

これを支援するツールとして,可視化の機能を備え,目的に応じたカスタマイズが可能であり,機関を跨いで共有できる分析資源としてのグラフデータベースの開発を行うことが本研究の目的である。

2. 開発の方針と方法

研究者,研究領域,研究成果,研究活動に関わるデータは個々に繋がりを持ち,巨大なネットワークを形成している。このような大規模データを分析するには,テーブル単位でデータを保持するリレーショナルデータベースよりも個々のデータ単位で「つながり」が保持されるグラフデータベースの方が検索速度に優れている。このようなネットワークは,融合研究においては,さらに多様化・複雑化すると想定され,グラフデータベースの運用環境を整備することは研究活動の効率化につながるはずである。

本研究ではこのグラフデータベースを構築する環境として,Neo Technology社の提供するNeo4jを採用した。Neo4jは複数の要素(ノード)同士がその関係性や相互作用を表すエッジ(リレーションシップ)によって接続されたネットワークグラフとしてデータを表現する。まず,機関の研究活動を可視化するため,必要な属性情報の検討をおこない,Neo4jによるネットワークグラフを構築する。

一方,融合研究の推進には,機関内にとどまらず,機関を超えたつながりへの接続が不可欠である。各機関での運用整備のみならず,複数の大学等が連携できる体制を構築するには,それらをブリッジするデータが必要となる。そのために,「かすがい」となるデータとして,科学研究費助成事業データベース(KAKEN)を活用する。

2.1 自機関研究者グラフデータベース基本骨格の検討

ネットワークグラフとは,複数の要素(ノード)同士がその関係性や相互作用を表すエッジ(リレーションシップ)によって接続されたグラフ構造のことであり,これらに属性情報(プロパティ)を内包させることによって,複雑なデータモデルや関係性を効率的に表現できる。中でも,Neo Technology社の提供するNeo4jはCypherと呼ばれる専用のクエリ言語でグラフデータベースを管理しており,グラフパターンのマッチング,ノードやリレーションシップの検索,更新,削除と言った操作を容易に行うことができる。機関の研究者と研究成果,これらに関連する情報を包括的に管理し,必要な箇所を可視化・抽出するのに最適なツールであると判断して,本研究ではこれを採用してグラフデータベースの基本要素の検討を行った。

この基本骨格の検討は大学共同利用機関の一機関をパイロットモデルとして検討し,その結果を第9回RA協議会(令和5年8月)においても報告した。

現在は,多様な視点での分析を実現するのに必要な属性情報について検討を行っている(図1)。

図1  ネットワークグラフの基本構造

2.2 科研費研究者グラフデータベース構築

融合研究のチームビルディングは,多様なアクターが参加するプロジェクトとなり,そのつながりは,自機関にとどまらず機関の枠を超えた情報源との接続が必要である。その,他機関の研究者とのネットワークを探索可能なデータベースの構築のため,信頼性の高い公的データベースとして,日本学術振興会が運営する科学研究費補助事業データベース(KAKEN)に注目した。国プロレベルの大型外部資金の獲得につながるチームづくりに資する情報源として,現在,基盤研究S,Aの研究種目の全期間のデータベースを構築中である。

3. おわりにー今後の活用と課題

本計画では各機関のグラフデータベースを構築することからスタートしたが,そのベースとなるパイロットモデルの開発については,第9回RA協議会にて報告した。若手フラグに必要な年齢等の人事情報は事務部門にて管理されているものを活用可能であるが,他機関と連携した形での運用については,所内での内規等の整備が必要となる可能性もある。また,融合研究においては,研究成果の所掌範囲も多様となり,どのような属性情報を得るかの検討が必要である。その情報源の一つとして,現在,研究大学コンソーシアムの構成機関限定で試験的に運用されているMIRAI-DXプラットフォームに実装されているPureのfingerプリントの活用を検討中である。MIRAI-DXとは自然科学研究機構の小泉特任教授が主催するプロジェクトで,セクターの枠を超えた各大学のURAが主導して共創を実現させるためのプラットフォームを構築するものである。Pureはエルゼビア社が開発した研究者情報データベースであり,MIRAI-DXにおいては,ScopusやKAKENの情報から研究者ごとの研究関心に基づくfingerprintの情報を提供している。これらの情報を駆使することにより,例えば,中心性解析による機関の強み・弱みの検出やノードのクラスタリングにより新たなコミュニティの検出などの様々な統計分析への活用も期待できる。

計画の全体像として,①各機関でのデータベース構築,②かすがいとなる科研費データベースの構築,③他の機関とのネットワークの接続,という3段階の構造を企図している。それぞれの段階で今後検討が必要なポイントを以下に列挙する。

  1. ①   必要なパーツは何か?

複数のプロジェクトを運営する共同利用機関ではプロジェクトを跨いでテーマや研究人材が交流するという事例がある。例えば,このような機関では“年”を属性情報とする経年的な分析によって研究活動の全体像を把握することできる。どのような属性情報を設定すれば求める分析が可能となるかの検討が必要であろう。

  1. ②   機関をつなぐのに必要ブリッジはどんな姿か?

現在,オープンなデータベースとして,KAKENを元にしたグラフデータベースを構築しているところであるが,これをブリッジとすることで自機関と他機関の研究者をつなぐことが可能になる。計画の全体像として,科研費のデータをかすがいとしてそれぞれの機関をつなぐような構想を立てている(図2)。そのために科研費の種目や期間をどのように設定すればよいか,あるいは他の外部資金の情報を追加する必要があるかなどの検討を行う。

  1. ③   連携するための共通フォーマットは?

MIRAI-DXは,URAの協働を効果的に進めるDXプラットフォーム  その活動を支援するツールとして開発しているものであり,各機関で共通のフォーマットを準備する必要がある。また,このデータベースをハンドリングできる人材の育成・確保のために,マニュアルを整備し,啓蒙活動を展開していく必要がある。

図2  計画の全体構想
 
feedback
Top