我々はこれまで日本語Wikipediaを情報資源として,大規模で汎用的なオントロジーの学習手法に関する研究を行ってきた.本報では我々が構築した日本語Wikipediaオントロジーの利用への取り組みとして,Linked Open Data等へのアプローチを紹介する.
現在のセマンティック技術では、「主語+述語+目的語」の三つ組を組み合わせることによってLinked Dataを構成するが、この方法では複雑な情報の記述は容易ではない。本発表では、自然言語の文法を抽象化した人工的な文法に従って文章を書くことによってLinked DataあるいはLinked Informationを作成する方法を提案する。
Linked Dataとしてメタデータを公開する取り組みが広まっている。Open RefineのプラグインであるRDF Refineは、Excel等で作成したデータをRDFに変換することができる。しかしながら、RDF Refineではメタデータスキーマを再利用することができない。本稿では、DCMIが提案するDescription Set Profileに基づき、RDF Refineを用いたメタデータ作成支援手法を提案する。
岡山県観光連盟では域内のイベント情報をcsv形式で公開している.発表では,これのLOD(rdf形式)への加工とバス路線案内などとの連携について紹介する.また岡山県のオープンデータをめぐる状況についても触れる.
「データシティ」の看板を掲げる福井県鯖江市が公開するオープンデータを用いてSPARQL Endpointを構築し、さらにそれを活用するスマートフォンアプリ「さばえぶらり」を開発した。この事例から、LODを用いたデータの連携について議論する。
OWL意味論は,Direct Model-Theoretic SemanticsとRDF-Compatible Model-Theoretic Semanticsの二つの意味論によって展開されているが,Direct Mode-Theoretic SemanticsはRDF 意味論で用いられた表示意味論に基づいていないため,またRDF-Compatible Model-Theoretic Semanticsにおいてもその展開が表層的なレベルにとどまっているため,かえってRDF/OWL意味論の深い理解を妨げている.本論文ではRDF意味論のベースである表示意味論をOWL意味論の議論にも徹底させ,OWL Fullの理解を可能にさせる真のRDF-CompatibleなOWL意味論を展開する.
本研究では,オントロジーにおけるis-a階層を利用し,その内容洗練の方法を考察する.良いオントロジーには,部分的にis-a階層が相似形となる部分が多く見られるという性質を利用し,オントロジー構築者に概念またはスロットの追加を提案し,内容洗練支援を行う.
創薬やバイオレメディエーション(微生物や植物を用いた土壌・水質汚染の浄化)などの研究分野では,タンパク質の構造と機能を知ることは重要なテーマである.研究対象の系(物質の選択と実験方法の組合せ)をデータベースからオントロジーでしぼり込み,機械学習やシミュレーションを実行することで,生物実験のコスト軽減が期待できる.本研究では農学生命科学および創薬分野におけるプロテオミクスで,タンパク質-リガンド結合部位ペアのデータベースの構築手法としてLODを活用していることを示した.原子間距離のデータをタンパク質立体構造および低分子化合物データベースのRDFでアノテーションすることができた.また,タンパク質配列データベースをLODに加えるために,クラウド環境でのトリプルストアのパフォーマンス計測により大規模なRDFを運用するための指標を得ることができた.これは生命科学のアプリケーションを開発していく上で役に立つだろう.