自然言語解析(NLP),シソーラス,オントロジーを組み合わせて利用するシステムでは知識システムを処理において多くの問題を抱えている.テキストマイニング,対話システム,文書分類などが例としてあげられる.これらのアプリケーション処理では分析フローとして複数のテクノロジーを多段処理する.そのとき,ある語はオントロジーに見つかるがNLPにはなく,処理エラーの原因となる.本研究の目的は多段自然言語処理のこのエラー率を低減することである. 我々の調査では,BTSJ話し言葉コーパスを使った実験においてNLPが抽出できた名詞がWordNetでは60%,DBPediaでは70%が見つからない.また,NLPが抽出できない複合語がWordNetでは260語,DBPediaでは1,300語が見つかる.このような差異を減少させることが言語処理精度を向上させるために重要である.本論文では各処理に紐づけられた辞書データを統合するフレームワークを構築することを提案し,効果とその実現性を示す.
ウェブページからの情報抽出においては,HTMLタグの属性値やタグの繰り返し構造,タグの種類に基づく特徴などを用いた構造化が提案されている.しかし,属性値などはそのウェブページの要素が作る意味的な構造などと必ずしも対応があるわけではない.そこで本研究では,ウェブページを作成するにあたってその見た目が重要視されていると仮定し,ウェブページ内の各要素の表示座標位置とタグの繰り返し構造を活用した情報の構造化を試みた.結果として,見た目(各タグに対応する要素の座標情報)を用いて,属性値を用いるよりも高いrecallとprecisionを得た.
Web上で公開されているLODデータセットの数は増加し続けており、それらを検索するためのデータカタログサイトが多数存在する。データカタログサイトではLODデータセットについてのメタデータを閲覧することができるが、異なるLODデータセット同士の関係についての情報を提示しているサイトは少ない。この研究ではLODデータセット同士の関係性の提示を目的として、LODデータセットで使用されているプロパティの使用傾向を分析した。LODデータセットのジャンルやそれらが作成された年代に着目しプロパティの使用傾向の違いを示す。
専門文書の理解を深める目的で知識データベースに存在する知識を利用する場合,ユーザーが置かれた状況によって必要な知識は異なる.本研究では, ユーザーが読みたい文書に関連する知識を, ユースケースに適した構造を持つナレッジグラフとして出力するシステムを提案する.提案システムはユースケースが持つ属性情報とグラフ抽出方針とを紐付けたオントロジーを備え, ユーザーが入力した属性情報に応じてグラフ抽出方針を選択する.鉄鋼材料分野の論文を読むシーンを想定した実験を行い, 提案システムがユースケースに応じて異なるナレッジグラフを出力することを確認した.
ライフサイエンスのRDFのデータベースは,測定機器の発展に伴い,ますます巨大化し複雑化している.そのような状況のもと,効率的に利用したいデータの関係を洗い出し,その関係を利用して検索をかけるには,適切に定義したRDFデータベースのスキーマを利用できることが望ましい.そこで,ライフサイエンスデータベースにおけるスキーマがどの程度適切に定義されているかを調査し,その分析結果を報告する.
産総研ではNEDOの支援を受けて人工知能と融合する認知的インタラクション支援技術による業務訓練・支援システムの研究開発に取り組んでいる。人とAIの協働においては、実務に携わる人の行動や環境情報をセンシングするとともに人の内的状態を把握し、集積・整備することが重要である。対人業務を対象として、センシング技術やエスノグラ フィカルな手法などを用いることで、実場面における認知的インタラクションを感情面まで含めて測定・理解し、これらをデータベース化することを目指している。本発表では対人業務の認知的インタラクション支援に必要となる領域オントロジーについて議論する。
焼却処理をするためのごみ処理施設においては,クレーンを用いたごみの均質化及び燃焼炉へのごみの投入操作が通常行われている.近年,ごみの均質化のために,ごみクレーンの自動運転システムが研究されているが,現状は単純な動作を繰り返すのみで,昼間帯のように不定期なごみ搬入や事業系一般廃棄物への対応など細やかな対応をするには課題がある.本研究では,クレーン操作の判断において必要となる情報を収集し,ごみ処理施設を自動化するために必要なセンシング情報を整理する.
The Knowledge Graph systematically links knowledge and constructs a semantic network to represent the knowledge domain. Knowledge graphs enable data integration, knowledge discovery and advanced analyses. We have constructed graphical knowledge graphs and provided related services focusing on agriculture activity and crop. This paper discusses not only the process of constructing the knowledge graph in agriculture but also the process of constructing the domain knowledge graph and the points to be noted.
世界中で作成された地図画像は,スマートフォンとの連携により観光コンテンツとして の活用が期待されている.その種類は古地図やイラストマップなど多岐に渡るため,観光の目的に応 じて適切な地図を提供するには,地図画像をクラス分類する必要がある.本論文では,クラスラベル 付き地図画像データセットを構築し,機械学習に基づく画像認識のベースライン性能を報告する.
In recent years, there has been an increasing interest in numerical semantic labeling, in which the meaning of an unknown numerical attribute is assigned by the label of the most relevant attributes in predefined knowledge bases. Previous methods used the p-value in statistical hypothesis testing to estimate the relevance and thus strongly depend on the distribution and type of data domain. In other words, the p-value based similarity is unstable for general cases, where such knowledge is undefined. In this paper, we first point out the p-value based similarity limitations. Second, we proposed the Distribution-Based Similarities where the similarities are derived from the norms of the inverse transform sampling of attribute distributions. Our experiments on City Data and Open Data show that the Distribution-Based Similarities outperforms other the p-value based approaches in the task of semantic labeling for numerical values.
従来の科学技術マップ(サイエンスマップ,Map of Science)は論文間の引用関係に基づくものが多く,競争的資金によるプロジェクト等の引用が蓄積されない文書同士の関係や,論文とプロジェクトの関係を同一画面で可視化分析することは困難である.そこで,我々はこれまで論文やプロジェクトの内容類似度に基づく科学技術マップを開発してきた.開発したマップは論文やプロジェクトの時系列変化,統計情報,特徴語表示などの基本的な機能に加えて,ユーザの求める様々な視点からの分析に向けた動的レイアウト生成機能や,より高度な分析に向けたSPARQL検索結果の可視化連動機能などを提供する.本稿では,開発した科学技術マップの様々な機能や,これらの機能を実現するバックエンドとしてのナレッジグラフの構築,システムの構成,インタラクティブな操作の実現に向けたクラスタリング手法について述べ,分析結果の例について紹介する.
本論文では、雑誌『東南アジア研究』の論文PDFをテキスト化し、そこから地名や人名といった情報を取り出し Linked Data 化することで、論文知識の活用可能性を広げる試みについて紹介する。他のリソースと組み合わせて観光情報として再活用したり、複数の論文間を比較することで広い文脈から知識を位置づけなおしたりといったことを支援する仕組みを構築した。
日本政府は「電子行政オープンデータ戦略」に基づきオープンデータを推進している.法令に関してはXML形式で現行法令が総務省「e-Gov法令検索」より提供されており,その他の行政機関等が保有するさまざまなデータも公開されている.民間事業者等がこれらの情報をさらに利用しやすくするためには,オープンデータの次の展開として Linked Open Data(LOD)が望まれる.行政は法令のもとに執り行われるので,行政機関等が保有するデータをLOD化する際に,RDFデータセット間を相互にリンクするためのハブとして法令のRDFデータセットが有用であると考えられる. 日本では一部改正法令を制定し,法令の改正を行う.一部改正法令には元の法令に対するテキストの挿入・削除・置換が定められており,法令の一部改正においては元の法令のテキストが変更される.したがって,法令の改正は法令文書データのバージョン変更と捉えることができる.法令は不遡及の原則や経過規定などから,過去のバージョンが必要になることが多い.すべてのバージョンが提供されていない限り,過去のバージョンを取得するためには,その時点の直前に行われた改正を見つけ,その改正が反映されている法令集を探す必要がある.これを実現するためには,法令の新規制定や改廃の経過である法令沿革の情報が必要であるが,法令沿革は国立国会図書館「日本法令索引」にてHTML形式でしか提供されていない.これらのことから本研究では,法令LOD,特に法令沿革情報を扱うLODを構築するために法令沿革のオントロジーを設計する. 本研究では,バージョンごとに個別のURIを定義して法令文書データを管理し,法令のバージョンを束ねる抽象概念としての法令(抽象法令)を導入する.これにより抽象概念としての法令と改正のたびに変化するテキストを分離して考えることができる.この法令文書データと抽象法令を基本に法令沿革のオントロジーを設計した. 本研究では,法令のうち法律のみを対象とし,2015年に「日本法令索引」から取得した法律13,440本(明治19年2月から平成27年6月まで)を用いて法令沿革LODを構築した.構築した法令沿革LODに対してSPARQLを用いてデータを取得したり,簡易的なアプリケーションを作成したりして,設計したオントロジーが有用であることを確認した.
マンガを主題に基づいて検索するためには、その主題に関する情報が提供されている必要がある。そのために、電子書籍ストア等ではマンガに主題語を付与しているが、その多くはシンプルなテキストによるキーワードであり、それが表す意味に基づいた検索を行えない。この問題は主題語の語彙を構築することで解決することができるが、膨大な数のマンガの主題の差異を表現できる大規模な語彙の拡充や整備にかかるコストは大きい。本研究では、マンガの主題検索のための主題語彙の構築を目的とし、その拡充と整備を支援する。そのために、拡充が必要な箇所の発見のための主題語彙とマンガの結びつけと、Web上の情報資源を利用した、拡充する語の候補の取得を行った。