自然言語処理
Online ISSN : 2185-8314
Print ISSN : 1340-7619
論文
カテゴリ名と記事名の意味属性分類に基づく Wikipedia からの上位下位関係オントロジーの構築
柴木 優美永田 昌明山本 和英
著者情報
ジャーナル フリー

2012 年 19 巻 4 号 p. 229-279

詳細
抄録

Wikipedia を is-a 関係からなる大規模な汎用オントロジーへ再構成した.Wikipedia の記事にはカテゴリが付与され,そのカテゴリは他のカテゴリとリンクして階層構造を作っている.Wikipedia のカテゴリと記事を is-a 関係のオントロジーとして利用するためには以下の課題がある.(1) Wikipedia の上位階層は抽象的なカテゴリで構成されており,これをそのまま利用してオントロジーを構成することは適切でない.(2) Wikipedia のカテゴリ間,及びカテゴリと記事間のリンクの意味関係は厳密に定義されていないため,is-a 関係でないリンク関係が多く存在する.これに対して我々は (1) を解決するため,上位のカテゴリ階層を新しく定義し,Wikipedia の上位階層を削除して置き換えた.さらに (2) を解決するため,Wikipedia のカテゴリ間,及びカテゴリ記事間の not-is-a 関係のリンクを 3 つの手法により自動で判定し切り離すことで,Wikipedia のカテゴリと記事の階層を is-a 関係のオントロジーとなるように整形した.本論文では not-is-a 関係を判定するための 3 つの手法を適用した.これにより,“人”,“組織”,“施設”,“地名”,“地形”,“具体物”,“創作物”,“動植物”,“イベント”の 9 種類の意味属性を最上位カテゴリとした,1 つに統一された is-a 関係のオントロジーを構築した.実験の結果,is-a 関係の精度は,カテゴリ間で適合率 95.3%, 再現率 96.6%,カテゴリ‐記事間で適合率 96.2%,再現率 95.6%と高精度であった.提案手法により,全カテゴリの 84.5%(約 34,000 件),全記事の 88.6%(約 422,000 件)をオントロジー化できた.

著者関連情報
© 2012 言語処理学会
前の記事 次の記事
feedback
Top