Wikipedia の記事構造からの上位下位関係抽出

隅田 飛鳥; 吉永 直樹; 鳥澤 健太郎

doi:10.5715/jnlp.16.3_3

抄録

本稿では，Wikipedia の記事構造を知識源として，高精度で大量の上位下位関係を自動獲得する手法について述べる．上位下位関係は情報検索や Web ディレクトリなど，膨大な Web 文書へのアクセスを容易にする様々な技術への応用が期待されており，これまでにも様々な上位下位関係の抽出手法が開発されてきた．本稿では，Wikipedia の記事構造に含まれる節や箇条書きの見出しから，大量の上位下位関係候補を抽出し，機械学習を用いてフィルタリングすることで高精度の上位下位関係を獲得する手法を開発した．実験では，2007 年 3 月の日本語版 Wikipedia 2.2 GB から，約 77 万語を含む約 135 万対の上位下位関係を精度 90% で獲得することができた．

著者関連情報

Licensed under CC BY 4.0
https://creativecommons.org/licenses/by/4.0/

お気に入り & アラート

閲覧履歴

責任著者(Corresponding author)

J-STAGEへの登録はこちら（無料）