HTML文書からの単語間の上位下位関係の自動獲得

新里 圭司; 鳥澤 健太郎

doi:10.5715/jnlp.12.125

抄録

本稿では, HTML, 文書より単語間の上位下位関係を自動獲得する手法を提案する.従来より, 単語間の上位下位関係は自然言語処理において重要な知識であると見なされており, 多くの自動獲得手法が提案されてきた.しかし, それらの多くは名詞句の並置などの文の表層的なパターンに注目するものであり, 広範な上位下位関係を獲得することが難しいという問題を抱えている.そのため本稿で提案する手法は, これらとは異なるアプローチをとる.より具体的には, 1) HTMLタグにより与えられるHTML文書の構造, 2) 従来より情報検索などで使われてきたdf, idfなどの統計量, 3) 大量のテキストから獲得した名詞と動詞の係り受け関係, 4) 予備実験より得られた知見に基づくヒューリスティックなルール, の4つの要素を組み合わせることで, 様々な単語間の上位下位関係を自動的に獲得することを目指す.

著者関連情報

お気に入り & アラート

閲覧履歴

責任著者(Corresponding author)

J-STAGEへの登録はこちら（無料）