自然言語処理
Online ISSN : 2185-8314
Print ISSN : 1340-7619
ISSN-L : 1340-7619
HTML文書からの単語間の上位下位関係の自動獲得
新里 圭司鳥澤 健太郎
著者情報
ジャーナル フリー

2005 年 12 巻 1 号 p. 125-150

詳細
抄録
本稿では, HTML, 文書より単語間の上位下位関係を自動獲得する手法を提案する.従来より, 単語間の上位下位関係は自然言語処理において重要な知識であると見なされており, 多くの自動獲得手法が提案されてきた.しかし, それらの多くは名詞句の並置などの文の表層的なパターンに注目するものであり, 広範な上位下位関係を獲得することが難しいという問題を抱えている.そのため本稿で提案する手法は, これらとは異なるアプローチをとる.より具体的には, 1) HTMLタグにより与えられるHTML文書の構造, 2) 従来より情報検索などで使われてきたdf, idfなどの統計量, 3) 大量のテキストから獲得した名詞と動詞の係り受け関係, 4) 予備実験より得られた知見に基づくヒューリスティックなルール, の4つの要素を組み合わせることで, 様々な単語間の上位下位関係を自動的に獲得することを目指す.
著者関連情報
© 言語処理学会
前の記事
feedback
Top