自然言語処理
Online ISSN : 2185-8314
Print ISSN : 1340-7619
ISSN-L : 1340-7619
文書拡張によるキーワード抽出
長町 健太武田 善行梅村 恭司
著者情報
ジャーナル フリー

2007 年 14 巻 1 号 p. 67-86

詳細
抄録

キーワード抽出は情報検索に不可欠な技術の一つである.例えば, 検索速度の短縮や検索精度の改善に利用される.既存のキーワード抽出法としては, 語の統計情報や文書の構文上の特徴に基づくものなどがある.その中で, 辞書を一切用いず, 反復度と呼ばれる統計量のみに基づくキーワード抽出法がある.この方法には, 文書数に上限があるとき複合語が一般的な語に分割されて, 長いキーワードとして抽出できないという問題がある.そこで本論文では, 質問拡張のアイデアを利用して複数文書への繰り返し出現という考えを導入する.そして, この考えを元にキーワード抽出法を提案する.結果として, 提案したキーワード抽出法のF値は上がった.また, これまでに取れなかったキーワードが取れるようになった.結論として, キーワード抽出における文書拡張の有用性を報告する.

著者関連情報
© 言語処理学会
前の記事 次の記事
feedback
Top