自然言語処理
Online ISSN : 2185-8314
Print ISSN : 1340-7619
ISSN-L : 1340-7619
確率モデルに基づくパッセージ分類とその応用
岩山 真徳永 健伸
著者情報
ジャーナル フリー

1999 年 6 巻 3 号 p. 181-198

詳細
抄録
本論文では, 文書中のパッセージを考慮して文書にトピックを付与するパッセージ分類という手法を提案し評価する. 従来の文書分類は, 文書全体にトピックを付与していたため, 文書が長くなるにつれトピックの付与精度が悪くなる. 文書が長くなると, 互いに関連の薄いトピックを複数個含む場合が多く, かつ, 各々のトピックは, 文書全体のほんの一部分にしか関連しない場合が多いからである. パッセージ分類では, 個々のパッセージにトピックを付与することでこの問題を解決する. 実験の結果, 従来の文書分類に比べ, 特に長い文書において高い分類精度を得ることができた. パッセージ分類のもう一つの利点は, トピック毎に深く関連するパッセージを集めることができる点である. これは視点を考慮した要約に応用できる. ユーザは興味あるトピック, つまり視点を指定することで, 個々にカスタマイズされた要約を得ることができる. 本論文では, パッセージ分類によって抽出したパッセージ集合が要約として適切かどうかを, パッセージ間の連続度, パッセージによる元文書の被覆度という観点から分析する.
著者関連情報
© 言語処理学会
前の記事
feedback
Top