自然言語処理
Online ISSN : 2185-8314
Print ISSN : 1340-7619
ISSN-L : 1340-7619
Webページのヘッドライン生成のための統計的要約
廣嶋 伸章長谷川 隆明奥 雅博
著者情報
ジャーナル フリー

2005 年 12 巻 6 号 p. 113-128

詳細
抄録

本論文ではwebページからその内容を簡潔に表すヘッドラインを生成する統計的手法を提案する.ヘッドラインは, 内容網羅性・可読性・高圧縮性の3条件を満たす必要がある.提案手法では, 内容網羅性を高めるために, コーパス中の複数の単語に関する素性からSVMを用いて重要語を選択する重要語選択モデルを構築する.さらに, 可読性に優れた文を生成するために, コーパス中の単語の連鎖確率だけでなく, もとの文のスタイルを考慮した文生成モデルを構築する.高圧縮率のために, これらの2つのモデルを用いて, 可読性と内容網羅性を考慮しながら単語をつなぎ合わせてヘッドラインを生成する.実験の結果, 提案した重要語選択モデルを用いることにより, 従来手法よりも内容網羅性の高いヘッドラインを生成できることを示し, 提案した文生成モデルを用いることにより, 従来手法よりも可読性の高いヘッドラインを生成できることを示した.

著者関連情報
© 言語処理学会
前の記事
feedback
Top