ネットニュースグループfj. wantedのダイジェスト自動生成

佐藤 理史; 佐藤 円

doi:10.5715/jnlp.3.2_19

抄録

本稿では, fj. wantedのダイジェストの自動生成を実現する方法について述べる. その中心技術は, ニュース記事からのサマリ抽出法である. この方法は, 言わば「斜め読みを模擬した処理」であり, まず, 表層的な表現を手がかりとして, 42の特徴を抽出し, それらの特徴を用いて, 記事のサマリ (カテゴリとサマリ文) を抽出する. ブラインドデータに対する実験において, 本方法は, カテゴリ判定正解率81%, サマリ文抽出正解率76%という値を示した. 抽出されたサマリはカテゴリ毎に整理され, HTML形式のダイジェストとして出力される. このとき, 元の記事へのポインタは, ハイパーテキストのリンクとして埋め込まれる. 作成されたダイジェストは, WWWのクライアントプログラムによって読むことができる.

著者関連情報

お気に入り & アラート

閲覧履歴

責任著者(Corresponding author)

J-STAGEへの登録はこちら（無料）