抄録
本稿では, fj. wantedのダイジェストの自動生成を実現する方法について述べる. その中心技術は, ニュース記事からのサマリ抽出法である. この方法は, 言わば「斜め読みを模擬した処理」であり, まず, 表層的な表現を手がかりとして, 42の特徴を抽出し, それらの特徴を用いて, 記事のサマリ (カテゴリとサマリ文) を抽出する. ブラインドデータに対する実験において, 本方法は, カテゴリ判定正解率81%, サマリ文抽出正解率76%という値を示した. 抽出されたサマリはカテゴリ毎に整理され, HTML形式のダイジェストとして出力される. このとき, 元の記事へのポインタは, ハイパーテキストのリンクとして埋め込まれる. 作成されたダイジェストは, WWWのクライアントプログラムによって読むことができる.