近年, インターネットや大容量の磁気デバイスの普及によって, 大量の電子化文書が氾濫している. こうした状況を背景として, 文書要約技術に対する期待が高まってきている. 特に, ある話題に関連する一連の文書集合をまとめて要約することが可能となれば, 人間の負担を大きく軽減することができる. そこで本稿では, 特定の話題に直接関連する文書集合を対象とし, 機械学習手法を用いることによって重要文を抽出する手法を提案する. 重要文抽出の手法としては近年, 自然言語処理研究の分野でも注目されている機械学習手法の1種であるSupport Vector Machineを用いた手法を提案する. 毎日新聞99年1年分より選んだ12話題の文書集合を用意し, それぞれの話題から総文数の10%, 30%, 50%の要約率に応じて人手により重要文を抽出した正解データセットを異なる被験者により3種作成した. このデータセットを用いて評価実験を行った結果, 提案手法の重要文抽出精度は, Lead手法, TF・IDF手法よりも高いことがわかった. また, 従来より複数文書要約に有効とされる冗長性の削減が, 文を単位とした場合には, 必ずしも有効でないこともわかった.
抄録全体を表示