自然言語処理
Online ISSN : 2185-8314
Print ISSN : 1340-7619
ISSN-L : 1340-7619
要約の内的 (intrinsic) な評価法に関するいくつかの考察
第2回NTCIRワークショップ自動要約タスク (TSC) を基に
難波 英嗣奥村 学
著者情報
ジャーナル フリー

2002 年 9 巻 3 号 p. 129-146

詳細
抄録

システムの出力した要約そのものを評価する方法は, 一般に内的な評価と呼ばれている. これまでの典型的な内的な評価の方法は, 人手で作成した抜粋と要約システムの出力との一致度を, F-measure等の尺度を用いて測ることで行われてきた. しかし, F-measureは, テキスト中に類似の内容を含む文が複数存在する場合, どちらの文が正解として選択されるかにより, システムの評価が大きく変化する, という問題点がある. 本研究では, この問題点を解消するいくつかの評価方法をとりあげ, その有用性に関する議論を行う. F-measureの問題点を解消する評価方法の1つにutilityに基づく評価があるが, この方法では評価に用いるデータ作成にコストがかかるという問題がある. 本研究では, あるテキストに関する複数の要約率のデータを用いることで, 疑似的にutilityに基づく評価を実現する方法を提案する. 提案する評価方法を, 第2回NTCIRワークショップ自動要約タスク (TSC) のデータに適用し, 有用性に関する調査を行った結果, 提案方法は, F-measureの問題点をある程度改善できることが確認された. 次に, F-measureの問題点を解消する他の評価方法の一つであるcontent-basedな評価を取り上げる. content-basedな評価では, 指定された要約率の正解要約を一つだけ用意すれば評価可能であるため, utilityに基づく評価に比べ, 被験者への負荷が少ない. しかし, この評価方法で2つの要約を比較する場合, どの程度意味があるのかについては, これまで十分な議論がなされていない. そこで, pseudo-utilityに基づく評価と同様にTSCのデータを用い, content-basedな評価の結果を被験者による主観評価の結果と比較した結果, 2つの要約がcontent-basedな評価値で0.2以上の開きがあれば, 93%以上の割合で主観評価の結果と一致することが分かった.

著者関連情報
© 言語処理学会
前の記事
feedback
Top