TVニュース原稿は, 新聞記事に比べて1記事中の文数が少なく, 1文当たりの文字数も多い. このため, 自動要約としての重要文抽出を行うと, 文単位で選択が行われる為, 情報の欠落が大きい. 本論文では, 記事中に現れる長文を分割出来る条件を設定し, 条件に合う場合は, 短い文に分割するという処理 (短文分割処理) を行った結果が自動要約の基本的技術にどれだけ影響・効果があるのかを調べた. 短文分割は, 基本的に, 動詞, 形容動詞と述語名詞の連用文節を分割の対象とした. また, 分割の自動要約に対する影響については, 評価の尺度として, 各文の重要度による順位付けと文字数圧縮 (不要部分削除) を用いた. 文順位付けの評価では, テキスト中の各文を人手及びシステムによって, その重要度に応じて順位を付けたものを対象とした. 人手により重要と判断された文が, 短文分割により分割された場合に, その分割された文は, どのような順位となると判断されるのかを調べた. その結果, 短文分割により分割された重要文は, 分割後の順位差において「3」以上離れる場合のほうが, 順位差が生じない場合, つまり順位差が「1」の場合より多くあり, 短文分割の効果が見られた. 次に, 記事中の重要文だけではなく全部の文を対象として, 人手とシステムによる順位付けについて短文分割前後での変化をスペアマンの順位相関関係係数を用いて比較した. その結果, 短文分割をすることにより, スペアマンの係数が0.0318~0.065増加し, 文の順位が, 人とシステムにおいてより近いものになることが判明した. 最後に, 文字数圧縮での評価では, 不要部分を特定し, 文字列を削除または言い換えを行う文字数圧縮処理において, 短文分割を行う前後での変化を調査した. 短文分割により削除される文字数は増え, 文字数圧縮後の文字数を元記事の文字数で割る圧縮率において, 2.71%~2.78%減少することが判明し, 短文分割が文字数圧縮に良い効果があることが分かった.
抄録全体を表示