複数のトピックからなる文章を, それぞれのトピックに切り分けることをテキスト分割と呼ぶ. テキスト分割は, 情報検索や要約のための基本技術として有用である. 本稿では, 分割確率最大化という観点からテキスト分割を定式化した. その定式化の特色の一つは, テキスト内の単語しか, 確率推定に利用しないことである. そのため, 提案手法は, 任意の分野のテキストに対して適用できる. 提案手法の有効性は二つの実験により確認された. まず, 実験1では, 公開データに対して提案手法を適用することにより, 提案手法の分割精度が従来手法の分割精度よりも優れていることが示された. 次に, 実験2では, 長い文書の元々の章や節の構造と提案手法による分割結果とを比較した結果, 厳密な一致のみを正解とする場合, 章には0.37, 節には0.34の割合で一致し, ±1行のずれを許容する場合, 章には0.49, 節には0.51の割合で一致した. これらのことは, 提案手法が, テキスト分割に対して有効であることを示している.
抄録全体を表示