抄録
一般に、テキストは複数の文から形成されており、文間には何らかの意味的なつながりがある.テキスト中の意味的にまとまったある範囲が, 談話セグメントや意味段落と呼ばれる一貫性のある談話の単位を構成する. また, 談話セグメント間の関係によってテキスト全体の談話構造が形成される. こうしたことから, セグメント境界の検出は, テキスト構造解析の第一歩であると考えられる. テキスト中には, セグメント境界の検出に利用できる多くの表層的手がかりが存在する. 本稿では, 複数の表層的手がかりを組み合わせて日本語テキストのセグメント境界を検出する手法について述べる. セグメント境界の検出は, 複数の手がかりのスコアを基に各文間のセグメント境界への成り易さあるいは成り難さを表す文間スコアを計算することで行われる. 文間のスコアは, 各手がかりのスコアに重要度に応じた重みをかけ, この重み付きスコアを足し合わせることにより計算する. 本稿では, 各手がかりへの重み付けを人手によらず, 訓練データを用いた統計的手法により自動的に行う手法について述べる. また複数の手がかりの中で, 実際にセグメント境界の検出に有効な手がかりだけを選択することで訓練データへの過適合を避ける手法についても述べる.