会話文では, 言い直しなどの冗長な表現が含まれ, 解析を困難にしている. 本論文では, 言い直し表現は繰り返し型が多く, また, 文節境界に挿入されやすいことに着目して, べた書きで音節標記された会話文を対象に, これを抽出する方法を提案した. 提案した方法は, 言い直しを含んだべた書き音節列をマルコフ連鎖モデルを用いて文節単位に分割する処理と, それによって得られた文節境界を手がかりに文節間の音節列の類似性を評価して言い直し音節列を抽出する処理の2つの処理から構成される. 具体的には, 第1の処理では, 言い直しの表現を含む文節境界の推定に適した文節境界推定法を提案し, 第2の処理では, 文節境界の使い方の異なる3つのマッチングの方法を提案した. また, これらの2つの方法を組み合わせたときの言い直し表現の抽出精度を計算によって推定すると共に, その結果を総合的な実験結果と比較して提案した方法の効果を評価した. ATRの「旅行に関する対話文」のコーパス (その内, 言い直しは106個所) を用いて実験評価した結果によれば, 言い直し表現の抽出精度は第2の処理の方法に強く依存し, 再現率を重視する場合は, 再現率80.2% (その時, 適合率84.2%), また, 適合率を重視する場合は, 適合率94.9% (その時, 再現率52.8%) の精度が得ちれることが分かった.
抄録全体を表示