抄録
本稿では, 形態素解析の結果から過分割 (正解が分割していないところを形態素解析システムが分割している個所) を検出するための統計的尺度を提案する. もし, 形態素解析の結果から過分割を検出できれば, それを利用して形態素解析結果の過分割を訂正する規則を作成できるし, 人手修正済みのコーパスで除去しきれていない過分割を発見し取り除くこともできるため, そのような尺度は有用である. 本稿で提案する尺度は文字列に関する尺度であり, 文字列が分割される確率と分割されない確率との比に基づいていて, 分割されにくい文字列ほど大きな値となる. したがって, この値が大きい文字列は過分割されている可能性が高い. 本稿の実験では, この尺度を使うことにより, 規則に基づく形態素解析システムの解析結果から, 高精度で過分割を検出できた. また, 人手で修正されたコーパスに残る過分割も検出できた. これらのことは, 提案尺度が, 形態素解析システムの高精度化に役立つこと, 及び, コーパス作成・整備の際の補助ツールとして役立つことを示している.