抄録
言語モデルの分野適応において,適応対象の分野の単語境界情報のない生コーパスの有効な利用方法として,確率的単語分割コーパスとしての利用が提案されている.この枠組では,生コーパス中の各文字間に単語境界が存在する確率を付与し,それを用いて単語 n-gram 確率などが計算される.本論文では,この単語境界確率を最大エントロピー法に基づくモデルによって推定することを提案する.さらに,確率的単語分割コーパスを従来の決定的に単語に分割されたコーパスで模擬する方法を提案し,言語モデルの能力を下げることなく計算コストが大幅に削減できることを示す.