抄録
本論文では, 知識に依存しない, 高い曖昧性削減能力を持つ新しい言語モデルを提案する. このモデルはsuperwordと呼ぶ文字列の集合の上のn-gramとして定義され, 従来の単語や文字列のn-gramモデルを包含するものになっている. superwordは訓練テキスト中の文字列の再現性のみに基づいて定義される概念であり, Forward-Backwardアルゴリズムによって学習される. 実験の結果, superwordに基づくモデルと文字のtrigramモデルを複数融合させたモデルの優位性が示され, 形態素解析に基づく方法および高頻度文字列に基づく方法を上回る性能が得られた.