抄録
未知語の問題は,仮名漢字変換における重要な課題の 1 つである.本論文では,内容の類似したテキストと音声から未知語の読み・文脈情報をコーパスとして自動獲得し,仮名漢字変換の精度向上に利用する手法を提案する.まず,確率的な単語分割によって未知語の候補となる単語をテキストから抽出する.次に,各未知語候補の読みを複数推定して列挙する.その後,テキストに類似した内容の音声を認識させることによって正しい読みを選択する.最後に,音声認識結果を学習コーパスとみなして仮名漢字変換のモデルを構築する.自動収集されたニュース記事とニュース音声を用いた実験では,獲得した未知語の読み・文脈情報を仮名漢字変換のための学習コーパスとして用いることで,精度が向上することを確認した.