自動獲得した未知語の読み・文脈情報による仮名漢字変換

笹田 鉄郎; 森 信介; 河原 達也

doi:10.5715/jnlp.17.4_131

抄録

未知語の問題は，仮名漢字変換における重要な課題の 1 つである．本論文では，内容の類似したテキストと音声から未知語の読み・文脈情報をコーパスとして自動獲得し，仮名漢字変換の精度向上に利用する手法を提案する．まず，確率的な単語分割によって未知語の候補となる単語をテキストから抽出する．次に，各未知語候補の読みを複数推定して列挙する．その後，テキストに類似した内容の音声を認識させることによって正しい読みを選択する．最後に，音声認識結果を学習コーパスとみなして仮名漢字変換のモデルを構築する．自動収集されたニュース記事とニュース音声を用いた実験では，獲得した未知語の読み・文脈情報を仮名漢字変換のための学習コーパスとして用いることで，精度が向上することを確認した．

著者関連情報

Licensed under CC BY 4.0
https://creativecommons.org/licenses/by/4.0/

お気に入り & アラート

閲覧履歴

責任著者(Corresponding author)

J-STAGEへの登録はこちら（無料）