音声認識用言語モデルのためのタスク適応化と定型表現の利用

中川 聖一; 赤松 裕隆; 西崎 博光

doi:10.5715/jnlp.6.2_97

抄録

本研究では大規模コーパスが利用可能な新聞の読み上げ音声の認識のための精度の碁い言語モデルの構築を実験的に検討した. N-gram言語モデルの改善を目指し, 以下の3つの点に注目した. まずN-gram言語モデルはタスクに依存するので, タスクに関する大量のデータベースを用いて構築される必要があることに注目し, 共通の大長データベースによる言語モデルをもとに, 同一ジャンルの過去の記事を用いるタスク適応化の方法とその有効性を示す. 次に, 新聞記事は話題が経時的に変化するので数日間～数週間の直前の記事内容で言語モデルの適応化を行なう方法とその有効性を示す. 最後に新聞テキストには, 使用頻度の高い (特殊) 表現や, 固定的な言い回し毛どの表現 (以下, 定型表現と呼ぶ) が多いことに注目し, 複数形態素から成る定型表現を抽出し, これを1形態素として捉えた上で, N-gram言語モデルを構築する方法を杉討し, 有用性を示す.

著者関連情報

お気に入り & アラート

閲覧履歴

責任著者(Corresponding author)

J-STAGEへの登録はこちら（無料）