日本語話し言葉コーパスを用いた連語Ngram音声認識の検討

高橋 伸弥; 森元 逞

doi:10.11527/jceeek.2012.0_83

平成24年度電気関係学会九州支部連合大会（第65回連合大会）講演論文集

セッションID: 06-1A-15

DOI https://doi.org/10.11527/jceeek.2012.0_83

会議情報

主催: 電気関係学会九州支部連合大会委員会

会議名: 平成24年度電気関係学会九州支部連合大会

回次: 65

開催地: 長崎大学

開催日: 2012/09/24 - 2012/09/25

日本語話し言葉コーパスを用いた連語Ngram音声認識の検討

*高橋伸弥, 森元逞

著者情報

会議録・要旨集フリー

詳細

抄録

一般に音声認識では，2単語もしくは3単語の連接確率を定義した統計的言語モデルが用いられている．しかし実際に使われる日本語表現においては，定型的な文末表現や熟語表現，慣用句など4単語以上の単語が連接した表現が数多く現れる．これらの確率を学習することは，膨大な学習コーパスが必要なこと，また音声認識処理の計算量が増大することなどから，実用的ではないとされてきた．そこで本研究では，日本語話し言葉コーパスに現れる表現のうち，高頻度かつ定型的な複単語表現（連語）を，Google日本語Ngram統計言語資料を用いて抽出し，それらを統計的言語モデルに組み込む方法について検討する．

責任著者(Corresponding author)

J-STAGEへの登録はこちら（無料）