自然言語処理
Online ISSN : 2185-8314
Print ISSN : 1340-7619
ISSN-L : 1340-7619
講演の書き起こしに対する統計的手法を用いた文体の整形
下岡 和也南條 浩輝河原 達也
著者情報
ジャーナル フリー

2004 年 11 巻 2 号 p. 67-83

詳細
抄録

講演音声のような話し言葉の書き起こしや音声認識結果には, 話し言葉特有の表現が数多く含まれており講演録などのアーカイブとして二次利用しにくいため, 文章として適した形態に整形する必要がある. 本稿では, 統計的機械翻訳の考え方に基づいて講演の書き起こしを整形された文章に自動的に変換する方法を提案する. 本研究で扱う処理は, フィラーの削除, 句点の挿入, 助詞の挿入, 書き言葉表現への変換, 文体の統一である. これらの処理を統合的に行うようにビームサーチを導入した. 実際の講演の書き起こしを用いた定量的な評価により統計的な手法の有効性が示され, 句点と助詞の挿入に関して高い精度を得ることができた.

著者関連情報
© 言語処理学会
前の記事 次の記事
feedback
Top