自然言語処理
Online ISSN : 2185-8314
Print ISSN : 1340-7619
ISSN-L : 1340-7619
文字間統計情報に基づく口語文字列の自動抽出
延澤 志保斎藤 博昭中西 正和
著者情報
ジャーナル フリー

2001 年 8 巻 3 号 p. 39-57

詳細
抄録

統計情報に基づく自然言語処理が盛んになる中で, 訓練データとしてのコーパスの影響は非常に大きい. 生コーパスをそのまま利用する場合には, コーパスの取得が容易であるため, 目的に合ったドメインのコーパスを大量に入手できるという利点がある. しかし, 生コーパスは人間の言語の性質上, 未登録語や未知の言い回し, 非文とされるような文の出現等を多く含むことがほとんどであり, これらが処理の精度の低下を招くという問題がある. 特に, 口語表現の処理は, 電子メールでの利用等利用頻度の高いものであるにも関わらず, 十分に研究されているとは言い難い. 本稿では, 生コーパスに含まれる未知の語句および言い回しに着目し, 電子メール文書内に出現する意味のある文字列を自動的に抽出する実験を行なった結果について報告する. 本システムは事前に与えられた電子メール文書中の各文字の共起確率を利用して, テストコーパスとして与えられた電子メール文書から意味のある文字列を抽出し出力する. 本システムを利用することで, 同じテストコーパスを既存の形態素解析ツールで解析した結果未登録語として処理された文字列の69.06%を抽出することに成功した.

著者関連情報
© 言語処理学会
前の記事 次の記事
feedback
Top