自然言語処理
Online ISSN : 2185-8314
Print ISSN : 1340-7619
ISSN-L : 1340-7619
同義語辞書作成支援システム
寺田 昭吉田 稔中川 裕志
著者情報
ジャーナル フリー

2008 年 15 巻 2 号 p. 39-58

詳細
抄録
同義語の同定は, 情報検索, テキストマイニングなどのテキスト処理を行う上で必要な作業である. 同義語辞書を作成することにより, テキスト処理の効率や精度の向上を期待できる. 特定分野における文書には, 専門の表現が多く用いられており, その中には, 分野独特の同義語が多量に含まれている. 例えば, 日本語の航空分野では, 漢字・ひらがなだけでなく, カタカナ, アルファベット, およびそれらの略語が同義語として用いられている. この分野の同義語は, 汎用の辞書に登録されていないものが多く, 既存の辞書を使用できないので, 辞書を新たに作成する必要がある. また, 辞書作成後も常に新しい語が発生するので, 辞書の定期的な更新が必要となるが, それを人手で行うのは大変な作業である.
本論文では, 同義語辞書作成を半自動化するシステムを提案する. システムは, ク エリが与えられると意味的に同じ候補語を提示する. 辞書作成者は, その中から同 義語を選択して, 辞書登録を行うことができる. 候補語のクエリに対する類似度は, 同義語の周辺に出現する語の頻度情報を文脈情報とし, その余弦から計算する. 文脈情報のみでは十分な精度が得られない場合, 既知の同義語を知識としてシステム に与えることにより, 文脈語の正規化を行い, 精度を向上できることを確認した.実 験は, 航空分野の日本語のレポートを対象とし, システムの評価には平均精度を用いて行い, 満足できる結果が得られた.
著者関連情報
© 言語処理学会
前の記事 次の記事
feedback
Top