自然言語処理
Online ISSN : 2185-8314
Print ISSN : 1340-7619
ISSN-L : 1340-7619
基本語ドメイン辞書の構築と未知語ドメイン推定を用いたブログ自動分類法への応用
橋本 力黒橋 禎夫
著者情報
ジャーナル フリー

2008 年 15 巻 5 号 p. 73-97

詳細
抄録

言葉の意味処理にとってシソーラスは不可欠の資源である.シソーラスは, 単語間の上位下位関係という, いわば縦の関連を表現するものである.我々は意味処理技術の深化を目指し, 縦の関連に加えて, 単語が使用されるドメインという, いわば横の関連を提案する.本研究では基本語を対象に, ドメイン辞書を半自動で構築した.本手法に必要なのは検索エンジンへのアクセスのみで, 文書集合や高度に構造化された語彙資源等は必要ない.さらに, 基本語ドメイン辞書の応用としてブログ自動分類を行った.各プログ記事は, 記事中の語にドメインとIDF値が付与され, 最もIDF値の高いドメインに分類される.基本語ドメイン辞書に無い未知語のドメインは, 基本語ドメイン辞書, Wikipedia, 検索エンジンを利用して, リアルタイムで推定する.結果として, ブログ分類正解率94.0% (564/600) と, 未知語ドメイン推定正解率76.6% (383/500) が得られた.

著者関連情報
© 言語処理学会
前の記事 次の記事
feedback
Top