抄録
言葉の意味処理にとってシソーラスは不可欠の資源である.シソーラスは, 単語間の上位下位関係という, いわば縦の関連を表現するものである.我々は意味処理技術の深化を目指し, 縦の関連に加えて, 単語が使用されるドメインという, いわば横の関連を提案する.本研究では基本語を対象に, ドメイン辞書を半自動で構築した.本手法に必要なのは検索エンジンへのアクセスのみで, 文書集合や高度に構造化された語彙資源等は必要ない.さらに, 基本語ドメイン辞書の応用としてブログ自動分類を行った.各プログ記事は, 記事中の語にドメインとIDF値が付与され, 最もIDF値の高いドメインに分類される.基本語ドメイン辞書に無い未知語のドメインは, 基本語ドメイン辞書, Wikipedia, 検索エンジンを利用して, リアルタイムで推定する.結果として, ブログ分類正解率94.0% (564/600) と, 未知語ドメイン推定正解率76.6% (383/500) が得られた.