人間は日常会話において, 様々な連想を行っている.例えば, 「車」という語から「タイヤ」, 「エンジン」, 「事故」, …, といった語を自然に思い浮かべ, 連想によって会話の内容を柔軟に拡大させている.コンピュータ上での連想機能の実現には, 概念ベースが重要な役割を果たす.概念ベースでは, 言葉の意味 (概念) を属性とその重みで定義している.概念ベースの構築方式として, 概念 (約4万語) とその属性を, 電子化国語辞書の語義説明文から抽出する方法が提案されている.しかしながら, 定義的な国語辞書から取得される概念や属性の数が少数であり, 連想の精度に問題がある.
本論文では, 電子化国語辞書の語義説明文から構築した概念ベースを核に, 電子化新聞等の一般的な記事文から共起情報を基に概念ベースを拡大し, 約12万語規模の概念ベースを構築する手法を提案している.概念ベースの拡張においては, まず, 国語辞書の各見出し語に対する語義説明文から基本的な概念に対し, 信頼性の高い属性を取得する.それらを基に, 新聞記事等から抽出した各概念に対する共起語を属性候補として追加する.その後, 属性関連度 (概念と属性の関連の強さ) により不適切な属性 (雑音属性) を除去し, 属性の質を向上させている.また, 各属性に付与する重み (属性重み) は, 概念を属性集合により構成される仮想文書と捉え, 文書処理におけるキーワードの重み付与方法 (
tf・
idf法) の考え方に準拠する方法により求めている.提案手法で構築した概念ベースと国語辞書のみで構築した概念ベースを関連度評価実験により比較評価し, 提案手法で構築した概念ベースが精度的に優れていることを示した.
抄録全体を表示