Webインテリジェンスとインタラクション研究会 予稿集
Online ISSN : 2758-2922
第3回研究会
会議情報

セッション5:オープンデータ
Wikipediaの表記特徴を利用した別称コーパス生成ツールの開発
山西 良典福本 淳一
著者情報
会議録・要旨集 フリー

p. 57-62

詳細
抄録

本稿では,Wikipediaの構造特徴および表記特徴を利用した別称コーパス生成ツールを開発した.正式名称の他に別称を持つ知識は多く,特にWeb上では別称での記述が多い.提案ツールは,正式名称と「略称」「愛称」「通称」それぞれが対応づいたコーパスを,Wikipediaの構造と表記特徴を利用して生成する.ダイナミックに編集・更新され,固有名詞に関する記事が多く存在するWikipediaを情報源とすることで,日々増加する固有名詞についても対応したコーパスの自動生成が可能となる.評価実験の結果,生成された各コーパスは自動抽出されたコーパスとしては非常に高い精度で別称が収集されていることを確認した.正式名称と別称が対応付いたコーパスを生成することで,Web上で別称を用いて記述された意見・評判の取得が可能となるだけでなく,正式名称からの別称推定研究における学習データとしての応用も期待される.

著者関連情報
2013 この論文のすべての権利と著作権は著者に帰属します。
前の記事 次の記事
feedback
Top