2023 年 2023 巻 SWO-059 号 p. 01-
近年,WikidataやDBpediaなどの大規模知識グラフを利用した質問応答や対話システムが研究されている.大規模知識グラフを対象としたエンティティリンキングは,テキストに現れる名前付きエンティティを知識グラフ内の対応するリソースと結びつけるタスクであり,知識グラフを利用するシステムの基盤技術の一つである.既存のエンティティリンキングツールは,エンティティの正式名称を対象としているものが多い.しかし,TwitterやFacebookなどのマイクロブログには,人名・組織名・商品名・作品名などの略称や非公式名が記述されることが多くあり,そのようなエンティティ名に対してエンティティリンキングを行うことは困難である.本研究は,DBpediaを対象としたエンティティリンキングツールの一つであるDBpedia Spotlight(DS)のモデルを再構築し,苗字または名前で表現される日本人名に対するエンティティリンキングの精度向上を目的とする.本目的を達成するために,DBpediaからPersonクラスのインスタンスのラベル(氏名)を抽出する.その後,Wikipedia記事上の表層形とその出現回数および対応するDBpediaリソースのURIが記載されたファイルの中で,氏名を表層形とするデータに対し,氏名を苗字と名前に分割して表層形として追加し,DSモデルを再構築する.既存の日本語DSモデルと本研究で再構築した日本語DSモデル(提案モデル)を用いて,Twitterから集めた苗字または名前が記載されているツイートに対してエンティティリンキングを行い,両モデルを比較評価し,提案モデルの有効性を示した.