抄録
データベースを利用した統計データ分析において、同じ対象を指示する
記述のグループ化は避けて通ることができない重要な前処理である。特
に大規模なデータベースで表記のばらつきが大きい場合には、辞書や正
規化ルールの構築に要するコストは大きなものになる。そこで本稿では、
名前同定の自動化の可能性について検討し、(i) 与えられた任意の2つ
の記述が同じ対象を指示するかどうかを判定する2値分類器、および
(ii) 同一指示の記述どうしを結んで得られるネットワーク構造上での
グラフ・クラスタリングの適用について考察する。