抄録
本論文ではブートストラップ法を用いた語彙獲得を行う際に,トピック情報を用いることでセマンティックドリフトを緩和し,獲得精度を向上できることを示す.獲得対象とする語を含む文書の大域的情報であるトピック情報を,統計的トピックモデルを用いて推定し,識別モデルを用いたブートストラップ法における3つの過程で利用する.1つ目は識別モデルにおける素性として,2つ目は負例生成の選択基準として,3つ目は学習データの多義性解消のために用いる.実験において,提案手法を用いることでセマンティックドリフトを軽減し,語彙の獲得精度が6.7から28.7%向上したことを示す.