適合性フィードバックの手法の多くは,テキストに表層的に出現する単語の情報だけを用いて検索結果をリランキングしている.これに対し,本稿では,テキストに表層的に出現する単語の情報だけでなく,テキストに潜在的に現れうる単語の情報も利用する適合性フィードバックの手法を提案する.提案手法では,まず検索結果に対して Latent Dirichlet Allocation (LDA) を実行し,各文書に潜在する単語の分布を推定する.ユーザからフィードバックが得られたら,これに対しても LDA を実行し,フィードバックに潜在する単語の分布を推定する.そして,表層的な単語の分布と潜在的な単語の分布の両方を用いてフィードバックと検索結果中の各文書との類似度を算出し,これに基づいて検索結果をリランキングする.実験の結果,2 文書(合計 3,589 単語)から成るフィードバックが与えられたとき,提案手法が初期検索結果の Precision at 10 (P@10) を 27.6%改善することが示された.また,提案手法が,フィードバックが少ない状況でも,初期検索結果のランキング精度を改善する特性を持つことが示された(e.g., フィードバックに57単語しか含まれていなくても,P@10 で5.3%の改善が見られた).
抄録全体を表示