自然言語処理
Online ISSN : 2185-8314
Print ISSN : 1340-7619
ISSN-L : 1340-7619
類似学習例の除外とRocchioフィードバックを弱学習アルゴリズムとするAdaBoostによるレレバンスフィードバックの精度向上
中島 浩之
著者情報
ジャーナル フリー

2003 年 10 巻 1 号 p. 47-61

詳細
抄録

レレバンスフィードバックは検索者が与えた検索条件を利用してシステムが選択する文書 (サンプル文書) について, 検索者が必要文書と不要文書を選択し, フィードバックすることで, より正確な文書検索を実現する手法である. レレバンスフィードバックによる検索精度はフィードバックの対象となるサンプル文書の選択方法によって異なる. 通常のレレバンスフィードバックでは検索要求との関連が最も強いと推定される文書をサンプルとするレレバンスサンプリングが用いられるが, これに対して必要文書か不要文書かを分類するのが難しい文書をサンプルとするuncertaintyサンプリングが提案され, より高い検索精度が得られると報告されている. しかしいずれのサンプリング手法も複数の類似した文書をサンプルとして選択することがあるため, 検索精度が十分に向上しない恐れがあった. 本稿ではレレバンスサンプリングおよびuncertaintyサンプリングを改良する手段としてunfamiliarサンプリングを提案する. unfamiliarサンプリングは既存のサンプリング手法において, 新たにサンプルとして加える候補と既存のサンプルの文書問距離を評価し, 既存サンプルの最近傍であればサンプルから排除する. この処理により, 既存サンプルと類似した文書が排除されることにより検索精度が向上される. レレバンスフィードバックを用いた文書検索においては, 少数のサンプル文書で高い精度を得ることが重要になる. 本稿ではAdaBoostにおいてRocchioフィードバックを弱学習アルゴリズムとして用いる手法を提案し, これをRocchio-Boostと呼ぶ. NPLテストコレクションを用いた実験の結果, unfamiliarサンプリングによるサンプリング手法の改良とRocchio-Boostにより従来のRocchioフィードバックとレレバンスサンプリングに対して平均適合率を6%程度向上できることが分かった.

著者関連情報
© 言語処理学会
前の記事 次の記事
feedback
Top