2015 年 22 巻 4 号 p. 225-250
本稿は機械学習を用いて関連語・周辺語または説明文書から適切な検索用語を予測する手法を提案する.機械学習には深層学習の一種である Deep Belief Network (DBN) を用いる.DBN の有効性を確認するために,用例に基づくベースライン手法,多層パーセプトロン (MLP),サポートベクトルマシン (SVM) との比較を行った.学習と評価に用いるデータは手動と自動の 2 通りの方法でインターネットから収集した.加えて,自動生成した疑似データも用いた.各種機械学習の最適なパラメータはグリッドサーチと交差検証を行うことにより決定した.実験の結果,DBN の予測精度はベースライン手法よりはるかに高く MLP と SVM のいずれよりも高かった.また,手動収集データに自動収集のデータと疑似データを加えて学習することにより予測精度は向上した.さらに,よりノイズの多い学習データを加えても DBN の予測精度はさらに向上したのに対し,MLP の精度向上は見られなかった.このことから,DBN のほうが MLP よりもノイズの多い学習データを有効利用できることが分かった.