抄録
本論文では, Nigamらによって提案されたEMアルゴリズムを利用した教師なし学習の手法を, SENSEVAL2の日本語翻訳タスクで出題された名詞の語義の曖昧性解消問題に適用する. この手法は, ラベルなしデータをラベルを欠損値とする観測データ, その観測データを発生させるモデルをNaive Bayesモデル, このモデルの未知パラメータをラベルcのもとで素性fが起る条件付き確率p (f|c) に設定して, EMアルゴリズムを用いる. 結果として, モデルの識別精度が向上する. ここでは識別のための素性として, 対象単語の前後数単語の原型や表記という簡易なものに設定した. 実験では, ラベル付き訓練データのみから学習したNaive Bayesの正解率が58.2%, 同データから学習した決定リストの正解率が58.9% (Ibarakiの公式成績) であったのに対し, ラベル付き訓練データの他にラベルなし訓練データを用いた本手法では, 61.8%の正解率を得た. また訓練データの一部の不具合を修正することで, Naive Bayesの正解率を62.3%に改善できた. 更に本手法によりそれを68.2%に向上させることができた.