2018 年 25 巻 3 号 p. 255-293
本論文では,日本語語義曖昧性解消に存在する問題点を文中のひらがなを漢字に直すかな漢字換言タスクを通して明らかにする.素性について分散表現と自己相互情報量を組み合わせる手法を考案し実験を行った結果,かな漢字換言においてベースラインに比べ約 2 ポイント高い精度を得ることができた.日本語の語義曖昧性解消タスクを用いた検証においても,PMI を用い文全体から適切な単語を素性として加えることが有効であることを示した.かな漢字換言の利点を活かし,大量の訓練データを用いたときのかな漢字換言の精度の比較を行った結果,非常に大きい訓練データを用いた場合分散表現を用いたどの手法でもほぼ同じ精度を得られることがわかった.その一方で同じ精度を得るために必要な訓練データは指数関数的に増えていくため,少ない訓練データで精度を上げる手法が語義曖昧性解消において重要であることを確認した.また,BCCWJ と Wikipedia から作成した訓練データとテストデータを相互に使い実験し,各ドメインにあった訓練データを使うことが精度向上において重要であることを確認した.