抄録
本論文では語義曖昧性解消 (Word Sense Disambiguation, WSD) の領域適応に対する手法を提案する.WSD の領域適応の問題は,2 つの問題に要約できる.1 つは領域間で語義の分布が異なる問題,もう 1 つは領域の変化によりデータスパースネスが生じる問題である.本論文では上記の点を論じ,前者の問題の対策として学習手法に k 近傍法を補助的に用いること,後者の問題の対策としてトピックモデルを用いることを提案する.具体的にはターゲット領域から構築できるトピックモデルによって,ソース領域の訓練データとターゲット領域のテストデータにトピック素性を追加する.拡張された素性ベクトルから SVM を用いて語義識別を行うが,識別の信頼性が低いものには k 近傍法の識別結果を用いる.BCCWJ コーパスの 2 つの領域 PB(書籍)と OC(Yahoo! 知恵袋)から共に頻度が 50 以上の多義語 17 単語を対象にして,WSD の領域適応の実験を行い,提案手法の有効性を示す.別種の領域間における本手法の有効性の確認,領域の一般性を考慮したトピックモデルを WSD に利用する方法,および WSD の領域適応に有効なアンサンブル手法を考案することを今後の課題とする.