2022 年 29 巻 2 号 p. 367-394
本論文では,平仮名のみで書かれた日本語文(以下,平仮名文)に対する形態素解析について述べる.平仮名文は,漢字仮名まじり文と比べて,考えられる単語候補が増大するなど,はるかに曖昧性が多いことが知られている.これまでに,平仮名文を主な対象とした形態素解析手法がいくつか開発されているが,その多くが十分な解析精度を得られていない.一部,著名な日本語形態素解析器の漢字仮名まじり文に対する解析精度に匹敵する高い精度を平仮名文に対して達成している従来手法が存在するが,その手法には膨大な解析時間を要するという問題がある.そこで本論文では,平仮名文に対する高精度かつ実用的な速度での解析を目指し,RNN (Recurrent Neural Network) とロジスティック回帰を用いた平仮名文の逐次的な形態素解析手法を提案する.提案手法では,解析の高速化を図るため,単語境界の推定は文字境界ごとに,形態素情報の推定は単語ごとに,文頭から逐次的に実行する.また,解析の高精度化を図るため,各時点において,ロジスティック回帰により局所的な情報に基づいて推定した結果と,RNN により大域的な情報を考慮して推定した結果とを統合し,単語境界や形態素情報を推定する.評価実験の結果,提案手法は,単語分割と形態素情報のすべての一致を正解とする最も厳しい基準において,前述の従来手法を上回る解析精度を達成しつつ,従来手法と比べて 100 倍以上の高速化を実現していることを確認した.