2024 年 31 巻 1 号 p. 134-154
近年の自然言語処理の研究は,現代語を中心に行われ,多くのタスクで高い性能を達成している.一方,古文やそれに関連するタスクにはほとんど注意が払われてこなかった.漢文は約 2000 年前の弥生時代に中国から日本に伝えられたと推測されており,それ以降日本文学に多大な影響を与えた.現在においても大学入学共通テストの国語において漢文は 200 点の内 50 点を占めている.しかし,中国にある豊富な言語資源に比べ,日本にある漢文の書き下し文資源は非常に少ない.この問題を解決するために,本研究は漢詩文を対象とし,白文と書き下し文からなる漢文訓読データセットを構築する.そして,漢文理解において重要視される返り点付与,書き下し文生成の二つのタスクに対し,言語モデルを用いて精度向上を試みる.また,人間の評価結果と比較することで,最適な自動評価指標について議論する.データセットとコードは https://github.com/nlp-waseda/Kanbun-LM で公開している.