自然言語処理
Online ISSN : 2185-8314
Print ISSN : 1340-7619
ISSN-L : 1340-7619
一般論文(査読有)
言語モデルを用いた漢詩文の返り点付与と書き下し文生成
王 昊清水 博文河原 大輔
著者情報
ジャーナル フリー

2024 年 31 巻 1 号 p. 134-154

詳細
抄録

近年の自然言語処理の研究は,現代語を中心に行われ,多くのタスクで高い性能を達成している.一方,古文やそれに関連するタスクにはほとんど注意が払われてこなかった.漢文は約 2000 年前の弥生時代に中国から日本に伝えられたと推測されており,それ以降日本文学に多大な影響を与えた.現在においても大学入学共通テストの国語において漢文は 200 点の内 50 点を占めている.しかし,中国にある豊富な言語資源に比べ,日本にある漢文の書き下し文資源は非常に少ない.この問題を解決するために,本研究は漢詩文を対象とし,白文と書き下し文からなる漢文訓読データセットを構築する.そして,漢文理解において重要視される返り点付与,書き下し文生成の二つのタスクに対し,言語モデルを用いて精度向上を試みる.また,人間の評価結果と比較することで,最適な自動評価指標について議論する.データセットとコードは https://github.com/nlp-waseda/Kanbun-LM で公開している.

著者関連情報
© 2024 一般社団法人 言語処理学会
前の記事 次の記事
feedback
Top