場所参照表現抽出における言語モデルの時代横断型評価

片山 歩希; 東山 翔平; 大内 啓樹; 坂井 優介; 竹内 綾乃; 坂東 諒; 橋本 雄太; 小木曽 智信; 渡辺 太郎

doi:10.5715/jnlp.32.1103

抄録

歴史的テキストからの場所参照表現の抽出は，大規模な史料に対する人文学的分析を支援するための基盤技術として重要である．本研究では，近世・近代日本語紀行文の場所参照表現抽出ラベル付きデータを構築するとともに，既存の近世災害記録，現代旅行記のラベル付きデータを活用し，これら近世・近代・現代の 3 時代のテキストに対する現代語 Transformer 言語モデル（マスク言語モデル，自己回帰言語モデル）による場所参照表現抽出精度を調査した．実験から，歴史的テキストからの抽出において現代語ラベル付きデータを活用することの有効性を確認した．一方で，現代語テキストで高い抽出精度（最大 F1 値 0.890）が達成されたのに対し，歴史的テキストでは低～中程度の精度（最大 F1 値 0.506–0.739）となり，現代語向けモデルの歴史的テキストへのより良い適応のために，さらなる手法の改善が必要であることも示された．

著者関連情報

Licensed under CC BY 4.0
https://creativecommons.org/licenses/by/4.0/

お気に入り & アラート

閲覧履歴

責任著者(Corresponding author)

J-STAGEへの登録はこちら（無料）