主催: 一般社団法人 人工知能学会
会議名: 2023年度人工知能学会全国大会(第37回)
回次: 37
開催地: 熊本城ホール+オンライン
開催日: 2023/06/06 - 2023/06/09
日本語の様々な言語処理タスクにおいて、事前学習済みの日本語BERTをファインチューニングすることによって高い精度が得られている。日本語BERTの入力テキストは単語やサブワードにトークナイズする必要があるが、単語辞書やサブワード化手法には様々なものが存在する。本研究では、トークナイザが異なる日本語BERTモデルを作成し、事前学習タスクであるマスク言語モデルおよび下流タスクへの影響について検証する。トークナイザの違いによりマスク言語モデルや下流タスクに精度差が生じ、必ずしもマスク言語モデルと下流タスクの性能は依存するわけではないことが明らかとなった。