日本語BERTにおけるトークナイザの違いによる影響の検証

伊藤 俊太朗; 河原 大輔

doi:10.11517/pjsai.JSAI2023.0_2D6GS304

第37回 (2023)

セッションID: 2D6-GS-3-04

DOI https://doi.org/10.11517/pjsai.JSAI2023.0_2D6GS304

会議情報

主催: 一般社団法人人工知能学会

会議名: 2023年度人工知能学会全国大会（第37回）

回次: 37

開催地: 熊本城ホール＋オンライン

開催日: 2023/06/06 - 2023/06/09

日本語BERTにおけるトークナイザの違いによる影響の検証

*伊藤俊太朗, 河原大輔

著者情報

キーワード: 自然言語処理

会議録・要旨集フリー

詳細

抄録

日本語の様々な言語処理タスクにおいて、事前学習済みの日本語BERTをファインチューニングすることによって高い精度が得られている。日本語BERTの入力テキストは単語やサブワードにトークナイズする必要があるが、単語辞書やサブワード化手法には様々なものが存在する。本研究では、トークナイザが異なる日本語BERTモデルを作成し、事前学習タスクであるマスク言語モデルおよび下流タスクへの影響について検証する。トークナイザの違いによりマスク言語モデルや下流タスクに精度差が生じ、必ずしもマスク言語モデルと下流タスクの性能は依存するわけではないことが明らかとなった。

責任著者(Corresponding author)

会議情報

J-STAGEへの登録はこちら（無料）