人工知能学会全国大会論文集
Online ISSN : 2758-7347
第37回 (2023)
セッションID: 2D6-GS-3-04
会議情報

日本語BERTにおけるトークナイザの違いによる影響の検証
*伊藤 俊太朗河原 大輔
著者情報
キーワード: 自然言語処理
会議録・要旨集 フリー

詳細
抄録

日本語の様々な言語処理タスクにおいて、事前学習済みの日本語BERTをファインチューニングすることによって高い精度が得られている。日本語BERTの入力テキストは単語やサブワードにトークナイズする必要があるが、単語辞書やサブワード化手法には様々なものが存在する。本研究では、トークナイザが異なる日本語BERTモデルを作成し、事前学習タスクであるマスク言語モデルおよび下流タスクへの影響について検証する。トークナイザの違いによりマスク言語モデルや下流タスクに精度差が生じ、必ずしもマスク言語モデルと下流タスクの性能は依存するわけではないことが明らかとなった。

著者関連情報
© 2023 人工知能学会
前の記事 次の記事
feedback
Top