異なる語彙とトークナイザを用いた言語モデルの事前学習と医療ドメインへの適用

坂根 亜美; 村松 俊平; 堀口 裕正; 狩野 芳伸

doi:10.11517/pjsai.JSAI2024.0_3Xin211

抄録

本研究では，トークナイザの分割方法と語彙サイズの違いが言語モデルBERTに与える影響を調査した．サブワードに基づいたトークナイザは，WordPieceなど形態素解析器の形態素境界を超えないものと，SentencePieceなど意味的境界を考えないものがある．医療などの専門用語や複合語が出現するドメインでは，意味的な単語境界を保持したほうが良い可能性がある．そこで単語単位でトークン化を行うトークナイザとサブワードに基づいてトークン化を行うトークナイザについて，語彙数を変えた場合のトークナイザの学習とBERTモデルの事前学習を行った．そして，JGLUE，Wikipedia固有表現抽出，医療固有表現抽出の3つのタスクでファインチューニングの評価を行い，性能を比較した．また，複合語や専門用語が頻出する医療に特化したモデルについても同様に比較を行い，トークナイザの与える影響を評価した．その結果，医療分野の固有表現抽出においては，医療分野の専門辞書を用いて語彙サイズを増やした場合，サブワードを用いるベースラインよりも性能が上回る事前学習モデルを構築することができた．

著者関連情報

お気に入り & アラート

閲覧履歴

責任著者(Corresponding author)

会議情報

J-STAGEへの登録はこちら（無料）