人工知能学会全国大会論文集
Online ISSN : 2758-7347
第38回 (2024)
セッションID: 3Xin2-11
会議情報

異なる語彙とトークナイザを用いた言語モデルの事前学習と医療ドメインへの適用
*坂根 亜美村松 俊平堀口 裕正狩野 芳伸
著者情報
会議録・要旨集 フリー

詳細
抄録

本研究では,トークナイザの分割方法と語彙サイズの違いが言語モデルBERTに与える影響を調査した. サブワードに基づいたトークナイザは,WordPieceなど形態素解析器の形態素境界を超えないものと,SentencePieceなど意味的境界を考えないものがある.医療などの専門用語や複合語が出現するドメインでは,意味的な単語境界を保持したほうが良い可能性がある. そこで単語単位でトークン化を行うトークナイザとサブワードに基づいてトークン化を行うトークナイザについて,語彙数を変えた場合のトークナイザの学習とBERTモデルの事前学習を行った.そして,JGLUE,Wikipedia固有表現抽出,医療固有表現抽出の3つのタスクでファインチューニングの評価を行い,性能を比較した.また,複合語や専門用語が頻出する医療に特化したモデルについても同様に比較を行い,トークナイザの与える影響を評価した.その結果,医療分野の固有表現抽出においては,医療分野の専門辞書を用いて語彙サイズを増やした場合,サブワードを用いるベースラインよりも性能が上回る事前学習モデルを構築することができた.

著者関連情報
© 2024 人工知能学会
前の記事 次の記事
feedback
Top