主催: 一般社団法人 人工知能学会
会議名: 2024年度人工知能学会全国大会(第38回)
回次: 38
開催地: アクトシティ浜松+オンライン
開催日: 2024/05/28 - 2024/05/31
本研究では,トークナイザの分割方法と語彙サイズの違いが言語モデルBERTに与える影響を調査した. サブワードに基づいたトークナイザは,WordPieceなど形態素解析器の形態素境界を超えないものと,SentencePieceなど意味的境界を考えないものがある.医療などの専門用語や複合語が出現するドメインでは,意味的な単語境界を保持したほうが良い可能性がある. そこで単語単位でトークン化を行うトークナイザとサブワードに基づいてトークン化を行うトークナイザについて,語彙数を変えた場合のトークナイザの学習とBERTモデルの事前学習を行った.そして,JGLUE,Wikipedia固有表現抽出,医療固有表現抽出の3つのタスクでファインチューニングの評価を行い,性能を比較した.また,複合語や専門用語が頻出する医療に特化したモデルについても同様に比較を行い,トークナイザの与える影響を評価した.その結果,医療分野の固有表現抽出においては,医療分野の専門辞書を用いて語彙サイズを増やした場合,サブワードを用いるベースラインよりも性能が上回る事前学習モデルを構築することができた.