2021 年 28 巻 2 号 p. 479-507
これまでの自然言語処理において単語分割は,後段タスクに依存しない前処理として行われてきた.そのため,単語分割済みのデータを用いて後段タスクを学習し,後段モデル性能を評価するまで単語分割が適切であったかはわからない.この問題を解決するため本稿は後段タスクに応じて適切な単語分割を行うための新たな手法を提案する.本稿で提案する手法 (OpTok = Optimizing Tokenization) は後段タスクの学習損失値に基づいて,適切な単語分割の確率が高くなるように更新される.OpTok は文書分類のように文ベクトルを計算に用いるタスクに使用することが可能であり,実験結果より提案手法は感情分析や Textual Entailment などの文書分類の性能向上に寄与し,中国語,日本語,英語の三言語に適用可能であることを確認した.さらに,近年注目を集めている BERT に対して提案手法を適用することで,さらなる性能の向上が得られることを確認した.