自然言語処理
Online ISSN : 2185-8314
Print ISSN : 1340-7619
ISSN-L : 1340-7619
一般論文
テキストベクトルの重みづけを用いた タスクに対する単語分割の最適化
平岡 達也高瀬 翔内海 慶欅 惇志岡崎 直観
著者情報
キーワード: 単語分割, 文書分類
ジャーナル フリー

2021 年 28 巻 2 号 p. 479-507

詳細
抄録

これまでの自然言語処理において単語分割は,後段タスクに依存しない前処理として行われてきた.そのため,単語分割済みのデータを用いて後段タスクを学習し,後段モデル性能を評価するまで単語分割が適切であったかはわからない.この問題を解決するため本稿は後段タスクに応じて適切な単語分割を行うための新たな手法を提案する.本稿で提案する手法 (OpTok = Optimizing Tokenization) は後段タスクの学習損失値に基づいて,適切な単語分割の確率が高くなるように更新される.OpTok は文書分類のように文ベクトルを計算に用いるタスクに使用することが可能であり,実験結果より提案手法は感情分析や Textual Entailment などの文書分類の性能向上に寄与し,中国語,日本語,英語の三言語に適用可能であることを確認した.さらに,近年注目を集めている BERT に対して提案手法を適用することで,さらなる性能の向上が得られることを確認した.

著者関連情報
© 2021 一般社団法人 言語処理学会
前の記事 次の記事
feedback
Top