主催: 一般社団法人 人工知能学会
会議名: 2023年度人工知能学会全国大会(第37回)
回次: 37
開催地: 熊本城ホール+オンライン
開催日: 2023/06/06 - 2023/06/09
含意関係認識は重要な技術であるが,不適切な教師ラベルがデータセットに多く含まれることが研究上の課題として挙げられる.本報告ではActive Learning (AL)を活用し不適切なラベル付けの検出を行いうActive Cleanを提案する.Actine Cleanは,まず少ない学習データに基づく予測モデルを構築した後,予測の難しい少量のデータを選抜し,これらに手動で正解ラベルを付与して再学習を繰り返すことで性能向上を図るとともに、不適切ラベルを検出する手法である.本研究で扱うJSNLIデータセットのラベルはサンプル調査で1割程度に誤りがあることが示唆された.このデータに対し,Active Cleanで不適切ラベルデータ候補を検出したところ,そのうち過半数が不適切であると推定された.これらの不適切ラベル候補データを学習データから除いて構築された含意関係認識モデルは,ラベルが正しいことが確認できているテストデータに対して平均予測能が7.8%向上した.このことからActive Cleanは,不適切なラベルが多く含まれているデータを特定することに役立ち,より頑健なモデルを構築できる可能性を示した.