2025 年 32 巻 3 号 p. 829-858
本研究では,データ拡張が固有表現抽出 (Named Entity Recognition; NER) タスクにおける不確実性推定性能に与える影響を調査する.ヘルスケアや金融などの安全性が極めて重要な領域でNERを活用するには,事前学習済み言語モデルを含むディープニューラルネットワーク (Deep Neural Network; DNN) の予測の信頼性が高いことが必要不可欠である.しかし,DNN は誤較正を起こしやすいため,その適用範囲は限定されている.さらに,既存の不確実性推定手法は複数回の確率的推論を必要とするため計算コストが高いという問題がある.本研究では,NER のデータ拡張により特にドメイン内設定で不確実性推定性能が改善されることがわかった.また,データ拡張サイズを大きくすることでさらに NER の不確実性推定性能が改善され,その傾向はデータ拡張によって生成された文のパープレキシティと関連していることを示唆している.