2025 年 2025 巻 AGI-031 号 p. 03-
コネクショニズム系の深層学習モデルでは、学習時に内在化した問題やバイアスは利用者が認識しにくく対処困難である。しかしながら利用者側の解釈問題として捉え直すことで対処可能な方法を見出せる可能性がある。 本研究では、1)人間が AI の出力を誤認した場合、より単純な類似モデルで同様のケースを経験させることが有効であることを確認した。また、2)AI が自身の出力を誤認するケースを特定しその原因を調査した。AIの自己解釈での誤認は「ポチョムキン理解」と同等の反応だと考えられた。 AI 出力の解釈問題を適切に評価し対処可能になれば、AGI/ASIへの移行に伴うアライメント問題にも寄与できると考える。