AI出力の解釈問題：人間側の解釈とAIの自己解釈に対する評価・介入手法について

西山 秀昌; Beshlina Prakoeswa; 須藤 毅顕; 小林 太一; 池 真樹子; 新國 農; 髙村 真貴; 勝良 剛詞; 林 孝文

doi:10.11517/jsaisigtwo.2025.AGI-031_03

西山秀昌, Beshlina Prakoeswa, 須藤毅顕, 小林太一, 池真樹子, 新國農, 髙村真貴, 勝良剛詞, 林孝文

著者情報

研究報告書・技術報告書フリー

2025 年 2025 巻 AGI-031 号 p. 03-

DOI https://doi.org/10.11517/jsaisigtwo.2025.AGI-031_03

詳細

抄録

コネクショニズム系の深層学習モデルでは、学習時に内在化した問題やバイアスは利用者が認識しにくく対処困難である。しかしながら利用者側の解釈問題として捉え直すことで対処可能な方法を見出せる可能性がある。本研究では、1）人間が AI の出力を誤認した場合、より単純な類似モデルで同様のケースを経験させることが有効であることを確認した。また、2）AI が自身の出力を誤認するケースを特定しその原因を調査した。AIの自己解釈での誤認は「ポチョムキン理解」と同等の反応だと考えられた。 AI 出力の解釈問題を適切に評価し対処可能になれば、AGI/ASIへの移行に伴うアライメント問題にも寄与できると考える。

責任著者(Corresponding author)

会議情報

J-STAGEへの登録はこちら（無料）