人工知能学会第二種研究会資料
Online ISSN : 2436-5556
AI出力の解釈問題:人間側の解釈とAIの自己解釈に対する評価・介入手法について
西山 秀昌Beshlina Prakoeswa須藤 毅顕小林 太一池 真樹子新國 農髙村 真貴勝良 剛詞林 孝文
著者情報
研究報告書・技術報告書 フリー

2025 年 2025 巻 AGI-031 号 p. 03-

詳細
抄録

コネクショニズム系の深層学習モデルでは、学習時に内在化した問題やバイアスは利用者が認識しにくく対処困難である。しかしながら利用者側の解釈問題として捉え直すことで対処可能な方法を見出せる可能性がある。 本研究では、1)人間が AI の出力を誤認した場合、より単純な類似モデルで同様のケースを経験させることが有効であることを確認した。また、2)AI が自身の出力を誤認するケースを特定しその原因を調査した。AIの自己解釈での誤認は「ポチョムキン理解」と同等の反応だと考えられた。 AI 出力の解釈問題を適切に評価し対処可能になれば、AGI/ASIへの移行に伴うアライメント問題にも寄与できると考える。

著者関連情報
© 2025 著作者
前の記事 次の記事
feedback
Top