主催: 一般社団法人 人工知能学会
会議名: 2023年度人工知能学会全国大会(第37回)
回次: 37
開催地: 熊本城ホール+オンライン
開催日: 2023/06/06 - 2023/06/09
深層ニューラルネットワーク(DNN)は幅広い分野で活用されており,実問題への応用が進んでいる.近年では,人の意思決定にかかわる業務をDNNに代替させる取り組みが増えてきているが,このような場面では,出力結果の公平性や倫理面での妥当性,モデルの不透明性などに問題がある.これらを軽減するために,DNNの推論根拠を説明する説明可能AI(XAI)の研究が活発に行われている.一方,DNNに基づくモデルには,入力データに人間には知覚できないような特殊な摂動を加えることで誤った判断を引き起こす敵対的事例(AEs)と呼ばれる脆弱性が存在することが明らかにされている.このような脆弱性はGradCAMなどの画像解釈器においても存在することが確認されており,画像解釈器を安全に使用するために脆弱性の調査が不可欠である.本研究では,攻撃対象モデルの内部構造が未知であるブラックボックス条件下において進化計算を用いることにより誤った解釈結果を導出させるAEsを生成する敵対的攻撃手法を提案する.実験により,提案手法は画像認識モデルの予測結果を変えることなく解釈結果のみを誤誘導させるAEsを生成することに成功した.