人工知能学会全国大会論文集
Online ISSN : 2758-7347
第37回 (2023)
セッションID: 2L1-GS-11-03
会議情報

画像解釈器の脆弱性検証のためのブラックボックス敵対的攻撃に関する研究
*廣瀬 雄大田島 彩音小野 智司
著者情報
会議録・要旨集 フリー

詳細
抄録

深層ニューラルネットワーク(DNN)は幅広い分野で活用されており,実問題への応用が進んでいる.近年では,人の意思決定にかかわる業務をDNNに代替させる取り組みが増えてきているが,このような場面では,出力結果の公平性や倫理面での妥当性,モデルの不透明性などに問題がある.これらを軽減するために,DNNの推論根拠を説明する説明可能AI(XAI)の研究が活発に行われている.一方,DNNに基づくモデルには,入力データに人間には知覚できないような特殊な摂動を加えることで誤った判断を引き起こす敵対的事例(AEs)と呼ばれる脆弱性が存在することが明らかにされている.このような脆弱性はGradCAMなどの画像解釈器においても存在することが確認されており,画像解釈器を安全に使用するために脆弱性の調査が不可欠である.本研究では,攻撃対象モデルの内部構造が未知であるブラックボックス条件下において進化計算を用いることにより誤った解釈結果を導出させるAEsを生成する敵対的攻撃手法を提案する.実験により,提案手法は画像認識モデルの予測結果を変えることなく解釈結果のみを誤誘導させるAEsを生成することに成功した.

著者関連情報
© 2023 人工知能学会
前の記事 次の記事
feedback
Top