敵対的事例の脆弱性を用いた分類結果矯正の試み

森本 文哉; 赤垣 敬吾; 小野 智司

doi:10.11517/pjsai.JSAI2023.0_2K5GS201

抄録

深層ニューラルネットワーク（DNN）は，画像分類や音声認識など様々な分野で高い性能を示しており，実応用が進んでいる．一方，近年の研究により，DNNに基づく学習器は入力データに対して，人間の知覚が困難な程度に微小かつ特殊な摂動が加えられた敵対的事例（AE）を誤認識してしまう脆弱性を有することが明らかにされている．このため，AEに対する防御手法の研究も広く行われている．例えば，入力の特徴からAEを判別する検出手法が提案されているが， AEの検知に留まっており，攻撃前の事例における正しいカテゴリの認識まで考慮しない．検出されたAEを棄却可能なタスクが多い一方で，上記の点が問題となるタスクも存在する．例えば自動運転の標識認識において，一時停止の標識に攻撃が加えられた際にAEとして検出はできるものの，一時停止の標識であることを認識できず，何らかの後処理が必要となる．本研究では，検出されたAEに対するラベルの矯正手法，すなわち，攻撃前の原画像における正しいラベルを推定する手法を提案する．本手法は，AEに対して再攻撃を行うことで，誤分類されていた分類結果を原画像の分類結果に矯正することが可能である．

著者関連情報

お気に入り & アラート

閲覧履歴

責任著者(Corresponding author)

会議情報

J-STAGEへの登録はこちら（無料）