主催: 一般社団法人 人工知能学会
会議名: 2023年度人工知能学会全国大会(第37回)
回次: 37
開催地: 熊本城ホール+オンライン
開催日: 2023/06/06 - 2023/06/09
深層学習をベースにした画像分類モデルには、敵対的サンプル(adversarial examples:AE)を誤分類するという脆弱性がある。既存の防御手法はAEに対する分類精度を改善していたが、摂動が付与されていない正常な画像に対しての分類精度が悪化する。この問題を解決するために、我々はself-examination mechanismという新たな防御機構を提案する。本手法では、最初に入力画像を分類した後、SHapley Additive exPlanations(SHAP)という説明可能AIの手法を用いて分類モデルの推論過程を検証し、異常ならばSHAPの出力に基づいて再度分類を行う。よって、正常な画像の分類精度を大きく下げることなく、誤分類を防ぐことができる。実際に、CIFAR10を学習したResNet及びWideResNetに提案手法を適用した結果、AEに対する精度が改善し、正常な画像に対する精度はほとんど悪化しないことを確認した。