深層学習におけるバックドア攻撃に対する蒸留を用いた対策とポイズンデータの特定

吉田 康太; 藤野 毅

doi:10.11517/pjsai.JSAI2020.0_4J3GS204

抄録

深層学習(DNN)システムにおけるセキュリティ課題として，バックドア攻撃が知られている．画像認識におけるバックドア攻撃では，攻撃者はDNNモデルの学習データセットに，特定位置へのドット付与などの目立たない加工を施し，加工前とは異なるターゲットラベルを設定した少量の異常データ(ポイズンデータ)を混入させる．このデータセットを用いて学習したDNNモデル(バックドアモデル)は，正常な入力に対しては正常に推論を行うが，ポイズンデータと同様の加工が施された入力に対しては，推論結果がターゲットラベルに誘導されてしまう．本稿では，DNNモデルユーザ(防御者)がラベルのないクリーンなデータを収集できるタスクを想定し，蒸留を用いたバックドア攻撃への対策を提案する．バックドアモデルを教師とし，クリーンデータを用いて蒸留することで，ポイズンデータの影響を排除した生徒モデルが得られる．更に，バックドアモデルと生徒モデルそれぞれで学習データセットを分類した時の推論結果の差分から，学習データ5万件の中に100件のみ含まれるポイズンデータの候補を約550件まで絞り込むことができる．

著者関連情報

お気に入り & アラート

閲覧履歴

責任著者(Corresponding author)

会議情報

J-STAGEへの登録はこちら（無料）