人工知能学会全国大会論文集
Online ISSN : 2758-7347
第34回 (2020)
セッションID: 4J3-GS-2-04
会議情報

深層学習におけるバックドア攻撃に対する蒸留を用いた対策とポイズンデータの特定
*吉田 康太藤野 毅
著者情報
会議録・要旨集 フリー

詳細
抄録

深層学習(DNN)システムにおけるセキュリティ課題として,バックドア攻撃が知られている.画像認識におけるバックドア攻撃では,攻撃者はDNNモデルの学習データセットに,特定位置へのドット付与などの目立たない加工を施し,加工前とは異なるターゲットラベルを設定した少量の異常データ(ポイズンデータ)を混入させる.このデータセットを用いて学習したDNNモデル(バックドアモデル)は,正常な入力に対しては正常に推論を行うが,ポイズンデータと同様の加工が施された入力に対しては,推論結果がターゲットラベルに誘導されてしまう.本稿では,DNNモデルユーザ(防御者)がラベルのないクリーンなデータを収集できるタスクを想定し,蒸留を用いたバックドア攻撃への対策を提案する.バックドアモデルを教師とし,クリーンデータを用いて蒸留することで,ポイズンデータの影響を排除した生徒モデルが得られる.更に,バックドアモデルと生徒モデルそれぞれで学習データセットを分類した時の推論結果の差分から,学習データ5万件の中に100件のみ含まれるポイズンデータの候補を約550件まで絞り込むことができる.

著者関連情報
© 2020 一般社団法人 人工知能学会
前の記事 次の記事
feedback
Top