コンセプトをトリガーとしたステルス性の高いバックドア攻撃

大磯 秀幸; 福地 一斗; 秋本 洋平; 佐久間 淳

doi:10.11517/pjsai.JSAI2023.0_3L1GS1103

抄録

バックドア攻撃は機械学習モデルに対する攻撃の一種である．バックドア攻撃を受けたモデルは，入力が特定のトリガー（e.g.ノイズや模様）を含む場合にその入力を誤ったクラスへと分類する．本論文では，機械学習モデルが陥る脆弱性を明らかにし，機械学習モデルのセキュリティを高める議論の発展を目的として，コンセプトをトリガーに用いたバックドア攻撃を提案する．コンセプトとはサンプル内に含まれる解釈可能な属性のことであり，例えば，顔画像において髪の色や笑顔かどうかはコンセプトである．既存研究のトリガーのほとんどはデジタル上で付加することを前提としているが，人工的に生成されたパターンは物理世界に出現しない．コンセプトは物理世界でも違和感なくトリガーとして付加される可能性がある．また，コンセプトをトリガーとした毒サンプルは見た目が自然でステルス性に優れる．実験では，提案手法の攻撃成功率や既存の防御手法への耐久性を評価することで，コンセプトがトリガーとして活用できることを実験的に示した．

著者関連情報

お気に入り & アラート

閲覧履歴

責任著者(Corresponding author)

会議情報

J-STAGEへの登録はこちら（無料）