Adversarial Examples 分野の動向（敵対的サンプル発表資料）

Adversarial Examples 分野の動向
- History and Trends of Dark Arts -
福原吉博 (@gatheluck)
CVPR2019 網羅的サーベイ報告会 @⽇⽴製作所中央研究所
http://xpaperchallenge.org/
発表版

#2
⾃⼰紹介
福原吉博 (Yoshihiro Fukuhara)
• Twitter︓ @gatheluck
• 所属︓早⼤博⼠課程 2年
o 森島研究室
o リーディング⼤学院
o cvpaper.challenge (HQ)
o SE4 Inc. (インターン)
o 産総研 (インターン)
• 研究
o Adversarial Examples の性質の分析
o Unsupervised Multi-class 3D Shape Estimation

#3
主な対象
• AEsについてほぼ事前知識が無く, これまでの流れと最新研究の動向を知りたい⽅.
• これまでの研究で分かっている範囲でのAEsの最も有⼒な原因候補.
• AEsはモデルの安全性についての話で, ⾃分の研究に関係することはまず無いと考え
ていたCV分野の⽅.
-> 今年になって画像⽣成への応⽤研究も出てきています.
※AEs周りの研究をされている⽅は, 既に知っている内容が多いと思います.

#4
注意
• 本⽇の発表内容および資料は出来る限り誤りの無いよう勤めておりますが, 発表者
⾃⾝もまだまだ理解が⼗分で無いため間違った内容を含む可能性があります.
• 2019年09⽉上旬の時点までの研究内容から資料を作成しているため, 今後の研究
で覆る可能性のある情報を含みます.（AEsの分野では割と頻繁に起こります.）
• 発表者はAEsを重要かつ⾯⽩い研究領域と思っていますが, そうでは無い（5年後に
後悔するかもしれない研究領域）との指摘もあります.
https://futurecv.github.io/

#5
1. 導⼊
2. 事前準備
3. 攻撃・防御編
4. 原因・性質分析編
5. 最新動向・今後の課題
6. まとめ
7. 参考⽂献（後で公開する版で加えます.）
本⽇の発表内容

Waseda University School of Applied Physics in Tokyo
導⼊
#6

導⼊
#7
Adversarial Examples (AEs) とは︖
: 攻撃者によって意図的にモデルが間違えるように設計された⼊⼒.
※摂動のみを対象とするより狭い定義の仕⽅もあります.
本⼈も Dark Arts と⾔ったりしているGANと並んでGoodfellow⽒が指摘した闇の1つ

導⼊
Adversarial Examples (AEs) とは︖
例）画像分類器に対しての攻撃
摂動を加える
+ = =+
# =
[Goodfellow et al., 2015] [Madry et al., 2018]
パッチを合成する
[Brown et al., 2017]
幾何学変換を作⽤させる 3Dの物体を加⼯する
A
[Sharif et al., 2016] [Eykholt et al., 2018] [Athalye et al., 2018][Xiao et al., 2018] [Kanbak et al., 2018]
※他タスク (物体検知, ⾳声認識, ⾃然⾔語処理) におけるAEsもあります.

導⼊
#9
何故AEsの研究をする必要があるのか︖
安全性の向上のため
• 機械学習モデルを社会実装する上で, AEsに対する脆弱性は安全保障上の問題
となる.
-> 特にAEsの転移性（transferability）の⾼さは⼤きな問題.
機械学習モデルのより深い理解のため
• AEsに対する脆弱性の原因の分析は, これまで明らかにされていなかった機械
学習モデルの性質の理解につながる.

事前準備
#10

事前準備
AEs関連の研究の分類
攻撃⼿法の提案防御⼿法の提案原因・性質の分析その他
• 論⽂をまとめる都合上, AEs関連の研究を以下の4つに（主観的に）分類して
います.
-> ⼿法・研究を紹介する際は⾊でどの種類の研究かを⽰すようにしています.
• その他は, 「AEsの⼿法の他タスクへの応⽤」や「評価指標の提案」など.
#11

事前準備
Threat Model（脅威モデル）
White box Black box
• 攻撃者はモデルの情報を
すべて⼊⼿可能
・アーキテクチャ
・パラメータ etc.
※使⽤されている防御⼿法
の情報も含む場合がある.
• 攻撃者はモデルの情報を
⼊⼿出来ない.
• クエリの送信は可能.
※不可とする場合もある.
[Kannan et al., 2018]
Gray box
• 攻撃者はモデルの情報の
⼀部を⼊⼿可能.
• 何の情報が⼊⼿可能かは
論⽂毎に異なる.
※Gray boxをBlack boxの
１種と扱うことも多い.
• 攻撃や防御が⾏われる際の状況設定に⽤いられる. (主に攻撃者の持つ情報の設定.)
• 多くの防御⼿法は攻撃を 𝑳 𝒑-ノルムで制約された摂動に限定している.
[Carlini et al., 2017]
※この資料では主にWhite boxの設定での⼿法を中⼼にまとめています.
[Goodfellow et al., 2018]
#12

事前準備
#13
頑健性の評価指標
Robust Accuracy
• 特定の攻撃⼿法で作られたAEsの分類精度.
• 攻撃⼿法を 𝐿'-ノルムで制約された摂動に限定する場合が多い.
CLEVER (Cross Lipschitz Extreme Value for nEtwork Robustness)
• モデルのLipschitz定数を⽤いた, 攻撃⼿法に依存しない評価尺度.
• Gradient Masking（勾配マスキング）をする⼿法を過⼤に評価してしまう︖
UAR (Unforeseen Attack Robustness)
• 未知の攻撃に対する頑健性の尺度. （𝐿'
-ノルムで制約されない攻撃を含む場合の尺度.）
※防御⼿法は通常の精度に影響を与えるものもあるため, Standard Accuracyも同時に報告する.
[Weng et al., 2018]
[Kang et al., 2019]
[Goodfellow, 2018]

攻撃・防御⼿法編
#14

#15
この章で話す内容
• “Arms Race (軍拡競争)”と表現される, これまで提案されてきた攻撃・防御
⼿法の⼤まかな流れ.
• 基本的 (かつ今も使⽤されている) 攻撃・防御⼿法.
o 攻撃︓Projected Gradient Descent (PGD)
o 防御︓Adversarial Training (AT)
※上記以外は概要しか説明しません.

攻撃・防御⼿法編（History of Arms Race）
2019
2014
2018
2015
DeepFool
[Dezfooli et al.]
2016
2017
JSMA
[Papernot et al.]
FGSM
[Goodfellow et al.]
C&Wʼs At.
[Carlini et al.]
BIM
[Kurakin et al.]
L-BFGS
[Szegedy et al.]
蒸留
敗北
勾配の難読化
敗北
AT
[Goodfellow et al.]
Defensive Distillation
[Papernot et al.]
Universal Perturbation
[Dezfooli et al.]
SparseFool
[Modas et al.]
YOPO
[Zhang et al.]
Free AT
[Shafahi et al.]
AT by PGD
[Madry et al.]
Obfuscated Gradients
[Athalye et al.]
Virtual AT
[Miyato et al.]
AEsの
存在が指摘
Certified Def.
[Raghunathan et al.]
Probable Rob.
[Wong et al.]
3D AEs
[Athalye et al.]
Joint AT
[Tramer et al.]
Logit Pairing
[Kannan et al.]
mixup
[Zhang et al.]
GCE Loss
[Chen et al.]
COT
[Chen et al.]
Elastic
[Xiao et al.]
Fog,Snow,Gabor
[Kang et al.]
Cascade AT
[Na et al.]
Defense-GAN
[Samangouei et al.]
SAP
[Dhillon et al.]
PGD
[Madry et al.]
CURE
[Dezfooli et al.]
Feature Denoising
[Xie et al.]
PixelDefend
[Song et al.]
Randomization
[Xie et al.]
Transformation
[Guo et al.]
LID
[Ma et al.]
Distributional Rob.
[Sinha et al.]
Reluplex
[Katz et al.]
One Pixel At.
[Su et al.]
ManiFool
[Kanbak et al.]
Unrestricted AEs
[Song et al.]
AT-GAN
[Wang et al.]
Natural AEs (GAN)
[Zhao et al.]
PATE
[Papernot et al.]
検出
困難
弱い防御の
複合も弱い
Label Smoothing
[Warde-Farley et al.]
Arms Race
開始
Statistical
Det.
[Li et al.]
Adv. Retraining
[Grosse et al.] [Gong et al.]
Input PCA
[Hendrycks et al.]
Dim. Reduction
[Bhagoji et al.]
Dropout
[Feinman et al.]
Topological Det.
[Corneanu et al.]
検出による
防御勾配の難読化
による防御
TRADES
[Zhang et al.]
防御⼿法攻撃⼿法
蒸留による
防御
[Carlini et al.][He et al.]
※スペースの関係で含められていない
重要論⽂があることに注意して下さい.
※公開時期はarXivへの公開を優先して
プロットしています.

#18
Fast Gradient Sign Method (FGSM)
• 最も単純な摂動ベースの攻撃⼿法の1つ.
• 重みを固定し, Lossを増加させるように⼊⼒画像を1度更新する.
※通常の画像分類の学習では, 「⼊⼒画像を固定し, Lossを減少させるように重みを更新」している.
𝜹 = 𝜀*
⋅ sign(∇2 𝐿(3𝑘5(𝒙), 𝑡))
𝜹 ' ≤ 𝜀
𝜹 ∶ 敵対的摂動
𝒙 ∶ ⼊⼒画像
𝑡 ∶ 教師ラベル
𝜃 ∶ パラメータ
3𝑘 ⋅ ∶ 分類器
𝐿 ⋅ ∶ Loss関数 𝜀 ∶ 摂動の最⼤値
panda 57.7% gibbon 99.3%
𝜹𝒙 𝒙 + 𝜹
Goodfellow et al., “Explaining and Harnessing Adversarial Examples”, ICLR 2015.
[Goodfellow et al. 2015]

#19
Projected Gradient Descent (PGD)
• 摂動ベースの攻撃⼿法で最も強⼒なものの1つ.
-> 防御⼿法の評価に⽤いられることが多い.
• FGSMと同様の更新を 𝑝-ノルム球の内部で反復的に⾏う.
※初期値を 𝑝-ノルム球の中でランダムに⾏う点がBIMと異なる.
※ステップ幅は 𝛼 = 𝜀 / √s とするのが良いらしい.
𝒙 ∶ ⼊⼒画像
𝐿 ⋅ ∶ Loss関数
𝜀 ∶ 摂動の最⼤値
𝛼 ∶ ステップ幅
𝑠 ∶ ステップ数
[Kurakin et al., 2016]
𝜹(BCD) = 𝑃F(𝜹 B + 𝛼 ⋅ sign(∇2 𝐿(3𝑘5(𝒙 + 𝜹 B ), 𝑡))
𝜹 ' ≤ 𝜀
𝑃F # ∶ 半径 𝜀 の球への射影
Madry et al., “Towards Deep Learning Models Resistant to Adversarial Attacks”, ICLR 2018.
[Madry et al., 2018]
[Kang et al., 2019]
FGSMと同じ計算例) ResNet-50, ImageNet
Std. Acc: 75.8%
Rob. Acc: 0.78%
𝑙H-PGD
(𝜀 =0.005)

#20
Adversarial Training (AT)
• 最初期に提案された防御⼿法. (PGD+ATは現状で最も頑健な防御の1つ.)
• AEsを学習データに追加することでモデルを頑健にする.
-> AEsによって最⼤化されたLossを最⼩化するように重みを学習する.
min
5
3𝑅KLM(3𝑘5, 𝐷) = min
5
1
|𝐷|
Q
𝒙,R ∈T
max
𝜹∈W(𝒙)
𝐿(3𝑘5 𝒙 + 𝜹 , 𝑡)
敵対的摂動によるLossの最⼤化
重みの更新によるLossの最⼩化
𝐷 ∶ 学習データ
Δ ∶ 有効な摂動の集合
𝒙 ∶ ⼊⼒画像
例) ResNet-50(AT), ImageNet
Std. Acc: 71.5%
Rob. Acc: 81.3%
𝑙H-PGD
(𝜀 =0.005)

#21
• 最初期に提案された防御⼿法. (PGD+ATは現状で最も頑健な防御の1つ.)
• AEsを学習データに追加することでモデルを頑健にする.
-> AEsによって最⼤化されたLossを最⼩化するように重みを学習する.
min
5
3𝑅KLM(3𝑘5, 𝐷) = min
5
1
|𝐷|
Q
𝒙,R ∈T
max
𝜹∈W(𝒙)
𝐿(3𝑘5 𝒙 + 𝜹 , 𝑡)
敵対的摂動によるLossの最⼤化
重みの更新によるLossの最⼩化
𝐷 ∶ 学習データ
Δ ∶ 有効な摂動の集合
𝒙 ∶ ⼊⼒画像
例) ResNet-50(AT), ImageNet
Std. Acc: 71.5%
Rob. Acc: 81.3%
𝑙H-PGD
(𝜀 =0.005)
Adversarial Training しておけば問題解決では︖
-> 残念ながらそんなに簡単ではなかった...

#22
問題点
• 計算コストが⼤きい.
-> PGD(イテレーション数20~40)を⽤いると学習のコストも20~40倍に...
• 精度と頑健性のトレードオフ問題.
-> 頑健性が向上すると, 通常の精度が低下する︖ (詳細は後述.)
• 学習データに追加しなかったAEsにも頑健になっている︖
-> min max 最適化の内側のmaxがAEsの⽣成⼿法に依存してしまっている...
-> 様々な⼿法で⽣成したAEsを全て学習データに追加すれば⼤丈夫か︖(詳細は後述.)
[Su et al., 2018]

Introduction
#23
問題点
-> 頑健性が向上すると, 通常の精度が低下する. (詳細は後述.)
ここから怒涛の Arms Race (軍拡競争)になる...
https://www.ploughshares.org/issues-analysis/article/welcome-new-nuclear-arms-race

#25
Defensive Distillation vs C&Wʼs Attack
Defensive Distillation
• 蒸留を⽤いて滑らかな識別平⾯を学習する
ことでAEsに対して頑健なモデルを獲得.
• CIFAR-10でAEsによる攻撃の成功率を約
5％まで削減と主張.
[Papernot et al., 2016] C&Wʼs Attack
• AEsの⽣成に使⽤する⽬的関数を包括的に
調査し, 強⼒な新しい攻撃⼿法を提案.
-> Defensive Distillation を破った.
• Targetのラベル以外で最⼤のlogitとtarget
のラベルのlogitが⼀定値を超えるまで最適
化を⾏う.
※確率ではなくlogitの差をとるのは重要な違い.
蒸留を⽤いた防御の流れ
Papernot et al., “Distillation as a Defense to Adversarial Perturbations against Deep Neural Networks”, S&P 2016.
Carlini et al., “Towards Evaluating the Robustness of Neural Networks”, S&P 2017.

#27
Detection based Defense vs C&Wʼs Attack
Detection based Defense
• 分類器による検出.
• PCAによる検出.
• 分布の⽐較による検出.
• 正則化よる検出.
C&W + Attacker Loss
• 各検出⼿法に特化したlossを提案し, C&Wʼs
attackと組み合わせた.
-> 10種類の検出⼿法を破った.
• 防御⼿法を考える際は, 提案する防御⼿法に
特化した攻撃も想定する必要があることを
指摘.
Carlini et al., “Adversarial Examples Are Not Easily Detected: Bypassing Ten Detection Methods”, ACM Workshop on Artificial Intelligence and Security 2017.

#29
9 SoTA Def. ICLR 2018 vs Obfuscated Gradients
9 SoTA Def. in ICLR 2018
・ATベース.
・微分不可能操作で勾配を計算不可にする.
・勾配を確率的にする.（⼊⼒を確率的に変換.）
・勾配を消失・発散させる.
Obfuscated Gradients
• 勾配の難読化⼿法を３種類に分類し, それぞ
れに対して攻撃⼿法を提案.
• ICLR2018に投稿されていた９つの防御⼿法
に適⽤.
-> 7つが破られる. (ICLR2018採択から3⽇後.)
• ATベースの2つの⼿法は破られなかった.
[Athalye et al., 2018]
Athalye et al., “Obfuscated Gradients Give a False Sense of Security: Circumventing Defenses to Adversarial Examples”, ICML 2018.

Introduction
#31
Probable Robustness
• 終わりが⾒えないArms Raceから抜けだしたい...
-> 確実に頑健なモデルを構成するにはどうしたら良い︖
• ⼊⼒ごとにAEsによって出⼒が変化し得る領域を全て求めて, その領域全てで
正しく分類出来れば良い.
※ただし, 攻撃は 𝐿'-ノルムで制約された摂動を仮定.
• 計算コストの問題
-> Convex outer bound を取って近似.
[Wong et al., ICML 2018]
Wong et al., “Provable defenses against adversarial examples via the convex outer adversarial polytope”, ICML 2018.

Introduction
#32
Probable Robustness
• 終わりが⾒えないArms Raceから抜けだしたい...
-> 確実に頑健なモデルを構成するにはどうしたら良い︖
• ⼊⼒ごとにAEsによって出⼒が変化し得る領域を全て求めて, その領域全てで
正しく分類出来れば良い.
※ただし, 攻撃は 𝐿'-ノルムで制約された摂動を仮定.
• 計算コストの問題
-> Convex outer bound を取って近似.
[Wong et al., ICML 2018]
Wong et al., “Provable defenses against adversarial examples via the convex outer adversarial polytope”, ICML 2018.
しかし, ⼤きなモデルやデータセットへのスケールは難しい
-> 結局ATが有望そう...（でも問題があった.）

#33
問題点
[Su et al., 2018]

#34
問題点
[Su et al., 2018]
この3つを解決出来ればATで良さそう.

#35
問題点
[Su et al., 2018]

• 勾配情報を再利⽤することで伝搬回数を削減してATを⾼速化.
-> ポントリャーギンの最⼤原理を⽤いて, AEsは１層⽬とカップリングしていることを⽰して正当化.
• MNISTとCIFAR-10をResNetで学習し, 4~5倍⾼速に同程度の結果を得た.
#37
ATの⾼速化 (YOPO / Free AT) [Shafahi et al., 2019] [Zhang et al., 2019]
Shafahi et al., “You Only Propagate Once: Accelerating Adversarial Training via Maximal Principle”, NurIPS 2019.
Wide ResNet34, CIFAR-10 の結果

#38
問題点
[Su et al., 2018]

#39
問題点
[Su et al., 2018]
残りの問題点は︖
-> 次の章でまた出てきます.

#40
この章のまとめ
• 攻撃⼿法と防御⼿法は今だに“Arms Race”を続けている.
• ⼀時は有効と思われた, 蒸留や勾配の難読化による防御は破られてしまった.
-> 防御⼿法を考える際は, 提案する防御⼿法に特化した攻撃も想定する必要がある.
• 現状ではATとその派⽣⼿法が有望そう.
-> しかし, 問題点もある.
• Probable / Certified Defenseは強⼒だが, 現状ではスケールが難しい.

原因・性質分析編
#41

#42
この章で話す内容
• 現在AEsの原因として有⼒な説である「特徴量原因説」について.
• 前章で取り上げたATによって⽣じる「精度と頑健性のトレードオフ問題」の
原因について.
• AEsに脆弱なモデルと頑健なモデルが“⾒ているもの“について.

#43
そもそもAEsに対する脆弱性は何故⽣じるのか︖
• モデルの⾮線形性︖
• モデルの線型性︖
• 学習データ数の不⾜︖
• モデルの⾼次元性︖
• 学習データの分布の複雑性︖
• TrainとTestの分布の差︖
• 精度と頑健性の両⽴は無理︖
• 獲得している特徴量が原因︖
[Szegedy et al., 2014]
[Schmidt et al. 2018]
[Gilmer et al. 2018]
[Su et al. 2018]
[Shafahi et al. 2019]
[Tsipras et al. 2019]
[Ilyas et al. 2019]
[Zhang et al. 2019]

#44
そもそもAEsに対する脆弱性は何故⽣じるのか︖
• モデルの⾮線形性︖
• モデルの線型性︖
• 学習データ数の不⾜︖
• モデルの⾼次元性︖
• 学習データの分布の複雑性︖
• TrainとTestの分布の差︖
• 精度と頑健性の両⽴は無理︖
• 獲得している特徴量が原因︖
[Szegedy et al., 2014]
[Schmidt et al. 2018]
[Gilmer et al. 2018]
[Su et al. 2018]
[Shafahi et al. 2019]
[Tsipras et al. 2019]
[Ilyas et al. 2019]
[Zhang et al. 2019]

#45
特徴量原因説
• モデルが獲得している特徴量の性質が脆弱性の原因とする説を提唱.
-> 脆弱性はデータセット中に含まれる「分類に有効かつ脆弱」な特徴量を学習した結果.
特定のデータセットを⽤いて画像分類問題を教師あり学習する場合,
①「分類に有効」かつ「摂動に頑健」な特徴量 (robust feature)
②「分類に有効」かつ「摂動に脆弱」な特徴量 (non-robust feature)
の両⽅を学習した結果として脆弱になると説明.
-> 通常の学習では精度を最⼤化出来れば良く,
①を優先して獲得する動機は無い.
• ①や②のような特徴量の存在を実験から確認.
有効頑健
特徴量
[Ilyas et al., 2019]
Ilyas et al., “Adversarial Examples Are Not Bugs, They Are Features”, NeurIPS 2019.
論⽂中で仮定されている特徴量の分類

実験︓「分類に有効」かつ「摂動に脆弱」な特徴量の存在の確認
• Non-robust な特徴量のみを学習出来るデータセットを作成し, ResNet-50を学習.
-> 通常のデータセットで中程度の精度達成. (CIFAR-10で80%以上の Top1 Acc.)
Robust: Pig
Non-Robust: Pig
通常のデータセット
Pig
Robust: Pig
Non-Robust: Cat
Non-robust データセット
PGDでCat
Classへ
Pig
特徴量原因説 [Ilyas et al., 2019]
通常のデータセットでの精度(%)

実験︓「分類に有効」かつ「摂動に脆弱」な特徴量の存在の確認
• Non-robust な特徴量のみを学習出来るデータセットを作成し, ResNet-50を学習.
-> 通常のデータセットで中程度の精度達成. (CIFAR-10で80%以上の Top1 Acc.)
Robust: Pig
Non-Robust: Pig
通常のデータセット
Pig
Robust: Pig
Non-Robust: Cat
Non-robust データセット
PGDでCat
Classへ
Cat
特徴量原因説 [Ilyas et al., 2019]
通常のデータセットでの精度(%)

#50
Not Bugs, They Are Features
• AEsの転移性の⾼さについても⼀定の説明が可能.
-> 複数のモデルが, 同⼀の「有効かつ脆弱」な特徴量を学習してるため︖
• 脆弱な特徴量を獲得し易いモデルほど, 転移攻撃の成功率も⾼いことを確認.
-> 構造による制約で頑健な特徴量を優先的に獲得するように出来る可能性︖
• VGGは他のアーキテクチャとは性質が異なる︖
-> 他の論⽂でも⽰唆
-> Style Transfer との関係︖
Non-robust な特徴量の獲得のし易さ
転移攻撃の成功率
[Su et al., 2018]
[Nakano, 2019]
[Brendel et al., 2019]

#51
Not Bugs, They Are Features
• 「有効かつ脆弱」な特徴量は何処から⽣じる︖
-> データセットと我々が観測する実世界との不整合から.
データセットのバイアス問題を指摘背景のみで⾏動認識
[He et al., 2016]

攻撃・防御⼿法編 (再訪)
#52
問題点
-> 頑健性が向上すると, 通常の精度が低下する︖
[Su et al., 2018]

#53
問題点
->「有効かつ脆弱」な特徴量が使えなくなった結果.
[Tsipras et al., 2019]
[Su et al., 2018]

#54
問題点
[Su et al., 2018]
原因分かったのは良いが, 精度下がるのは嬉しくない...
-> 何か他に朗報はないのか︖そもそも,「頑健かつ有効」な特徴量ってどんな特徴量︖

#55
脆弱な(≈通常の学習をした)モデルが”⾒ているもの”
テクスチャへの依存局所的な特徴への依存[Geirhos et al., 2019] [Brendel et al., 2019]
• ImageNetで学習したCNNは形状より,
テクスチャ情報に⼤きく依存した意思
決定をしていることを確認.
• 需要野が⼩さく局所的な特徴しか⾒れない
ResNetの変異型 (BagNet) と元のResNetの
類似性の⾼さから局所特徴への依存を指摘.
Geirhos et al., “ImageNet-trained CNNs are biased towards texture; increasing shape bias improves accuracy and robustness”, ICLR 2019.
Brendel et al., “Approximating CNNs with Bag-of-local-Features models works surprisingly well on ImageNet”, ICLR 2019.
tabby cat
grey fox
Siamese cat
71.1%
17.3%
3.3%
63.9%
26.4%
9.6%
Indian elephant
indri
black swan
画像中でどの程度まで離れた矩形領域が特徴量に影響するか

#56
脆弱な(≈通常の学習をした)モデルが”⾒ている”もの
テクスチャへの依存局所的な特徴への依存[Geirhos et al., 2019] [Brendel et al., 2019]
• ImageNetで学習したCNNは形状より,
テクスチャ情報に⼤きく依存した意思
決定をしていることを確認.
• 需要野が⼩さく局所的な特徴しか⾒れない
ResNetの変異型 (BagNet) と元のResNetの
類似性の⾼さから局所特徴への依存を指摘.
Geirhos et al., “ImageNet-trained CNNs are biased towards texture; increasing shape bias improves accuracy and robustness”, ICLR 2019.
Brendel et al., “Approximating CNNs with Bag-of-local-Features models works surprisingly well on ImageNet”, ICLR 2019.
tabby cat
grey fox
Siamese cat
71.1%
17.3%
3.3%
63.9%
26.4%
9.6%
Indian elephant
indri
black swan
画像中でどの程度まで離れた矩形領域が特徴量に影響するか
⼈間とは異なる情報に基づいて意思決定をしている.
-> モデルの決定の解釈が⼈間には難しい...

頑健な(≈ATをした)モデルが”⾒ているもの”
形状を捉えやすい︖ ⼤域特徴を捉えやすい︖[Tsipras et al., 2019]
[Itazuri et al., 2019]
• 獲得される特徴量, sensitivity map の両⽅
でエッジのような形状と関係のある部位に
反応することを確認.
• 画像の⼤域構造を破壊することによる精度の低下
速度の⽐較から, より⼤きな構造を捉えていること
を確認.
Tsipras et al., “Robustness May Be at Odds with Accuracy”, ICLR 2019.
Brendel et al., “Interpreting Adversarially Trained Convolutional Neural Networks”, ICML 2019.
Itazuri et al., “What Do Adversarially Robust Models Look At?”, arXiv 2019.
⼊⼒画像
Sensitivity map の⽐較 (ResNet-101)
通常学習 AT
Activation maximization による特徴量の⽐較 (ResNet-50)
通常学習 AT
⼤域構造を破壊した画像の精度⽐較 (ResNet-18)

頑健な(≈ATをした)モデルが”⾒ている”もの
形状を捉えやすい︖ ⼤域特徴を捉えやすい︖[Tsipras et al., 2019]
• 獲得される特徴量, sensitivity map の両⽅
でエッジのような形状と関係のある部位に
反応することを確認.
• 画像の⼤域構造を破壊することによる精度の低下
速度の⽐較から, より⼤きな構造を捉えていること
を確認.
Tsipras et al., “Robustness May Be at Odds with Accuracy”, ICLR 2019.
Brendel et al., “Interpreting Adversarially Trained Convolutional Neural Networks”, ICML 2019.
Itazuri et al., “What Do Adversarially Robust Models Look At?”, arXiv 2019.
⼊⼒画像
Sensitivity map の⽐較 (ResNet-101)
通常学習 AT
Activation maximization による特徴量の⽐較 (ResNet-50)
通常学習 AT
⼤域構造を破壊した画像の精度⽐較 (ResNet-18)
ATすることでより human-aligned な特徴量が得られる
-> モデルの決定の解釈性も向上（︖）

#59
この章のまとめ
• 「特徴量原因説」が現状で最も有⼒なAEsの説明の１つ.
-> AEsの転移性についても⼀定の説明が可能.
• ATによる通常の精度と頑健性のトレードオフは, 「有効だが脆弱」な特徴量
が使えなくなった結果.
• ATによって human-aligned な特徴量を獲得可能.
-> モデルの解釈可能性が向上.

最新動向・今後の課題
#60

• 頑健な特徴量の画像⽣成タスク (⽣成, 超解像, etc.) における有⽤性を⽰した.
-> ATによって獲得される human-aligned な特徴量の他タスクへの応⽤可能性を⽰唆.
• ６つのタスクにおいて, ATされた分類器が獲得した同⼀の特徴量を使⽤.
-> 頑健な特徴量の汎⽤性の⾼さを⽰唆.
画像⽣成タスクへの応⽤ [Santurkar et al., 2019]
各タスクでの⽣成結果の例
画像⽣成タスクにおける評価 (Inception Score)
Santurkar et al., “Image Synthesis with a Single (Robust) Classifier”, arXiv 2019.
※ImageNetのISの値でまさかのBigGANを凌駕.

#62
Style Transfer への応⽤ [Nakano, 2019]
Nakano, “Adversarially Robust Neural Style Transfer”, Distill 2019.
• Style TransferがVGG以外のモデルで上⼿くいかない問題を, ATしたモデル
を使⽤することで回避に成功.
-> しかし, 根本的な原因の解明にはまだ⾄っていない.
通常のResNet-50 ATしたResNet-50Content 画像
Style 画像

[Su et al., 2018]
攻撃・防御⼿法編 (再々訪)
#63
問題点

• 学習データに追加しなかったAEsにも頑健になっている?
-> ATする際の 𝜺 の⼤きさによってはむしろより脆弱になってしまう場合もある...
• では, 様々な⼿法で⽣成したAEsを全て学習データに追加すれば⼤丈夫?
-> 2つの異なるAEsに対するATでさえ, overfitting してしまう...
• 幅広い種類・摂動幅の攻撃を評価した総合的な頑健性の評価指標を提案.
#64
UAR (Unforeseen Attack Robustness) [Kang et al., 2019]
Kang et al., “Testing Robustness Against Unforeseen Adversaries”, arXiv 2019.
𝑙HノルムでのATは摂動幅の⼤きさによっては 𝑙[ノルムAEsに対する脆弱性を⽣む. ATが他の攻撃⼿法に対する頑健性に与える影響

• 学習データに追加しなかったAEsにも頑健になっている?
-> ATする際の 𝜺 の⼤きさによってはむしろより脆弱になってしまう場合もある...
• では, 様々な⼿法で⽣成したAEsを全て学習データに追加すれば⼤丈夫?
-> 2つの異なるAEsに対するATでさえ, overfitting してしまう...
• 幅広い種類・摂動幅の攻撃を評価した総合的な頑健性の評価指標を提案.
#65
UAR (Unforeseen Attack Robustness) [Kang et al., 2019]
Kang et al., “Testing Robustness Against Unforeseen Adversaries”, arXiv 2019.
𝑙HノルムでのATは摂動幅の⼤きさによっては 𝑙[ノルムAEsに対する脆弱性を⽣む. ATが他の攻撃⼿法に対する頑健性に与える影響
現状のATの限界を⽰唆.
-> ATの改良 or 代替となる防御の研究が必要そう.

現状の多くの防御⼿法は問題の単純化の為に仮定をおいていて実⽤との間に
乖離がある. 特に, 以下の2つ仮定は今後取り除かれていくと考えられる.
摂動の上限値の仮定
• 敵対者が 𝐿'-ノルムで 𝜀 以下の摂動しか加えないことを仮定している.
-> 実際は, 任意の画像を⼊⼒出来る場合が多い.
⼊⼒のソースとして I.I.D.を仮定
• ⼊⼒として I.I.D.からサンプルされたデータ(に敵対者が摂動を加えたもの)
を仮定している.
-> 実際は, 誤認識を起こせるAEsが１つあればそれを繰り返し⼊⼒される可能性がある.
#66
今後の課題 (より現実的な設定へ)
[Kang et al., 2019]

• 攻撃⼿法と防御⼿法のArms Raceは現在も続いている.
-> 現状では, ATやProbable Defenseなどが有効な防御⼿法
-> 今後はより現実的な設定での防御も考えている必要がある.
※実⽤に耐え得るレベルでの頑健性の達成にはまだ研究が必要.
• 「特徴量原因説」は現状で最有⼒な説明の１つ.
-> 転移性の⾼さや, ATの精度と頑健性のトレードオフなどを説明可能.
• AEsの原因や性質に関する研究が進んだことにより, 画像⽣成などの他タスク
への応⽤研究が⾏われてきている.
#67
まとめ

ご静聴ありがとうございました︕

Adversarial Examples 分野の動向（敵対的サンプル発表資料）

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Recently uploaded

Recently uploaded (7)