[DL輪読会]ドメイン転移と不変表現に関するサーベイ

DEEP LEARNING JP
[DL Papers]
ドメイン転移と不変表現に関するサーベイ
（ICML2019が中心）
Yusuke Iwasawa, Matsuo Lab
http://deeplearning.jp/

ドメイン転移と不変表現に関するサーベイ
• On Learning Invariant Representations on Domain Adaptation, ICML2019
• Toward Accurate Model Selection in Deep Unsupervised Domain Adaptation, ICML2019
• Domain Agnostic Learning with Disentangled Representations, ICML2019
• Transferabiliity vs. Discriminability: Batch Spectral Penaralization for Adversarial Domain Adaptation, ICML2019
• Transferable Adversarial Training: A General Approach to Adapting Deep Classifiers, ICML2019
• Domain Adaptation with Asymmetrically-Relaxed Distribution Alignment, ICML2019
• Adversarial Invariant Feature Learning with Accuracy Constraint for Domain Generalization, ECML2019
• Bridging Theory and Algorithm for Domain Adaptation, ICML2019
• Learning to Generalize: Meta-Learning for Domain Generalization, AAAI2018
• MetaReg: Towards Domain Generalization using Meta-Regularization, NIPS2018
• Feature-Critic Networks for Heterogeneous Domain Generalization, ICML2019
• Unsupervised Adversarial Induction, NIPS2018
• Universal Domain Adaptation, CVPR2019
• Importance Weighted Adversarial Nets for Partial Domain Adaptation, CVPR2018
2

Outline
• ドメイン転移と不変表現学習
• 最近の研究動向（ICML2019が中心）
– 不変表現学習とJoint Errorのトレードオフ問題
– 教師なしドメイン適応におけるモデル選択問題
– メタ正則化による転移可能な表現の学習
– より難しい問題設定への取り組みについて
• まとめ
3

背景：ドメインシフト
4
P(X)
訓練
データ
テスト
データ
P(X)
訓練
データ
テスト
データ
Q(X)
w/ドメインシフト
≒
同じ真の分布から
サンプルされたデータ
異なる真の分布から
サンプルされたデータ
• DL含む多くの検証・一般的な学習理論は左を前提
• 一部の機械学習タスクはドメインバイアスがある（つまり右）
– 訓練時と異なるユーザを対象とする，ユーザの行動が変化するなど
– ドメインバイアスを無視すると，テストに対して精度が悪化
w/oドメインシフト

背景：ドメインシフトによる認識精度の劣化
5
Semantic Segmentation [Zhang+ 18]
Image Recognition [Ganin+ 15]

背景：ドメイン転移の問題設定
6
P = Q
P≒Q
教師なし, 多量
P≒Q
教師あり, 少量 ~
未知
ソース1つ
伝統的
機械学習
Unsupervised
DomainAdaptation
Few-Shot Domain
Adaptation
Domain Agnostic
Learning
ソース複数
Multi Domain
Learning
Multi Source
DomainAdaptation
（あんまりない？
Domain
Generalization
ターゲットデータ/分布への仮定
得られるソース分布
共通の仮定
• ソースはターゲットより何らかの意味でリッチな情報がある
• ソースの学習（経験リスクℝ 𝑠）をターゲットの学習にどう活かすか？

背景：ドメイン転移の理論 [Ben-David+ 10]
7
Theorem [Ben-David+ 10]
[Ben-David, 2010] “A theory of learning from different domains”
ソース損失 H⊿H Divergence Joint Error
= 理想的なhを
使うときの損失
ただし、 𝐶 = 𝑅 𝑆 ℎ∗ + 𝑅 𝑇 ℎ∗ where ℎ∗ is optimal joint classifier
※ S=ソース分布、T=ターゲット分布
※上の式はソースが1つの場合を仮定（多ソースへの拡張もある）

H⊿H Divergenceの解釈
8
H⊿H Divergenceが大きい状態 H⊿H Divergenceが小さい状態
• H⊿H Divergence = 分布間の距離を測る指標
• KL Divergenceなどよりサンプル効率が良い

背景：Domain Adversarial Neural Networks [Ganin+ 16]
9
• Idea：H⊿H Divergenceの上界を抑えるH-Distanceは2値分類器で近似できる
• Zがどちらのドメインから来たのかを分類する分類器で測って最小化
• 分類器が識別出来ないような特徴空間に飛ばす

Outline
• ドメイン転移と不変表現学習
• 最近の研究動向（ICML2019が中心）
– 不変表現学習とJoint Errorのトレードオフ問題
– 教師なしドメイン適応におけるモデル選択問題
– メタ正則化による転移可能な表現の学習
– より難しい問題設定への取り組みについて
• まとめ
11

以降の内容
12

以降の内容
13
共通の問い：不変性を高めることは本当に良いことなのか？

不変性だけではだめな直感的な理由 [Saito+ 18]
14

不変性だけではだめな理論上の理由
15
Theorem [Ben-David+ 10]
ソース損失 H⊿H Divergence Joint Error
= 理想的なhを
使うときの損失
ただし、 𝐶 = 𝑅 𝑆 ℎ∗ + 𝑅 𝑇 ℎ∗ where ℎ∗ is optimal joint classifier
※ S=ソース分布、T=ターゲット分布
※上の式はソースが1つの場合を仮定（多ソースへの拡張もある）不変性を上げてもCが変化しないことを仮定
≒共変量シフトの問題設定（実際は？）

実験：Joint ErrorとH⊿H-divergence [Liu+ 19]
16
[Liu+ 19]
VisDA-17 Dataset
（左）Dataset（右）誤差
[Chen+ 19]
Office-31 Dataset
誤差
※ DANN [Ganin+16] Domain
Adversarial Neural Networks
※ MCD [Saito+ 18] Maximum
Classifier Discrepancy
観測：不変にする手法を使うとJoint Errorが大きくなっている
＝＞不変性を上げるとCが悪くなる（場合がある）

不変性が良くない簡単な例 [Zhao+ 19]
17[Zhao+, 19] “On Learning Invariant Representation for Domain Adaptation”
左はSとTは離れている
Joint Errorの低い分類器は作れる
左はSとTは完全に一致
Joint Errorの低い分類器は作れない
※ データは1次元、y軸はソースとターゲットを分けている

問い
1. 理論的に不変性とJoint Errorはどういう関係にあるのか？
– 言い換えれば、不変性を最大にするとJoint Errorが必ず悪化する/
しないような状況はあるか？
2. Joint Errorを考慮するにはどうすればよいか？
– ターゲットラベルを使わずに、Joint Error≒本当に最適化したいもの
を最小化できるか？
18

On Learning Invariant Representations for Domain Adaptation, ICML2019
19
Han Zhao et al.
• Notationが違うが、Ben-Davidとの差は第3項
• ソースとターゲットに共通のラベリング関数を仮定しない
• Joint Errorは、ある特徴空間上での真のラベリング関数のミスマッチ
• ※ちなみにこの論文では対処法については議論してない

On Learning Invariant Representations for Domain Adaptation, ICML2019
20
Han Zhao et al.
Over-training hurt generalization!
理由：ラベル分布が異なる場合に学習しすぎると
真のラベリング関数がソースとターゲットでずれ
る（RTが途中から劣化！）

問い
1. 理論的に不変性とJoint Errorはどういう関係にあるのか？
– 言い換えれば、不変性を最大にするとJoint Errorが必ず悪化する/
しないような状況はあるか？
– => 特徴空間上での真のラベリング関数がずれると悪化する
– => P(Y)が異なる場合には不変性とJoint Errorは両立できない
2. Joint Errorを考慮するにはどうすればよいか？
– ターゲットラベルを使わずに、Joint Error≒本当に最適化したいもの
を最小化できるか？
21

Transferable Adversarial Training: A General Approach to Adapting Deep Classifiers, ICML2019
22
Hong Liu et al.
手法の概念図
• 特徴空間上を動かす代わりに、ドメイン識
別器を使って新たに事例を作る
• 特徴空間は変化しないので劣化しない
• 事例は、(1) ドメイン識別器を騙す、(2) Yの
分類平面も騙すような事例
（決定境界の近くに移す）
アルゴリズム

Transferable Adversarial Training: A General Approach to Adapting Deep Classifiers, ICML2019
23
Hong Liu et al.
結果

Domain Adaptation with Asymmetrically-Relaxed Distribution Alignment
24
Yifan Wu et al.
具体的な実装
（DANNの拡張版）
気持ち
• すべてが近づかなくて
も良い
• β-admissible distances
（定義3.3）
• SとTが一定より近ければ
Alignしたとみなす
具体的な実装
（Wasserstein版）

Domain Adaptation with Asymmetrically-Relaxed Distribution Alignment
25
Yifan Wu et al.

Transferability vs. Discriminability: Batch Spectral Penalization for Adversarial Domain Adaptation, ICML2019
26
Xinyang Chen et al.
前提：特異値のプロット提案法：BSP
• DANNは特異値の最大値が大きい傾向
• (1) 特徴量が一部の軸に支配されている
（≒縮退している）
• (2) Discriminabilityが低い（詳細略）
（クラス間分散/クラス内分散）
• Top-Kの特異値が小さくなるように制約

Transferability vs. Discriminability: Batch Spectral Penalization for Adversarial Domain Adaptation, ICML2019
27
Xinyang Chen et al.

まとめ：Joint Errorと不変性のトレードオフ
• 共通の問い：不変性を上げれば良いのか？
• 部分的な答え：
– 少なくともP(Y)が変化する場合にはNo
– （共変量シフトの仮定が成り立たない場合）
– かつ、これは結構実際的におこる（ターゲットのP(Y)は普通未知）
• 対策：ここではICML2019を3つ紹介
– Transferable Adversarial Training
– Batch Spectral Penalization
– Asymmetric Relaxation
28

次なる疑問：結局どれを使えばいいのか？
• 非常に答えにくい
• 理由：モデル選択方法が確立されていない=>比較困難！
– 実際に知りたいターゲットロスは使えない
– 論文によっても使ってる方法が違う！
• 素朴な方法１：ソースリスク
– 問題：上界を明らかに抑えてない
• 素朴な方法２：ターゲットリスク（少数で計測）
– 問題：教師なしドメイン適応の問題設定と反している
29
Toward Accurate Model Selection in Deep Unsupervised Domain Adaptation,
ICML2019

前提：Importance Weighted Cross Validation (IWCV)
• 密度非による重み付けを利用したモデル選択
30
重み付きソース損失
ターゲットのリスク

Toward Accurate Model Selection in Deep Unsupervised Domain Adaptation, ICML2019
31
Kaicho You et al.
IWCVの問題：アンバイアスだが分散が大きい
Renyi Divergence
提案法：Deep Embedded Validation
(1) 特徴空間上で密度比を計測する（ドメイン識別器を使う）
(2) Control Variatesを使う（平均をベースラインに使う）

Toward Accurate Model Selection in Deep Unsupervised Domain Adaptation, ICML2019
32
Kaicho You et al.
(1) 手法問わず使える (2) ターゲットとほぼ同等
(3) Control Variateは平均すると良い

モデル選択手法まとめ
33

モデル選択まとめ
• ドメイン転移の問題設定の多くではターゲットのラベル付きデータ
は得られない => モデル選択が難しい！
– フェアな比較がなされていない
– 再現性の担保も難しい
• アンバイアスで低分散な手法を提案
34

メタ正則化によるドメイン転移
35
共通の問い：不変性という基準を設計する必要あるのか？

Feature-Critic Networks for Heterogeneous Domain Generalisation, ICML2019
36
Yiying Li
NNで表されたAux. Lossを定義
条件1：正のスカラーを出力
条件2：特徴抽出器(θ)に依存
例：Set Embedding
Inner Update
Aux. Lossを更新

37
Yiying Li
Homogeneousな設定（普通の設定）での比較

38
Yiying Li
Heterogeneousな設定（ラベル集合がSとTで異なる）での比較

まとめ（というか個人的な感想）
• 面白いけど黒魔術っぽさがすごい
– 普通こういう場合は正則化の候補をいくつか用意してどれを使うかを選
ぶとかになるところを、特徴抽出器（≒特徴表現）からの関数であれば何
でも良いということになっている
• よくわからない（一体何をしているのか。。。）
• 関連研究：
– Meta-Learning Update Rules for Unsupervised Representation Learning,
ICLR2019
39

より複雑な問題設定への応用
40

ドメイン転移の種々の問題設定（再掲）
41
P = Q
P≒Q
教師なし, 多量
P≒Q
教師あり, 少量 ~
未知
ソース1つ
伝統的
機械学習
Unsupervised
DomainAdaptation
Few-Shot Domain
Adaptation
Domain Agnostic
Learning
ソース複数
Multi Domain
Learning
Multi Source
DomainAdaptation
（あんまりない？
Domain
Generalization
ターゲットデータ/分布への仮定
得られるソース分布
共通の仮定
• ソースはターゲットより何らかの意味でリッチな情報がある
• ソースの学習（経験リスクℝ 𝑠）をターゲットの学習にどう活かすか？

新しい軸
• (1) ターゲットの変化
– ”Open Set Domain Adaptation”
– “Partial Domain Adaptation”
– “Universal Domain Adaptation”
• (2) ドメインラベルなし
– “Unsupervised Adversarial Induction”, NIPS2018
– “Learning Robust Representations by Projecting Superficial Statistics
Out”, ICLR2019
42

(1) ターゲットの変化
43

(2) ラベルなし不変表現学習
• 普通の設定ではドメインにIDがついていることを仮定
• 実際は？
– 例えばWebのデータは1つのドメイン？
– そもそもドメインって何？
• ドメインIDがない状況でも、タスクに重要な情報をそうでない状況
と分離したい
• 方策１：特徴量を分離
”Unsupervised Adversarial Invaiance”, NIPS2018
• 方策２：不変性へのドメイン知識を利用
“Learning Robust Representations by Projecting Superficial
Statistics Out”, ICLR2019
44

Unsupervised Adversarial Invariance, NIPS2018
45
Ayush et al.

まとめ
• より複雑な問題設定での検証も最近は進められている
46

全体まとめ
• 一般的な仮定：不変性は転移に有効
• 最近の動向
– (1) Joint Errorを下げる方が大事では？
– (2) 不変性とか以前にモデル選択方法ちゃんとしないと比較できないの
では？
– (3) 正則化いちいち設計しないでメタ学習しよう？
– (4) ラベル集合が変化しないという仮定は現実的？
47

あまり触れられなかった話題
• 多分Joint Errorを考慮するのはAssymmetric Tri-Training
– 参照：“[DL輪読会] “Asymmetric Tri-training for Unsupervised Domain
Adaptation (ICML2017)” and Neural Domain Adaptation”
• DANNの素朴な発展系の話
– Asymmetric Discriminative Domain Adaptation (ADDA)
– Conditional Domain Adversarial Networks (CDAN)
• その他の不変性基準
– KL-Divergence, MMD, CMD, Wasserstein
• 不変性の別ドメインへの応用：フェアネス等
• 理論的な詳細
• ドメイン汎化の最近の発展 48

Related Works: Feature Adaptation
Mathematical Foundation
[Ganin, 2016] “Domain-Adversarial Training of Neural Networks”
Visualization
[Ben-David, 2010] “A theory of learning from different domains”
ドメイン間の距離ソース損失
理想的なhを使うと
きの損失の差
50

Maximum Mean Discrepancy (MMD) [Tzeng, 2014]
• Sの事例間類似度 + Tの事例間の類似度 - SとTの間の類似度
• カーネルを使って計算（ガウシアンカーネルがよく使われているイメージ）
(Cited)https://www.dropbox.com/s/c8vhgrtjcqmz9yy/Gret
ton.pdf?dl=1
(Cited) [Tzeng, 2014]
51

Domain-Adversarial Neural Networks [Ganin, 2014]
• Zがどちらのドメインから来たのかを分類する分類器で測って最小化
• 分類器が識別出来ないような特徴空間に飛ばす
52

MMD系とDANN系（+その派生）
• MMD系: 分布の差 Ps(Z) - Pt(Z)を計測
– DANN: マルチカーネルMMDを使う（MK-MMD)
– VFAE: MMD＋グラフィカルモデルでzとsの独立性を表現
– CORAL: 2nd order momentのみを合わせる
– AdaBN: 平均と分散をドメインごとに計算して合わせるBN
– CMD: k-th order momentまで計算して合わせる
• DANN: 分布の比Ps(Z)/ Pt(Z)を計測
– KL-Divergence: KL(S|T) + KL (T|S)，陽に1stモーメントを近づける
※どちらが良いかははっきりしてないと思う（例えば精度はMMD < DANN < CMD）
※GANみたいに比だと安定しないとかはあんまりない印
※Wasserstainみたいな輸送距離が使われているのは見たことないけどどうなるのか気になる 53

DANN系の派生その他
• [Zhao+ 18] “Adversarial multiple source domain adaptation”,
NIPS2018
• [Zhao+ 18] “Multiple source domain adaptation with adversarial
learning”, ICML2018
• [Tzeng+17] “Adversarial discriminative domain adaptation”,
ArXiv?
• [Pei+18] “Multi-adversarial domain adaptation”
• [Hoffman+18] “Cycada: Cycleconsistent adversarial domain
adaptation”, ICML2018?（記憶）
54

[DL輪読会]ドメイン転移と不変表現に関するサーベイ

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Similar to [DL輪読会]ドメイン転移と不変表現に関するサーベイ

Similar to [DL輪読会]ドメイン転移と不変表現に関するサーベイ (20)

More from Deep Learning JP

More from Deep Learning JP (20)

Recently uploaded

Recently uploaded (11)

[DL輪読会]ドメイン転移と不変表現に関するサーベイ