Recent Advances on Transfer Learning and Related Topics Ver.2

Recent Advances on Transfer Learning and
Related Topics (ver.2)
Kota Matsui
RIKEN AIP Data Driven Biomedical Science Team
December 14, 2019

Acknowledgement
理研 AIP 非凸学習理論チームの熊谷亘氏に感謝申し上げます.
本発表の内容は, 熊谷氏との共同研究, ディスカッションに
大きく依存しています.
また, 内容をチェックし, 重要なコメントを多数頂いた東京大学
の幡谷龍一郎氏, 手嶋毅志氏, 河野慎氏に感謝いたします.
K. Matsui (RIKEN AIP) Transfer Learning Survey 1 / 180

Table of contents i
1. Introduction
2. Foundations of Transfer Learning
3. Paradigm Shift in Transfer Learning via Deep Learning
4. Related Fields of Transfer Learning
5. Topics in Transfer Learning
6. Theory of Transfer Learning (Instance Transfer)

Table of contents ii
7. Impossibility Theorems for Domain Adaptation
8. Theory of Transfer Learning (Parameter Transfer)
9. Immunity : An Optimality of Domain Adaptation
10. Life-long (Continual) Learning
11. Concluding Remarks

転移学習って?
素朴な観察
人間は, ある問題に取り組む際に全く知識の無い状態からス
タートするか?
NO : 人間は過去に経験した問題解決から得た知識を現在の問
題に転用できる
• 過去の知識の積み上げができる
• 問題の間の類似構造を自然に把握できる
• 獲得した知識を繰り返し転用することができる
Research Question
これらの機能を計算機上で実現するには???
K. Matsui (RIKEN AIP) Transfer Learning Survey Introduction 4 / 180

機械学習 / Machine Learning
人工知能研究の一分野として
“Field of study that gives computers the ability to learn without
being explicitly programmed” [Samuel (1959)].
データ科学の一分野として
“The term machine learning refers to the automated detection
of meaningful patterns in data” [Shalev-Shwartz&Ben-David (2014)].
’
• “Machine Learning” の出典
A. Samuel “Some Studies in Machine
Learning Using the Game of
Checkers”, 1959.
• generalization (汎化, 学習した能力
が未知の事例に対しても上手く働く
こと) の考え方も論じられている
　　　

機械学習における様々なタスク: 教師あり学習
入力 x と出力 y のペアから入出力関係 x → y を獲得

機械学習における様々なタスク: 教師なし学習
入力 x のみからその特徴を抽出

機械学習における様々なタスク: 半教師あり学習
(a) 少量のラベルありデータのみでは良いモデルは学
習できない
(b) ラベルありデータに加えて大量のラベルなしデー
タを用いることで良いモデルを学習することが
出来る

機械学習における様々なタスク: 能動学習 i
x1
x2
y
ε
x f(x) y = f(x) + ε
不確実性の下でブラックボックス関数 f に関する統計的推論を
行うためのデータ観測戦略を考える

機械学習における様々なタスク: 能動学習 ii
能動学習の基本的な問題設定
• 候補入力 x1, ..., xn が与えられている
• 関数 f を評価して出力 yi = f(xi) を得るにはコスト (e.g. 時
間, 費用...) がかかる
このとき, できるだけ少ないコスト (観測回数) で
問題設定 1: 関数推定関数 f を精度良く推定したい
f∗
= arg min
ˆf∈F
n∑
i=1
(f(xi) −ˆf(xi))2
問題設定 2: 最適化関数 f の maximizer を求めたい
x∗
i = arg max
x∈{x1,...,xn}
f(x)

機械学習における様々なタスク: 能動学習 iii
探索と活用のトレードオフ
探索事前知識のないパラメータに対して観測を行う
• これまでよりも良くなるかもしれない未知の
パラメータを試す
活用実験済みのパラメータ値に近いパラメータに対し
て観測を行う
• これまでに良かったパラメータを活かす
探索のみを行っていると過去の実験結果が活かせず, 活用ばか
り行っているとまだ見ぬ良いパラメータを発見できない
→ 両者のバランスを取りながら最適なパラメータを探す

機械学習における様々なタスク: 強化学習
a
s
r
様々な応用
環境とエージェントの相互作用の結果を用いて意思決定モデル
の学習, 最適化を行う

機械学習の定式化 i
• 入力空間 X ⊂ Rd
• 出力空間 Y
• Y = {0, 1} : 2 値判別
• Y = R : 回帰
• (Y = {c} (1 点集合) : 教師なし学習)
• データ生成分布 P = P(X, Y)
• 仮説 h : X → Y 入出力関係を予測する
• 損失関数 ℓ
• 0-1 損失 (判別) : ℓ(ˆy, y) = 1[ˆy ̸= y] =
{
1 if y ̸= ˆy
0 otherwise
• 二乗損失 (回帰) : ℓ(ˆy, y) = |ˆy − y|2
• (再構成損失 (教師なし学習) : ∥ˆx − x∥2
)

機械学習の定式化 ii
Deﬁnition 1 (期待リスク)
データ (X, Y) の従う分布 P の下での仮説 h の期待リスクは
R(h) := E(X,Y)∼P[ℓ(h(X), Y)]
期待リスクを最小にする仮説 h を見つけることが (教師付き)
機械学習の目的
実際には真の分布 P は未知なのでサンプル近似
E(X,Y)∼P[ℓ(h(X), Y)] ≈
1
N
N∑
i=1
ℓ(h(xi), yi)
を最小にする h を探す

転移学習の定式化 i
Deﬁnition 2 (ドメイン)
• Z : abstract な集合
• PZ : Z 上の確率分布
の組 (Z, PZ) をドメインと呼ぶ
Ex
• Z = X, PZ = PX (教師なし学習)
• Z = X × Y, PZ = PX×Y (教師付き学習)
特に (以降 Z = X × Y を想定して)
• (ZS, PS) を元ドメイン (source domain) と呼び
• (ZT, PT) を目標ドメイン (target domain) と呼ぶ

転移学習の定式化 ii
転移学習の目標
元ドメイン (ZS, PS) での学習を通して目標ドメイン (ZT, PT) に
おける期待リスク RT(h) を最小化する.
Ex (判別問題) (ZT, µT) で高い判別性能を示す判別関数 h を見つ
ける
{(xS
i , yS
i )}NS
i=1
data
∈ XS × YS −−−−−→
training
ˆh = arg min
h
1
NS
NS∑
i=1
ℓ(h(xS
i ), yS
i )
−−→
test
1[ˆh(xT
j ) = yT
j ], xT
j ∈ XT

伝統的な機械学習と転移学習の関係
伝統的な機械学習は, 転移学習の特別な場合に相当:
元ドメイン = 目標ドメイン. すなわち,
ZS = ZT and PS = PT
Ex (2 値判別問題)
• P & N ∼ PXS×{0,1} (元)
• U ∼ PXS
(目標)
• ラベル無しの目標データを
正しく判別する境界はラベ
ルありの元データから学習
できる.
実際にはこの仮定が成り立たない問題がいくらでもある

元ドメインと目標ドメインが異なる例 i
サンプル空間がドメイン間で異なる
XS ̸= XT

元ドメインと目標ドメインが異なる例 ii
データの分布がドメイン間で異なる
PS ̸= PT
Training Data
(source domain)
Hospital A
Hospital B
Hospital C
Training
Prediction Model
Apply
Hospital D
(target domain)
•  Multi-center prognostic analysis
Ø  source : 3 different hospitals
Ø  target : a hospital
•  Task :
to learn a prediction model in S
that performs well in T
•  Probability distribution of covariates of
the patients can differ among hospitals
A Transfer Learning Method for Multi-Center
Prognostic Prediction Analysis [Matsui+ 2018]

元ドメインと目標ドメインが異なる例 iii
Fig: [Yang+ (2009)]
• 元ドメインと目標ドメインの “違い方” によって対応する
観測データの “違い方” も変わる

転移学習の必要性
異なるドメインのデータや知見を統合して取り扱うための
方法論
• 目標ドメイン, 元ドメインともにデータが少数のとき
→ 各ドメインのデータを統合して活用できる
• 医学研究などの small data な領域で威力を発揮
• 目標ドメインは小データだが元ドメインにデータが大量に
あるとき
→ 各ドメインで要約統計量を学習しておき, それを別のド
メインで活用できる
• 生データを保持しなくて良いのでストレージやメモリの節
約になる
• プライバシーの観点からもメリットがある?

Foundations of Transfer Learning

転移学習 i
定性的な定義 [NIPS’05 workshop]
目標タスクの効果的な仮説を効率的に見つけ出すために, 一
つ以上の別のタスクで学習された知識を適用する問題
数学的な定式化 (再掲)
ZS ̸= ZT あるいは PS ̸= PT である場合に, 目標ドメインの期待
リスク RT(h) を最小にするような仮説 h を見つける
Fig: [Pan&Yang (2010)]
K. Matsui (RIKEN AIP) Transfer Learning Survey Foundations of Transfer Learning 22 / 180

転移学習 ii
• 様々な関連分野がある
• domain adaptation (transfer learning の別称)
• self-taught learning [Raina+ (2007)]
• multi-task learning [Caruana (1997)]
• meta-learning [Brazdil+ (2008), Vanschoren (2018)]
• learning to learn [Thrun&Pratt (1998)]...
• 最近では深層学習への応用により注目度が増大
• pre-training [Bengio+ (2007), Erhan+ (2010)]
• ﬁne-tuning [Girshick+ (2014)]
• few-shot learning [Palatucci+ (2009), Fu+ (2018)]
• representation learning [Hinton (1986), Zhuang+ (2015)]...
• 一方で非常に多くの設定 (転移仮定) があり, 各設定に対し
て個別に手法が考察されている状況
• distribution shift [Sugiyama+ (2012), Courty+ (2017)]
• heterogeneous transfer learning [Daume III ACM (2007),
Duan+ (2012)]...

転移学習の分類
• Pan&Yang (2010) や神嶌 (2009) では各ドメインのラベルの有無で分類
• 上記文献では, 以下のように少し呼称が異なる
• 元: ラベル有, 目標: ラベル無 → トランスダクティブ転移学習
• 元: ラベル無, 目標: ラベル無 → 教師なし転移学習
• 最近では右上の設定が “教師なし転移学習” と呼ばれる

教師付き転移学習 i
• 元ドメイン, 目標ドメインそれぞれでラベル付きデータが
利用可能
→ ただし, 目標ドメインのラベル付きデータは元ドメイン
のそれよりも非常に少数と想定
• 共変量とラベルの同時分布がドメイン間で異なる:
PS(X, Y) ̸= PT(X, Y)
• 同時分布のずれを補正しながら目標ドメインの経験リスク
を最小にする仮説 h を探す

教師付き転移学習 ii : TrAdaBoost
アンサンブル学習である AdaBoost を転移学習のために改
良 [Dai+ (2007)]
• 両ドメインのラベル付きデータから弱学習器を学習
• 初期の重みは両ドメインのデータに等しく与える
• 誤差の大きい目標データは重みを大きくし, 誤差の大きい
元データは重みを小さくする
wt+1
i
=



wt
iβ
|lossi|
t for target data
wt
iβ
−|lossi|
t for source data
• 学習の前半の弱学習器は捨て, 後半のものだけ使って分類
器を構成
hf(x) =



1 if
∏N
t=⌈N/2⌉ β
−ht(x)
t ≥
∏N
t=⌈N/2⌉ β
−1/2
t
0 otherwise

教師なし転移学習
• transfer learning や domain adaptation 研究の主流の設定
• 元ドメインではラベル付きデータ, 目標ドメインではラベ
ル無しデータのみが利用可能な場合
• 目標ドメインで学習ができないため, 直接目標リスクを最
小化する仮説を探索できない
• 目標ドメインのラベル情報がないため, 元ドメインのラベ
ル付きデータを有効利用するためには何らかの仮定が必要
(転移仮定, 詳細は後述)
• 共変量シフト [Shimodaira (2000)]
PT(Y | X) = PS(Y | X)
• ターゲットシフト [Redko+ (2018)]
PT(X | Y) = PS(X | Y)
• 共通の隠れ空間の存在 [Duan+ (2012), Iwata&Yamada (2016)]

半教師あり転移学習 / 能動的転移学習 i
根本的な問い
• 教師なし転移学習 (学習時からテスト時までずっと目標ド
メインのラベルが無い状況) は妥当な問題設定なのか?
• 目標ドメインでも少しはラベルが取れる状況を考える方が
自然では?
→ 半教師あり学習/能動学習
• 半教師あり転移学習 :
元ドメインではラベルありデータ, 目標ドメインでは少量
のラベルありデータと大量のラベル無しデータが使える
• 能動的転移学習 :
目標ドメインのどのインスタンスにラベルを付けるかを適
応的に選択

半教師あり転移学習 i
問題設定
• 元ドメインで available なデータ:
• ラベルありデータ Ds = {(xs
i , ys
i )}ms
i=1
• 目標ドメインで available なデータ:
• ラベルありデータ Dt = {(xt
i, yt
i)}mt
i=1,
• ラベル無しデータ Du = {xu
i }mu
i=1
目的
Ds, Dt, Du から目標ドメインのための予測モデルを学習
→ 目標ドメインにラベルありデータが存在するのでモデルの
評価が可能

半教師あり転移学習 ii
Semi-supervised DA via Minimax Entropy [Saito+ (2019)]
1. ドメイン不変な prototype (各クラスの代表元) を推定
2. 推定した prototype を使って xu
i から discriminative
features を抽出
→ 特徴抽出器とタスク判別器の間の敵対的学習として定式化

能動的転移学習 i
問題設定
• 元ドメインで available なデータ:
• ラベルありデータ Ds = {(xs
i , ys
i )}ms
i=1
• 目標ドメインで available なデータ:
• ラベルありデータ Dt = {(xt
i, yt
i)}mt
i=1
• 初期状態で Dt ̸= ∅ の場合 [Wang+ 2014]
• 初期状態で Dt = ∅ の場合 [Su+ 2019]
• ラベル無しデータ Du = {xu
i }mu
i=1
目的
Ds, Dt, Du を用いて, Du の元のラベルを適応的に観測しなが
ら目標ドメインのための予測モデルを学習
→ 目標ドメインにラベルありデータが存在するのでモデルの
評価が可能

能動的転移学習 ii
Active Transfer Learning under Model Shift [Wang+ (2014)]
アプローチ 1 : 事後分布のマッチング
Pr(Ynew
| Xs
) = Pr(Yt
| Xt
)
• Ynew は Xs に対応するラベル Ys の location-scale 変換
Ynew
= Ys
⊙ w(Xs
) + b(Xs
)
• 変換関数 w(·), b(·) は連続関数になるように形を制限
• 事後分布マッチングは両者の discrepancy 最小化で達成
アプローチ 2 : ガウス過程モデリング
• Ds で学習した GP から, Dt の true と予測の差 ˆZ = Yt − ˆYt
を正規モデリング
• Ds のラベルを変換: Ynew = Ys + ˜Z, ˜Z ∼ N(˜µ(ˆZ), ˜Σ)
£ 両アプローチ共に {Xs, Ynew} ∪ {Xt, Yt} で予測モデルを学習
£ uncertainty sampling で次の評価点を決定

能動的転移学習 iii
Active Adversarial Domain Adaptation [Su+ (2019)]
Domain Adversarial Training (ドメイン適応)
+
Importance Weighting (能動学習)
£ sample selection の方針
• 経験損失が大きい点を取る vs 重要度が高い点を取る
• 重要度は GAN の discriminator から計算: pT(ˆx)
pS(ˆx)
=
1−G∗
d
(ˆx)
G∗
d
(ˆx)

自己教示学習
• 元ドメインではラベル無しデータのみが, 目標ドメインではラベル付き
データが利用可能な場合
• 元ドメインで教師なし特徴抽出し, 目標ドメインの教師付き学習に援用
Supervised Classiﬁcation
Semi-supervised Learning
Transfer Learning
Self-taught Learning

強化学習における転移学習 i
[久保 2019] では強化学習においてモデルの転移能力を獲得する
ための主要な 2 つのアプローチを紹介
1. メタ学習 (モデルの転移能力の獲得)
• Learning to learn : 教育の仕方の学習
• Learning to train : 学習の仕方の学習
2. 転移学習 (知識やデータの再利用)
• Sim2Real : シミュレーションから現実への転移
• domain randomization : シミュレーションの多様化
詳細は後述

強化学習における転移学習 ii
別の定式化
ドメインを “タスク空間とタスク分布のペア” と考えたエージ
ェントベースの転移学習 (4 種類の転移シナリオ)
Task Space Task Space
N1
N2
NM
M1
M2
M3
M4
1. Across two agents of
different domains
2. Across two agents
in the same domains
3. Across two agents
in the same task
4. Across multi-agents
in the same domain
Fig : [Fachantidis 2016]K. Matsui (RIKEN AIP) Transfer Learning Survey Foundations of Transfer Learning 36 / 180

転移学習の基本的な問題
1. What to transfer (何を転移するか)
• instance transfer (データそのものを転移)
• feature transfer (抽出した特徴を転移)
• parameter transfer (学習したモデルや特徴抽出器を転移)
2. When to transfer (いつ転移するか)
• 転移学習が成功するのは元ドメインと目標ドメインが似て
いるとき
• 例: covariate-shift [Shimodaira (2000)] PrS[y | x] = PrT[y | x]
• 負転移 (転移によって目標ドメインの性能が低下)
3. How to transfer (どう転移するか, 具体的なアルゴリズム)
• 例: 重要度重み付き学習 [Sugiyama+ (2012)]
• 例: 最適輸送によるドメイン適応 [Courty+ (2017)]

What to Transfer : Instance Transfer
元ドメインのデータを目標ドメインのデータとして学習に
用いる
例: 重要度重み付き学習, 最適輸送に基づくドメイン適応
• homogeneous な状況を想定 (ドメイン間で標本空間は共通)

What to Transfer : Feature Transfer
元ドメインと目標ドメインで共通の特徴を抽出し学習に用いる
例: Augmented features [Duan+ (2012)]
• heterogeneous な状況を想定 (ドメイン間で標本空間が異なる)

What to Transfer : Parameter Transfer i
元ドメインで学習したモデルや特徴抽出器のパラメータを目標
ドメインで用いる
例: ﬁne-tuning
…
1000
…
20
Fine-tuning
L∇ ( )iiL yx ,
• あるデータセットで予め学習した NN の出力層を目標データで再学習
• 出力層の手前までのネットワークのパラメータは固定
→ ただしこの定義にはいくつか流派? がある模様 (次ページ)

What to Transfer : Parameter Transfer ii
Fig:[Li&Hoiem (2016)]
• [Li&Hoiem (2016)] では出力層手前までも再学習するものを ﬁne-tuning
と呼んでいる (元ドメインの学習結果を warm-start とする)
• 出力層手前までを固定するものは feature extraction と呼ばれている

When to Transfer : Discrepancy i
何らかの指標で元ドメインと目標ドメインが “似ている” とき
転移を実施
例: ドメインの確率分布の不一致度 (discrepancy)
• discrepancy が小さいとき, 目標ドメインのデータは元ドメインとよく
似た生成メカニズムを持っていると考えられる
• 様々な discrepancy が定義されている
• H∆H divergence [Ben-David+ (2010)]
• Wasserstein distance [Courty+ (2017)]
• source-guided discrepancy [Kuroki+ (2019)]

When to Transfer : Discrepancy ii
Integral Probability Metrics (IPM) [Sriperumbudur+ (2012)]
DiscG(PT, PS) := sup
g∈G
|ET[g] − ES[g]|
• PT, PS はそれぞれ元ドメイン, 目標ドメインの確率分布, g はテスト関数
• Wasserstein metric, total variation, kernel MMD, source-guided
discrepancy などを含む統一的な discrepancy の定式化
• M = supx∈X,g∈G g(x) とする. このとき, 確率 1 − δ 以上で以下のサンプ
ル近似バウンドが成立
|DiscG(PT, PS) − DiscG(ˆPT, ˆPS)|
≤ 2ℜT,nT (G) + 2ℜS,nS (G) + M
√
18 log
4
δ
(
1
√
nT
+
1
√
nS
)
• ℜT,nT (G), ℜS,nS (G) : 目標ドメイン, 元ドメインにおける G のラデマ
ッハ複雑度
• nT, nS : 各ドメインのサンプルサイズ
→ 転移学習の理論解析時に非常に有用

When to Transfer : 転移仮定 i
ドメインの “類似” をより積極的にモデリングする
例 i: 共変量シフト [Shimodaira (2000)]
• 元ドメインと目標ドメインでラベル付けルールが共通
PS(Y | X) = PT(Y | X)
• 重要度重み付き ERM で効果的にモデルの学習が可能 (詳細は後述)

When to Transfer : 転移仮定 ii
例 ii: ターゲットシフト [Zhang+ (2013), Redko+ (2019)]
• 元ドメインと目標ドメインで入力分布が共通
PS(X | Y) = PT(X | Y)
• ドメイン毎にクラスバランスが異なる状況を想定
• [Redko+ (2018)] では最適輸送を使って効果的なモデルの学習を実現
(Fig)
ただし一般には最適輸送はこのような問題は苦手 (輸送前と後でラベル
を保存するため)

When to Transfer : 転移仮定 iii
例 iii: 共通の隠れ空間の存在 [Duan+ (2012), Iwata&Yamada (2014)]
Latent space

D

'
^
/
:
,
D
W1 ↙ ↘ W2

D

'
^
/
:
,

D
'
^
/
:
,
Observed view 1 Observed view 2
( )
• 適当な射影によって homogeneous な空間に落とせる (左)
• 隠れ空間からの写像によって様々な表現が観測される (右)

When to Transfer : 負転移
ドメインバイアスとも呼ばれる (メタ学習の文脈)
• 2 つのシナリオ
1. 一方のドメインのみで学習したモデルを目標タスクで用いる
2. 転移学習によって学習したモデルを目標タスクで用いる
で (2 の目標タスク性能) ≤ (1 の目標タスク性能) のとき負
転移 (negative transfer) という
• 2 つのドメインが乖離しているほど負転移が発生しやすい
1.0
0.2
0.4
0.6
0.8
0.0
1.0
0.2
0.4
0.6
0.8
0.0
AUC
AUC
The number of target training casesThe number of target training cases
(a) (b)
source only
transfer
target only
source only
transfer
target only

Paradigm Shift in Transfer Learning
via Deep Learning

深層学習の登場は転移学習をどう変えたか?
• 転移学習の観点では, 表現学習としての深層学習の発展が
大きなポイント
• これまでマニュアルで設計していた特徴量をネットワーク
が自然に獲得
• 転移学習においては, データから各ドメインに関する特徴
の抽出も可能になった
• ドメイン不変な特徴量はそのまま転移可能
• 特徴を独立な成分に分解し, ドメイン間で共有されている
成分は転移し, 異なっている成分は転移しない
(disentangled representation, 後述)
K. Matsui (RIKEN AIP) Transfer Learning Survey Paradigm Shift in Transfer Learning via Deep Learning 48 / 180

深層ニューラルネットによる特徴表現の獲得– 1 week for
training
• 5 conv. layers + 3 fully connected layers
Layer 5
– 2 GPUs
– 1 week for
training
conv. layers + 3 fully connected layers
13
Conv 1 :
EdgeColor
Conv 3 :
Texture
Conv 5 :
Object Parts
FC 8 :
Object Classes
AlexNet [Krizhevski+ (NIPS12)]
Fig : Ushiku, ACML2019 Tutorial
ZeilerFergus, ECCV2014

転移学習としての表現学習
output y1 output y3output y2
Fig: [Bengio+ (2013)]
• ドメイン不変な特徴を獲得する
• オートエンコーダや敵対的学習 (後述) などが良く用いられる

オートエンコーダによる表現学習
Transfer Learning with Deep Autoencoders [Zhuang+ (2015)]
• オートエンコーダによる教師付き表現学習
min Err(x, ˆx)
reconstruction error
+α (KL(PS||PT) + KL(PT||PS))
discrepancy
+β ℓ(yS; θ, ξS)
softmax loss
+γReg
• 元ドメインと目標ドメインで encoding 層と decoding 層の重みを共有

敵対的学習による表現学習
Domain Adversarial Training [Ganin+ (2016)]
ptrue(X)
pz(z)
G(z; θg)
pg(X)
D(x; θd)
xo xf
PS(X) PT (X)
D(x; θd)
xS xT
G(·; θE)
φS φT
• 敵対的学習 (左図) をドメイン適応に応用 (右図)
• ドメイン不変な特徴表現の学習が目的

敵対的学習による表現学習 ii
Domain Adversarial Training [Ganin+ (2016)]
• 入力データを特徴抽出器に噛ませ, クラスラベルの識別器 (通常の識別
器, 上段) とドメインラベルの識別器 (下段) にそれぞれ入力
• ドメイン識別器の学習は gradient に負定数をかけ逆伝播する gradient
reversal layer を導入することで実現

ドメインの類似と相違の獲得 i
Domain Separation Networks [Bousmalis+ (2016)]
• ドメインの “違い” をネットワークに学習させる
• private encoder でドメイン固有の特徴を学習し, shared encoder でド
メイン横断的な特徴を学習する

ドメインの類似と相違の獲得 ii
定式化 : 4 つの損失関数の重み付き和を最小化
min L = Ltask + αLrecon + βLdiff + γLsim
• 第 1 項は判別誤差 (負の対数尤度)
Lclass = −
∑
i
yS
i log ˆyS
i
• 第 2 項は元の特徴と変換後の特徴の再構築誤差
Lrecon =
∑
i
ℓ(xS
i , ˆx
S
i ) +
∑
j
ℓ(xT
j , ˆx
T
j ), ℓ(x, ˆx) =
1
k
∥x − ˆx∥2
−
1
k2
((x − ˆx)⊤
1)2
• 第 3 項はドメイン共有の特徴とドメイン固有の特徴を直交方向に学習
させる
Ldifference = Hs⊤
c Hs
p
2
F
+ Ht⊤
c Ht
p
2
F
• 第 4 項はドメインの類似性に関する誤差 e.g. 交差エントロピー
∑
ˆ
(
ˆ
)

Disentangled Representation i
もつれのない表現 [Achille+ (2018), Locatello+ (2019),...]
• データが独立な複数の構成要素からなる場合にその独立成
分を個別に取り出すような特徴表現
• 特に複数のドメイン間での転移可能性に重きが置かれる
Fig : Evaluating the Unsupervised Learning of Disentangled Representations

Disentangled Representation ii
Disentangled Representation の学習: 変分オートエンコーダ
(VAE)
X qφ(z | X) pθ(X | z)
ˆXz ∼ N(0, I)
β-VAE [Higgins+ (2017)] ベースの方法が多数提案されている
Lβ =
1
N
N∑
n=1
(Eq [log p (xn|z)] − β KL (q (z|xn) ∥p(z)))
• β = 1 が通常の VAE
• β 1 とすることで第 2 項の罰則が学習に大きく寄与し,
disentangled representation が獲得されやすくなる.
• ただし β のチューニングに sensitive

Disentangled Representation iii
β-VAE β-TCVAE
Gender (-6, 6)female male
Fig : [Chen+ 2018]β-TCVAE [Chen+ (2018)]
Lβ−TC =Eq(z|n)p(n)[log p(n | z)] − αIq(z; n)
− β KL
(
q(z)
∏
q
(
zj
)
)
− γ
∑
KL
(
q
(
zj
)
∥p
(
zj
))
• VAE の第 2 項をさらに分解し項別に重み付け (α と γ は 1 で固定)
• 第 3 項は total correlation と呼ばれ, この項へのペナルティが独
立な表現の獲得に大きく寄与する

Disentangled Representation iv
任意の生成モデルに対して, disentangled representation を教師なし
学習することは可能なのか?
→ モデル or データセットに inductive bias がなければ無理
Theorem 1 (教師なし学習不可能性 Locatello+ (2019))
d 1 として, r.v. z が従う分布 P の密度関数が
p(z) =
∏d
i=1 p(zi) と書けるとする. このとき, ある全単射
f : supp(z) → supp(z) の族が存在し,
1.
∂fi(u)
∂uj
̸= 0 a.e. ∀i, j
2. P(z ≤ u) = P(f(z) ≤ u), ∀u ∈ supp(z)
1 → z と f(z) は completely entangled
2 → z と f(z) は同じ周辺分布を持つ

Disentangled Representation v
cf : Independent Component Analysis (独立成分分析, ICA)
Fig : [Tharwat 2018]
• 観測されるデータは, 独立な複数の発生源からのシグナル
の混合であると考える
• 単一ドメインにおけるある種の disentangled
representation (表現の転移は基本的に考えない)
← 線形 ICA の場合

Disentangled Representation vi
cf : 非線形 ICA (Disentangled Representation との違いは???)
• 真のシグナル (潜在変数) に非線形変換がかかったものが
データとして観測される
• データから真の潜在変数を復元可能か?
復元の不可能性 [HyvärinenPajunen (1999)]
観測 x に対して, y = g(x) で定まる復元 y の各成分が独立にな
るような変換 g が (常に) 存在する. ただしこの復元は一意に
は定まらない → 独立性だけでは非線形 ICA はできない
復元のアイデア: contrastive learning [Hyvärinen+ (2018)]
• 異なる複数の分布 (ドメインに相当) を識別するモデルを
学習する
• ドメインラベルが正しく識別されるモデルの中間層で真の
潜在表現の extractor が獲得される

Related Fields of Transfer Learning

Multi-Task Learning
複数の類似タスクを各タスクの情報を共有しながら同時学習
Fig: [Ruder (2017)]
• NN の場合, ネットワークの構造を工夫してタスク間でパラ
メータを共有する (上図)
• 非 NN の場合, 各タスクのパラメータが近くなるような正
則化をかける (下式 3 項目):
min
θ1,...,θT
1
2
T∑
t=1
n∑
i=1
(fθt (xi) − yi)2
loss
+
1
2
T∑
t=1
λt∥θt∥2
inner−task
+
1
4
T∑
t,t′=1
γt,t′ ∥θt − θt′ ∥2
inter−task
K. Matsui (RIKEN AIP) Transfer Learning Survey Related Fields of Transfer Learning 62 / 180

Multi-View Learning i
Fig: [Xu+ (2013)]
同じものが別の見え方で観測される

Multi-View Learning ii
Principles for Multi-view Learning [Xu+ (2013)]
1. Consensus Principle [Dasgupta+ (2002)]
Pr(f1
̸= f2
) ≥ max{Prerr(f1
), Prerr(f2
)}
• 2 通りの view に対する独立な仮説 f1
, f2
の誤差はこれらの
仮説が不一致である確率で上から抑えられる
• co-regularization 型の手法: 予測損失 +consensus 正則化
∑
L(yi, f(xi))
loss
+
∑
(f1
(xi) − f2
(xi))2
regularization
2. Complementary Principle
• 各 view は他の view がもたない情報を含む
• 複数の view からデータの情報を補完して学習の性能を向
上させることができる
→ co-training 型の手法

Multi-View Learning iii
Multi-view discriminant transfer (MDT) [YangGao (2013)]
• 元ドメイン: {(xS
i , zS
i , yS
i )} (2 views, ラベルありデータ)
• 目標ドメイン: {(xT
j , zT
j )} (2 views ラベルなしデータ)
Task: 目標ドメインデータのラベル yT
j を当てる
MDT の学習問題
max
ξ
ξ⊤Qξ
ξ⊤Pξ
⇔ Qξ = λPξ (generalized eigenvalue problem)
• P : view-wise within-class covariance
• Q = Qw − c1Qd − c2Qc
• Qw : between-class covariance に対応
• Qd : domain discrepancy に対応
• Qc : view consistency に対応

Meta-Learning i
• 
• 
• stacked generalization
• Model-Agnostic Meta-Learning (MAML) [Finn+ (2017)]
• Task embedding (TASK2VEC) [Achille+ (2019)]

Meta-Learning ii : Stacked Generalization
• 
• 
• 
• 様々なアルゴリズムで仮説を学習し, その出力を入力とする上位の仮説
をさらに学習
• kaggle 等のコンペで強力なアプローチとして普及

Meta-Learning iii : Model-Agnostic Meta-Learning (MAML)
様々なタスクに共通に “良い初期値” を学習する
Fig: [Finn+ (2017)]
• パラメータ θ を勾配法の更新則によって異なるタスクに適応させる:
θ′
i ← θ − α∇θLTi
(fθ)
ここで Ti は目標タスク, fθ はモデル, L は損失関数
• タスクの出現の仕方に関して SGD で適切なパラメータを学習:
θ ← θ − β∇θ
∑
Ti∼p(T)
LTi
(fθ′
i
)
少ない更新回数で新たなタスクに適応できるようにパラメータを学習

Meta-Learning iv : Task Embedding (TASK2VEC)
Fig: [Achille+ (2019)]
• 学習済み NN の Fisher 情報行列を使ってタスクのベクトル
表現を獲得 → タスク間の類似度計算が可能に
• タスク間の類似度からタスク毎の適切な特徴抽出機を予測

Learning to Optimize i
Fig : Learning to Optimize with Reinforcement Learning
£ 機械学習の成功は (データからのパターンの自動抽出のような) デ
ータ駆動の考え方に依るところが大きい
£ しかし学習アルゴリズムの設計は依然として人手に依っている
→ 学習アルゴリズムは学習可能？

Learning to Optimize ii
[LiMalik ICLR2017]
State
Action Cost
Policy
f(x(i)
)
Fig : Learning to Optimize with Reinforcement Learning
• π の選び方によって最適化アルゴリズムが変わる
→ π の学習 = 最適化アルゴリズムの学習とみなせる
• ある最適化アルゴリズムの実行はある固定された方策 π の下で
MDP を実行する操作とみなせるみなせる
→ 強化学習 (Guided Policy Search) によって方策 π を学習

Learning to Learn i
£ 多くの文献でlearning to learn = メタ学習とされている
£ 人間の
• “あるタスクに対する能力を別の新規タスクに汎化する” 能力
• “汎化のために必要な経験 · 例 · 反復回数などを学習する” 能力
を計算機上で実現したい
£ Learning to Optimize with Reinforcement Learning によれば,
Learning to Optimize で損失関数を目的関数とした場合に相当
£ 学習するメタ知識の種類に応じて 3 種類に大別
1. Learning What to Learn [ThrunPratt (2012)]
2. Learning Which Model to Learn [Brazdil (2008)]
3. Learning How to Learn [LiMalik (2017), Andrychowicz+ (2016)]

Learning to Learn ii
Learning to learn by gradient descent by gradient descent
[Andrychowicz+ (2016)]
Optimizee
Optimizer
t-2 t-1 t
m m m
+ + +
ft-1 ftft-2
∇t-2 ∇t-1 ∇t
ht-2 ht-1 ht ht+1
gt-1 gt
θt-2 θt-1 θt θt+1
gt-2
• DNN の optimizer (SGD, RMSprop, ADAM...) の更新則を学習
• パラメータ ϕ で optimizer をパラメトリックモデリング:
θt+1 = θt + gt(∇f(θt), ϕ)
• ϕ に関する損失関数を最小化:
L(ϕ) = Ef [f (θ∗
(f, ϕ))]

Few-shot Learning i
Fig: [HariharanGirshick (2017)]
• 興味あるタスク (目標ドメイン) のラベル付きデータが少数 (few)
• one-shot : ラベル付きデータが 1 例のみ
• zero-shot : ラベル付きデータ無し
• 特に Zero-shot の場合は訓練時に見たことのないラベルをもつテスト
データを扱う. ラベルそのものは観測できないが, ラベルについての補
助情報が学習可能という設定

Few-shot Learning ii
Matching Networks [Vinyals+ (2016)]
• one-shot learning において, 元ドメインデータ S = {(xi, yi)} が与えら
れたとき目標データ x のラベル y の予測分布を NN で学習
P(y|x, S) =
k∑
i=1
a (x, xi) yi
• ニューラル機械翻訳の文脈での単語アラインメントモデルに対応
cf [Bahdanau+ (2015)] 3.1 節

メタ強化学習 i
過去のタスクの知見を使って新たな強化学習タスクを高速に
解く.
• 学習者はタスク分布 P(T ) を持っていて, そこからのサンプ
リングができるという設定
• 同じタスク分布からサンプリングされた新しいタスクに対
しては高速に適応する
• 最近の meta-RL では特に, タスク = マルコフ決定過程
(MDP) としている
アプローチ
方策を事前学習しておき, few-shot で現在のタスクに適応させ
る [Wang+ (2016), Finn + (2017)]

メタ強化学習 ii
Model-Agnostic Meta-Learning (MAML) [Finn+ (2017)]
• MAML を RL に適用
• 損失関数として期待リワードを取る:
LTi
(fθ) = −Ext,at∼fϕ,qτi
[ H∑
t=1
Ri (xt, at)
]
• fθ : 方策関数
• Ri : タスク Ti におけるリワード関数
• 勾配法でパラメータ θ を最適化 (ただし期待リワードは一
般に微分不可能なので方策勾配を取る)

Sim2Real
Training Test
Fig : [Tobin+ 2017]
• コストのかかる方策の学習をシミュレータ内で行い, 現実
の問題に転移
• シミュレータ側の精度向上が背景

Domain Randomization
Fig: [Tobin+ (2017)]
シミュレータのパラメータにランダムな摂動を加えて多様性を
持たせ, 目標ドメイン (現実の問題) を包含してしまうような元
ドメインを作る → 内挿問題化してしまおうという気分

Feature Augmentation i
元ドメインと目標ドメインの特徴ベクトルを統合して学習する
Frustratingly Easy Domain Adaptation [Daumé (2007)]
• 教師付き転移学習の方法
• 入力ベクトルを, ドメイン不変, 元ドメイン固有, 目標ドメ
イン固有の 3 パートに対応するベクトルに変換:
xS → ψS = (xS, xS, 0)
xT → ψT = (xT, 0, xT)
• ψS, ψT は同一次元のベクトルなので, 後は統合して教師付
き学習
K. Matsui (RIKEN AIP) Transfer Learning Survey Topics in Transfer Learning 80 / 180

Feature Augmentation ii
Learning with Augmented Features [Duan+ (2012)]
• Frustratingly Easy method + 共通空間への射影
xS → ψS = (PxS, xS, 0)
xT → ψT = (QxT, 0, xT)
P, Q は射影行列
• SVM のモデルパラメータと射影行列を同時に学習:
min
P,Q
min
w,b,ξi,ξi
1
2
∥w∥2
+ C
( ns∑
i=1
ξs
i +
nt∑
i=1
ξt
i
)
s.t.
ys
i
(
w⊤ψs
(
xs
i
)
+ b
)
≥ 1 − ξs
i , ξs
i ≥ 0
yt
i
(
w⊤ψt
(
xt
i
)
+ b
)
≥ 1 − ξt
i , ξt
i ≥ 0
∥P∥2
F ≤ λp, ∥Q∥2
F ≤ λq
∥ · ∥F は行列のフロベニウスノルム

Pseudo Labeling for Target Data i
教師なし転移学習において, 目標ドメインのラベル無しデータに擬似ラベル
をつけて学習をすることで目標タスクの性能向上を図る
• Self-training [Chen+ (2011)]
• Co-training [Chen+ (2011)]
• Tri-training [Saito+ (2017)]
疑似ラベル学習とエントロピー正則化の等価性 [Lee+ (2013)]
L =
1
n
n∑
i=1
ℓ (yi, h(xi; θ))
loss for labeled data
+α(t)
1
n′
n′
∑
j=1
ℓ
(
y′
j , h(x′
j ; θ)
)
loss for unlabeled data
C(θ, λ) =
n∑
i=1
log P (yi | xi; θ) + λ
1
n′
n′
∑
j=1
P
(
y = 1 | x′
j , θ
)
log P
(
y = 1 | x′
j , θ
)
entropy regularization
上段: 疑似ラベル学習の目的関数, 下段: エントロピー正則化付き学習の目的
関数. 各項が対応関係にある.

Pseudo Labeling for Target Data ii
Asymmetric Tri-training [Saito+ (2017)]

Domain Selection i
DS1 = {{(xS1
i , yS1
i )}
nS1
i=1 , PS1 }
DS2 = {{(xS2
i , yS2
i )}
nS2
i=1 , PS2 }
DSK
= {{(xSK
i , ySK
i )}
nSK
i=1 , PSK
}
DT = {{xT
i }nT
i=1, PT }
• 複数の元ドメインから目標タスクに寄与するものを選択したい
• ドメイン間の不一致度や目標ドメインのタスク性能を指標に選択

Domain Selection ii
不一致度と相補性に基づく元ドメイン選択 [Bhatt+ (2016)]
T
S1
S2
S3
S4
Disc(T, S1) ≤ Disc(T, S2) ≤ Disc(T, S3) ≤ Disc(T, S4)
1. 元ドメインを目標ドメインとの不一致度の大きさでランキング
2. 上位から, 既に選ばれたドメインと相補的になるように次を選択:
上図の例では S1 → S3 → S4 (S2 は選択しない)

Knowledge Distillation i
学習済みモデル (予測性能高, 複雑度高) の性能をより規模が小
さく学習しやすいモデルに継承させたい
アイデア
元ドメインタスクのモデルパラメータを記憶して転移する
(パラメータ転移) 必要はなく, 入出力関係が記憶されていれば
良い → (ノンパラメトリックな) 関数として転移
• 定式化 [Hinton+ (2015), Kimura+ (2018)] :
min
fT
λ1
N
N∑
i=1
ℓ1(yi, fT(xi)) +
λ2
N
N∑
i=1
ℓ2(fS(xi), fT(xi))
• fS は学習済みモデル, fT は目標モデル
• 第 1 項は目標モデルに対する通常の損失
• 第 2 項は学習済みモデルの予測と目標モデルの予測を近づけるた
めの損失

Knowledge Distillation ii Dark Knowledge
An example of hard and soft targets
0 1 0 0
.9 .1
.05 .3 .2 .005
original hard
targets
output of
geometric
ensemble
softened output
of ensemble
dog
dog
cat
cow cat car
10
−910
−6
Softened outputs reveal the dark knowledge in the ensemble.
cow car
dog catcow car
Fig : [Hinton+ (2014)]

Knowledge Distillation iii Born-Again Neurak Networks (BANs)
Born-Again Neurak Networks [Furlanello+ (2018)]
• 教師モデルと全く同じ構造の生徒モデルを複数学習しアンサンブルす
ることで教師モデルを上回る性能のモデルが学習可能
• BANs の学習問題: シーケンシャルに以下の output matching を解く
min
θk
L(f(x, arg min
θk−1
L(y, f(x, θk−1))), f(x, θk))
• BANs Ensemble: 学習したモデルのアンサンブルで予測
ˆfk
(x) =
1
k
k∑
i=1
f(x, θi)

Catastrophic Forgetting i
ニューラルネットが新規タスクを学習すると, 以前学習したタ
スクの情報を忘れてしまう現象 [McCloskeyCohen (1989)]
→ 以前のタスクに対するパフォーマンスが低下
Example 1 (ﬁne-tuning)
目標ドメインで出力層の再学習を行うとき, 誤差逆伝播法に
よって元ドメインで学習したパラメータが破壊されてしまう
…
1000
…
20
Fine-tuning
L∇ ( )iiL yx ,

Catastrophic Forgetting ii 対策
• Learning without forgetting [LiHoiem (2018)]
• タスク間で共通のパラメータ θS
• 元タスク固有のパラメータ θo
• 目標タスク固有のパラメータ θn
を用意して, 以下の最適化問題を解く (蒸留を使った定式化)
min
θS,θo,θn
λo Lold(Yold, ˆYold)
loss for old task
+ Lnew(Ynew, ˆYnew)
loss for new task
+ R(θS, θo, θn)
regularization
• Elastic weight consolidation [Kirkpatrick+ (2017)]
L(θ) = LB(θ) +
i
λ
2
Fi θi − θ∗
A,i
2
θ
• 両タスクで error が小さくなるようなパ
ラメータ空間の領域に入るように正則化
• 通常の L2 正則化に情報行列で重み付け

(Conditional) Neural Processes i
Fig : [Kim+ (2019)]
• 条件付き分布 p(y | x, Z, θ) の深層生成モデル [Garnelo+
2018]
• x : target input
• Z = {(xi, yi)}M
m=1 : context set
• θ : model parameters
• GP 回帰の事前知識を入れられる·予測の不確実性を評価で
きる機能と NN の高い予測性能の良いとこ取りをしたい

(Conditional) Neural Processes ii
x1 y1
x2 y2
x3 y3
MLPθ
MLPθ
MLPθ
MLPΨ
MLPΨ
MLPΨ
r1
r2
r3
s1
s2
s3
rCm
m sC
x
rC
~
MLP y
ENCODER DECODER
Deterministic
Path
Latent
Path
NEURAL PROCESS
m Mean
z
z
*
* x1 y1
x2 y2
x3 y3
MLP
MLP
MLP
MLP
MLP
MLP
r1
r2
r3
s1
s2
s3
m sC
x
~
MLP y
ENCODER DECODER
Deterministic
Path
Latent
Path
Self-
attnϕ
Self-
attnω
Cross-
attention
x1 x2 x3 x
r
r
ATTENTIVE NEURAL PROCESS
m Mean
Keys Query
Values
z
z
*
*
*
*
*
Fig : [Kim+ (2019)]
• ネットワーク構造は VAE に近い (左図)
encode→reparametrization→decode
• GP のような入力間の類似度を評価するためのオプション
e.g. attention mechanism [Kim+ (2019)] (右図)

(Conditional) Neural Processes iii
メタ学習への応用 [Galashov+ (2019)]
Bayesian optimization from meta-learning viewpoint
GP などの事前分布からターゲット関数の類似物をサンプリン
グ可能 → 事前分布として Neural process を使用
Algorithm 1 Bayesian Optimisation
Input:
f∗
- Target function of interest (= T ∗
).
D0 = {(x0, y0)} - Observed evaluations of f∗
.
N - Maximum number of function iterations.
Mθ - Model pre-trained on evaluations of similar
functions f1, . . . fn ∼ p(T ).
for n=1, ... , N do
// Model-adaptation
Optimise θ to improve M’s prediction on Dn−1.
Thompson sampling: Draw ˆgn ∼ M, ﬁnd
xn = arg minx∈X E ˆg(y|x)
Evaluate target function and save result.
Dn ← Dn−1 ∪ {(xn, f∗
(xn))}
end for

(Conditional) Neural Processes iv
モデル M のサンプリングに neural process を用いる理由
1. statistical efﬁciency
少ない context point 数で正確に関数値評価が可能
2. calibrated uncertainties
探索と活用のバランス (モデルの不確実性評価)
3. 推論時の計算量が O(n + m) (サンプルサイズの線形オーダ
ー, オリジナルの NP の場合)
4. non-parametric modeling
→ MAML のような推論時の学習率 · 更新頻度などのハイパ
ラ設定が不要

(Conditional) Neural Processes v
Adversarial task search for RL agents [Ruderman+ 2018]
Task (p∗
s, p∗
g) = argminps,pg
fA(M, ps, pg)
(M∗
, p∗
s, p∗
g) = argminM,ps,pg
fA(M, ps, pg)
3
1. Position search:
2. Full maze search:
• 
• 
• 
• 
fA
M
ps, pg

能動学習のための転移学習 i
Regret Bounds for Transfer Learning in Bayesian
Optimisation [Shilton+ (2017)]
• 材料科学などの “実験” を伴う分野はデータ数が少ないこ
とに加えてデータ取得コストが非常に大きい
→ 実験計画 (能動学習) でデータの取得方針を最適化
• 一方, “実験” の大きな特徴として設定の異なる実験群を通
じて対象に関する知識が蓄積される
→ “よく似た実験”のデータが活用できる可能性がある
目的:
ベイズ最適化に対して転移学習で別リソースからの知識を活
用する

能動学習のための転移学習 ii
アプローチ
f’
f
σS
Env-GP
f’
f
∆f
f’+∆f
Diff-GP
• Env-GP : 元ドメインのデータを目標ドメインのデータと思
って使う (観測ノイズを十分大きく取ると, 目標ドメインの
関数からのサンプルとみなせる)
• Diff-GP : 元ドメインの目的関数と目標ドメインの目的関数
のギャップを直接ガウス過程でモデリング

能動学習のための転移学習 iii
応用: 適応的マッピング [穂積 + (2019)]

BERT [Devlin+ (2018)]
Bidirectional Encoder Representations from Transformers
• NLP における言語モデルの pre-training
• BooksCorpus (800M words) + Eng. Wikipedia (2500M words) をコーパス
として使用
• ﬁne-tuning によって様々なタスクで高い性能を発揮

Rethinking ImageNet Pre-training [He+ 2018]
pre-training ﬁne-tuning は本当に必要?
• COCO dataset の学習で
• ランダム初期化から学習したモデル
• ImageNet で事前学習したモデル
を比較したところ, comparable な結果を得た

Taskonomy: Disentangling Task Transfer Learning [Zamir+ 2018]
taskonomy (task taxonomy)
• 26 種類の画像関連タスクを総当
たりして相性の良い元ドメイン ·
目標ドメインの組を見つける
• タスク間の関係 (転移可能性) を
有効ハイパーグラフ (taskonomy,
左図) として可視化
• 400 万枚の画像に対して全ての
タスクに対応するアノテーショ
ンをつけたデータセットを作成
し実施

Theory of Transfer Learning
(Instance Transfer)

定式化
• 教師なし転移 · インスタンス転移の状況を想定
• 目標ドメインでの期待リスク最小化がしたい:
RT(h) = E(X,Y)∼PT(X,Y)[ℓ(h(X), Y)] → min
• 目標ドメインにラベル情報がないため, 元ドメインのラベ
ル付きデータを活用する
• 主に 2 通りのアプローチ
1. 確率密度比に基づく評価
2. 確率分布の不一致度 (discrepancy) に基づく評価
K. Matsui (RIKEN AIP) Transfer Learning Survey Theory of Transfer Learning (Instance Transfer) 102 / 180

確率密度比に基づく方法: 重要度重み付き学習 i
転移仮定
• 共変量シフト: PT(Y | X) = PS(Y | X)
• 絶対連続性: PT(X) ≪ PS(X)
このとき, 目標ドメインの期待リスクは元ドメインの重み付き期待リスクと
して書ける:
RT(h) = E(X,Y)∼PT(X,Y)[ℓ(h(X), Y)]
=
∫ ∫
(x,y)
ℓ(h(x), y)PT(x, y)d(x, y)
=
∫ ∫
(x,y)
ℓ(h(x), y) PT(y | x)
=PS(y|x)
PT(x)
PS(x)
PS(x)
d(x, y)
=
∫ ∫
(x,y)
ℓ(h(x), y) PS(y | x)PS(x)
=PS(x,y)
PT(x)
PS(x)
d(x, y)
=
∫ ∫
(x,y)
ℓ(h(x), y)PS(x, y)
PT(x)
PS(x)
d(x, y) = E(X,Y)∼PS(X,Y)
[
PT(X)
PS(X)
ℓ(h(X), Y)
]

確率密度比に基づく方法: 重要度重み付き学習 ii
r(X) = PT(X)
PS(X) とおく
RT(h) = E(X,Y)∼PS(X,Y) [r(X)ℓ(h(X), Y)]
≈
1
NS
NS∑
i=1
ˆr(xi)ℓ(h(xi), yi)
結局, RT(h) を最小にする仮説 h は以下の 2 ステップのアルゴリ
ズムで推定できる (重要度重み付き学習 [Sugiyama+ (2012)])
Step 1 密度比関数 r(x) を元ドメインと目標ドメインのラ
ベル無しデータから推定
Step 2 ˆr(x) で重み付けをした元ドメインのラベル付きデ
ータで仮説 h を学習

確率密度比に基づく方法: 重要度重み付き学習 iii
• 重要度重み付き学習は目標ドメインに近い元ドメインのイ
ンスタンスに大きな重みを与えて仮説を学習
• 密度比関数は, 両ドメインのラベル無しデータから一致推
定量が構成可能 [Kanamori+ (2012)]
• RT の大きさは, 重要度重み付き経験誤差の大きさと, 重要
度重みの推定誤差の大きさに依存

拡張: 変数選択 + 重要度重み付き学習 i [M+ (2019)]
• カーネル密度比推定は常に全変数が要求される
→ 問題によってはデータ取得コストがネックになる
• 予め密度比に寄与する変数を選択し, それのみを使いたい
方法 : adaptive scaling + L1 正則化付き ERM
min
ξ∈[0,1]d
L(fξ) + η∥ξ∥1, ˆfξ(z) = ˆf(ξ ◦ z)
• ˆf は f の一致推定量 (カーネル密度比推定などで推定)
• 発想は adaptive lasso に近い
• ˆf の推定時に power series kernel を使えば ˆf と ˆfξ は同一の
RKHS の元になる
• 適当な条件の下で変数選択の一致性を保証

拡張: 変数選択 + 重要度重み付き学習 ii [M+ (2019)]
実験: 共変量シフトの下での判別問題
Table 5: Comparison of classiﬁcation accuracy
kernel NNG Lasso SFS adapt full no adapt
pcas 0.830 (13/17) 0.830 (17/17) 0.830 (12/17) 0.830 0.773
ckd 0.981 (8/17) 0.981 (17/17) 0.981 (16/17) 0.981 0.943
ccancer 0.884 (4/27) 0.879 (19/27) 0.879 (22/27) 0.879 0.884
cnuclear 0.634 (60/71) 0.599 (62/71) 0.603 (37/71) 0.619 0.587
• 正判別率と変数選択の割合を比較 (提案法, Lasso, 前向き漸
次的選択, 変数選択なし, 補正なし)

拡張: 変数選択 + 重要度重み付き学習 iii [M+ (2019)]
全変数で推定した密度比 vs 変数選択後の密度比
提案法は判別精度を落とさず密度比推定の精度も保つ

確率分布の不一致度に基づく方法
fT, fS をそれぞれ目標ドメイン, 元ドメインの真のラベル関数と
する
目標リスクの典型的な上界の表現
RT(h, fT) ≤ RS(h, fS) + Disc(PT, PS) + Diff(fT, fS)
• Disc : 元ドメインと目標ドメインの周辺分布の不一致度
• Diff : 元ドメインと目標ドメインのラベル関数の違い
• 教師なし転移学習の場合, Diff を小さくする操作ができな
い (目標ドメインのラベルがないため)
• Disc をいかに小さく抑えられるかが RT を小さくするのに
本質的に重要

確率分布の不一致度に基づく方法 i : H∆H-divergence
• 2 値判別問題
• H∆H-divergence でドメインの不一致度を評価:
dH∆H(DS, DT) = 2 sup
h,h′
|PS(h(x) ̸= h′
(x)) − PT(h(x) ̸= h′
(x))|
Theorem 2 (Ben-David+ (2010))
H を VC 次元 d の仮説空間とする. このとき任意の δ に対して
確率 1 − δ 以上で以下が成立
RPT
(h, fT) ≤ RPS
(h, fS) +
1
2
dH∆H(DS, DT)
Disc
+4
√
2d log 2NT + log 2
δ
NT
+ min
h∈H
RPT
(h, fT) + RPS
(h, fS)
Diff

確率分布の不一致度に基づく方法 ii : Wasserstein distance
準備: 最適輸送問題
• (Ω, d) : 距離空間
• P(Ω) : Ω 上の確率測度
2 つの確率測度 PS, PT ∈ P(Ω) に対して, 一方から他方への輸送
コスト最小化問題を考える (Monge-Kantorovich 問題)
arg min
γ
∫
Ω1×Ω2
d(x, x′
)dγ(x, y)
s.t. PΩ1
#γ = PT, PΩ2
#γ = PS
• γ : PT と PS のカップリング測度
• d : Ω × Ω → R+ : Ω 上の距離 (輸送コスト)
• PΩi #γ : γ の射影 PΩi による押し出し

Deﬁnition 3 (Wasserstein 距離)
W1(PT, PS) := inf
γ∈
∏
(PT,PS)
∫
Ω×Ω
d(x, x′
)dγ(x, x′
)
∏
(PT, PS) : PT, PS のカップリング測度の族
Theorem 3 (Kantrovich-Rubinstein 双対)
W1(PT, PS) = sup
f:1−Lipschitz
EPT
[f(x)] − EPS
[f(x)]
特に, f が K-Lipschitz ならば EPT
[f(x)] ≤ EPS
[f(x)] + KW1(PT, PS)
が成立
→ RT(h) ≤ RS(h) + Wasserstein 距離

• 2 値判別
• 絶対値損失 ℓ(h(x) − y) = |h(x) − y|
転移仮定
• 共変量シフト: PT(Y | X) = PS(Y | X)
Theorem 4 (Shen+ (2018))
h ∈ H : K-Lipschitz w.r.t. d に対して以下が成立:
RT(h) ≤ RS(h) + 2KW1(PT, PS) + min
h′
(RT(h′
) + PS(h′
))

既存の理論解析のまとめ
■ 密度比に基づいた方法
(✓) 理論評価がタイト
(✓) 効率的なアルゴリズムがある
(×) 共変量シフトの仮定がないと理論解析できない
(×) 絶対連続性の仮定は応用ではしばしばみたされない
→ 仮定をみたすドメインを人手で選別する必要がある
■ 不一致度に基づいた方法
(✓) 絶対連続性の仮定がいらない
(×) 共変量シフトの仮定がないと理論解析できない
(×) 理論評価がタイトでない (PS = PT のとき上界と下界が一
致しない)

Impossibility Theorems for Domain
Adaptation

再掲: 教師なし DA の汎化誤差バウンド
目標リスクの典型的な上界の表現
RT(h, fT) ≤ RS(h, fS) + Disc(PT, PS) + Diff(fT, fS)
• Disc : 元ドメインと目標ドメインの周辺分布の不一致度
• Diff : 元ドメインと目標ドメインのラベル関数の違い
例 (Ben-David+ (2010))
H を VC 次元 d の仮説空間とする. このとき任意の δ に対して
確率 1 − δ 以上で以下が成立
RPT
(h, fT) ≤ RPS
(h, fS) +
1
2
dH∆H(DS, DT)
Disc
+4
√
2d log 2NT + log 2
δ
NT
+ min
h∈H
RPT
(h, fT) + RPS
(h, fS)
Diff
K. Matsui (RIKEN AIP) Transfer Learning Survey Impossibility Theorems for Domain Adaptation 115 / 180

教師なしドメイン適応の必要条件
教師なし DA が成功するために必要な仮定は何か?
Most Common Assumptions :
• 共変量シフト
PT(Y | X) = PS(Y | X)
• 元ドメインと目標ドメインの入力の周辺分布の
discrepancy が小さいこと
Disc(PXT
, PXS
) : small
• 両方のドメインで誤差が小さくなるような共通の仮説が存
在すること
λH = (Diff(fT, fS) =) minh∈H RS(h) + RT(h) : small
これら 3 条件が理論的にも必要条件になっていることを示す
→ impossibility theorems

準備 i Domain Adaptation Learner
Deﬁnition 4 (Domain Adaptation Learner)
A :
∞∪
m=1
∞∪
n=1
(X × {0, 1})m
× Xn
→ {0, 1}X
• “元ドメインのラベルありデータと目標ドメインのラベル
なしデータから仮説を学習する” という写像

準備 ii Learnability
Deﬁnition 5 (Learnability)
A (ε, δ, m, n)-learns PT from PS relative to H
:⇐⇒ Pr
S∼i.i.d(PS)m
Tu∼i.i.d(PXT )
n
[RT (A (S, Tu)) ≤ RT(H) + ε] ≥ 1 − δ
• RT(H) = infh∈H RT(h)
• S : 元ドメインのサイズ m のラベルありデータ
• Tu : 目標ドメインのサイズ n のラベルなしデータ
データの出方の確率分布に対して,
A が学習した仮説の期待リスク
≤ H で達成可能な最小の期待リスク + ε
が 1 − δ 以上の確率で成り立つこと

Necessity Theorem i
Theorem 5 (H∆H が小さいことの必要性 (Ben-David+ (2010)))
ある B ⊂ A に対して, 集合 {h−1
(1) ∩ B | h ∈ H} は 2 つ以上の部分集
合を持ち, かつそれらは集合の包含関係で全順序付けられていると
する.
このとき, 任意の ε 0 に対して, ある元ドメイン上の同時分布 P0
S
と目標ドメイン上の同時分布 P0
T が存在して, 以下を満たす:
任意の domain adaptation learner A と任意の整数 m, n 0 に対し
て, あるラベル関数 f : X → {0, 1} が存在して
1. λH ε
2. P0
S と P0
T は共変量シフト条件を満たす
3. 期待リスクが確率 1
2 以上で大きい:
Pr
S∼i.i.d(P0
S)m
Tu∼i.i.d(P0
XT
)
n
[
RTf
(A(S, Tu)) ≥
1
2
]
≥
1
2

Necessity Theorem ii
Theorem 6 (λH が小さいことの必要性 (Ben-David+ (2010)))
H を X 上の仮説集合で, VCdim(H) |X| とする.
このとき, 任意の ε 0 に対して, ある元ドメイン上の同時分布 P0
S
と目標ドメイン上の同時分布 P0
T が存在して, 以下を満たす:
任意の domain adaptation learner A と任意の整数 m, n 0 に対し
て, あるラベル関数 f : X → {0, 1} が存在して
1. dH∆H(P0
XT
, P0
XS
) ε
2. P0
S と P0
T は共変量シフト条件を満たす
3. 期待リスクが確率 1
2 以上で大きい:
Pr
S∼i.i.d(P0
S)m
Tu∼i.i.d(P0
XT
)
n
[
RTf
(A(S, Tu)) ≥
1
2
]
≥
1
2

Necessity Theorem iii
定理の解釈
共変量シフトの仮定があっても,
• 周辺分布の間の discrepancy が小さいこと
• ideal hypothesis が存在すること
のいずれかが欠ければ, 高い確率で期待リスクが大きくなって
しまう

Example [Ben-Davis+ (2010)]
PS
PT
y = 1
y = 0
0
ξ
2ξ
3ξ
4ξ
5ξ
6ξ
7ξ
8ξ
9ξ
10ξ
11ξ
• PS : {(2kξ, 1) | k ∈ N} 上の一様分布 (元ドメイン)
• PT : {((2k + 1)ξ, 0) | k ∈ N} 上の一様分布 (目標ドメイン)
• ξ ∈ (0, 1) は 2kξ, 2(k + 1)ξ ≤ 1 なる小さい数 (Fig : ξ = 2
23 )
• H =
{
ht(x) =
{
1 x t
0 otherwise
t ∈ [0, 1]
}
このとき, RT(H) = RS(H) = 0 で, 以下が成立:
1. PS, PT は共変量シフトを満たす
2. dH∆H(PT, PS) = ξ (discrepancy は小さい)
3. λH = 1 − ξ よって RT(h∗
S) ≥ 1 − ξ (目標リスクは大きい)

Hardness Results i 準備 1
Deﬁnition 6 (DA learnability をちょっと modify)
• W = {(PXS
, PXT
, f)} :
元ドメイン, 目標ドメインの周辺分布とラベル関数の三組
• A : domain adaptation learner
• S = {(xs
i , f(xs
i ))}, xs
i ∼i.i.d PXS
(元ドメインデータ)
• Tu = {xt
i}, xt
i ∼i.i.d PXT
(目標ドメインデータ)
A (ε, δ, m, n)-solves domain adaptation for class W
:⇐⇒ Pr [RT (A (S, Tu)) ≤ ε] ≥ 1 − δ, ∀(PXS
, PXT
, f) ∈ W
class W のどんな教師なし DA の設定が来ても, A は高い確率で
目標リスクが小さい仮説を学習できる

Hardness Results ii 準備 2
Deﬁnition 7 (capacity of H to produce a zero-error classiﬁer
with margin γ)
• X ⊂ Rd
• DX : X 上の分布
• h : X → {0, 1} : 判別器
• Bγ(x) : 中心 x ∈ X, 半径 γ の ball
h が DX に関して γ-margin の判別器
:⇐⇒ DX (Bγ(x)) 0, h(y) = h(z), ∀x ∈ X, ∀y, z ∈ Bγ(x)
同値な言い換え (h は DX の台上でリプシッツ):
|h(y) − h(z)| ≤
1
2γ
∥y − z∥, y, z ∈ supp(DX )

Hardness Results iii
Theorem 7 ((Ben-DavidUrner (2012)))
任意の有限集合 X と ε + δ 1
2 を満たす任意の ε, δ 0 に対
して以下を仮定:
m + n
√
(1 − 2(ε + δ))|X|.
このとき,
• dH∆H(PXT
, PXS
) = 0
• min
h∈H
RT(h, f) = 0 (h ≡ 1, h ≡ 0 ∈ H)
• CB(PXS
, PXT
) := inf
B∈B,PXT
(B)̸=0
PXS
(B)
PXT
(B)
≥
1
2
, B ⊂ 2X
であるような教師なし DA のクラス W に対して, (PS, PT, f) ∈ W
を (ε, δ, m, n)-solve するような DA learner A は存在しない

Hardness Results iv 定理に関する Remark
仮定の解釈 (DA をするのに有利な設定)
• Theorem 7では, 目標タスクに対して, “目標ドメインのラベ
ルありデータが 1 点でもあれば誤差ゼロの仮説が学習可
能” という強い仮定
• また, 元ドメインと目標ドメインは discrepancy 及び密度
比どちらで図っても “似ている” ようなクラス
Hardness の回避 [Ben-DavidUrner (2012)]
Theorem 7で
• X = [0, 1]d
• ラベル関数 f : λ-リプシッツ
のとき, m + n ≥
√
(1 − 2(ε + δ))(1 − λ)d が成り立てば
hardness result の例外となる

Usefulness of Unlabeled Data
目標ドメインのラベルなしデータは DA においてどの程度役に
たっているのか?
Theorem 8 ((Ben-DavidUrner (2012)))
X = [0, 1]d
, VCdim(H) +∞ とし, DA のクラス W を以下で定める:
W =
{
(PS, PT, f) RT(H) = 0, CB(PXS
, PXT
) ≥ 0
}
.
このとき, ∃c 1, ∀ε 0, δ 0, (PS, PT, f) ∈ W, 元ドメインと目標ド
メインのサンプルサイズをそれぞれ
m ≥ c
[
VCdim(H) + log 1
δ
CB(PXS
, PXT
)(1 − ε)ε
log
(
VCdim(H)
CB(PXS
, PXT
)(1 − ε)ε
)]
n ≥
1
ε
(
2|X| log 3|X|
δ
)
ととると, Pr[RT(A(S, Tu)) ≤ ε] ≥ 1 − δ が成立つ A が存在する

Theory of Transfer Learning
(Parameter Transfer)

定式化
Learning bound for parameter transfer learning
[Kumagai (2016)]
■ 目標ドメインの設定
• パラメトリック特徴写像が存在
ψθ : XT → Rm, θ ∈ Θ, Θ ⊂ ノルム空間 with ∥ · ∥
• 仮説 hT ,θ,w(x) := ⟨w, ψθ(x)⟩
• 仮説集合 HT = {⟨w, ψθ(x)⟩ | (θ, w) ∈ Θ × WT }
■ 元ドメインの設定
• 生成分布または仮説集合がパラメトリック:
• 生成分布の場合 PS = {PS,θ,w | (θ, w) ∈ Θ × WS}
• 仮説集合の場合 HS = {hS,θ,w | (θ, w) ∈ Θ × WS}
• 部分パラメータ空間 Θ が目標ドメインと共有されている
• 有効なパラメータ (θ∗
S, w∗
S) が存在
K. Matsui (RIKEN AIP) Transfer Learning Survey Theory of Transfer Learning (Parameter Transfer) 128 / 180

パラメータ転移学習のアルゴリズム
元ドメインの有効パラメータ θ∗
S を用いたときの目標ドメイン
の最適パラメータ:
w∗
T = arg min
w∈WT
RT (θ∗
S, w)
target risk
パラメータ転移アルゴリズム
Step 1: θ∗
S の推定量 ˆθN を元ドメインで学習
(N はサンプルサイズ)
Step 2: ˆθN を目標ドメインへ転移し以下の ERM を解く
ˆwN,n = arg min
w∈WT
1
n
n∑
j=1
ℓ(yj, ⟨w, ψˆθN
(xj)⟩) + ρr(w)

パラメータ転移学習の汎化誤差上界 i
Deﬁnition 8 (局所安定性)
ψθ が局所安定
:⇔ ∃εθ : XT → R0, ∃Lψ 0 s.t.
∥θ − θ′
∥ ≤ εθ(x) ⇒ ∥ψθ(x) − ψθ′ (x)∥2 ≤ Lψ∥θ − θ′
∥
θ に関する局所リプシッツ性に相当.
εθ(x) を permissible radius of perturbation (PRP) と呼ぶ.
Deﬁnition 9 (転移学習可能性)
ψθ が, 推定量 ˆθN に関して確率 1 − δN,n でパラメータ転移学
習可能
:⇔ Pr(∥ˆθN − θ∗
S∥ ≤ εθ∗
S
(x1:n)) ≥ 1 − δN,n
ここで, x1:n = {x1, ..., xn} に対して εθ(x1:n)) = minj=1,...,n εθ(xj)

パラメータ転移学習の汎化誤差上界 ii
仮定
• パラメトリック特徴写像 ψθ は局所安定かつ有界
• 推定量 ˆθN は確率 1 − δN,n でパラメータ転移学習可能
• 損失関数 ℓ は L-リプシッツ, 凸, 有界
• 正則化項 r は 1-強凸, r(0) = 0
Theorem 9 (汎化誤差上界 [Kumagai (2016)])
RT (ˆθN, ˆwN,n) − RT (θ∗
S, w∗
T )
≤
C
√
n
+ C′ ˆθN − θ∗
S + C′′
n1/4
√
ˆθN − θ∗
S
with probability 1 − (δ + 2δN,n). C, C′, C′′ は正定数.

パラメータ転移学習の汎化誤差上界 iii
定理の解釈
S, w∗
T )
≤ c



ˆθN − θ∗
S
√
ρ
+
1
√
nρ
+
θN − θ∗
S
1/2
ρ3/4
+
1
nρ
+ ρ



特に
• 正則化パラメータを ρ = max{n−1/3, ∥ˆθN − θ∗
S∥2/7} とおき,
• ∥ˆθN − θ∗
S∥ ≈ 1
N が成り立つとき,
S, w∗
T ) ≤ c max{n−1/3
, N−1/7
}
が成立
→ 元ドメインのサンプルサイズを N ≥ n7/3 程度取れば汎化誤
差は小さい

自己教示学習への応用
Dictionary Learning Sparse Coding
入力のスパース表現を学習するための辞書を元ドメインで教
師なし学習し, 目標ドメインへ転移
Dictionary Learning
min
D,z1,...,zn
n∑
i=1
1
2
∥xi − Dzi∥2
+ λ∥zi∥1
Sparse Coding
ϕD(x) := arg max
z∈Rm
1
2
∥x − Dz∥2
+ λ∥z∥1
• D = [d1, ..., dm] ∈ Rd×m, ∥dj∥ = 1 : 辞書
• z : x のスパース表現

Sparse Coding の局所安定性 i
Deﬁnition 10 (k-margin)
辞書 D の x における k-margin
Mk(D, x) := max
I⊂[m],|I|=m−k
min
j∈I
{
λ −
⟨
dj, x − DφD(x)
⟩ }
Deﬁnition 11 (µ-incoherence)
辞書 D が µ-incoherent ⇔
⟨
di, dj
⟩
≤ µ/
√
d (i ̸= j)

Sparse Coding の局所安定性 ii
∥D∥1,2 := maxi∈[m] ∥di∥
Theorem 10 (Sparse Coding Stability)
辞書 D, ˜D が, ∥D − ˜D∥1,2 ≤ λ かつ D は µ-incoherent で以下を
満たすと仮定
∥D − ˜D∥1,2 ≤
Mk,D(x)2λ
64 max{1, ∥x∥}4
=:ϵk,D(x) : PRP
このとき, 以下が成立
φD(x) − φ˜D(x) 2
≤
4∥x∥2
√
k
(1 − µk/
√
d)λ
∥D − ˜D∥1,2

Dictionary Learning の転移学習可能性 i
スパースモデルに対する仮定
1. (Model) ある辞書 D∗
が存在して, 全ての x はスパース表現
z とノイズ ξ によって以下の形で独立に生成される
x = D∗
z + ξ
2. (Dictionary) 辞書 D は µ-incoherent
3. (Representation) k-sparse (i.e. ∥z∥0 ≤ k) かつ定数 C が存
在して, zi ̸= 0 な i に対して |zi| ≥ C
4. (Noise) ξ = (ξ1, ..., ξd) は各成分 ξi が独立な
σ√
d
-sub-Gaussian i.e. ∀t ∈ R, E[exp(tξi)] ≤ exp(
(σ/
√
d)2ξ2
i
2 )

Dictionary Learning の転移学習可能性 ii
Theorem 11 (Margin bound)
0 t 1 とし, δt,λ を以下で定義
δt,λ :=
2σ
(1 − t)
√
dλ
exp
(
−
(1 − t)2
dλ2
8σ2
)
+
2σm
√
dλ
exp
(
−
dλ2
8σ2
)
+
4σk
C
√
d(1 − µk/
√
d)
exp
(
−
C2
d(1 − µk/
√
d)
8σ2
)
+
8σ(d − k)
√
dλ
exp
(
−
dλ2
32σ2
)
このとき, d ≥
{(
1 + 6
(1−t)
)
µk
}2
かつ λ = d−τ (1/4 ≤ τ ≤ 1/2)
⇒ Pr[Mk,D∗(x) ≥ tλ] ≥ 1 − δt,λ
が成立.
⇒ ϵk,D(x) :=
Mk,D(x)2λ
64 max{1,∥x∥}4 ≥ t2λ3
64 max{1,∥x∥}4 = Θ
(
d−3τ
)
w.p. 1 − δt,λ
(1/4 ≤ τ ≤ 1/2)

Dictionary Learning の転移学習可能性 iii
ある Dictionary Learning algorithm が存在して
Pr
[
∥ˆDN − D∗
∥1,2 ≤ O(d−3τ
)
]
≥ 1 − δN
が成り立つとき, ¯δ = δN + nδt,λ ととれば, dictionary learning の
転移学習可能性が成り立つ:
Pr
[
∥ˆDN − D∗
∥1,2 ≤ εk,D∗
(x1:n)
]
≥ 1 − ¯δ
Remark 1
上記の仮定を満たすような DL algorithm は存在 [Arora+ (JMLR
2015)]
以上より, dictionary learning に対しても汎化誤差上界が保証
される

Immunity : An Optimality of Domain
Adaptation

Optimal Domain Adaptation [Scott (2019)] i
2 値判別における domain adaptation
これまでの domain adaptation
評価指標として損失関数 (特に 0-1 損失) の期待値で表される
ものに依存
→ これが DA を難しくしている要因では?
e.g. 教師なし DA では, 0-1 損失の下ではラベルノイズに対し
て強い仮定 (共変量シフトなど) が必要
Question
(共変量シフトのような) feature dependent label noise
(FDLN) の下で, より簡易かつ有効な転移学習が可能か?
K. Matsui (RIKEN AIP) Transfer Learning Survey Immunity : An Optimality of Domain Adaptation 139 / 180

Optimal Domain Adaptation [Scott (2019)] ii
Contribution
• controlled discovery rate (CDR) を評価指標とした場合,
• covariate-shift with posterior-drift (CSPD) というラベルノ
イズの下で
元ドメインの最適なモデル = 目標ドメインの最適なモデル
を証明 (immunity)
→ 特別な adaptation をすることなく元ドメインで学習した
モデルを目標ドメインで使うことが可能
特に以下の 2 つの設定を考察
• inductive setting : 学習者が元ドメインの同時分布にのみ
アクセスできる
• semi-supervised setting : 教師なし DA と同じ

Covariate-Shift with Posterior-Drift i
Deﬁnition 12 (Covariate Shift)
PrP(Y = 1 | X = x)
ηP
= PrQ(Y = 1 | X = x)
ηQ
→ ラベル分布が元ドメインと目標ドメインで共通 (入力の周
辺分布は違っていても良い)
Deﬁnition 13 (Posterior Drift)
• PX = QX (入力の周辺分布が共通) かつ
• ∃ϕ : 狭義単調増加関数 s.t. ηP(x) = ϕ(ηQ(x)), ∀x ∈ X
→ 入力分布はドメイン間で共通, ラベル分布は up to 単調変
換で一致

Covariate-Shift with Posterior-Drift ii
Deﬁnition 14 (Covariate-Shift with Posterior-Drift)
∃ϕ : 狭義単調増加関数 s.t. ηP(x) = ϕ(ηQ(x)), ∀x ∈ X
→ ラベル分布は up to 単調変換で一致
• Posterior drift から周辺分布が共通という条件を外したも
の
• 教師なし DA において, ドメイン間の類似度のモデリング
として “仮定なし”と “共変量シフト”の中間を埋めるよう
な設定

Immunity i
Notation
• OPTD(Q) : inductive setting において, 評価指標 D の下で
最適な判別モデル
• OPTD(ηQ, QX) : semi-supervised setting において, 評価指
標 D の下で最適な判別モデル
Deﬁnition 15 (Immunity)
評価指標 D が immune であるとは,
1. (for inductive setting)
OPTD(Q) = OPTD(P)
2. (for semi-supervised setting)
OPTD(ηQ, QX) = OPTD(ηP, QX)

Immunity ii
直感的な解釈: 一般に,
ある評価指標 D がある DA 問題のクラスに対して immune
:⇐⇒ D の下で最適な判別モデルが元ドメインと目標ドメイン
で共通
practical には, immunity とは P ̸= Q であることを忘れて学習
を行ってしまっても（評価指標 D の下では）OK という性質

Immunity iii
様々な DA の設定と対応する immunity
1. symmetric feature-independent label noise
• probability of error criterion が immune [Jabbari 2010]
2. symmetric feature-dependent label noise
• probability of error criterion が immune [Menon+ 2018]
3. feature-dependent annotator noise (PD を含む)
• AUC が immune [Menon+ 2018]
4. asymmetric label-dependent (but feature-independent)
label noise
• balanced error rate (BER) が immune [Menon+ 2015]
• BER は label-dependent label noise に対して immune な唯
一の指標
5. PU learning
• Neyman-Pearson criterion が immune [Blanchard+ 2010]

Generalized Neyman-Pearson Criterion i
Notation
• g : X → [0, 1], g(x) = Pr(Y = 1 | X = x) : 確率的判別器
• Power:
BQ(g) := EQ1
[g(X)] =
∫
g(x)q1(x)dµ(x)
• 真のラベルが 1 のときに予測ラベルが 1 である確率
• 1 − β error, TPR, 感度, recall などとも呼ばれる
• Size:
AQ(g) := EQ0
[g(X)] =
∫
g(x)q0(x)dµ(x)
• 真のラベルが 0 のときに予測ラベルが 1 である確率
• α error, FPR, 1 - 特異度などとも呼ばれる
ここで, Qy = Pr[X | Y = y] (y = 0, 1), qy はその密度関数

Generalized Neyman-Pearson Criterion ii
Deﬁnition 16 (Generalized Neyman-Pearson Criterion)
確率的判別器 g∗ がパラメータ 0 ≤ θ0 θ1 ≤ 1 および
0 α 1 の GNP criterion の下で最適
:⇔ g∗ が以下の最適化問題の解
max
g
θ1BQ(g) + (1 − θ1) AQ(g)
s.t. θ0BQ(g) + (1 − θ0) AQ(g) ≤ α
• θ1 = 1, θ0 = 0 の場合を conventional な Neyman-Pearson
(NP) criterion とよぶ

Generalized Neyman-Pearson Criterion iii
Theorem 12 (g∗ の特徴づけ)
ある tQ,α ∈ [0, 1], qQ,α ∈ [0, 1) が存在して,
g∗
(x) = gQ,α(x) :=



1, ηQ(x) tQ,α
qQ,α, ηQ(x) = tQ,α
0, ηQ(x) tQ,α
• これは, 最適な判別器が尤度比で与えられることと等価
• 証明の方針 :
Neyman-Pearson の補題 (単一の仮説検定では尤度比検定
が最強力検定となる) を, 帰無仮説と対立仮説に対応する尤
度がそれぞれ contaminate されたバージョンに拡張

Generalized Neyman-Pearson Criterion iv
Deﬁnition 17 (controlled discovery rate, CDR)
確率的判別機 g∗ が CDR criterion の下で最適
:⇐⇒ g∗ が GNP criterion において θ1 = 1, θ0 = πQ = PrQ[Y = 1]
(目標ドメインのラベル prior) と置いた場合の最適化問題
max
g
BQ(g)
s.t. DQ(g) := QX(g(X) = 1) ≤ α
の最適解である

Key Insight
CDR criterion の下での DA の目標
P と QX の情報のみから目標ドメインでラベルが 1 の確率が
tQ,α 以上である入力集合
GQ,α = {x | ηQ(x) ≥ tQ,α}
を推定する → 教師なし DA が実現できる
実際には,
• いくつかの仮定の下で
GP,Q,α = {x | ηP(x) ≥ tP,Q,α}
は一致推定可能 (Theorem 4 in [Scott (2019)])
• CSPD の仮定下では
GQ,α = GP,Q,α
が成立 (すなわち左辺も一致推定可能)
∗ 理論的な結果で, どれくらい実用性があるかは未知

Life-long (Continual) Learning

通常の転移学習における困難
£ 破滅的忘却
• 元ドメインの性能は無視されるため, 転移後のモデルの元ドメイ
ンでの性能が著しく低下している可能性が高い
→ 後ろ向き学習が困難
£ シングルタスク
• 複数の目標タスクに同時に適応できない
→ タスクごとに再学習が必要
£ 負転移
• 質の大きくことなるドメイン間での転移はしない場合よりも性
能を悪化させる可能性がある
→ 良い元ドメインを適切に選択する必要
K. Matsui (RIKEN AIP) Transfer Learning Survey Life-long (Continual) Learning 151 / 180

Life-long Learning に要請される性質
仮定: 各ドメインは逐次的に与えられ, 学習済みドメインのデータは
捨てる
£ 破滅的忘却の回避
• 過去タスクの性能も担保する (次のオンライン学習可能性とも
関係)
£ オンライン学習可能
• 逐次的に与えられるタスクを学習する能力 (繰り返し転移学習)
£ タスク間の知識共有
• 知識の積み上げ (現在のタスクを効率よく, 過去タスクも初見時
より効率よく)
目標 : 上記の性質をもつ単一のモデルを学習する

Life-long Learning のデータ生成例
Split MNIST
Permuted MNIST
• 
•  (10 2 )
• 
• 
•  (10 10 )
•  ( )

Life-long Learning におけるタスク
1. Incremental Task Learning
タスク ID が既知のときクラスラベルを当てる
2. Incremental Domain Learning
タスク ID が未知のときクラスラベルを当てる
3. Incremental Class Learning
タスク ID が未知のときタスク ID とクラスラベルを当てる
——–
∗ 実際は (task-wise な) データの真のラベルとタスク内のラベル (エイリア
ス) は異なるため上の分類は若干不正確
∗ 正確には, 1, 2 で当てるのはエイリアス, 3 で当てるのは真のクラスラベル

Life-long Learning におけるタスク例
Split MNIST
1. Incremental Task Learning
: Task 2 ﬁrst class second class
2. Incremental Domain Learning
: ( Task ) ﬁrst class [0, 2, 4, 6, 8]
second class [1, 3, 5, 7, 9]
3. Incremental Class Learning
: 0 vs 1, 2 vs 3, 4 vs 5, 6 vs 7, 8 vs 9

Life-long Learning へのアプローチ
Continual Learning Methods
Replay-based
methods
Rehearsal
iCaRL [18]
ER [44]
SER [45]
TEM [46]
Pseudo
Rehearsal
DGR [14]
PR [47]
CCLUGM [48]
LGM [49]
Constrained
GEM [50]
A-GEM [8]
GSS [43]
Regularization-based
methods
Prior-focused
EWC [28]
IMM [29]
SI [51]
R-EWC [52]
MAS [15]
Riemannian
Walk [16]
Data-focused
LwF [53]
LFL [54]
EBLL [11]
DMC [55]
Parameter isolation
methods
Fixed
Network
PackNet [56]
PathNet [32]
Piggyback [57]
HAT [58]
Dynamic
Architectures
PNN [59]
Expert Gate [7]
RCL [60]
DAN [19]
Fig : [De Lange + 2019]
1. Replay-based methods
過去タスクの学習データを利用
2. Regularization-based methods
モデルに正則化
3. Parameter isolation methods
タスクごとにモデルパラメータを個別に保持

Replay-based Methods 例
£ Rehearsal
• バッファに過去タスクのデータを保存し各タスクで使う
• 生データをそのまま保存, 圧縮したデータを保存, など
• 残したデータにモデルが過適合する傾向
£ Pseudo Rehearsal (Generative Replay)
• 各タスクで予測モデルとは別にデータの生成モデルを学習
• GAN や VAE などの深層生成モデルが用いられる
• あるタスクのデータと深層生成モデルからサンプリングし
たデータから予測モデルと次の深層生成モデルを学習
£ Constrained
• 過去タスクを阻害しないよう新規タスクに制約条件を課す

Regularization-based Methods
£ Prior-focused
• Elastic Weight Consolidation
• L2 正則化項に Fisher 情報行列で重みを導入
• Synaptic Intelligence
• L2 正則化項に独自の重みを導入
£ Data-focused
• Learning without Forgetting
• 損失関数に知識蒸留の項を加える
• Deep Model Consolidation
• Double distillation loss なる知識蒸留のための損失関数
を導入

Parameter Isolation Methods
£ Dynamic Architectures
output2 output3output1
input
h
(2)
2 h
(3)
2h
(1)
2
h
(1)
1 h
(2)
1 h
(3)
1
a a
a a
Task 1 Task 2 Task 3
Fig : [Rusu+ 2016]
• Progressive Neural Networks
• タスクごとに NN を学習
• 前のタスク NN の下層から次タ
スクの NN へカスケード的
に結合
£ Fixed Network
Fig : [Fernando+ 2017]
• PathNet
• モデルの学習と同時にモジュー
ル (畳込層など) を結ぶパスも
学習
• 学習が完了したら重みを固定
(次のタスクでは更新しない)

Experiments i
Split MNIST
Fig:[Hsu+ 2019]

Experiments ii
Permuted MNIST
Fig:[Hsu+ 2019]

Life-long Learning における Disentangled Representation i
Life-Long Disentangled Representation [Achille+ (2018)]
Fig : Achille+, NIPS2018
• 各クラスタが各シナリオにおけるデータ/環境に対応
• 各データ x は generative factors zn (座標のようなもの) の
組で表される
• 異なるクラスタでいくつかの generative factor を共有

Life-long Learning における Disentangled Representation ii
Life-Long Disentangled Representation の学習 1
A CB
Figure 1: A: Schematic representation of the life-long learning data distr
corresponds to a cluster s. Data samples x constituting each cluster can be de
(data generative factors zn). Different clusters may share some data generative
C: ConContinSchematic of the “dreaming” feedback loop. We use a snapshot
( old, ✓old) to generate an imaginary batch of data xold for a previously experi
the current environment, we ensure that the representation is still consistent o
can reconstruct it (see red dashed lines).
Recent state of the art approaches to unsupervised disentangled repre
Generative Factor zn
model architecture
q (zs
|xs
)= as
N(µ(x), (x))
+ (1 as
) N(0, I)
as : latent mask
Model Assumption
Objective Function
LMDL( , ) = Ezs q (·|xs) [ log p (x|zs
, s)]
Reconstruction error
+ (|KL (q (zs
|xs
) p(z))
Representation capacity
C
Target
)2
Latent Mask as
n = KL Exs
batch
[q (zs
n|xs
batch )] p (zn)Atypicality Score
Latent Mask as
n =
1, if n
0, otherwise
β-VAE-like

Life-long Learning における Disentangled Representation iii
Life-Long Disentangled Representation の学習 2
Environment s
s =
ˆs if Ezˆs log p xs
batch |zˆs
, ˆs Lˆs as
= aˆs
sr+1 otherwise
ˆs = arg max
s
q (s|xs
batch)
(“Dreaming” feedback)
Lpast( , )
= Ez,s ,x [D [q (z|x ) , q (z |x )]
Encoder proximity
+ D [q (x|z, s ) , q (x |z, s )]
Decoder proximity
]
Overall Objective
L( , ) = LMDL( , ) + Lpast( , )

Life-long Learning における Disentangled Representation iv
NatLab/EDE Cross-Domain Reconstructions
OrigNatLabEDE
Reconstructionsas
OrigNatLabEDE
Reconstructionsas
B
C
Disentangled Entangled
• VSAE (提案法, left) は 2 つのデータセットの “semantic
homologies” (共通の generative factor) を見つけられる　
e.g. サボテン → 赤いオブジェクト

Concluding Remarks
引用 [Ng (NIPS 2016), Ruder (2017)]
• 転移学習は深層学習の台頭以降, 発展著しい
• しかし, 問題設定やアプローチなどが散在している状況
• 様々な問題設定を統一的に扱えるフレームワーク (理論)
の整備が望まれる
K. Matsui (RIKEN AIP) Transfer Learning Survey Concluding Remarks 166 / 180

転移学習の俯瞰的な文献 · ウェブサイト i
[1] Pan, S. J. Yang, Q (2010). A survey on transfer learning. IEEE
Transactions on knowledge and data engineering, 22(10), 1345-1359.
[2] 神嶌敏弘 (2010). 転移学習. 人工知能学会誌, 25(4), 572-580.
[3] 神嶌敏弘 (2009). 転移学習のサーベイ. データマイニングと統計数理研
究会 (第 9 回). http://www.kamishima.net/archive/2009-tr-jsai_dmsm1-PR.pdf
• 深層学習以前の転移学習のサーベイ
• しかし重要なコンセプトがコンパクトに纏まっており, 現在でも
非常に有用
[4] Ruder, S. (2017). Transfer Learning - Machine Learning’s Next Frontier.
http://ruder.io/transfer-learning/index.html
• 最近の転移学習と周辺分野のサーベイ
• 特に深層学習における転移学習の諸手法と文献がよく纏まってい
る
K. Matsui (RIKEN AIP) Transfer Learning Survey Concluding Remarks 167 / 180

Recent Advances on Transfer Learning and Related Topics Ver.2

Recent Advances on Transfer Learning and Related Topics Ver.2

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Similar to Recent Advances on Transfer Learning and Related Topics Ver.2

Similar to Recent Advances on Transfer Learning and Related Topics Ver.2 (10)

Recent Advances on Transfer Learning and Related Topics Ver.2