SlideShare a Scribd company logo
1 of 192
Download to read offline
Recent Advances on Transfer Learning and
Related Topics (ver.2)
Kota Matsui
RIKEN AIP Data Driven Biomedical Science Team
December 14, 2019
Acknowledgement
理研 AIP 非凸学習理論チームの熊谷亘氏に感謝申し上げます.
本発表の内容は, 熊谷氏との共同研究, ディスカッションに
大きく依存しています.
また, 内容をチェックし, 重要なコメントを多数頂いた東京大学
の幡谷龍一郎氏, 手嶋毅志氏, 河野慎氏に感謝いたします.
K. Matsui (RIKEN AIP) Transfer Learning Survey 1 / 180
Table of contents i
1. Introduction
2. Foundations of Transfer Learning
3. Paradigm Shift in Transfer Learning via Deep Learning
4. Related Fields of Transfer Learning
5. Topics in Transfer Learning
6. Theory of Transfer Learning (Instance Transfer)
K. Matsui (RIKEN AIP) Transfer Learning Survey 2 / 180
Table of contents ii
7. Impossibility Theorems for Domain Adaptation
8. Theory of Transfer Learning (Parameter Transfer)
9. Immunity : An Optimality of Domain Adaptation
10. Life-long (Continual) Learning
11. Concluding Remarks
K. Matsui (RIKEN AIP) Transfer Learning Survey 3 / 180
Introduction
転移学習って?
素朴な観察
人間は, ある問題に取り組む際に全く知識の無い状態からス
タートするか?
NO : 人間は過去に経験した問題解決から得た知識を現在の問
題に転用できる
• 過去の知識の積み上げができる
• 問題の間の類似構造を自然に把握できる
• 獲得した知識を繰り返し転用することができる
Research Question
これらの機能を計算機上で実現するには???
K. Matsui (RIKEN AIP) Transfer Learning Survey Introduction 4 / 180
機械学習 / Machine Learning
人工知能研究の一分野として
“Field of study that gives computers the ability to learn without
being explicitly programmed” [Samuel (1959)].
データ科学の一分野として
“The term machine learning refers to the automated detection
of meaningful patterns in data” [Shalev-Shwartz&Ben-David (2014)].
’
• “Machine Learning” の出典
A. Samuel “Some Studies in Machine
Learning Using the Game of
Checkers”, 1959.
• generalization (汎化, 学習した能力
が未知の事例に対しても上手く働く
こと) の考え方も論じられている
   
K. Matsui (RIKEN AIP) Transfer Learning Survey Introduction 5 / 180
機械学習における様々なタスク: 教師あり学習
入力 x と出力 y のペアから入出力関係 x → y を獲得
K. Matsui (RIKEN AIP) Transfer Learning Survey Introduction 6 / 180
機械学習における様々なタスク: 教師なし学習
入力 x のみからその特徴を抽出
K. Matsui (RIKEN AIP) Transfer Learning Survey Introduction 7 / 180
機械学習における様々なタスク: 半教師あり学習
(a) 少量のラベルありデータのみでは良いモデルは学
習できない
(b) ラベルありデータに加えて大量のラベルなしデー
タを用いることで良いモデルを学習することが
出来る
K. Matsui (RIKEN AIP) Transfer Learning Survey Introduction 8 / 180
機械学習における様々なタスク: 能動学習 i
x1
x2
y
ε
x f(x) y = f(x) + ε
不確実性の下でブラックボックス関数 f に関する統計的推論を
行うためのデータ観測戦略を考える
K. Matsui (RIKEN AIP) Transfer Learning Survey Introduction 9 / 180
機械学習における様々なタスク: 能動学習 ii
能動学習の基本的な問題設定
• 候補入力 x1, ..., xn が与えられている
• 関数 f を評価して出力 yi = f(xi) を得るにはコスト (e.g. 時
間, 費用...) がかかる
このとき, できるだけ少ないコスト (観測回数) で
問題設定 1: 関数推定 関数 f を精度良く推定したい
f∗
= arg min
ˆf∈F
n∑
i=1
(f(xi) −ˆf(xi))2
問題設定 2: 最適化 関数 f の maximizer を求めたい
x∗
i = arg max
x∈{x1,...,xn}
f(x)
K. Matsui (RIKEN AIP) Transfer Learning Survey Introduction 10 / 180
機械学習における様々なタスク: 能動学習 iii
探索と活用のトレードオフ
探索 事前知識のないパラメータに対して観測を行う
• これまでよりも良くなるかもしれない未知の
パラメータを試す
活用 実験済みのパラメータ値に近いパラメータに対し
て観測を行う
• これまでに良かったパラメータを活かす
探索のみを行っていると過去の実験結果が活かせず, 活用ばか
り行っているとまだ見ぬ良いパラメータを発見できない
→ 両者のバランスを取りながら最適なパラメータを探す
K. Matsui (RIKEN AIP) Transfer Learning Survey Introduction 11 / 180
機械学習における様々なタスク: 強化学習
a
s
r
様々な応用
環境とエージェントの相互作用の結果を用いて意思決定モデル
の学習, 最適化を行う
K. Matsui (RIKEN AIP) Transfer Learning Survey Introduction 12 / 180
機械学習の定式化 i
• 入力空間 X ⊂ Rd
• 出力空間 Y
• Y = {0, 1} : 2 値判別
• Y = R : 回帰
• (Y = {c} (1 点集合) : 教師なし学習)
• データ生成分布 P = P(X, Y)
• 仮説 h : X → Y 入出力関係を予測する
• 損失関数 ℓ
• 0-1 損失 (判別) : ℓ(ˆy, y) = 1[ˆy ̸= y] =
{
1 if y ̸= ˆy
0 otherwise
• 二乗損失 (回帰) : ℓ(ˆy, y) = |ˆy − y|2
• (再構成損失 (教師なし学習) : ∥ˆx − x∥2
)
K. Matsui (RIKEN AIP) Transfer Learning Survey Introduction 13 / 180
機械学習の定式化 ii
Definition 1 (期待リスク)
データ (X, Y) の従う分布 P の下での仮説 h の期待リスクは
R(h) := E(X,Y)∼P[ℓ(h(X), Y)]
期待リスクを最小にする仮説 h を見つけることが (教師付き)
機械学習の目的
実際には真の分布 P は未知なのでサンプル近似
E(X,Y)∼P[ℓ(h(X), Y)] ≈
1
N
N∑
i=1
ℓ(h(xi), yi)
を最小にする h を探す
K. Matsui (RIKEN AIP) Transfer Learning Survey Introduction 14 / 180
転移学習の定式化 i
Definition 2 (ドメイン)
• Z : abstract な集合
• PZ : Z 上の確率分布
の組 (Z, PZ) をドメイン と呼ぶ
Ex
• Z = X, PZ = PX (教師なし学習)
• Z = X × Y, PZ = PX×Y (教師付き学習)
特に (以降 Z = X × Y を想定して)
• (ZS, PS) を元ドメイン (source domain) と呼び
• (ZT, PT) を目標ドメイン (target domain) と呼ぶ
K. Matsui (RIKEN AIP) Transfer Learning Survey Introduction 15 / 180
転移学習の定式化 ii
転移学習の目標
元ドメイン (ZS, PS) での学習を通して目標ドメイン (ZT, PT) に
おける期待リスク RT(h) を最小化する.
Ex (判別問題) (ZT, µT) で高い判別性能を示す判別関数 h を見つ
ける
{(xS
i , yS
i )}NS
i=1
data
∈ XS × YS −−−−−→
training
ˆh = arg min
h
1
NS
NS∑
i=1
ℓ(h(xS
i ), yS
i )
−−→
test
1[ˆh(xT
j ) = yT
j ], xT
j ∈ XT
K. Matsui (RIKEN AIP) Transfer Learning Survey Introduction 16 / 180
伝統的な機械学習と転移学習の関係
伝統的な機械学習は, 転移学習の特別な場合に相当:
元ドメイン = 目標ドメイン. すなわち,
ZS = ZT and PS = PT
Ex (2 値判別問題)
• P & N ∼ PXS×{0,1} (元)
• U ∼ PXS
(目標)
• ラベル無しの目標データを
正しく判別する境界はラベ
ルありの元データから学習
できる.
実際にはこの仮定が成り立たない問題がいくらでもある
K. Matsui (RIKEN AIP) Transfer Learning Survey Introduction 17 / 180
元ドメインと目標ドメインが異なる例 i
サンプル空間がドメイン間で異なる
XS ̸= XT
K. Matsui (RIKEN AIP) Transfer Learning Survey Introduction 18 / 180
元ドメインと目標ドメインが異なる例 ii
データの分布がドメイン間で異なる
PS ̸= PT
Training	Data	
(source	domain)
Hospital	A
Hospital	B
Hospital	C
Training
Prediction	Model
Apply
Hospital	D	
(target	domain)
•  Multi-center	prognostic	analysis	
Ø  source	:	3	different	hospitals	
Ø  target	:	a	hospital	
•  Task	:		
to	learn	a	prediction	model	in	S	
that	performs	well	in	T	
•  Probability	distribution	of	covariates	of		
	the	patients	can	differ	among	hospitals	
A	Transfer	Learning	Method	for	Multi-Center		
Prognostic	Prediction	Analysis	[Matsui+	2018]	
K. Matsui (RIKEN AIP) Transfer Learning Survey Introduction 19 / 180
元ドメインと目標ドメインが異なる例 iii
Fig: [Yang+ (2009)]
• 元ドメインと目標ドメインの “違い方” によって対応する
観測データの “違い方” も変わる
K. Matsui (RIKEN AIP) Transfer Learning Survey Introduction 20 / 180
転移学習の必要性
異なるドメインのデータや知見を統合して取り扱うための
方法論
• 目標ドメイン, 元ドメインともにデータが少数のとき
→ 各ドメインのデータを統合して活用できる
• 医学研究などの small data な領域で威力を発揮
• 目標ドメインは小データだが元ドメインにデータが大量に
あるとき
→ 各ドメインで要約統計量を学習しておき, それを別のド
メインで活用できる
• 生データを保持しなくて良いのでストレージやメモリの節
約になる
• プライバシーの観点からもメリットがある?
K. Matsui (RIKEN AIP) Transfer Learning Survey Introduction 21 / 180
Foundations of Transfer Learning
転移学習 i
定性的な定義 [NIPS’05 workshop]
目標タスクの効果的な仮説を効率的に見つけ出すために, 一
つ以上の別のタスクで学習された知識を適用する問題
数学的な定式化 (再掲)
ZS ̸= ZT あるいは PS ̸= PT である場合に, 目標ドメインの期待
リスク RT(h) を最小にするような仮説 h を見つける
Fig: [Pan&Yang (2010)]
K. Matsui (RIKEN AIP) Transfer Learning Survey Foundations of Transfer Learning 22 / 180
転移学習 ii
• 様々な関連分野がある
• domain adaptation (transfer learning の別称)
• self-taught learning [Raina+ (2007)]
• multi-task learning [Caruana (1997)]
• meta-learning [Brazdil+ (2008), Vanschoren (2018)]
• learning to learn [Thrun&Pratt (1998)]...
• 最近では深層学習への応用により注目度が増大
• pre-training [Bengio+ (2007), Erhan+ (2010)]
• fine-tuning [Girshick+ (2014)]
• few-shot learning [Palatucci+ (2009), Fu+ (2018)]
• representation learning [Hinton (1986), Zhuang+ (2015)]...
• 一方で非常に多くの設定 (転移仮定) があり, 各設定に対し
て個別に手法が考察されている状況
• distribution shift [Sugiyama+ (2012), Courty+ (2017)]
• heterogeneous transfer learning [Daume III ACM (2007),
Duan+ (2012)]...
K. Matsui (RIKEN AIP) Transfer Learning Survey Foundations of Transfer Learning 23 / 180
転移学習の分類
• Pan&Yang (2010) や神嶌 (2009) では各ドメインのラベルの有無で分類
• 上記文献では, 以下のように少し呼称が異なる
• 元: ラベル有, 目標: ラベル無 → トランスダクティブ転移学習
• 元: ラベル無, 目標: ラベル無 → 教師なし転移学習
• 最近では右上の設定が “教師なし転移学習” と呼ばれる
K. Matsui (RIKEN AIP) Transfer Learning Survey Foundations of Transfer Learning 24 / 180
教師付き転移学習 i
• 元ドメイン, 目標ドメインそれぞれでラベル付きデータが
利用可能
→ ただし, 目標ドメインのラベル付きデータは元ドメイン
のそれよりも非常に少数と想定
• 共変量とラベルの同時分布がドメイン間で異なる:
PS(X, Y) ̸= PT(X, Y)
• 同時分布のずれを補正しながら目標ドメインの経験リスク
を最小にする仮説 h を探す
K. Matsui (RIKEN AIP) Transfer Learning Survey Foundations of Transfer Learning 25 / 180
教師付き転移学習 ii : TrAdaBoost
アンサンブル学習である AdaBoost を転移学習のために改
良 [Dai+ (2007)]
• 両ドメインのラベル付きデータから弱学習器を学習
• 初期の重みは両ドメインのデータに等しく与える
• 誤差の大きい目標データは重みを大きくし, 誤差の大きい
元データは重みを小さくする
wt+1
i
=



wt
iβ
|lossi|
t for target data
wt
iβ
−|lossi|
t for source data
• 学習の前半の弱学習器は捨て, 後半のものだけ使って分類
器を構成
hf(x) =



1 if
∏N
t=⌈N/2⌉ β
−ht(x)
t ≥
∏N
t=⌈N/2⌉ β
−1/2
t
0 otherwise
K. Matsui (RIKEN AIP) Transfer Learning Survey Foundations of Transfer Learning 26 / 180
教師なし転移学習
• transfer learning や domain adaptation 研究の主流の設定
• 元ドメインではラベル付きデータ, 目標ドメインではラベ
ル無しデータのみが利用可能な場合
• 目標ドメインで学習ができないため, 直接目標リスクを最
小化する仮説を探索できない
• 目標ドメインのラベル情報がないため, 元ドメインのラベ
ル付きデータを有効利用するためには何らかの仮定が必要
(転移仮定, 詳細は後述)
• 共変量シフト [Shimodaira (2000)]
PT(Y | X) = PS(Y | X)
• ターゲットシフト [Redko+ (2018)]
PT(X | Y) = PS(X | Y)
• 共通の隠れ空間の存在 [Duan+ (2012), Iwata&Yamada (2016)]
K. Matsui (RIKEN AIP) Transfer Learning Survey Foundations of Transfer Learning 27 / 180
半教師あり転移学習 / 能動的転移学習 i
根本的な問い
• 教師なし転移学習 (学習時からテスト時までずっと目標ド
メインのラベルが無い状況) は妥当な問題設定なのか?
• 目標ドメインでも少しはラベルが取れる状況を考える方が
自然では?
→ 半教師あり学習/能動学習
• 半教師あり転移学習 :
元ドメインではラベルありデータ, 目標ドメインでは少量
のラベルありデータと大量のラベル無しデータが使える
• 能動的転移学習 :
目標ドメインのどのインスタンスにラベルを付けるかを適
応的に選択
K. Matsui (RIKEN AIP) Transfer Learning Survey Foundations of Transfer Learning 28 / 180
半教師あり転移学習 i
問題設定
• 元ドメインで available なデータ:
• ラベルありデータ Ds = {(xs
i , ys
i )}ms
i=1
• 目標ドメインで available なデータ:
• ラベルありデータ Dt = {(xt
i, yt
i)}mt
i=1,
• ラベル無しデータ Du = {xu
i }mu
i=1
目的
Ds, Dt, Du から目標ドメインのための予測モデルを学習
→ 目標ドメインにラベルありデータが存在するのでモデルの
評価が可能
K. Matsui (RIKEN AIP) Transfer Learning Survey Foundations of Transfer Learning 29 / 180
半教師あり転移学習 ii
Semi-supervised DA via Minimax Entropy [Saito+ (2019)]
1. ドメイン不変な prototype (各クラスの代表元) を推定
2. 推定した prototype を使って xu
i から discriminative
features を抽出
→ 特徴抽出器とタスク判別器の間の敵対的学習として定式化
K. Matsui (RIKEN AIP) Transfer Learning Survey Foundations of Transfer Learning 30 / 180
能動的転移学習 i
問題設定
• 元ドメインで available なデータ:
• ラベルありデータ Ds = {(xs
i , ys
i )}ms
i=1
• 目標ドメインで available なデータ:
• ラベルありデータ Dt = {(xt
i, yt
i)}mt
i=1
• 初期状態で Dt ̸= ∅ の場合 [Wang+ 2014]
• 初期状態で Dt = ∅ の場合 [Su+ 2019]
• ラベル無しデータ Du = {xu
i }mu
i=1
目的
Ds, Dt, Du を用いて, Du の元のラベルを適応的に観測しなが
ら目標ドメインのための予測モデルを学習
→ 目標ドメインにラベルありデータが存在するのでモデルの
評価が可能
K. Matsui (RIKEN AIP) Transfer Learning Survey Foundations of Transfer Learning 31 / 180
能動的転移学習 ii
Active Transfer Learning under Model Shift [Wang+ (2014)]
アプローチ 1 : 事後分布のマッチング
Pr(Ynew
| Xs
) = Pr(Yt
| Xt
)
• Ynew は Xs に対応するラベル Ys の location-scale 変換
Ynew
= Ys
⊙ w(Xs
) + b(Xs
)
• 変換関数 w(·), b(·) は連続関数になるように形を制限
• 事後分布マッチングは両者の discrepancy 最小化で達成
アプローチ 2 : ガウス過程モデリング
• Ds で学習した GP から, Dt の true と予測の差 ˆZ = Yt − ˆYt
を正規モデリング
• Ds のラベルを変換: Ynew = Ys + ˜Z, ˜Z ∼ N(˜µ(ˆZ), ˜Σ)
£ 両アプローチ共に {Xs, Ynew} ∪ {Xt, Yt} で予測モデルを学習
£ uncertainty sampling で次の評価点を決定
K. Matsui (RIKEN AIP) Transfer Learning Survey Foundations of Transfer Learning 32 / 180
能動的転移学習 iii
Active Adversarial Domain Adaptation [Su+ (2019)]
Domain Adversarial Training (ドメイン適応)
+
Importance Weighting (能動学習)
£ sample selection の方針
• 経験損失が大きい点を取る vs 重要度が高い点を取る
• 重要度は GAN の discriminator から計算: pT(ˆx)
pS(ˆx)
=
1−G∗
d
(ˆx)
G∗
d
(ˆx)
K. Matsui (RIKEN AIP) Transfer Learning Survey Foundations of Transfer Learning 33 / 180
自己教示学習
• 元ドメインではラベル無しデータのみが, 目標ドメインではラベル付き
データが利用可能な場合
• 元ドメインで教師なし特徴抽出し, 目標ドメインの教師付き学習に援用
Supervised Classification
Semi-supervised Learning
Transfer Learning
Self-taught Learning
K. Matsui (RIKEN AIP) Transfer Learning Survey Foundations of Transfer Learning 34 / 180
強化学習における転移学習 i
[久保 2019] では強化学習においてモデルの転移能力を獲得する
ための主要な 2 つのアプローチを紹介
1. メタ学習 (モデルの転移能力の獲得)
• Learning to learn : 教育の仕方の学習
• Learning to train : 学習の仕方の学習
2. 転移学習 (知識やデータの再利用)
• Sim2Real : シミュレーションから現実への転移
• domain randomization : シミュレーションの多様化
詳細は後述
K. Matsui (RIKEN AIP) Transfer Learning Survey Foundations of Transfer Learning 35 / 180
強化学習における転移学習 ii
別の定式化
ドメインを “タスク空間とタスク分布のペア” と考えたエージ
ェントベースの転移学習 (4 種類の転移シナリオ)
Task Space Task Space
N1
N2
NM
M1
M2
M3
M4
1. Across two agents of
different domains
2. Across two agents
in the same domains
3. Across two agents
in the same task
4. Across multi-agents
in the same domain
Fig : [Fachantidis 2016]K. Matsui (RIKEN AIP) Transfer Learning Survey Foundations of Transfer Learning 36 / 180
転移学習の基本的な問題
1. What to transfer (何を転移するか)
• instance transfer (データそのものを転移)
• feature transfer (抽出した特徴を転移)
• parameter transfer (学習したモデルや特徴抽出器を転移)
2. When to transfer (いつ転移するか)
• 転移学習が成功するのは元ドメインと目標ドメインが似て
いるとき
• 例: covariate-shift [Shimodaira (2000)] PrS[y | x] = PrT[y | x]
• 負転移 (転移によって目標ドメインの性能が低下)
3. How to transfer (どう転移するか, 具体的なアルゴリズム)
• 例: 重要度重み付き学習 [Sugiyama+ (2012)]
• 例: 最適輸送によるドメイン適応 [Courty+ (2017)]
K. Matsui (RIKEN AIP) Transfer Learning Survey Foundations of Transfer Learning 37 / 180
What to Transfer : Instance Transfer
元ドメインのデータを目標ドメインのデータとして学習に
用いる
例: 重要度重み付き学習, 最適輸送に基づくドメイン適応
• homogeneous な状況を想定 (ドメイン間で標本空間は共通)
K. Matsui (RIKEN AIP) Transfer Learning Survey Foundations of Transfer Learning 38 / 180
What to Transfer : Feature Transfer
元ドメインと目標ドメインで共通の特徴を抽出し学習に用いる
例: Augmented features [Duan+ (2012)]
• heterogeneous な状況を想定 (ドメイン間で標本空間が異なる)
K. Matsui (RIKEN AIP) Transfer Learning Survey Foundations of Transfer Learning 39 / 180
What to Transfer : Parameter Transfer i
元ドメインで学習したモデルや特徴抽出器のパラメータを目標
ドメインで用いる
例: fine-tuning
…
1000
…
20
Fine-tuning
L∇ ( )iiL yx ,
• あるデータセットで予め学習した NN の出力層を目標データで再学習
• 出力層の手前までのネットワークのパラメータは固定
→ ただしこの定義にはいくつか流派? がある模様 (次ページ)
K. Matsui (RIKEN AIP) Transfer Learning Survey Foundations of Transfer Learning 40 / 180
What to Transfer : Parameter Transfer ii
Fig:[Li&Hoiem (2016)]
• [Li&Hoiem (2016)] では出力層手前までも再学習するものを fine-tuning
と呼んでいる (元ドメインの学習結果を warm-start とする)
• 出力層手前までを固定するものは feature extraction と呼ばれている
K. Matsui (RIKEN AIP) Transfer Learning Survey Foundations of Transfer Learning 41 / 180
When to Transfer : Discrepancy i
何らかの指標で元ドメインと目標ドメインが “似ている” とき
転移を実施
例: ドメインの確率分布の不一致度 (discrepancy)
• discrepancy が小さいとき, 目標ドメインのデータは元ドメインとよく
似た生成メカニズムを持っていると考えられる
• 様々な discrepancy が定義されている
• H∆H divergence [Ben-David+ (2010)]
• Wasserstein distance [Courty+ (2017)]
• source-guided discrepancy [Kuroki+ (2019)]
K. Matsui (RIKEN AIP) Transfer Learning Survey Foundations of Transfer Learning 42 / 180
When to Transfer : Discrepancy ii
Integral Probability Metrics (IPM) [Sriperumbudur+ (2012)]
DiscG(PT, PS) := sup
g∈G
|ET[g] − ES[g]|
• PT, PS はそれぞれ元ドメイン, 目標ドメインの確率分布, g はテスト関数
• Wasserstein metric, total variation, kernel MMD, source-guided
discrepancy などを含む統一的な discrepancy の定式化
• M = supx∈X,g∈G g(x) とする. このとき, 確率 1 − δ 以上で以下のサンプ
ル近似バウンドが成立
|DiscG(PT, PS) − DiscG(ˆPT, ˆPS)|
≤ 2ℜT,nT (G) + 2ℜS,nS (G) + M
√
18 log
4
δ
(
1
√
nT
+
1
√
nS
)
• ℜT,nT (G), ℜS,nS (G) : 目標ドメイン, 元ドメインにおける G のラデマ
ッハ複雑度
• nT, nS : 各ドメインのサンプルサイズ
→ 転移学習の理論解析時に非常に有用
K. Matsui (RIKEN AIP) Transfer Learning Survey Foundations of Transfer Learning 43 / 180
When to Transfer : 転移仮定 i
ドメインの “類似” をより積極的にモデリングする
例 i: 共変量シフト [Shimodaira (2000)]
• 元ドメインと目標ドメインでラベル付けルールが共通
PS(Y | X) = PT(Y | X)
• 重要度重み付き ERM で効果的にモデルの学習が可能 (詳細は後述)
K. Matsui (RIKEN AIP) Transfer Learning Survey Foundations of Transfer Learning 44 / 180
When to Transfer : 転移仮定 ii
ドメインの “類似” をより積極的にモデリングする
例 ii: ターゲットシフト [Zhang+ (2013), Redko+ (2019)]
• 元ドメインと目標ドメインで入力分布が共通
PS(X | Y) = PT(X | Y)
• ドメイン毎にクラスバランスが異なる状況を想定
• [Redko+ (2018)] では最適輸送を使って効果的なモデルの学習を実現
(Fig)
ただし一般には最適輸送はこのような問題は苦手 (輸送前と後でラベル
を保存するため)
K. Matsui (RIKEN AIP) Transfer Learning Survey Foundations of Transfer Learning 45 / 180
When to Transfer : 転移仮定 iii
ドメインの “類似” をより積極的にモデリングする
例 iii: 共通の隠れ空間の存在 [Duan+ (2012), Iwata&Yamada (2014)]
Latent space

D 

 '
^
/
:
,
D
W1 ↙ ↘ W2

D 

'
^
/
:
,

D 
'
^
/
:
 ,
Observed view 1 Observed view 2
( )
• 適当な射影によって homogeneous な空間に落とせる (左)
• 隠れ空間からの写像によって様々な表現が観測される (右)
K. Matsui (RIKEN AIP) Transfer Learning Survey Foundations of Transfer Learning 46 / 180
When to Transfer : 負転移
ドメインバイアスとも呼ばれる (メタ学習の文脈)
• 2 つのシナリオ
1. 一方のドメインのみで学習したモデルを目標タスクで用いる
2. 転移学習によって学習したモデルを目標タスクで用いる
で (2 の目標タスク性能) ≤ (1 の目標タスク性能) のとき負
転移 (negative transfer) という
• 2 つのドメインが乖離しているほど負転移が発生しやすい
1.0
0.2
0.4
0.6
0.8
0.0
1.0
0.2
0.4
0.6
0.8
0.0
AUC
AUC
The number of target training casesThe number of target training cases
(a) (b)
source only
transfer
target only
source only
transfer
target only
K. Matsui (RIKEN AIP) Transfer Learning Survey Foundations of Transfer Learning 47 / 180
Paradigm Shift in Transfer Learning
via Deep Learning
深層学習の登場は転移学習をどう変えたか?
• 転移学習の観点では, 表現学習としての深層学習の発展が
大きなポイント
• これまでマニュアルで設計していた特徴量をネットワーク
が自然に獲得
• 転移学習においては, データから各ドメインに関する特徴
の抽出も可能になった
• ドメイン不変な特徴量はそのまま転移可能
• 特徴を独立な成分に分解し, ドメイン間で共有されている
成分は転移し, 異なっている成分は転移しない
(disentangled representation, 後述)
K. Matsui (RIKEN AIP) Transfer Learning Survey Paradigm Shift in Transfer Learning via Deep Learning 48 / 180
深層ニューラルネットによる特徴表現の獲得– 1 week for
training
• 5 conv. layers + 3 fully connected layers
Layer 5
– 2 GPUs
– 1 week for
training
conv. layers + 3 fully connected layers
13
Conv 1 :
EdgeColor	
Conv 3 :
Texture	
Conv 5 :
Object Parts	
FC 8 :
Object Classes	
AlexNet [Krizhevski+ (NIPS12)]	
Fig : Ushiku, ACML2019 Tutorial
ZeilerFergus, ECCV2014	
K. Matsui (RIKEN AIP) Transfer Learning Survey Paradigm Shift in Transfer Learning via Deep Learning 49 / 180
転移学習としての表現学習
output y1 output y3output y2
Fig: [Bengio+ (2013)]
• ドメイン不変な特徴を獲得する
• オートエンコーダや敵対的学習 (後述) などが良く用いられる
K. Matsui (RIKEN AIP) Transfer Learning Survey Paradigm Shift in Transfer Learning via Deep Learning 50 / 180
オートエンコーダによる表現学習
Transfer Learning with Deep Autoencoders [Zhuang+ (2015)]
• オートエンコーダによる教師付き表現学習
min Err(x, ˆx)
reconstruction error
+α (KL(PS||PT) + KL(PT||PS))
discrepancy
+β ℓ(yS; θ, ξS)
softmax loss
+γReg
• 元ドメインと目標ドメインで encoding 層と decoding 層の重みを共有
K. Matsui (RIKEN AIP) Transfer Learning Survey Paradigm Shift in Transfer Learning via Deep Learning 51 / 180
敵対的学習による表現学習
Domain Adversarial Training [Ganin+ (2016)]
ptrue(X)
pz(z)
G(z; θg)
pg(X)
D(x; θd)
xo xf
PS(X) PT (X)
D(x; θd)
xS xT
G(·; θE)
φS φT
• 敵対的学習 (左図) をドメイン適応に応用 (右図)
• ドメイン不変な特徴表現の学習が目的
K. Matsui (RIKEN AIP) Transfer Learning Survey Paradigm Shift in Transfer Learning via Deep Learning 52 / 180
敵対的学習による表現学習 ii
Domain Adversarial Training [Ganin+ (2016)]
• 入力データを特徴抽出器に噛ませ, クラスラベルの識別器 (通常の識別
器, 上段) とドメインラベルの識別器 (下段) にそれぞれ入力
• ドメイン識別器の学習は gradient に負定数をかけ逆伝播する gradient
reversal layer を導入することで実現
K. Matsui (RIKEN AIP) Transfer Learning Survey Paradigm Shift in Transfer Learning via Deep Learning 53 / 180
ドメインの類似と相違の獲得 i
Domain Separation Networks [Bousmalis+ (2016)]
• ドメインの “違い” をネットワークに学習させる
• private encoder でドメイン固有の特徴を学習し, shared encoder でド
メイン横断的な特徴を学習する
K. Matsui (RIKEN AIP) Transfer Learning Survey Paradigm Shift in Transfer Learning via Deep Learning 54 / 180
ドメインの類似と相違の獲得 ii
定式化 : 4 つの損失関数の重み付き和を最小化
min L = Ltask + αLrecon + βLdiff + γLsim
• 第 1 項は判別誤差 (負の対数尤度)
Lclass = −
∑
i
yS
i log ˆyS
i
• 第 2 項は元の特徴と変換後の特徴の再構築誤差
Lrecon =
∑
i
ℓ(xS
i , ˆx
S
i ) +
∑
j
ℓ(xT
j , ˆx
T
j ), ℓ(x, ˆx) =
1
k
∥x − ˆx∥2
−
1
k2
((x − ˆx)⊤
1)2
• 第 3 項はドメイン共有の特徴とドメイン固有の特徴を直交方向に学習
させる
Ldifference = Hs⊤
c Hs
p
2
F
+ Ht⊤
c Ht
p
2
F
• 第 4 項はドメインの類似性に関する誤差 e.g. 交差エントロピー
∑
ˆ
(
ˆ
)
K. Matsui (RIKEN AIP) Transfer Learning Survey Paradigm Shift in Transfer Learning via Deep Learning 55 / 180
Disentangled Representation i
もつれのない表現 [Achille+ (2018), Locatello+ (2019),...]
• データが独立な複数の構成要素からなる場合にその独立成
分を個別に取り出すような特徴表現
• 特に複数のドメイン間での転移可能性に重きが置かれる
Fig : Evaluating the Unsupervised Learning of Disentangled Representations
K. Matsui (RIKEN AIP) Transfer Learning Survey Paradigm Shift in Transfer Learning via Deep Learning 56 / 180
Disentangled Representation ii
Disentangled Representation の学習: 変分オートエンコーダ
(VAE)
X qφ(z | X) pθ(X | z)
ˆXz ∼ N(0, I)
β-VAE [Higgins+ (2017)] ベースの方法が多数提案されている
Lβ =
1
N
N∑
n=1
(Eq [log p (xn|z)] − β KL (q (z|xn) ∥p(z)))
• β = 1 が通常の VAE
• β  1 とすることで第 2 項の罰則が学習に大きく寄与し,
disentangled representation が獲得されやすくなる.
• ただし β のチューニングに sensitive
K. Matsui (RIKEN AIP) Transfer Learning Survey Paradigm Shift in Transfer Learning via Deep Learning 57 / 180
Disentangled Representation iii
β-VAE β-TCVAE
Gender (-6, 6)female male
Fig : [Chen+ 2018]β-TCVAE [Chen+ (2018)]
Lβ−TC =Eq(z|n)p(n)[log p(n | z)] − αIq(z; n)
− β KL
(
q(z)
∏
q
(
zj
)
)
− γ
∑
KL
(
q
(
zj
)
∥p
(
zj
))
• VAE の第 2 項をさらに分解し項別に重み付け (α と γ は 1 で固定)
• 第 3 項は total correlation と呼ばれ, この項へのペナルティが独
立な表現の獲得に大きく寄与する
K. Matsui (RIKEN AIP) Transfer Learning Survey Paradigm Shift in Transfer Learning via Deep Learning 58 / 180
Disentangled Representation iv
任意の生成モデルに対して, disentangled representation を教師なし
学習することは可能なのか?
→ モデル or データセットに inductive bias がなければ無理
Theorem 1 (教師なし学習不可能性 Locatello+ (2019))
d  1 として, r.v. z が従う分布 P の密度関数が
p(z) =
∏d
i=1 p(zi) と書けるとする. このとき, ある全単射
f : supp(z) → supp(z) の族が存在し,
1.
∂fi(u)
∂uj
̸= 0 a.e. ∀i, j
2. P(z ≤ u) = P(f(z) ≤ u), ∀u ∈ supp(z)
1 → z と f(z) は completely entangled
2 → z と f(z) は同じ周辺分布を持つ
K. Matsui (RIKEN AIP) Transfer Learning Survey Paradigm Shift in Transfer Learning via Deep Learning 59 / 180
Disentangled Representation v
cf : Independent Component Analysis (独立成分分析, ICA)
Fig : [Tharwat 2018]
• 観測されるデータは, 独立な複数の発生源からのシグナル
の混合であると考える
• 単一ドメインにおける ある種の disentangled
representation (表現の転移は基本的に考えない)
← 線形 ICA の場合
K. Matsui (RIKEN AIP) Transfer Learning Survey Paradigm Shift in Transfer Learning via Deep Learning 60 / 180
Disentangled Representation vi
cf : 非線形 ICA (Disentangled Representation との違いは???)
• 真のシグナル (潜在変数) に非線形変換 がかかったものが
データとして観測される
• データから真の潜在変数を復元可能か?
復元の不可能性 [HyvärinenPajunen (1999)]
観測 x に対して, y = g(x) で定まる復元 y の各成分が独立にな
るような変換 g が (常に) 存在する. ただしこの復元は一意に
は定まらない → 独立性だけでは非線形 ICA はできない
復元のアイデア: contrastive learning [Hyvärinen+ (2018)]
• 異なる複数の分布 (ドメインに相当) を識別するモデルを
学習する
• ドメインラベルが正しく識別されるモデルの中間層で真の
潜在表現の extractor が獲得される
K. Matsui (RIKEN AIP) Transfer Learning Survey Paradigm Shift in Transfer Learning via Deep Learning 61 / 180
Related Fields of Transfer Learning
Multi-Task Learning
複数の類似タスクを各タスクの情報を共有しながら同時学習
Fig: [Ruder (2017)]
• NN の場合, ネットワークの構造を工夫してタスク間でパラ
メータを共有する (上図)
• 非 NN の場合, 各タスクのパラメータが近くなるような正
則化をかける (下式 3 項目):
min
θ1,...,θT
1
2
T∑
t=1
n∑
i=1
(fθt (xi) − yi)2
loss
+
1
2
T∑
t=1
λt∥θt∥2
inner−task
+
1
4
T∑
t,t′=1
γt,t′ ∥θt − θt′ ∥2
inter−task
K. Matsui (RIKEN AIP) Transfer Learning Survey Related Fields of Transfer Learning 62 / 180
Multi-View Learning i
Fig: [Xu+ (2013)]
同じものが別の見え方で観測される
K. Matsui (RIKEN AIP) Transfer Learning Survey Related Fields of Transfer Learning 63 / 180
Multi-View Learning ii
Principles for Multi-view Learning [Xu+ (2013)]
1. Consensus Principle [Dasgupta+ (2002)]
Pr(f1
̸= f2
) ≥ max{Prerr(f1
), Prerr(f2
)}
• 2 通りの view に対する独立な仮説 f1
, f2
の誤差はこれらの
仮説が不一致である確率で上から抑えられる
• co-regularization 型の手法: 予測損失 +consensus 正則化
∑
L(yi, f(xi))
loss
+
∑
(f1
(xi) − f2
(xi))2
regularization
2. Complementary Principle
• 各 view は他の view がもたない情報を含む
• 複数の view からデータの情報を補完して学習の性能を向
上させることができる
→ co-training 型の手法
K. Matsui (RIKEN AIP) Transfer Learning Survey Related Fields of Transfer Learning 64 / 180
Multi-View Learning iii
Multi-view discriminant transfer (MDT) [YangGao (2013)]
• 元ドメイン: {(xS
i , zS
i , yS
i )} (2 views, ラベルありデータ)
• 目標ドメイン: {(xT
j , zT
j )} (2 views ラベルなしデータ)
Task: 目標ドメインデータのラベル yT
j を当てる
MDT の学習問題
max
ξ
ξ⊤Qξ
ξ⊤Pξ
⇔ Qξ = λPξ (generalized eigenvalue problem)
• P : view-wise within-class covariance
• Q = Qw − c1Qd − c2Qc
• Qw : between-class covariance に対応
• Qd : domain discrepancy に対応
• Qc : view consistency に対応
K. Matsui (RIKEN AIP) Transfer Learning Survey Related Fields of Transfer Learning 65 / 180
Meta-Learning i
• 
• 
• stacked generalization
• Model-Agnostic Meta-Learning (MAML) [Finn+ (2017)]
• Task embedding (TASK2VEC) [Achille+ (2019)]
K. Matsui (RIKEN AIP) Transfer Learning Survey Related Fields of Transfer Learning 66 / 180
Meta-Learning ii : Stacked Generalization
• 
• 
• 
• 様々なアルゴリズムで仮説を学習し, その出力を入力とする上位の仮説
をさらに学習
• kaggle 等のコンペで強力なアプローチとして普及
K. Matsui (RIKEN AIP) Transfer Learning Survey Related Fields of Transfer Learning 67 / 180
Meta-Learning iii : Model-Agnostic Meta-Learning (MAML)
様々なタスクに共通に “良い初期値” を学習する
Fig: [Finn+ (2017)]
• パラメータ θ を勾配法の更新則によって異なるタスクに適応させる:
θ′
i ← θ − α∇θLTi
(fθ)
ここで Ti は目標タスク, fθ はモデル, L は損失関数
• タスクの出現の仕方に関して SGD で適切なパラメータを学習:
θ ← θ − β∇θ
∑
Ti∼p(T)
LTi
(fθ′
i
)
少ない更新回数で新たなタスクに適応できるようにパラメータを学習
K. Matsui (RIKEN AIP) Transfer Learning Survey Related Fields of Transfer Learning 68 / 180
Meta-Learning iv : Task Embedding (TASK2VEC)
Fig: [Achille+ (2019)]
• 学習済み NN の Fisher 情報行列を使ってタスクのベクトル
表現を獲得 → タスク間の類似度計算が可能に
• タスク間の類似度からタスク毎の適切な特徴抽出機を予測
K. Matsui (RIKEN AIP) Transfer Learning Survey Related Fields of Transfer Learning 69 / 180
Learning to Optimize i
Fig : Learning to Optimize with Reinforcement Learning
£ 機械学習の成功は (データからのパターンの自動抽出のような) デ
ータ駆動の考え方に依るところが大きい
£ しかし学習アルゴリズムの設計は依然として人手に依っている
→ 学習アルゴリズムは学習可能?
K. Matsui (RIKEN AIP) Transfer Learning Survey Related Fields of Transfer Learning 70 / 180
Learning to Optimize ii
[LiMalik ICLR2017]
State
Action Cost
Policy
f(x(i)
)
Fig : Learning to Optimize with Reinforcement Learning
• π の選び方によって最適化アルゴリズムが変わる
→ π の学習 = 最適化アルゴリズムの学習とみなせる
• ある最適化アルゴリズムの実行はある固定された方策 π の下で
MDP を実行する操作とみなせるみなせる
→ 強化学習 (Guided Policy Search) によって方策 π を学習
K. Matsui (RIKEN AIP) Transfer Learning Survey Related Fields of Transfer Learning 71 / 180
Learning to Learn i
£ 多くの文献でlearning to learn = メタ学習 とされている
£ 人間の
• “あるタスクに対する能力を別の新規タスクに汎化する” 能力
• “汎化のために必要な経験 · 例 · 反復回数などを学習する” 能力
を計算機上で実現したい
£ Learning to Optimize with Reinforcement Learning によれば,
Learning to Optimize で損失関数を目的関数とした場合に相当
£ 学習するメタ知識の種類に応じて 3 種類に大別
1. Learning What to Learn [ThrunPratt (2012)]
2. Learning Which Model to Learn [Brazdil (2008)]
3. Learning How to Learn [LiMalik (2017), Andrychowicz+ (2016)]
K. Matsui (RIKEN AIP) Transfer Learning Survey Related Fields of Transfer Learning 72 / 180
Learning to Learn ii
Learning to learn by gradient descent by gradient descent
[Andrychowicz+ (2016)]
Optimizee
Optimizer
t-2 t-1 t
m m m
+ + +
ft-1 ftft-2
∇t-2 ∇t-1 ∇t
ht-2 ht-1 ht ht+1
gt-1 gt
θt-2 θt-1 θt θt+1
gt-2
• DNN の optimizer (SGD, RMSprop, ADAM...) の更新則を学習
• パラメータ ϕ で optimizer をパラメトリックモデリング:
θt+1 = θt + gt(∇f(θt), ϕ)
• ϕ に関する損失関数を最小化:
L(ϕ) = Ef [f (θ∗
(f, ϕ))]
K. Matsui (RIKEN AIP) Transfer Learning Survey Related Fields of Transfer Learning 73 / 180
Few-shot Learning i
Fig: [HariharanGirshick (2017)]
• 興味あるタスク (目標ドメイン) のラベル付きデータが少数 (few)
• one-shot : ラベル付きデータが 1 例のみ
• zero-shot : ラベル付きデータ無し
• 特に Zero-shot の場合は訓練時に見たことのないラベルをもつテスト
データを扱う. ラベルそのものは観測できないが, ラベルについての補
助情報が学習可能という設定
K. Matsui (RIKEN AIP) Transfer Learning Survey Related Fields of Transfer Learning 74 / 180
Few-shot Learning ii
Matching Networks [Vinyals+ (2016)]
• one-shot learning において, 元ドメインデータ S = {(xi, yi)} が与えら
れたとき目標データ x のラベル y の予測分布を NN で学習
P(y|x, S) =
k∑
i=1
a (x, xi) yi
• ニューラル機械翻訳の文脈での単語アラインメントモデルに対応
cf [Bahdanau+ (2015)] 3.1 節
K. Matsui (RIKEN AIP) Transfer Learning Survey Related Fields of Transfer Learning 75 / 180
メタ強化学習 i
過去のタスクの知見を使って新たな強化学習タスクを高速に
解く.
• 学習者はタスク分布 P(T ) を持っていて, そこからのサンプ
リングができるという設定
• 同じタスク分布からサンプリングされた新しいタスクに対
しては高速に適応する
• 最近の meta-RL では特に, タスク = マルコフ決定過程
(MDP) としている
アプローチ
方策を事前学習しておき, few-shot で現在のタスクに適応させ
る [Wang+ (2016), Finn + (2017)]
K. Matsui (RIKEN AIP) Transfer Learning Survey Related Fields of Transfer Learning 76 / 180
メタ強化学習 ii
Model-Agnostic Meta-Learning (MAML) [Finn+ (2017)]
• MAML を RL に適用
• 損失関数として期待リワードを取る:
LTi
(fθ) = −Ext,at∼fϕ,qτi
[ H∑
t=1
Ri (xt, at)
]
• fθ : 方策関数
• Ri : タスク Ti におけるリワード関数
• 勾配法でパラメータ θ を最適化 (ただし期待リワードは一
般に微分不可能なので方策勾配を取る)
K. Matsui (RIKEN AIP) Transfer Learning Survey Related Fields of Transfer Learning 77 / 180
Sim2Real
Training Test
Fig : [Tobin+ 2017]
• コストのかかる方策の学習をシミュレータ内で行い, 現実
の問題に転移
• シミュレータ側の精度向上が背景
K. Matsui (RIKEN AIP) Transfer Learning Survey Related Fields of Transfer Learning 78 / 180
Domain Randomization
Fig: [Tobin+ (2017)]
シミュレータのパラメータにランダムな摂動を加えて多様性を
持たせ, 目標ドメイン (現実の問題) を包含してしまうような元
ドメインを作る → 内挿問題化してしまおうという気分
K. Matsui (RIKEN AIP) Transfer Learning Survey Related Fields of Transfer Learning 79 / 180
Topics in Transfer Learning
Feature Augmentation i
元ドメインと目標ドメインの特徴ベクトルを統合して学習する
Frustratingly Easy Domain Adaptation [Daumé (2007)]
• 教師付き転移学習の方法
• 入力ベクトルを, ドメイン不変, 元ドメイン固有, 目標ドメ
イン固有の 3 パートに対応するベクトルに変換:
xS → ψS = (xS, xS, 0)
xT → ψT = (xT, 0, xT)
• ψS, ψT は同一次元のベクトルなので, 後は統合して教師付
き学習
K. Matsui (RIKEN AIP) Transfer Learning Survey Topics in Transfer Learning 80 / 180
Feature Augmentation ii
Learning with Augmented Features [Duan+ (2012)]
• Frustratingly Easy method + 共通空間への射影
xS → ψS = (PxS, xS, 0)
xT → ψT = (QxT, 0, xT)
P, Q は射影行列
• SVM のモデルパラメータと射影行列を同時に学習:
min
P,Q
min
w,b,ξi,ξi
1
2
∥w∥2
+ C
( ns∑
i=1
ξs
i +
nt∑
i=1
ξt
i
)
s.t.
ys
i
(
w⊤ψs
(
xs
i
)
+ b
)
≥ 1 − ξs
i , ξs
i ≥ 0
yt
i
(
w⊤ψt
(
xt
i
)
+ b
)
≥ 1 − ξt
i , ξt
i ≥ 0
∥P∥2
F ≤ λp, ∥Q∥2
F ≤ λq
∥ · ∥F は行列のフロベニウスノルム
K. Matsui (RIKEN AIP) Transfer Learning Survey Topics in Transfer Learning 81 / 180
Pseudo Labeling for Target Data i
教師なし転移学習において, 目標ドメインのラベル無しデータに擬似ラベル
をつけて学習をすることで目標タスクの性能向上を図る
• Self-training [Chen+ (2011)]
• Co-training [Chen+ (2011)]
• Tri-training [Saito+ (2017)]
疑似ラベル学習とエントロピー正則化の等価性 [Lee+ (2013)]
L =
1
n
n∑
i=1
ℓ (yi, h(xi; θ))
loss for labeled data
+α(t)
1
n′
n′
∑
j=1
ℓ
(
y′
j , h(x′
j ; θ)
)
loss for unlabeled data
C(θ, λ) =
n∑
i=1
log P (yi | xi; θ) + λ
1
n′
n′
∑
j=1
P
(
y = 1 | x′
j , θ
)
log P
(
y = 1 | x′
j , θ
)
entropy regularization
上段: 疑似ラベル学習の目的関数, 下段: エントロピー正則化付き学習の目的
関数. 各項が対応関係にある.
K. Matsui (RIKEN AIP) Transfer Learning Survey Topics in Transfer Learning 82 / 180
Pseudo Labeling for Target Data ii
Asymmetric Tri-training [Saito+ (2017)]
K. Matsui (RIKEN AIP) Transfer Learning Survey Topics in Transfer Learning 83 / 180
Domain Selection i
DS1 = {{(xS1
i , yS1
i )}
nS1
i=1 , PS1 }
DS2 = {{(xS2
i , yS2
i )}
nS2
i=1 , PS2 }
DSK
= {{(xSK
i , ySK
i )}
nSK
i=1 , PSK
}
DT = {{xT
i }nT
i=1, PT }
• 複数の元ドメインから目標タスクに寄与するものを選択したい
• ドメイン間の不一致度や目標ドメインのタスク性能を指標に選択
K. Matsui (RIKEN AIP) Transfer Learning Survey Topics in Transfer Learning 84 / 180
Domain Selection ii
不一致度と相補性に基づく元ドメイン選択 [Bhatt+ (2016)]
T
S1
S2
S3
S4
Disc(T, S1) ≤ Disc(T, S2) ≤ Disc(T, S3) ≤ Disc(T, S4)
1. 元ドメインを目標ドメインとの不一致度の大きさでランキング
2. 上位から, 既に選ばれたドメインと相補的になるように次を選択:
上図の例では S1 → S3 → S4 (S2 は選択しない)
K. Matsui (RIKEN AIP) Transfer Learning Survey Topics in Transfer Learning 85 / 180
Knowledge Distillation i
学習済みモデル (予測性能高, 複雑度高) の性能をより規模が小
さく学習しやすいモデルに継承させたい
アイデア
元ドメインタスクのモデルパラメータを記憶して転移する
(パラメータ転移) 必要はなく, 入出力関係が記憶されていれば
良い → (ノンパラメトリックな) 関数として転移
• 定式化 [Hinton+ (2015), Kimura+ (2018)] :
min
fT
λ1
N
N∑
i=1
ℓ1(yi, fT(xi)) +
λ2
N
N∑
i=1
ℓ2(fS(xi), fT(xi))
• fS は学習済みモデル, fT は目標モデル
• 第 1 項は目標モデルに対する通常の損失
• 第 2 項は学習済みモデルの予測と目標モデルの予測を近づけるた
めの損失
K. Matsui (RIKEN AIP) Transfer Learning Survey Topics in Transfer Learning 86 / 180
Knowledge Distillation ii Dark Knowledge
An example of hard and soft targets
0 1 0 0
.9 .1
.05 .3 .2 .005
original hard
targets
output of
geometric
ensemble
softened output
of ensemble
dog
dog
cat
cow cat car
10
−910
−6
Softened outputs reveal the dark knowledge in the ensemble.
cow car
dog catcow car
Fig : [Hinton+ (2014)]
K. Matsui (RIKEN AIP) Transfer Learning Survey Topics in Transfer Learning 87 / 180
Knowledge Distillation iii Born-Again Neurak Networks (BANs)
Born-Again Neurak Networks [Furlanello+ (2018)]
• 教師モデルと全く同じ構造の生徒モデルを複数学習しアンサンブルす
ることで教師モデルを上回る性能のモデルが学習可能
• BANs の学習問題: シーケンシャルに以下の output matching を解く
min
θk
L(f(x, arg min
θk−1
L(y, f(x, θk−1))), f(x, θk))
• BANs Ensemble: 学習したモデルのアンサンブルで予測
ˆfk
(x) =
1
k
k∑
i=1
f(x, θi)
K. Matsui (RIKEN AIP) Transfer Learning Survey Topics in Transfer Learning 88 / 180
Catastrophic Forgetting i
ニューラルネットが新規タスクを学習すると, 以前学習したタ
スクの情報を忘れてしまう現象 [McCloskeyCohen (1989)]
→ 以前のタスクに対するパフォーマンスが低下
Example 1 (fine-tuning)
目標ドメインで出力層の再学習を行うとき, 誤差逆伝播法に
よって元ドメインで学習したパラメータが破壊されてしまう
…
1000
…
20
Fine-tuning
L∇ ( )iiL yx ,
K. Matsui (RIKEN AIP) Transfer Learning Survey Topics in Transfer Learning 89 / 180
Catastrophic Forgetting ii 対策
• Learning without forgetting [LiHoiem (2018)]
• タスク間で共通のパラメータ θS
• 元タスク固有のパラメータ θo
• 目標タスク固有のパラメータ θn
を用意して, 以下の最適化問題を解く (蒸留を使った定式化)
min
θS,θo,θn
λo Lold(Yold, ˆYold)
loss for old task
+ Lnew(Ynew, ˆYnew)
loss for new task
+ R(θS, θo, θn)
regularization
• Elastic weight consolidation [Kirkpatrick+ (2017)]
L(θ) = LB(θ) +
i
λ
2
Fi θi − θ∗
A,i
2
θ
• 両タスクで error が小さくなるようなパ
ラメータ空間の領域に入るように正則化
• 通常の L2 正則化に情報行列で重み付け
K. Matsui (RIKEN AIP) Transfer Learning Survey Topics in Transfer Learning 90 / 180
(Conditional) Neural Processes i
Fig : [Kim+ (2019)]
• 条件付き分布 p(y | x, Z, θ) の深層生成モデル [Garnelo+
2018]
• x : target input
• Z = {(xi, yi)}M
m=1 : context set
• θ : model parameters
• GP 回帰の事前知識を入れられる·予測の不確実性を評価で
きる機能と NN の高い予測性能の良いとこ取りをしたい
K. Matsui (RIKEN AIP) Transfer Learning Survey Topics in Transfer Learning 91 / 180
(Conditional) Neural Processes ii
x1 y1
x2 y2
x3 y3
MLPθ
MLPθ
MLPθ
MLPΨ
MLPΨ
MLPΨ
r1
r2
r3
s1
s2
s3
rCm
m sC
x
rC
~
MLP y
ENCODER DECODER
Deterministic
Path
Latent
Path
NEURAL PROCESS
m Mean
z
z
*
* x1 y1
x2 y2
x3 y3
MLP
MLP
MLP
MLP
MLP
MLP
r1
r2
r3
s1
s2
s3
m sC
x
~
MLP y
ENCODER DECODER
Deterministic
Path
Latent
Path
Self-
attnϕ
Self-
attnω
Cross-
attention
x1 x2 x3 x
r
r
ATTENTIVE NEURAL PROCESS
m Mean
Keys Query
Values
z
z
*
*
*
*
*
Fig : [Kim+ (2019)]
• ネットワーク構造は VAE に近い (左図)
encode→reparametrization→decode
• GP のような入力間の類似度を評価するためのオプション
e.g. attention mechanism [Kim+ (2019)] (右図)
K. Matsui (RIKEN AIP) Transfer Learning Survey Topics in Transfer Learning 92 / 180
(Conditional) Neural Processes iii
メタ学習への応用 [Galashov+ (2019)]
Bayesian optimization from meta-learning viewpoint
GP などの事前分布からターゲット関数の類似物をサンプリン
グ可能 → 事前分布として Neural process を使用
Algorithm 1 Bayesian Optimisation
Input:
f∗
- Target function of interest (= T ∗
).
D0 = {(x0, y0)} - Observed evaluations of f∗
.
N - Maximum number of function iterations.
Mθ - Model pre-trained on evaluations of similar
functions f1, . . . fn ∼ p(T ).
for n=1, ... , N do
// Model-adaptation
Optimise θ to improve M’s prediction on Dn−1.
Thompson sampling: Draw ˆgn ∼ M, find
xn = arg minx∈X E ˆg(y|x)
Evaluate target function and save result.
Dn ← Dn−1 ∪ {(xn, f∗
(xn))}
end for
K. Matsui (RIKEN AIP) Transfer Learning Survey Topics in Transfer Learning 93 / 180
(Conditional) Neural Processes iv
メタ学習への応用 [Galashov+ (2019)]
モデル M のサンプリングに neural process を用いる理由
1. statistical efficiency
少ない context point 数で正確に関数値評価が可能
2. calibrated uncertainties
探索と活用のバランス (モデルの不確実性評価)
3. 推論時の計算量が O(n + m) (サンプルサイズの線形オーダ
ー, オリジナルの NP の場合)
4. non-parametric modeling
→ MAML のような推論時の学習率 · 更新頻度などのハイパ
ラ設定が不要
K. Matsui (RIKEN AIP) Transfer Learning Survey Topics in Transfer Learning 94 / 180
(Conditional) Neural Processes v
メタ学習への応用 [Galashov+ (2019)]
Adversarial task search for RL agents [Ruderman+ 2018]
Task (p∗
s, p∗
g) = argminps,pg
fA(M, ps, pg)
(M∗
, p∗
s, p∗
g) = argminM,ps,pg
fA(M, ps, pg)
3
1. Position search:
2. Full maze search:
• 
• 
• 
• 
fA
M
ps, pg
K. Matsui (RIKEN AIP) Transfer Learning Survey Topics in Transfer Learning 95 / 180
能動学習のための転移学習 i
Regret Bounds for Transfer Learning in Bayesian
Optimisation [Shilton+ (2017)]
• 材料科学などの “実験” を伴う分野はデータ数が少ないこ
とに加えてデータ取得コストが非常に大きい
→ 実験計画 (能動学習) でデータの取得方針を最適化
• 一方, “実験” の大きな特徴として設定の異なる実験群を通
じて対象に関する知識が蓄積される
→ “よく似た実験”のデータが活用できる可能性がある
目的:
ベイズ最適化に対して転移学習で別リソースからの知識を活
用する
K. Matsui (RIKEN AIP) Transfer Learning Survey Topics in Transfer Learning 96 / 180
能動学習のための転移学習 ii
アプローチ
f’
f
σS
Env-GP
f’
f
∆f
f’+∆f
Diff-GP
• Env-GP : 元ドメインのデータを目標ドメインのデータと思
って使う (観測ノイズを十分大きく取ると, 目標ドメインの
関数からのサンプルとみなせる)
• Diff-GP : 元ドメインの目的関数と目標ドメインの目的関数
のギャップを直接ガウス過程でモデリング
K. Matsui (RIKEN AIP) Transfer Learning Survey Topics in Transfer Learning 97 / 180
能動学習のための転移学習 iii
応用: 適応的マッピング [穂積 + (2019)]
K. Matsui (RIKEN AIP) Transfer Learning Survey Topics in Transfer Learning 98 / 180
BERT [Devlin+ (2018)]
Bidirectional Encoder Representations from Transformers
• NLP における言語モデルの pre-training
• BooksCorpus (800M words) + Eng. Wikipedia (2500M words) をコーパス
として使用
• fine-tuning によって様々なタスクで高い性能を発揮
K. Matsui (RIKEN AIP) Transfer Learning Survey Topics in Transfer Learning 99 / 180
Rethinking ImageNet Pre-training [He+ 2018]
pre-training  fine-tuning は本当に必要?
• COCO dataset の学習で
• ランダム初期化から学習したモデル
• ImageNet で事前学習したモデル
を比較したところ, comparable な結果を得た
K. Matsui (RIKEN AIP) Transfer Learning Survey Topics in Transfer Learning 100 / 180
Taskonomy: Disentangling Task Transfer Learning [Zamir+ 2018]
taskonomy (task taxonomy)
• 26 種類の画像関連タスクを総当
たりして相性の良い元ドメイン ·
目標ドメインの組を見つける
• タスク間の関係 (転移可能性) を
有効ハイパーグラフ (taskonomy,
左図) として可視化
• 400 万枚の画像に対して全ての
タスクに対応するアノテーショ
ンをつけたデータセットを作成
し実施
K. Matsui (RIKEN AIP) Transfer Learning Survey Topics in Transfer Learning 101 / 180
Theory of Transfer Learning
(Instance Transfer)
定式化
• 教師なし転移 · インスタンス転移の状況を想定
• 目標ドメインでの期待リスク最小化がしたい:
RT(h) = E(X,Y)∼PT(X,Y)[ℓ(h(X), Y)] → min
• 目標ドメインにラベル情報がないため, 元ドメインのラベ
ル付きデータを活用する
• 主に 2 通りのアプローチ
1. 確率密度比に基づく評価
2. 確率分布の不一致度 (discrepancy) に基づく評価
K. Matsui (RIKEN AIP) Transfer Learning Survey Theory of Transfer Learning (Instance Transfer) 102 / 180
確率密度比に基づく方法: 重要度重み付き学習 i
転移仮定
• 共変量シフト: PT(Y | X) = PS(Y | X)
• 絶対連続性: PT(X) ≪ PS(X)
このとき, 目標ドメインの期待リスクは元ドメインの重み付き期待リスクと
して書ける:
RT(h) = E(X,Y)∼PT(X,Y)[ℓ(h(X), Y)]
=
∫ ∫
(x,y)
ℓ(h(x), y)PT(x, y)d(x, y)
=
∫ ∫
(x,y)
ℓ(h(x), y) PT(y | x)
=PS(y|x)
PT(x)
PS(x)
PS(x)
d(x, y)
=
∫ ∫
(x,y)
ℓ(h(x), y) PS(y | x)PS(x)
=PS(x,y)
PT(x)
PS(x)
d(x, y)
=
∫ ∫
(x,y)
ℓ(h(x), y)PS(x, y)
PT(x)
PS(x)
d(x, y) = E(X,Y)∼PS(X,Y)
[
PT(X)
PS(X)
ℓ(h(X), Y)
]
K. Matsui (RIKEN AIP) Transfer Learning Survey Theory of Transfer Learning (Instance Transfer) 103 / 180
確率密度比に基づく方法: 重要度重み付き学習 ii
r(X) = PT(X)
PS(X) とおく
RT(h) = E(X,Y)∼PS(X,Y) [r(X)ℓ(h(X), Y)]
≈
1
NS
NS∑
i=1
ˆr(xi)ℓ(h(xi), yi)
結局, RT(h) を最小にする仮説 h は以下の 2 ステップのアルゴリ
ズムで推定できる (重要度重み付き学習 [Sugiyama+ (2012)])
Step 1 密度比関数 r(x) を元ドメインと目標ドメインのラ
ベル無しデータから推定
Step 2 ˆr(x) で重み付けをした元ドメインのラベル付きデ
ータで仮説 h を学習
K. Matsui (RIKEN AIP) Transfer Learning Survey Theory of Transfer Learning (Instance Transfer) 104 / 180
確率密度比に基づく方法: 重要度重み付き学習 iii
• 重要度重み付き学習は目標ドメインに近い元ドメインのイ
ンスタンスに大きな重みを与えて仮説を学習
• 密度比関数は, 両ドメインのラベル無しデータから一致推
定量が構成可能 [Kanamori+ (2012)]
• RT の大きさは, 重要度重み付き経験誤差の大きさと, 重要
度重みの推定誤差の大きさに依存
K. Matsui (RIKEN AIP) Transfer Learning Survey Theory of Transfer Learning (Instance Transfer) 105 / 180
拡張: 変数選択 + 重要度重み付き学習 i [M+ (2019)]
• カーネル密度比推定は常に全変数が要求される
→ 問題によってはデータ取得コストがネックになる
• 予め密度比に寄与する変数を選択し, それのみを使いたい
方法 : adaptive scaling + L1 正則化付き ERM
min
ξ∈[0,1]d
L(fξ) + η∥ξ∥1, ˆfξ(z) = ˆf(ξ ◦ z)
• ˆf は f の一致推定量 (カーネル密度比推定などで推定)
• 発想は adaptive lasso に近い
• ˆf の推定時に power series kernel を使えば ˆf と ˆfξ は同一の
RKHS の元になる
• 適当な条件の下で変数選択の一致性を保証
K. Matsui (RIKEN AIP) Transfer Learning Survey Theory of Transfer Learning (Instance Transfer) 106 / 180
拡張: 変数選択 + 重要度重み付き学習 ii [M+ (2019)]
実験: 共変量シフトの下での判別問題
Table 5: Comparison of classification accuracy
kernel NNG Lasso SFS adapt full no adapt
pcas 0.830 (13/17) 0.830 (17/17) 0.830 (12/17) 0.830 0.773
ckd 0.981 (8/17) 0.981 (17/17) 0.981 (16/17) 0.981 0.943
ccancer 0.884 (4/27) 0.879 (19/27) 0.879 (22/27) 0.879 0.884
cnuclear 0.634 (60/71) 0.599 (62/71) 0.603 (37/71) 0.619 0.587
• 正判別率と変数選択の割合を比較 (提案法, Lasso, 前向き漸
次的選択, 変数選択なし, 補正なし)
K. Matsui (RIKEN AIP) Transfer Learning Survey Theory of Transfer Learning (Instance Transfer) 107 / 180
拡張: 変数選択 + 重要度重み付き学習 iii [M+ (2019)]
全変数で推定した密度比 vs 変数選択後の密度比
提案法は判別精度を落とさず密度比推定の精度も保つ
K. Matsui (RIKEN AIP) Transfer Learning Survey Theory of Transfer Learning (Instance Transfer) 108 / 180
確率分布の不一致度に基づく方法
fT, fS をそれぞれ目標ドメイン, 元ドメインの真のラベル関数と
する
目標リスクの典型的な上界の表現
RT(h, fT) ≤ RS(h, fS) + Disc(PT, PS) + Diff(fT, fS)
• Disc : 元ドメインと目標ドメインの周辺分布の不一致度
• Diff : 元ドメインと目標ドメインのラベル関数の違い
• 教師なし転移学習の場合, Diff を小さくする操作ができな
い (目標ドメインのラベルがないため)
• Disc をいかに小さく抑えられるかが RT を小さくするのに
本質的に重要
K. Matsui (RIKEN AIP) Transfer Learning Survey Theory of Transfer Learning (Instance Transfer) 109 / 180
確率分布の不一致度に基づく方法 i : H∆H-divergence
• 2 値判別問題
• H∆H-divergence でドメインの不一致度を評価:
dH∆H(DS, DT) = 2 sup
h,h′
|PS(h(x) ̸= h′
(x)) − PT(h(x) ̸= h′
(x))|
Theorem 2 (Ben-David+ (2010))
H を VC 次元 d の仮説空間とする. このとき任意の δ に対して
確率 1 − δ 以上で以下が成立
RPT
(h, fT) ≤ RPS
(h, fS) +
1
2
dH∆H(DS, DT)
Disc
+4
√
2d log 2NT + log 2
δ
NT
+ min
h∈H
RPT
(h, fT) + RPS
(h, fS)
Diff
K. Matsui (RIKEN AIP) Transfer Learning Survey Theory of Transfer Learning (Instance Transfer) 110 / 180
確率分布の不一致度に基づく方法 ii : Wasserstein distance
準備: 最適輸送問題
• (Ω, d) : 距離空間
• P(Ω) : Ω 上の確率測度
2 つの確率測度 PS, PT ∈ P(Ω) に対して, 一方から他方への輸送
コスト最小化問題を考える (Monge-Kantorovich 問題)
arg min
γ
∫
Ω1×Ω2
d(x, x′
)dγ(x, y)
s.t. PΩ1
#γ = PT, PΩ2
#γ = PS
• γ : PT と PS のカップリング測度
• d : Ω × Ω → R+ : Ω 上の距離 (輸送コスト)
• PΩi #γ : γ の射影 PΩi による押し出し
K. Matsui (RIKEN AIP) Transfer Learning Survey Theory of Transfer Learning (Instance Transfer) 111 / 180
確率分布の不一致度に基づく方法 ii : Wasserstein distance
Definition 3 (Wasserstein 距離)
W1(PT, PS) := inf
γ∈
∏
(PT,PS)
∫
Ω×Ω
d(x, x′
)dγ(x, x′
)
∏
(PT, PS) : PT, PS のカップリング測度の族
Theorem 3 (Kantrovich-Rubinstein 双対)
W1(PT, PS) = sup
f:1−Lipschitz
EPT
[f(x)] − EPS
[f(x)]
特に, f が K-Lipschitz ならば EPT
[f(x)] ≤ EPS
[f(x)] + KW1(PT, PS)
が成立
→ RT(h) ≤ RS(h) + Wasserstein 距離
K. Matsui (RIKEN AIP) Transfer Learning Survey Theory of Transfer Learning (Instance Transfer) 112 / 180
確率分布の不一致度に基づく方法 ii : Wasserstein distance
• 2 値判別
• 絶対値損失 ℓ(h(x) − y) = |h(x) − y|
転移仮定
• 共変量シフト: PT(Y | X) = PS(Y | X)
Theorem 4 (Shen+ (2018))
h ∈ H : K-Lipschitz w.r.t. d に対して以下が成立:
RT(h) ≤ RS(h) + 2KW1(PT, PS) + min
h′
(RT(h′
) + PS(h′
))
K. Matsui (RIKEN AIP) Transfer Learning Survey Theory of Transfer Learning (Instance Transfer) 113 / 180
既存の理論解析のまとめ
■ 密度比に基づいた方法
(✓) 理論評価がタイト
(✓) 効率的なアルゴリズムがある
(×) 共変量シフトの仮定がないと理論解析できない
(×) 絶対連続性の仮定は応用ではしばしばみたされない
→ 仮定をみたすドメインを人手で選別する必要がある
■ 不一致度に基づいた方法
(✓) 絶対連続性の仮定がいらない
(×) 共変量シフトの仮定がないと理論解析できない
(×) 理論評価がタイトでない (PS = PT のとき上界と下界が一
致しない)
K. Matsui (RIKEN AIP) Transfer Learning Survey Theory of Transfer Learning (Instance Transfer) 114 / 180
Impossibility Theorems for Domain
Adaptation
再掲: 教師なし DA の汎化誤差バウンド
目標リスクの典型的な上界の表現
RT(h, fT) ≤ RS(h, fS) + Disc(PT, PS) + Diff(fT, fS)
• Disc : 元ドメインと目標ドメインの周辺分布の不一致度
• Diff : 元ドメインと目標ドメインのラベル関数の違い
例 (Ben-David+ (2010))
H を VC 次元 d の仮説空間とする. このとき任意の δ に対して
確率 1 − δ 以上で以下が成立
RPT
(h, fT) ≤ RPS
(h, fS) +
1
2
dH∆H(DS, DT)
Disc
+4
√
2d log 2NT + log 2
δ
NT
+ min
h∈H
RPT
(h, fT) + RPS
(h, fS)
Diff
K. Matsui (RIKEN AIP) Transfer Learning Survey Impossibility Theorems for Domain Adaptation 115 / 180
教師なしドメイン適応の必要条件
教師なし DA が成功するために必要な仮定は何か?
Most Common Assumptions :
• 共変量シフト
PT(Y | X) = PS(Y | X)
• 元ドメインと目標ドメインの入力の周辺分布の
discrepancy が小さいこと
Disc(PXT
, PXS
) : small
• 両方のドメインで誤差が小さくなるような共通の仮説が存
在すること
λH = (Diff(fT, fS) =) minh∈H RS(h) + RT(h) : small
これら 3 条件が理論的にも必要条件になっていることを示す
→ impossibility theorems
K. Matsui (RIKEN AIP) Transfer Learning Survey Impossibility Theorems for Domain Adaptation 116 / 180
準備 i Domain Adaptation Learner
Definition 4 (Domain Adaptation Learner)
A :
∞∪
m=1
∞∪
n=1
(X × {0, 1})m
× Xn
→ {0, 1}X
• “元ドメインのラベルありデータと目標ドメインのラベル
なしデータから仮説を学習する” という写像
K. Matsui (RIKEN AIP) Transfer Learning Survey Impossibility Theorems for Domain Adaptation 117 / 180
準備 ii Learnability
Definition 5 (Learnability)
A (ε, δ, m, n)-learns PT from PS relative to H
:⇐⇒ Pr
S∼i.i.d(PS)m
Tu∼i.i.d(PXT )
n
[RT (A (S, Tu)) ≤ RT(H) + ε] ≥ 1 − δ
• RT(H) = infh∈H RT(h)
• S : 元ドメインのサイズ m のラベルありデータ
• Tu : 目標ドメインのサイズ n のラベルなしデータ
データの出方の確率分布に対して,
A が学習した仮説の期待リスク
≤ H で達成可能な最小の期待リスク + ε
が 1 − δ 以上の確率で成り立つこと
K. Matsui (RIKEN AIP) Transfer Learning Survey Impossibility Theorems for Domain Adaptation 118 / 180
Necessity Theorem i
Theorem 5 (H∆H が小さいことの必要性 (Ben-David+ (2010)))
ある B ⊂ A に対して, 集合 {h−1
(1) ∩ B | h ∈ H} は 2 つ以上の部分集
合を持ち, かつそれらは集合の包含関係で全順序付けられていると
する.
このとき, 任意の ε  0 に対して, ある元ドメイン上の同時分布 P0
S
と目標ドメイン上の同時分布 P0
T が存在して, 以下を満たす:
任意の domain adaptation learner A と任意の整数 m, n  0 に対し
て, あるラベル関数 f : X → {0, 1} が存在して
1. λH  ε
2. P0
S と P0
T は共変量シフト条件を満たす
3. 期待リスクが確率 1
2 以上で大きい:
Pr
S∼i.i.d(P0
S)m
Tu∼i.i.d(P0
XT
)
n
[
RTf
(A(S, Tu)) ≥
1
2
]
≥
1
2
K. Matsui (RIKEN AIP) Transfer Learning Survey Impossibility Theorems for Domain Adaptation 119 / 180
Necessity Theorem ii
Theorem 6 (λH が小さいことの必要性 (Ben-David+ (2010)))
H を X 上の仮説集合で, VCdim(H)  |X| とする.
このとき, 任意の ε  0 に対して, ある元ドメイン上の同時分布 P0
S
と目標ドメイン上の同時分布 P0
T が存在して, 以下を満たす:
任意の domain adaptation learner A と任意の整数 m, n  0 に対し
て, あるラベル関数 f : X → {0, 1} が存在して
1. dH∆H(P0
XT
, P0
XS
)  ε
2. P0
S と P0
T は共変量シフト条件を満たす
3. 期待リスクが確率 1
2 以上で大きい:
Pr
S∼i.i.d(P0
S)m
Tu∼i.i.d(P0
XT
)
n
[
RTf
(A(S, Tu)) ≥
1
2
]
≥
1
2
K. Matsui (RIKEN AIP) Transfer Learning Survey Impossibility Theorems for Domain Adaptation 120 / 180
Necessity Theorem iii
定理の解釈
共変量シフトの仮定があっても,
• 周辺分布の間の discrepancy が小さいこと
• ideal hypothesis が存在すること
のいずれかが欠ければ, 高い確率で期待リスクが大きくなって
しまう
K. Matsui (RIKEN AIP) Transfer Learning Survey Impossibility Theorems for Domain Adaptation 121 / 180
Example [Ben-Davis+ (2010)]
PS
PT
y = 1
y = 0
0
ξ
2ξ
3ξ
4ξ
5ξ
6ξ
7ξ
8ξ
9ξ
10ξ
11ξ
• PS : {(2kξ, 1) | k ∈ N} 上の一様分布 (元ドメイン)
• PT : {((2k + 1)ξ, 0) | k ∈ N} 上の一様分布 (目標ドメイン)
• ξ ∈ (0, 1) は 2kξ, 2(k + 1)ξ ≤ 1 なる小さい数 (Fig : ξ = 2
23 )
• H =
{
ht(x) =
{
1 x  t
0 otherwise
t ∈ [0, 1]
}
このとき, RT(H) = RS(H) = 0 で, 以下が成立:
1. PS, PT は共変量シフトを満たす
2. dH∆H(PT, PS) = ξ (discrepancy は小さい)
3. λH = 1 − ξ よって RT(h∗
S) ≥ 1 − ξ (目標リスクは大きい)
K. Matsui (RIKEN AIP) Transfer Learning Survey Impossibility Theorems for Domain Adaptation 122 / 180
Hardness Results i 準備 1
Definition 6 (DA learnability をちょっと modify)
• W = {(PXS
, PXT
, f)} :
元ドメイン, 目標ドメインの周辺分布とラベル関数の三組
• A : domain adaptation learner
• S = {(xs
i , f(xs
i ))}, xs
i ∼i.i.d PXS
(元ドメインデータ)
• Tu = {xt
i}, xt
i ∼i.i.d PXT
(目標ドメインデータ)
A (ε, δ, m, n)-solves domain adaptation for class W
:⇐⇒ Pr [RT (A (S, Tu)) ≤ ε] ≥ 1 − δ, ∀(PXS
, PXT
, f) ∈ W
class W のどんな教師なし DA の設定が来ても, A は高い確率で
目標リスクが小さい仮説を学習できる
K. Matsui (RIKEN AIP) Transfer Learning Survey Impossibility Theorems for Domain Adaptation 123 / 180
Hardness Results ii 準備 2
Definition 7 (capacity of H to produce a zero-error classifier
with margin γ)
• X ⊂ Rd
• DX : X 上の分布
• h : X → {0, 1} : 判別器
• Bγ(x) : 中心 x ∈ X, 半径 γ の ball
h が DX に関して γ-margin の判別器
:⇐⇒ DX (Bγ(x))  0, h(y) = h(z), ∀x ∈ X, ∀y, z ∈ Bγ(x)
同値な言い換え (h は DX の台上でリプシッツ):
|h(y) − h(z)| ≤
1
2γ
∥y − z∥, y, z ∈ supp(DX )
K. Matsui (RIKEN AIP) Transfer Learning Survey Impossibility Theorems for Domain Adaptation 124 / 180
Hardness Results iii
Theorem 7 ((Ben-DavidUrner (2012)))
任意の有限集合 X と ε + δ  1
2 を満たす任意の ε, δ  0 に対
して以下を仮定:
m + n 
√
(1 − 2(ε + δ))|X|.
このとき,
• dH∆H(PXT
, PXS
) = 0
• min
h∈H
RT(h, f) = 0 (h ≡ 1, h ≡ 0 ∈ H)
• CB(PXS
, PXT
) := inf
B∈B,PXT
(B)̸=0
PXS
(B)
PXT
(B)
≥
1
2
, B ⊂ 2X
であるような教師なし DA のクラス W に対して, (PS, PT, f) ∈ W
を (ε, δ, m, n)-solve するような DA learner A は存在しない
K. Matsui (RIKEN AIP) Transfer Learning Survey Impossibility Theorems for Domain Adaptation 125 / 180
Hardness Results iv 定理に関する Remark
仮定の解釈 (DA をするのに有利な設定)
• Theorem 7では, 目標タスクに対して, “目標ドメインのラベ
ルありデータが 1 点でもあれば誤差ゼロの仮説が学習可
能” という強い仮定
• また, 元ドメインと目標ドメインは discrepancy 及び密度
比どちらで図っても “似ている” ようなクラス
Hardness の回避 [Ben-DavidUrner (2012)]
Theorem 7で
• X = [0, 1]d
• ラベル関数 f : λ-リプシッツ
のとき, m + n ≥
√
(1 − 2(ε + δ))(1 − λ)d が成り立てば
hardness result の例外となる
K. Matsui (RIKEN AIP) Transfer Learning Survey Impossibility Theorems for Domain Adaptation 126 / 180
Usefulness of Unlabeled Data
目標ドメインのラベルなしデータは DA においてどの程度役に
たっているのか?
Theorem 8 ((Ben-DavidUrner (2012)))
X = [0, 1]d
, VCdim(H)  +∞ とし, DA のクラス W を以下で定める:
W =
{
(PS, PT, f) RT(H) = 0, CB(PXS
, PXT
) ≥ 0
}
.
このとき, ∃c  1, ∀ε  0, δ  0, (PS, PT, f) ∈ W, 元ドメインと目標ド
メインのサンプルサイズをそれぞれ
m ≥ c
[
VCdim(H) + log 1
δ
CB(PXS
, PXT
)(1 − ε)ε
log
(
VCdim(H)
CB(PXS
, PXT
)(1 − ε)ε
)]
n ≥
1
ε
(
2|X| log 3|X|
δ
)
ととると, Pr[RT(A(S, Tu)) ≤ ε] ≥ 1 − δ が成立つ A が存在する
K. Matsui (RIKEN AIP) Transfer Learning Survey Impossibility Theorems for Domain Adaptation 127 / 180
Theory of Transfer Learning
(Parameter Transfer)
定式化
Learning bound for parameter transfer learning
[Kumagai (2016)]
■ 目標ドメインの設定
• パラメトリック特徴写像が存在
ψθ : XT → Rm, θ ∈ Θ, Θ ⊂ ノルム空間 with ∥ · ∥
• 仮説 hT ,θ,w(x) := ⟨w, ψθ(x)⟩
• 仮説集合 HT = {⟨w, ψθ(x)⟩ | (θ, w) ∈ Θ × WT }
■ 元ドメインの設定
• 生成分布または仮説集合がパラメトリック:
• 生成分布の場合 PS = {PS,θ,w | (θ, w) ∈ Θ × WS}
• 仮説集合の場合 HS = {hS,θ,w | (θ, w) ∈ Θ × WS}
• 部分パラメータ空間 Θ が目標ドメインと共有されている
• 有効なパラメータ (θ∗
S, w∗
S) が存在
K. Matsui (RIKEN AIP) Transfer Learning Survey Theory of Transfer Learning (Parameter Transfer) 128 / 180
パラメータ転移学習のアルゴリズム
元ドメインの有効パラメータ θ∗
S を用いたときの目標ドメイン
の最適パラメータ:
w∗
T = arg min
w∈WT
RT (θ∗
S, w)
target risk
パラメータ転移アルゴリズム
Step 1: θ∗
S の推定量 ˆθN を元ドメインで学習
(N はサンプルサイズ)
Step 2: ˆθN を目標ドメインへ転移し以下の ERM を解く
ˆwN,n = arg min
w∈WT
1
n
n∑
j=1
ℓ(yj, ⟨w, ψˆθN
(xj)⟩) + ρr(w)
K. Matsui (RIKEN AIP) Transfer Learning Survey Theory of Transfer Learning (Parameter Transfer) 129 / 180
パラメータ転移学習の汎化誤差上界 i
Definition 8 (局所安定性)
ψθ が局所安定
:⇔ ∃εθ : XT → R0, ∃Lψ  0 s.t.
∥θ − θ′
∥ ≤ εθ(x) ⇒ ∥ψθ(x) − ψθ′ (x)∥2 ≤ Lψ∥θ − θ′
∥
θ に関する局所リプシッツ性に相当.
εθ(x) を permissible radius of perturbation (PRP) と呼ぶ.
Definition 9 (転移学習可能性)
ψθ が, 推定量 ˆθN に関して確率 1 − δN,n でパラメータ転移学
習可能
:⇔ Pr(∥ˆθN − θ∗
S∥ ≤ εθ∗
S
(x1:n)) ≥ 1 − δN,n
ここで, x1:n = {x1, ..., xn} に対して εθ(x1:n)) = minj=1,...,n εθ(xj)
K. Matsui (RIKEN AIP) Transfer Learning Survey Theory of Transfer Learning (Parameter Transfer) 130 / 180
パラメータ転移学習の汎化誤差上界 ii
仮定
• パラメトリック特徴写像 ψθ は局所安定かつ有界
• 推定量 ˆθN は確率 1 − δN,n でパラメータ転移学習可能
• 損失関数 ℓ は L-リプシッツ, 凸, 有界
• 正則化項 r は 1-強凸, r(0) = 0
Theorem 9 (汎化誤差上界 [Kumagai (2016)])
RT (ˆθN, ˆwN,n) − RT (θ∗
S, w∗
T )
≤
C
√
n
+ C′ ˆθN − θ∗
S + C′′
n1/4
√
ˆθN − θ∗
S
with probability 1 − (δ + 2δN,n). C, C′, C′′ は正定数.
K. Matsui (RIKEN AIP) Transfer Learning Survey Theory of Transfer Learning (Parameter Transfer) 131 / 180
パラメータ転移学習の汎化誤差上界 iii
定理の解釈
RT (ˆθN, ˆwN,n) − RT (θ∗
S, w∗
T )
≤ c



ˆθN − θ∗
S
√
ρ
+
1
√
nρ
+
θN − θ∗
S
1/2
ρ3/4
+
1
nρ
+ ρ



特に
• 正則化パラメータを ρ = max{n−1/3, ∥ˆθN − θ∗
S∥2/7} とおき,
• ∥ˆθN − θ∗
S∥ ≈ 1
N が成り立つとき,
RT (ˆθN, ˆwN,n) − RT (θ∗
S, w∗
T ) ≤ c max{n−1/3
, N−1/7
}
が成立
→ 元ドメインのサンプルサイズを N ≥ n7/3 程度取れば汎化誤
差は小さい
K. Matsui (RIKEN AIP) Transfer Learning Survey Theory of Transfer Learning (Parameter Transfer) 132 / 180
自己教示学習への応用
Dictionary Learning  Sparse Coding
入力のスパース表現を学習するための辞書を元ドメインで教
師なし学習し, 目標ドメインへ転移
Dictionary Learning
min
D,z1,...,zn
n∑
i=1
1
2
∥xi − Dzi∥2
+ λ∥zi∥1
Sparse Coding
ϕD(x) := arg max
z∈Rm
1
2
∥x − Dz∥2
+ λ∥z∥1
• D = [d1, ..., dm] ∈ Rd×m, ∥dj∥ = 1 : 辞書
• z : x のスパース表現
K. Matsui (RIKEN AIP) Transfer Learning Survey Theory of Transfer Learning (Parameter Transfer) 133 / 180
Sparse Coding の局所安定性 i
Definition 10 (k-margin)
辞書 D の x における k-margin
Mk(D, x) := max
I⊂[m],|I|=m−k
min
j∈I
{
λ −
⟨
dj, x − DφD(x)
⟩ }
Definition 11 (µ-incoherence)
辞書 D が µ-incoherent ⇔
⟨
di, dj
⟩
≤ µ/
√
d (i ̸= j)
K. Matsui (RIKEN AIP) Transfer Learning Survey Theory of Transfer Learning (Parameter Transfer) 134 / 180
Sparse Coding の局所安定性 ii
∥D∥1,2 := maxi∈[m] ∥di∥
Theorem 10 (Sparse Coding Stability)
辞書 D, ˜D が, ∥D − ˜D∥1,2 ≤ λ かつ D は µ-incoherent で以下を
満たすと仮定
∥D − ˜D∥1,2 ≤
Mk,D(x)2λ
64 max{1, ∥x∥}4
=:ϵk,D(x) : PRP
このとき, 以下が成立
φD(x) − φ˜D(x) 2
≤
4∥x∥2
√
k
(1 − µk/
√
d)λ
∥D − ˜D∥1,2
K. Matsui (RIKEN AIP) Transfer Learning Survey Theory of Transfer Learning (Parameter Transfer) 135 / 180
Dictionary Learning の転移学習可能性 i
スパースモデルに対する仮定
1. (Model) ある辞書 D∗
が存在して, 全ての x はスパース表現
z とノイズ ξ によって以下の形で独立に生成される
x = D∗
z + ξ
2. (Dictionary) 辞書 D は µ-incoherent
3. (Representation) k-sparse (i.e. ∥z∥0 ≤ k) かつ定数 C が存
在して, zi ̸= 0 な i に対して |zi| ≥ C
4. (Noise) ξ = (ξ1, ..., ξd) は各成分 ξi が独立な
σ√
d
-sub-Gaussian i.e. ∀t ∈ R, E[exp(tξi)] ≤ exp(
(σ/
√
d)2ξ2
i
2 )
K. Matsui (RIKEN AIP) Transfer Learning Survey Theory of Transfer Learning (Parameter Transfer) 136 / 180
Dictionary Learning の転移学習可能性 ii
Theorem 11 (Margin bound)
0  t  1 とし, δt,λ を以下で定義
δt,λ :=
2σ
(1 − t)
√
dλ
exp
(
−
(1 − t)2
dλ2
8σ2
)
+
2σm
√
dλ
exp
(
−
dλ2
8σ2
)
+
4σk
C
√
d(1 − µk/
√
d)
exp
(
−
C2
d(1 − µk/
√
d)
8σ2
)
+
8σ(d − k)
√
dλ
exp
(
−
dλ2
32σ2
)
このとき, d ≥
{(
1 + 6
(1−t)
)
µk
}2
かつ λ = d−τ (1/4 ≤ τ ≤ 1/2)
⇒ Pr[Mk,D∗(x) ≥ tλ] ≥ 1 − δt,λ
が成立.
⇒ ϵk,D(x) :=
Mk,D(x)2λ
64 max{1,∥x∥}4 ≥ t2λ3
64 max{1,∥x∥}4 = Θ
(
d−3τ
)
w.p. 1 − δt,λ
(1/4 ≤ τ ≤ 1/2)
K. Matsui (RIKEN AIP) Transfer Learning Survey Theory of Transfer Learning (Parameter Transfer) 137 / 180
Dictionary Learning の転移学習可能性 iii
ある Dictionary Learning algorithm が存在して
Pr
[
∥ˆDN − D∗
∥1,2 ≤ O(d−3τ
)
]
≥ 1 − δN
が成り立つとき, ¯δ = δN + nδt,λ ととれば, dictionary learning の
転移学習可能性が成り立つ:
Pr
[
∥ˆDN − D∗
∥1,2 ≤ εk,D∗
(x1:n)
]
≥ 1 − ¯δ
Remark 1
上記の仮定を満たすような DL algorithm は存在 [Arora+ (JMLR
2015)]
以上より, dictionary learning に対しても汎化誤差上界が保証
される
K. Matsui (RIKEN AIP) Transfer Learning Survey Theory of Transfer Learning (Parameter Transfer) 138 / 180
Immunity : An Optimality of Domain
Adaptation
Optimal Domain Adaptation [Scott (2019)] i
2 値判別における domain adaptation
これまでの domain adaptation
評価指標として損失関数 (特に 0-1 損失) の期待値で表される
ものに依存
→ これが DA を難しくしている要因では?
e.g. 教師なし DA では, 0-1 損失の下ではラベルノイズに対し
て強い仮定 (共変量シフトなど) が必要
Question
(共変量シフトのような) feature dependent label noise
(FDLN) の下で, より簡易かつ有効な転移学習が可能か?
K. Matsui (RIKEN AIP) Transfer Learning Survey Immunity : An Optimality of Domain Adaptation 139 / 180
Optimal Domain Adaptation [Scott (2019)] ii
Contribution
• controlled discovery rate (CDR) を評価指標とした場合,
• covariate-shift with posterior-drift (CSPD) というラベルノ
イズの下で
元ドメインの最適なモデル = 目標ドメインの最適なモデル
を証明 (immunity)
→ 特別な adaptation をすることなく元ドメインで学習した
モデルを目標ドメインで使うことが可能
特に以下の 2 つの設定を考察
• inductive setting : 学習者が元ドメインの同時分布にのみ
アクセスできる
• semi-supervised setting : 教師なし DA と同じ
K. Matsui (RIKEN AIP) Transfer Learning Survey Immunity : An Optimality of Domain Adaptation 140 / 180
Covariate-Shift with Posterior-Drift i
Definition 12 (Covariate Shift)
PrP(Y = 1 | X = x)
ηP
= PrQ(Y = 1 | X = x)
ηQ
→ ラベル分布が元ドメインと目標ドメインで共通 (入力の周
辺分布は違っていても良い)
Definition 13 (Posterior Drift)
• PX = QX (入力の周辺分布が共通) かつ
• ∃ϕ : 狭義単調増加関数 s.t. ηP(x) = ϕ(ηQ(x)), ∀x ∈ X
→ 入力分布はドメイン間で共通, ラベル分布は up to 単調変
換で一致
K. Matsui (RIKEN AIP) Transfer Learning Survey Immunity : An Optimality of Domain Adaptation 141 / 180
Covariate-Shift with Posterior-Drift ii
Definition 14 (Covariate-Shift with Posterior-Drift)
∃ϕ : 狭義単調増加関数 s.t. ηP(x) = ϕ(ηQ(x)), ∀x ∈ X
→ ラベル分布は up to 単調変換で一致
• Posterior drift から周辺分布が共通という条件を外したも
の
• 教師なし DA において, ドメイン間の類似度のモデリング
として “仮定なし”と “共変量シフト”の中間を埋めるよう
な設定
K. Matsui (RIKEN AIP) Transfer Learning Survey Immunity : An Optimality of Domain Adaptation 142 / 180
Immunity i
Notation
• OPTD(Q) : inductive setting において, 評価指標 D の下で
最適な判別モデル
• OPTD(ηQ, QX) : semi-supervised setting において, 評価指
標 D の下で最適な判別モデル
Definition 15 (Immunity)
評価指標 D が immune であるとは,
1. (for inductive setting)
OPTD(Q) = OPTD(P)
2. (for semi-supervised setting)
OPTD(ηQ, QX) = OPTD(ηP, QX)
K. Matsui (RIKEN AIP) Transfer Learning Survey Immunity : An Optimality of Domain Adaptation 143 / 180
Immunity ii
直感的な解釈: 一般に,
ある評価指標 D がある DA 問題のクラスに対して immune
:⇐⇒ D の下で最適な判別モデルが元ドメインと目標ドメイン
で共通
practical には, immunity とは P ̸= Q であることを忘れて学習
を行ってしまっても(評価指標 D の下では)OK という性質
K. Matsui (RIKEN AIP) Transfer Learning Survey Immunity : An Optimality of Domain Adaptation 144 / 180
Immunity iii
様々な DA の設定と対応する immunity
1. symmetric feature-independent label noise
• probability of error criterion が immune [Jabbari 2010]
2. symmetric feature-dependent label noise
• probability of error criterion が immune [Menon+ 2018]
3. feature-dependent annotator noise (PD を含む)
• AUC が immune [Menon+ 2018]
4. asymmetric label-dependent (but feature-independent)
label noise
• balanced error rate (BER) が immune [Menon+ 2015]
• BER は label-dependent label noise に対して immune な唯
一の指標
5. PU learning
• Neyman-Pearson criterion が immune [Blanchard+ 2010]
K. Matsui (RIKEN AIP) Transfer Learning Survey Immunity : An Optimality of Domain Adaptation 145 / 180
Generalized Neyman-Pearson Criterion i
Notation
• g : X → [0, 1], g(x) = Pr(Y = 1 | X = x) : 確率的判別器
• Power:
BQ(g) := EQ1
[g(X)] =
∫
g(x)q1(x)dµ(x)
• 真のラベルが 1 のときに予測ラベルが 1 である確率
• 1 − β error, TPR, 感度, recall などとも呼ばれる
• Size:
AQ(g) := EQ0
[g(X)] =
∫
g(x)q0(x)dµ(x)
• 真のラベルが 0 のときに予測ラベルが 1 である確率
• α error, FPR, 1 - 特異度などとも呼ばれる
ここで, Qy = Pr[X | Y = y] (y = 0, 1), qy はその密度関数
K. Matsui (RIKEN AIP) Transfer Learning Survey Immunity : An Optimality of Domain Adaptation 146 / 180
Generalized Neyman-Pearson Criterion ii
Definition 16 (Generalized Neyman-Pearson Criterion)
確率的判別器 g∗ がパラメータ 0 ≤ θ0  θ1 ≤ 1 および
0  α  1 の GNP criterion の下で最適
:⇔ g∗ が以下の最適化問題の解
max
g
θ1BQ(g) + (1 − θ1) AQ(g)
s.t. θ0BQ(g) + (1 − θ0) AQ(g) ≤ α
• θ1 = 1, θ0 = 0 の場合を conventional な Neyman-Pearson
(NP) criterion とよぶ
K. Matsui (RIKEN AIP) Transfer Learning Survey Immunity : An Optimality of Domain Adaptation 147 / 180
Generalized Neyman-Pearson Criterion iii
Theorem 12 (g∗ の特徴づけ)
ある tQ,α ∈ [0, 1], qQ,α ∈ [0, 1) が存在して,
g∗
(x) = gQ,α(x) :=



1, ηQ(x)  tQ,α
qQ,α, ηQ(x) = tQ,α
0, ηQ(x)  tQ,α
• これは, 最適な判別器が尤度比で与えられることと等価
• 証明の方針 :
Neyman-Pearson の補題 (単一の仮説検定では尤度比検定
が最強力検定となる) を, 帰無仮説と対立仮説に対応する尤
度がそれぞれ contaminate されたバージョンに拡張
K. Matsui (RIKEN AIP) Transfer Learning Survey Immunity : An Optimality of Domain Adaptation 148 / 180
Generalized Neyman-Pearson Criterion iv
Definition 17 (controlled discovery rate, CDR)
確率的判別機 g∗ が CDR criterion の下で最適
:⇐⇒ g∗ が GNP criterion において θ1 = 1, θ0 = πQ = PrQ[Y = 1]
(目標ドメインのラベル prior) と置いた場合の最適化問題
max
g
BQ(g)
s.t. DQ(g) := QX(g(X) = 1) ≤ α
の最適解である
K. Matsui (RIKEN AIP) Transfer Learning Survey Immunity : An Optimality of Domain Adaptation 149 / 180
Key Insight
CDR criterion の下での DA の目標
P と QX の情報のみから目標ドメインでラベルが 1 の確率が
tQ,α 以上である入力集合
GQ,α = {x | ηQ(x) ≥ tQ,α}
を推定する → 教師なし DA が実現できる
実際には,
• いくつかの仮定の下で
GP,Q,α = {x | ηP(x) ≥ tP,Q,α}
は一致推定可能 (Theorem 4 in [Scott (2019)])
• CSPD の仮定下では
GQ,α = GP,Q,α
が成立 (すなわち左辺も一致推定可能)
∗ 理論的な結果で, どれくらい実用性があるかは未知
K. Matsui (RIKEN AIP) Transfer Learning Survey Immunity : An Optimality of Domain Adaptation 150 / 180
Life-long (Continual) Learning
通常の転移学習における困難
£ 破滅的忘却
• 元ドメインの性能は無視されるため, 転移後のモデルの元ドメイ
ンでの性能が著しく低下している可能性が高い
→ 後ろ向き学習が困難
£ シングルタスク
• 複数の目標タスクに同時に適応できない
→ タスクごとに再学習が必要
£ 負転移
• 質の大きくことなるドメイン間での転移はしない場合よりも性
能を悪化させる可能性がある
→ 良い元ドメインを適切に選択する必要
K. Matsui (RIKEN AIP) Transfer Learning Survey Life-long (Continual) Learning 151 / 180
Life-long Learning に要請される性質
仮定: 各ドメインは逐次的に与えられ, 学習済みドメインのデータは
捨てる
£ 破滅的忘却の回避
• 過去タスクの性能も担保する (次のオンライン学習可能性とも
関係)
£ オンライン学習可能
• 逐次的に与えられるタスクを学習する能力 (繰り返し転移学習)
£ タスク間の知識共有
• 知識の積み上げ (現在のタスクを効率よく, 過去タスクも初見時
より効率よく)
目標 : 上記の性質をもつ単一のモデルを学習する
K. Matsui (RIKEN AIP) Transfer Learning Survey Life-long (Continual) Learning 152 / 180
Life-long Learning のデータ生成例
Split MNIST
Permuted MNIST
• 
•  (10 2 )
• 
• 
•  (10 10 )
•  ( )
K. Matsui (RIKEN AIP) Transfer Learning Survey Life-long (Continual) Learning 153 / 180
Life-long Learning におけるタスク
1. Incremental Task Learning
タスク ID が既知のときクラスラベルを当てる
2. Incremental Domain Learning
タスク ID が未知のときクラスラベルを当てる
3. Incremental Class Learning
タスク ID が未知のときタスク ID とクラスラベルを当てる
——–
∗ 実際は (task-wise な) データの真のラベルとタスク内のラベル (エイリア
ス) は異なるため上の分類は若干不正確
∗ 正確には, 1, 2 で当てるのはエイリアス, 3 で当てるのは真のクラスラベル
K. Matsui (RIKEN AIP) Transfer Learning Survey Life-long (Continual) Learning 154 / 180
Life-long Learning におけるタスク例
Split MNIST
1. Incremental Task Learning
: Task 2 first class second class
2. Incremental Domain Learning
: ( Task ) first class [0, 2, 4, 6, 8]
second class [1, 3, 5, 7, 9]
3. Incremental Class Learning
: 0 vs 1, 2 vs 3, 4 vs 5, 6 vs 7, 8 vs 9
K. Matsui (RIKEN AIP) Transfer Learning Survey Life-long (Continual) Learning 155 / 180
Life-long Learning へのアプローチ
Continual Learning Methods
Replay-based
methods
Rehearsal
iCaRL [18]
ER [44]
SER [45]
TEM [46]
Pseudo
Rehearsal
DGR [14]
PR [47]
CCLUGM [48]
LGM [49]
Constrained
GEM [50]
A-GEM [8]
GSS [43]
Regularization-based
methods
Prior-focused
EWC [28]
IMM [29]
SI [51]
R-EWC [52]
MAS [15]
Riemannian
Walk [16]
Data-focused
LwF [53]
LFL [54]
EBLL [11]
DMC [55]
Parameter isolation
methods
Fixed
Network
PackNet [56]
PathNet [32]
Piggyback [57]
HAT [58]
Dynamic
Architectures
PNN [59]
Expert Gate [7]
RCL [60]
DAN [19]
Fig : [De Lange + 2019]
1. Replay-based methods
過去タスクの学習データを利用
2. Regularization-based methods
モデルに正則化
3. Parameter isolation methods
タスクごとにモデルパラメータを個別に保持
K. Matsui (RIKEN AIP) Transfer Learning Survey Life-long (Continual) Learning 156 / 180
Replay-based Methods 例
£ Rehearsal
• バッファに過去タスクのデータを保存し各タスクで使う
• 生データをそのまま保存, 圧縮したデータを保存, など
• 残したデータにモデルが過適合する傾向
£ Pseudo Rehearsal (Generative Replay)
• 各タスクで予測モデルとは別にデータの生成モデルを学習
• GAN や VAE などの深層生成モデルが用いられる
• あるタスクのデータと深層生成モデルからサンプリングし
たデータから予測モデルと次の深層生成モデルを学習
£ Constrained
• 過去タスクを阻害しないよう新規タスクに制約条件を課す
K. Matsui (RIKEN AIP) Transfer Learning Survey Life-long (Continual) Learning 157 / 180
Regularization-based Methods
£ Prior-focused
• Elastic Weight Consolidation
• L2 正則化項に Fisher 情報行列で重みを導入
• Synaptic Intelligence
• L2 正則化項に独自の重みを導入
£ Data-focused
• Learning without Forgetting
• 損失関数に知識蒸留の項を加える
• Deep Model Consolidation
• Double distillation loss なる知識蒸留のための損失関数
を導入
K. Matsui (RIKEN AIP) Transfer Learning Survey Life-long (Continual) Learning 158 / 180
Parameter Isolation Methods
£ Dynamic Architectures
output2 output3output1
input
h
(2)
2 h
(3)
2h
(1)
2
h
(1)
1 h
(2)
1 h
(3)
1
a a
a a
Task 1 Task 2 Task 3
Fig : [Rusu+ 2016]
• Progressive Neural Networks
• タスクごとに NN を学習
• 前のタスク NN の下層から次タ
スクの NN へカスケード的
に結合
£ Fixed Network
Fig : [Fernando+ 2017]
• PathNet
• モデルの学習と同時にモジュー
ル (畳込層など) を結ぶパスも
学習
• 学習が完了したら重みを固定
(次のタスクでは更新しない)
K. Matsui (RIKEN AIP) Transfer Learning Survey Life-long (Continual) Learning 159 / 180
Experiments i
Split MNIST
Fig:[Hsu+ 2019]
K. Matsui (RIKEN AIP) Transfer Learning Survey Life-long (Continual) Learning 160 / 180
Experiments ii
Permuted MNIST
Fig:[Hsu+ 2019]
K. Matsui (RIKEN AIP) Transfer Learning Survey Life-long (Continual) Learning 161 / 180
Life-long Learning における Disentangled Representation i
Life-Long Disentangled Representation [Achille+ (2018)]
Fig : Achille+, NIPS2018
• 各クラスタが各シナリオにおけるデータ/環境に対応
• 各データ x は generative factors zn (座標のようなもの) の
組で表される
• 異なるクラスタでいくつかの generative factor を共有
K. Matsui (RIKEN AIP) Transfer Learning Survey Life-long (Continual) Learning 162 / 180
Life-long Learning における Disentangled Representation ii
Life-Long Disentangled Representation の学習 1
A CB
Figure 1: A: Schematic representation of the life-long learning data distr
corresponds to a cluster s. Data samples x constituting each cluster can be de
(data generative factors zn). Different clusters may share some data generative
C: ConContinSchematic of the “dreaming” feedback loop. We use a snapshot
( old, ✓old) to generate an imaginary batch of data xold for a previously experi
the current environment, we ensure that the representation is still consistent o
can reconstruct it (see red dashed lines).
Recent state of the art approaches to unsupervised disentangled repre
Generative Factor zn
model architecture
q (zs
|xs
)= as
N(µ(x), (x))
+ (1 as
) N(0, I)
as : latent mask
Model Assumption
Objective Function
LMDL( , ) = Ezs q (·|xs) [ log p (x|zs
, s)]
Reconstruction error
+ (|KL (q (zs
|xs
) p(z))
Representation capacity
C
Target
)2
Latent Mask as
n = KL Exs
batch
[q (zs
n|xs
batch )] p (zn)Atypicality Score
Latent Mask as
n =
1, if n 
0, otherwise
β-VAE-like
K. Matsui (RIKEN AIP) Transfer Learning Survey Life-long (Continual) Learning 163 / 180
Life-long Learning における Disentangled Representation iii
Life-Long Disentangled Representation の学習 2
Environment s
s =
ˆs if Ezˆs log p xs
batch |zˆs
, ˆs Lˆs as
= aˆs
sr+1 otherwise
ˆs = arg max
s
q (s|xs
batch)
	 (“Dreaming” feedback)
Lpast( , )
= Ez,s ,x [D [q (z|x ) , q (z |x )]
Encoder proximity
+ D [q (x|z, s ) , q (x |z, s )]
Decoder proximity
]
Overall Objective
L( , ) = LMDL( , ) + Lpast( , )
K. Matsui (RIKEN AIP) Transfer Learning Survey Life-long (Continual) Learning 164 / 180
Life-long Learning における Disentangled Representation iv
NatLab/EDE Cross-Domain Reconstructions
OrigNatLabEDE
Reconstructionsas
OrigNatLabEDE
Reconstructionsas
B
C
Disentangled Entangled
• VSAE (提案法, left) は 2 つのデータセットの “semantic
homologies” (共通の generative factor) を見つけられる 
e.g. サボテン → 赤いオブジェクト
K. Matsui (RIKEN AIP) Transfer Learning Survey Life-long (Continual) Learning 165 / 180
Concluding Remarks
Concluding Remarks
引用 [Ng (NIPS 2016), Ruder (2017)]
• 転移学習は深層学習の台頭以降, 発展著しい
• しかし, 問題設定やアプローチなどが散在している状況
• 様々な問題設定を統一的に扱えるフレームワーク (理論)
の整備が望まれる
K. Matsui (RIKEN AIP) Transfer Learning Survey Concluding Remarks 166 / 180
転移学習の俯瞰的な文献 · ウェブサイト i
[1] Pan, S. J.  Yang, Q (2010). A survey on transfer learning. IEEE
Transactions on knowledge and data engineering, 22(10), 1345-1359.
[2] 神嶌敏弘 (2010). 転移学習. 人工知能学会誌, 25(4), 572-580.
[3] 神嶌敏弘 (2009). 転移学習のサーベイ. データマイニングと統計数理研
究会 (第 9 回). http://www.kamishima.net/archive/2009-tr-jsai_dmsm1-PR.pdf
• 深層学習以前の転移学習のサーベイ
• しかし重要なコンセプトがコンパクトに纏まっており, 現在でも
非常に有用
[4] Ruder, S. (2017). Transfer Learning - Machine Learning’s Next Frontier.
http://ruder.io/transfer-learning/index.html
• 最近の転移学習と周辺分野のサーベイ
• 特に深層学習における転移学習の諸手法と文献がよく纏まってい
る
K. Matsui (RIKEN AIP) Transfer Learning Survey Concluding Remarks 167 / 180
Recent Advances on Transfer Learning and Related Topics Ver.2
Recent Advances on Transfer Learning and Related Topics Ver.2
Recent Advances on Transfer Learning and Related Topics Ver.2
Recent Advances on Transfer Learning and Related Topics Ver.2
Recent Advances on Transfer Learning and Related Topics Ver.2
Recent Advances on Transfer Learning and Related Topics Ver.2
Recent Advances on Transfer Learning and Related Topics Ver.2
Recent Advances on Transfer Learning and Related Topics Ver.2
Recent Advances on Transfer Learning and Related Topics Ver.2
Recent Advances on Transfer Learning and Related Topics Ver.2
Recent Advances on Transfer Learning and Related Topics Ver.2
Recent Advances on Transfer Learning and Related Topics Ver.2
Recent Advances on Transfer Learning and Related Topics Ver.2

More Related Content

What's hot

組合せ最適化入門:線形計画から整数計画まで
組合せ最適化入門:線形計画から整数計画まで組合せ最適化入門:線形計画から整数計画まで
組合せ最適化入門:線形計画から整数計画まで
Shunji Umetani
 

What's hot (20)

PRML学習者から入る深層生成モデル入門
PRML学習者から入る深層生成モデル入門PRML学習者から入る深層生成モデル入門
PRML学習者から入る深層生成モデル入門
 
[DL輪読会]Understanding Black-box Predictions via Influence Functions
[DL輪読会]Understanding Black-box Predictions via Influence Functions [DL輪読会]Understanding Black-box Predictions via Influence Functions
[DL輪読会]Understanding Black-box Predictions via Influence Functions
 
GAN(と強化学習との関係)
GAN(と強化学習との関係)GAN(と強化学習との関係)
GAN(と強化学習との関係)
 
時系列予測にTransformerを使うのは有効か?
時系列予測にTransformerを使うのは有効か?時系列予測にTransformerを使うのは有効か?
時系列予測にTransformerを使うのは有効か?
 
[DL輪読会]GANとエネルギーベースモデル
[DL輪読会]GANとエネルギーベースモデル[DL輪読会]GANとエネルギーベースモデル
[DL輪読会]GANとエネルギーベースモデル
 
ドメイン適応の原理と応用
ドメイン適応の原理と応用ドメイン適応の原理と応用
ドメイン適応の原理と応用
 
勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)
勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)
勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)
 
Hyperoptとその周辺について
Hyperoptとその周辺についてHyperoptとその周辺について
Hyperoptとその周辺について
 
【論文読み会】Deep Clustering for Unsupervised Learning of Visual Features
【論文読み会】Deep Clustering for Unsupervised Learning of Visual Features【論文読み会】Deep Clustering for Unsupervised Learning of Visual Features
【論文読み会】Deep Clustering for Unsupervised Learning of Visual Features
 
[DL輪読会]Dense Captioning分野のまとめ
[DL輪読会]Dense Captioning分野のまとめ[DL輪読会]Dense Captioning分野のまとめ
[DL輪読会]Dense Captioning分野のまとめ
 
cvpaper.challenge 研究効率化 Tips
cvpaper.challenge 研究効率化 Tipscvpaper.challenge 研究効率化 Tips
cvpaper.challenge 研究効率化 Tips
 
深層学習の数理
深層学習の数理深層学習の数理
深層学習の数理
 
ELBO型VAEのダメなところ
ELBO型VAEのダメなところELBO型VAEのダメなところ
ELBO型VAEのダメなところ
 
合成変量とアンサンブル:回帰森と加法モデルの要点
合成変量とアンサンブル:回帰森と加法モデルの要点合成変量とアンサンブル:回帰森と加法モデルの要点
合成変量とアンサンブル:回帰森と加法モデルの要点
 
機械学習モデルの判断根拠の説明(Ver.2)
機械学習モデルの判断根拠の説明(Ver.2)機械学習モデルの判断根拠の説明(Ver.2)
機械学習モデルの判断根拠の説明(Ver.2)
 
【メタサーベイ】数式ドリブン教師あり学習
【メタサーベイ】数式ドリブン教師あり学習【メタサーベイ】数式ドリブン教師あり学習
【メタサーベイ】数式ドリブン教師あり学習
 
深層学習の不確実性 - Uncertainty in Deep Neural Networks -
深層学習の不確実性 - Uncertainty in Deep Neural Networks -深層学習の不確実性 - Uncertainty in Deep Neural Networks -
深層学習の不確実性 - Uncertainty in Deep Neural Networks -
 
Optunaを使ったHuman-in-the-loop最適化の紹介 - 2023/04/27 W&B 東京ミートアップ #3
Optunaを使ったHuman-in-the-loop最適化の紹介 - 2023/04/27 W&B 東京ミートアップ #3Optunaを使ったHuman-in-the-loop最適化の紹介 - 2023/04/27 W&B 東京ミートアップ #3
Optunaを使ったHuman-in-the-loop最適化の紹介 - 2023/04/27 W&B 東京ミートアップ #3
 
【論文調査】XAI技術の効能を ユーザ実験で評価する研究
【論文調査】XAI技術の効能を ユーザ実験で評価する研究【論文調査】XAI技術の効能を ユーザ実験で評価する研究
【論文調査】XAI技術の効能を ユーザ実験で評価する研究
 
組合せ最適化入門:線形計画から整数計画まで
組合せ最適化入門:線形計画から整数計画まで組合せ最適化入門:線形計画から整数計画まで
組合せ最適化入門:線形計画から整数計画まで
 

Similar to Recent Advances on Transfer Learning and Related Topics Ver.2

JSAI 1K3-2 知識ベースに基づく言語横断質問応答における訳質の影響
JSAI 1K3-2 知識ベースに基づく言語横断質問応答における訳質の影響JSAI 1K3-2 知識ベースに基づく言語横断質問応答における訳質の影響
JSAI 1K3-2 知識ベースに基づく言語横断質問応答における訳質の影響
Kyoshiro Sugiyama
 

Similar to Recent Advances on Transfer Learning and Related Topics Ver.2 (10)

Rainbow: Combining Improvements in Deep Reinforcement Learning (AAAI2018 unde...
Rainbow: Combining Improvements in Deep Reinforcement Learning (AAAI2018 unde...Rainbow: Combining Improvements in Deep Reinforcement Learning (AAAI2018 unde...
Rainbow: Combining Improvements in Deep Reinforcement Learning (AAAI2018 unde...
 
ACL2011読み会: Query Weighting for Ranking Model Adaptation
ACL2011読み会: Query Weighting for Ranking Model AdaptationACL2011読み会: Query Weighting for Ranking Model Adaptation
ACL2011読み会: Query Weighting for Ranking Model Adaptation
 
DAシンポジウム2019招待講演「深層学習モデルの高速なTraining/InferenceのためのHW/SW技術」 金子紘也hare
DAシンポジウム2019招待講演「深層学習モデルの高速なTraining/InferenceのためのHW/SW技術」 金子紘也hareDAシンポジウム2019招待講演「深層学習モデルの高速なTraining/InferenceのためのHW/SW技術」 金子紘也hare
DAシンポジウム2019招待講演「深層学習モデルの高速なTraining/InferenceのためのHW/SW技術」 金子紘也hare
 
JSAI 1K3-2 知識ベースに基づく言語横断質問応答における訳質の影響
JSAI 1K3-2 知識ベースに基づく言語横断質問応答における訳質の影響JSAI 1K3-2 知識ベースに基づく言語横断質問応答における訳質の影響
JSAI 1K3-2 知識ベースに基づく言語横断質問応答における訳質の影響
 
ブースティング入門
ブースティング入門ブースティング入門
ブースティング入門
 
20170422 数学カフェ Part2
20170422 数学カフェ Part220170422 数学カフェ Part2
20170422 数学カフェ Part2
 
機械学習を用いたWeb上の産学連携関連文書の抽出
機械学習を用いたWeb上の産学連携関連文書の抽出機械学習を用いたWeb上の産学連携関連文書の抽出
機械学習を用いたWeb上の産学連携関連文書の抽出
 
[DL輪読会]Explainable Reinforcement Learning: A Survey
[DL輪読会]Explainable Reinforcement Learning: A Survey[DL輪読会]Explainable Reinforcement Learning: A Survey
[DL輪読会]Explainable Reinforcement Learning: A Survey
 
Feature engineering for predictive modeling using reinforcement learning
Feature engineering for predictive modeling using reinforcement learningFeature engineering for predictive modeling using reinforcement learning
Feature engineering for predictive modeling using reinforcement learning
 
NIPS2017読み会@PFN: Hierarchical Reinforcement Learning + α
NIPS2017読み会@PFN: Hierarchical Reinforcement Learning + αNIPS2017読み会@PFN: Hierarchical Reinforcement Learning + α
NIPS2017読み会@PFN: Hierarchical Reinforcement Learning + α
 

Recent Advances on Transfer Learning and Related Topics Ver.2

  • 1. Recent Advances on Transfer Learning and Related Topics (ver.2) Kota Matsui RIKEN AIP Data Driven Biomedical Science Team December 14, 2019
  • 2. Acknowledgement 理研 AIP 非凸学習理論チームの熊谷亘氏に感謝申し上げます. 本発表の内容は, 熊谷氏との共同研究, ディスカッションに 大きく依存しています. また, 内容をチェックし, 重要なコメントを多数頂いた東京大学 の幡谷龍一郎氏, 手嶋毅志氏, 河野慎氏に感謝いたします. K. Matsui (RIKEN AIP) Transfer Learning Survey 1 / 180
  • 3. Table of contents i 1. Introduction 2. Foundations of Transfer Learning 3. Paradigm Shift in Transfer Learning via Deep Learning 4. Related Fields of Transfer Learning 5. Topics in Transfer Learning 6. Theory of Transfer Learning (Instance Transfer) K. Matsui (RIKEN AIP) Transfer Learning Survey 2 / 180
  • 4. Table of contents ii 7. Impossibility Theorems for Domain Adaptation 8. Theory of Transfer Learning (Parameter Transfer) 9. Immunity : An Optimality of Domain Adaptation 10. Life-long (Continual) Learning 11. Concluding Remarks K. Matsui (RIKEN AIP) Transfer Learning Survey 3 / 180
  • 6. 転移学習って? 素朴な観察 人間は, ある問題に取り組む際に全く知識の無い状態からス タートするか? NO : 人間は過去に経験した問題解決から得た知識を現在の問 題に転用できる • 過去の知識の積み上げができる • 問題の間の類似構造を自然に把握できる • 獲得した知識を繰り返し転用することができる Research Question これらの機能を計算機上で実現するには??? K. Matsui (RIKEN AIP) Transfer Learning Survey Introduction 4 / 180
  • 7. 機械学習 / Machine Learning 人工知能研究の一分野として “Field of study that gives computers the ability to learn without being explicitly programmed” [Samuel (1959)]. データ科学の一分野として “The term machine learning refers to the automated detection of meaningful patterns in data” [Shalev-Shwartz&Ben-David (2014)]. ’ • “Machine Learning” の出典 A. Samuel “Some Studies in Machine Learning Using the Game of Checkers”, 1959. • generalization (汎化, 学習した能力 が未知の事例に対しても上手く働く こと) の考え方も論じられている     K. Matsui (RIKEN AIP) Transfer Learning Survey Introduction 5 / 180
  • 8. 機械学習における様々なタスク: 教師あり学習 入力 x と出力 y のペアから入出力関係 x → y を獲得 K. Matsui (RIKEN AIP) Transfer Learning Survey Introduction 6 / 180
  • 9. 機械学習における様々なタスク: 教師なし学習 入力 x のみからその特徴を抽出 K. Matsui (RIKEN AIP) Transfer Learning Survey Introduction 7 / 180
  • 10. 機械学習における様々なタスク: 半教師あり学習 (a) 少量のラベルありデータのみでは良いモデルは学 習できない (b) ラベルありデータに加えて大量のラベルなしデー タを用いることで良いモデルを学習することが 出来る K. Matsui (RIKEN AIP) Transfer Learning Survey Introduction 8 / 180
  • 11. 機械学習における様々なタスク: 能動学習 i x1 x2 y ε x f(x) y = f(x) + ε 不確実性の下でブラックボックス関数 f に関する統計的推論を 行うためのデータ観測戦略を考える K. Matsui (RIKEN AIP) Transfer Learning Survey Introduction 9 / 180
  • 12. 機械学習における様々なタスク: 能動学習 ii 能動学習の基本的な問題設定 • 候補入力 x1, ..., xn が与えられている • 関数 f を評価して出力 yi = f(xi) を得るにはコスト (e.g. 時 間, 費用...) がかかる このとき, できるだけ少ないコスト (観測回数) で 問題設定 1: 関数推定 関数 f を精度良く推定したい f∗ = arg min ˆf∈F n∑ i=1 (f(xi) −ˆf(xi))2 問題設定 2: 最適化 関数 f の maximizer を求めたい x∗ i = arg max x∈{x1,...,xn} f(x) K. Matsui (RIKEN AIP) Transfer Learning Survey Introduction 10 / 180
  • 13. 機械学習における様々なタスク: 能動学習 iii 探索と活用のトレードオフ 探索 事前知識のないパラメータに対して観測を行う • これまでよりも良くなるかもしれない未知の パラメータを試す 活用 実験済みのパラメータ値に近いパラメータに対し て観測を行う • これまでに良かったパラメータを活かす 探索のみを行っていると過去の実験結果が活かせず, 活用ばか り行っているとまだ見ぬ良いパラメータを発見できない → 両者のバランスを取りながら最適なパラメータを探す K. Matsui (RIKEN AIP) Transfer Learning Survey Introduction 11 / 180
  • 15. 機械学習の定式化 i • 入力空間 X ⊂ Rd • 出力空間 Y • Y = {0, 1} : 2 値判別 • Y = R : 回帰 • (Y = {c} (1 点集合) : 教師なし学習) • データ生成分布 P = P(X, Y) • 仮説 h : X → Y 入出力関係を予測する • 損失関数 ℓ • 0-1 損失 (判別) : ℓ(ˆy, y) = 1[ˆy ̸= y] = { 1 if y ̸= ˆy 0 otherwise • 二乗損失 (回帰) : ℓ(ˆy, y) = |ˆy − y|2 • (再構成損失 (教師なし学習) : ∥ˆx − x∥2 ) K. Matsui (RIKEN AIP) Transfer Learning Survey Introduction 13 / 180
  • 16. 機械学習の定式化 ii Definition 1 (期待リスク) データ (X, Y) の従う分布 P の下での仮説 h の期待リスクは R(h) := E(X,Y)∼P[ℓ(h(X), Y)] 期待リスクを最小にする仮説 h を見つけることが (教師付き) 機械学習の目的 実際には真の分布 P は未知なのでサンプル近似 E(X,Y)∼P[ℓ(h(X), Y)] ≈ 1 N N∑ i=1 ℓ(h(xi), yi) を最小にする h を探す K. Matsui (RIKEN AIP) Transfer Learning Survey Introduction 14 / 180
  • 17. 転移学習の定式化 i Definition 2 (ドメイン) • Z : abstract な集合 • PZ : Z 上の確率分布 の組 (Z, PZ) をドメイン と呼ぶ Ex • Z = X, PZ = PX (教師なし学習) • Z = X × Y, PZ = PX×Y (教師付き学習) 特に (以降 Z = X × Y を想定して) • (ZS, PS) を元ドメイン (source domain) と呼び • (ZT, PT) を目標ドメイン (target domain) と呼ぶ K. Matsui (RIKEN AIP) Transfer Learning Survey Introduction 15 / 180
  • 18. 転移学習の定式化 ii 転移学習の目標 元ドメイン (ZS, PS) での学習を通して目標ドメイン (ZT, PT) に おける期待リスク RT(h) を最小化する. Ex (判別問題) (ZT, µT) で高い判別性能を示す判別関数 h を見つ ける {(xS i , yS i )}NS i=1 data ∈ XS × YS −−−−−→ training ˆh = arg min h 1 NS NS∑ i=1 ℓ(h(xS i ), yS i ) −−→ test 1[ˆh(xT j ) = yT j ], xT j ∈ XT K. Matsui (RIKEN AIP) Transfer Learning Survey Introduction 16 / 180
  • 19. 伝統的な機械学習と転移学習の関係 伝統的な機械学習は, 転移学習の特別な場合に相当: 元ドメイン = 目標ドメイン. すなわち, ZS = ZT and PS = PT Ex (2 値判別問題) • P & N ∼ PXS×{0,1} (元) • U ∼ PXS (目標) • ラベル無しの目標データを 正しく判別する境界はラベ ルありの元データから学習 できる. 実際にはこの仮定が成り立たない問題がいくらでもある K. Matsui (RIKEN AIP) Transfer Learning Survey Introduction 17 / 180
  • 20. 元ドメインと目標ドメインが異なる例 i サンプル空間がドメイン間で異なる XS ̸= XT K. Matsui (RIKEN AIP) Transfer Learning Survey Introduction 18 / 180
  • 21. 元ドメインと目標ドメインが異なる例 ii データの分布がドメイン間で異なる PS ̸= PT Training Data (source domain) Hospital A Hospital B Hospital C Training Prediction Model Apply Hospital D (target domain) •  Multi-center prognostic analysis Ø  source : 3 different hospitals Ø  target : a hospital •  Task : to learn a prediction model in S that performs well in T •  Probability distribution of covariates of the patients can differ among hospitals A Transfer Learning Method for Multi-Center Prognostic Prediction Analysis [Matsui+ 2018] K. Matsui (RIKEN AIP) Transfer Learning Survey Introduction 19 / 180
  • 22. 元ドメインと目標ドメインが異なる例 iii Fig: [Yang+ (2009)] • 元ドメインと目標ドメインの “違い方” によって対応する 観測データの “違い方” も変わる K. Matsui (RIKEN AIP) Transfer Learning Survey Introduction 20 / 180
  • 23. 転移学習の必要性 異なるドメインのデータや知見を統合して取り扱うための 方法論 • 目標ドメイン, 元ドメインともにデータが少数のとき → 各ドメインのデータを統合して活用できる • 医学研究などの small data な領域で威力を発揮 • 目標ドメインは小データだが元ドメインにデータが大量に あるとき → 各ドメインで要約統計量を学習しておき, それを別のド メインで活用できる • 生データを保持しなくて良いのでストレージやメモリの節 約になる • プライバシーの観点からもメリットがある? K. Matsui (RIKEN AIP) Transfer Learning Survey Introduction 21 / 180
  • 25. 転移学習 i 定性的な定義 [NIPS’05 workshop] 目標タスクの効果的な仮説を効率的に見つけ出すために, 一 つ以上の別のタスクで学習された知識を適用する問題 数学的な定式化 (再掲) ZS ̸= ZT あるいは PS ̸= PT である場合に, 目標ドメインの期待 リスク RT(h) を最小にするような仮説 h を見つける Fig: [Pan&Yang (2010)] K. Matsui (RIKEN AIP) Transfer Learning Survey Foundations of Transfer Learning 22 / 180
  • 26. 転移学習 ii • 様々な関連分野がある • domain adaptation (transfer learning の別称) • self-taught learning [Raina+ (2007)] • multi-task learning [Caruana (1997)] • meta-learning [Brazdil+ (2008), Vanschoren (2018)] • learning to learn [Thrun&Pratt (1998)]... • 最近では深層学習への応用により注目度が増大 • pre-training [Bengio+ (2007), Erhan+ (2010)] • fine-tuning [Girshick+ (2014)] • few-shot learning [Palatucci+ (2009), Fu+ (2018)] • representation learning [Hinton (1986), Zhuang+ (2015)]... • 一方で非常に多くの設定 (転移仮定) があり, 各設定に対し て個別に手法が考察されている状況 • distribution shift [Sugiyama+ (2012), Courty+ (2017)] • heterogeneous transfer learning [Daume III ACM (2007), Duan+ (2012)]... K. Matsui (RIKEN AIP) Transfer Learning Survey Foundations of Transfer Learning 23 / 180
  • 27. 転移学習の分類 • Pan&Yang (2010) や神嶌 (2009) では各ドメインのラベルの有無で分類 • 上記文献では, 以下のように少し呼称が異なる • 元: ラベル有, 目標: ラベル無 → トランスダクティブ転移学習 • 元: ラベル無, 目標: ラベル無 → 教師なし転移学習 • 最近では右上の設定が “教師なし転移学習” と呼ばれる K. Matsui (RIKEN AIP) Transfer Learning Survey Foundations of Transfer Learning 24 / 180
  • 28. 教師付き転移学習 i • 元ドメイン, 目標ドメインそれぞれでラベル付きデータが 利用可能 → ただし, 目標ドメインのラベル付きデータは元ドメイン のそれよりも非常に少数と想定 • 共変量とラベルの同時分布がドメイン間で異なる: PS(X, Y) ̸= PT(X, Y) • 同時分布のずれを補正しながら目標ドメインの経験リスク を最小にする仮説 h を探す K. Matsui (RIKEN AIP) Transfer Learning Survey Foundations of Transfer Learning 25 / 180
  • 29. 教師付き転移学習 ii : TrAdaBoost アンサンブル学習である AdaBoost を転移学習のために改 良 [Dai+ (2007)] • 両ドメインのラベル付きデータから弱学習器を学習 • 初期の重みは両ドメインのデータに等しく与える • 誤差の大きい目標データは重みを大きくし, 誤差の大きい 元データは重みを小さくする wt+1 i =    wt iβ |lossi| t for target data wt iβ −|lossi| t for source data • 学習の前半の弱学習器は捨て, 後半のものだけ使って分類 器を構成 hf(x) =    1 if ∏N t=⌈N/2⌉ β −ht(x) t ≥ ∏N t=⌈N/2⌉ β −1/2 t 0 otherwise K. Matsui (RIKEN AIP) Transfer Learning Survey Foundations of Transfer Learning 26 / 180
  • 30. 教師なし転移学習 • transfer learning や domain adaptation 研究の主流の設定 • 元ドメインではラベル付きデータ, 目標ドメインではラベ ル無しデータのみが利用可能な場合 • 目標ドメインで学習ができないため, 直接目標リスクを最 小化する仮説を探索できない • 目標ドメインのラベル情報がないため, 元ドメインのラベ ル付きデータを有効利用するためには何らかの仮定が必要 (転移仮定, 詳細は後述) • 共変量シフト [Shimodaira (2000)] PT(Y | X) = PS(Y | X) • ターゲットシフト [Redko+ (2018)] PT(X | Y) = PS(X | Y) • 共通の隠れ空間の存在 [Duan+ (2012), Iwata&Yamada (2016)] K. Matsui (RIKEN AIP) Transfer Learning Survey Foundations of Transfer Learning 27 / 180
  • 31. 半教師あり転移学習 / 能動的転移学習 i 根本的な問い • 教師なし転移学習 (学習時からテスト時までずっと目標ド メインのラベルが無い状況) は妥当な問題設定なのか? • 目標ドメインでも少しはラベルが取れる状況を考える方が 自然では? → 半教師あり学習/能動学習 • 半教師あり転移学習 : 元ドメインではラベルありデータ, 目標ドメインでは少量 のラベルありデータと大量のラベル無しデータが使える • 能動的転移学習 : 目標ドメインのどのインスタンスにラベルを付けるかを適 応的に選択 K. Matsui (RIKEN AIP) Transfer Learning Survey Foundations of Transfer Learning 28 / 180
  • 32. 半教師あり転移学習 i 問題設定 • 元ドメインで available なデータ: • ラベルありデータ Ds = {(xs i , ys i )}ms i=1 • 目標ドメインで available なデータ: • ラベルありデータ Dt = {(xt i, yt i)}mt i=1, • ラベル無しデータ Du = {xu i }mu i=1 目的 Ds, Dt, Du から目標ドメインのための予測モデルを学習 → 目標ドメインにラベルありデータが存在するのでモデルの 評価が可能 K. Matsui (RIKEN AIP) Transfer Learning Survey Foundations of Transfer Learning 29 / 180
  • 33. 半教師あり転移学習 ii Semi-supervised DA via Minimax Entropy [Saito+ (2019)] 1. ドメイン不変な prototype (各クラスの代表元) を推定 2. 推定した prototype を使って xu i から discriminative features を抽出 → 特徴抽出器とタスク判別器の間の敵対的学習として定式化 K. Matsui (RIKEN AIP) Transfer Learning Survey Foundations of Transfer Learning 30 / 180
  • 34. 能動的転移学習 i 問題設定 • 元ドメインで available なデータ: • ラベルありデータ Ds = {(xs i , ys i )}ms i=1 • 目標ドメインで available なデータ: • ラベルありデータ Dt = {(xt i, yt i)}mt i=1 • 初期状態で Dt ̸= ∅ の場合 [Wang+ 2014] • 初期状態で Dt = ∅ の場合 [Su+ 2019] • ラベル無しデータ Du = {xu i }mu i=1 目的 Ds, Dt, Du を用いて, Du の元のラベルを適応的に観測しなが ら目標ドメインのための予測モデルを学習 → 目標ドメインにラベルありデータが存在するのでモデルの 評価が可能 K. Matsui (RIKEN AIP) Transfer Learning Survey Foundations of Transfer Learning 31 / 180
  • 35. 能動的転移学習 ii Active Transfer Learning under Model Shift [Wang+ (2014)] アプローチ 1 : 事後分布のマッチング Pr(Ynew | Xs ) = Pr(Yt | Xt ) • Ynew は Xs に対応するラベル Ys の location-scale 変換 Ynew = Ys ⊙ w(Xs ) + b(Xs ) • 変換関数 w(·), b(·) は連続関数になるように形を制限 • 事後分布マッチングは両者の discrepancy 最小化で達成 アプローチ 2 : ガウス過程モデリング • Ds で学習した GP から, Dt の true と予測の差 ˆZ = Yt − ˆYt を正規モデリング • Ds のラベルを変換: Ynew = Ys + ˜Z, ˜Z ∼ N(˜µ(ˆZ), ˜Σ) £ 両アプローチ共に {Xs, Ynew} ∪ {Xt, Yt} で予測モデルを学習 £ uncertainty sampling で次の評価点を決定 K. Matsui (RIKEN AIP) Transfer Learning Survey Foundations of Transfer Learning 32 / 180
  • 36. 能動的転移学習 iii Active Adversarial Domain Adaptation [Su+ (2019)] Domain Adversarial Training (ドメイン適応) + Importance Weighting (能動学習) £ sample selection の方針 • 経験損失が大きい点を取る vs 重要度が高い点を取る • 重要度は GAN の discriminator から計算: pT(ˆx) pS(ˆx) = 1−G∗ d (ˆx) G∗ d (ˆx) K. Matsui (RIKEN AIP) Transfer Learning Survey Foundations of Transfer Learning 33 / 180
  • 37. 自己教示学習 • 元ドメインではラベル無しデータのみが, 目標ドメインではラベル付き データが利用可能な場合 • 元ドメインで教師なし特徴抽出し, 目標ドメインの教師付き学習に援用 Supervised Classification Semi-supervised Learning Transfer Learning Self-taught Learning K. Matsui (RIKEN AIP) Transfer Learning Survey Foundations of Transfer Learning 34 / 180
  • 38. 強化学習における転移学習 i [久保 2019] では強化学習においてモデルの転移能力を獲得する ための主要な 2 つのアプローチを紹介 1. メタ学習 (モデルの転移能力の獲得) • Learning to learn : 教育の仕方の学習 • Learning to train : 学習の仕方の学習 2. 転移学習 (知識やデータの再利用) • Sim2Real : シミュレーションから現実への転移 • domain randomization : シミュレーションの多様化 詳細は後述 K. Matsui (RIKEN AIP) Transfer Learning Survey Foundations of Transfer Learning 35 / 180
  • 39. 強化学習における転移学習 ii 別の定式化 ドメインを “タスク空間とタスク分布のペア” と考えたエージ ェントベースの転移学習 (4 種類の転移シナリオ) Task Space Task Space N1 N2 NM M1 M2 M3 M4 1. Across two agents of different domains 2. Across two agents in the same domains 3. Across two agents in the same task 4. Across multi-agents in the same domain Fig : [Fachantidis 2016]K. Matsui (RIKEN AIP) Transfer Learning Survey Foundations of Transfer Learning 36 / 180
  • 40. 転移学習の基本的な問題 1. What to transfer (何を転移するか) • instance transfer (データそのものを転移) • feature transfer (抽出した特徴を転移) • parameter transfer (学習したモデルや特徴抽出器を転移) 2. When to transfer (いつ転移するか) • 転移学習が成功するのは元ドメインと目標ドメインが似て いるとき • 例: covariate-shift [Shimodaira (2000)] PrS[y | x] = PrT[y | x] • 負転移 (転移によって目標ドメインの性能が低下) 3. How to transfer (どう転移するか, 具体的なアルゴリズム) • 例: 重要度重み付き学習 [Sugiyama+ (2012)] • 例: 最適輸送によるドメイン適応 [Courty+ (2017)] K. Matsui (RIKEN AIP) Transfer Learning Survey Foundations of Transfer Learning 37 / 180
  • 41. What to Transfer : Instance Transfer 元ドメインのデータを目標ドメインのデータとして学習に 用いる 例: 重要度重み付き学習, 最適輸送に基づくドメイン適応 • homogeneous な状況を想定 (ドメイン間で標本空間は共通) K. Matsui (RIKEN AIP) Transfer Learning Survey Foundations of Transfer Learning 38 / 180
  • 42. What to Transfer : Feature Transfer 元ドメインと目標ドメインで共通の特徴を抽出し学習に用いる 例: Augmented features [Duan+ (2012)] • heterogeneous な状況を想定 (ドメイン間で標本空間が異なる) K. Matsui (RIKEN AIP) Transfer Learning Survey Foundations of Transfer Learning 39 / 180
  • 43. What to Transfer : Parameter Transfer i 元ドメインで学習したモデルや特徴抽出器のパラメータを目標 ドメインで用いる 例: fine-tuning … 1000 … 20 Fine-tuning L∇ ( )iiL yx , • あるデータセットで予め学習した NN の出力層を目標データで再学習 • 出力層の手前までのネットワークのパラメータは固定 → ただしこの定義にはいくつか流派? がある模様 (次ページ) K. Matsui (RIKEN AIP) Transfer Learning Survey Foundations of Transfer Learning 40 / 180
  • 44. What to Transfer : Parameter Transfer ii Fig:[Li&Hoiem (2016)] • [Li&Hoiem (2016)] では出力層手前までも再学習するものを fine-tuning と呼んでいる (元ドメインの学習結果を warm-start とする) • 出力層手前までを固定するものは feature extraction と呼ばれている K. Matsui (RIKEN AIP) Transfer Learning Survey Foundations of Transfer Learning 41 / 180
  • 45. When to Transfer : Discrepancy i 何らかの指標で元ドメインと目標ドメインが “似ている” とき 転移を実施 例: ドメインの確率分布の不一致度 (discrepancy) • discrepancy が小さいとき, 目標ドメインのデータは元ドメインとよく 似た生成メカニズムを持っていると考えられる • 様々な discrepancy が定義されている • H∆H divergence [Ben-David+ (2010)] • Wasserstein distance [Courty+ (2017)] • source-guided discrepancy [Kuroki+ (2019)] K. Matsui (RIKEN AIP) Transfer Learning Survey Foundations of Transfer Learning 42 / 180
  • 46. When to Transfer : Discrepancy ii Integral Probability Metrics (IPM) [Sriperumbudur+ (2012)] DiscG(PT, PS) := sup g∈G |ET[g] − ES[g]| • PT, PS はそれぞれ元ドメイン, 目標ドメインの確率分布, g はテスト関数 • Wasserstein metric, total variation, kernel MMD, source-guided discrepancy などを含む統一的な discrepancy の定式化 • M = supx∈X,g∈G g(x) とする. このとき, 確率 1 − δ 以上で以下のサンプ ル近似バウンドが成立 |DiscG(PT, PS) − DiscG(ˆPT, ˆPS)| ≤ 2ℜT,nT (G) + 2ℜS,nS (G) + M √ 18 log 4 δ ( 1 √ nT + 1 √ nS ) • ℜT,nT (G), ℜS,nS (G) : 目標ドメイン, 元ドメインにおける G のラデマ ッハ複雑度 • nT, nS : 各ドメインのサンプルサイズ → 転移学習の理論解析時に非常に有用 K. Matsui (RIKEN AIP) Transfer Learning Survey Foundations of Transfer Learning 43 / 180
  • 47. When to Transfer : 転移仮定 i ドメインの “類似” をより積極的にモデリングする 例 i: 共変量シフト [Shimodaira (2000)] • 元ドメインと目標ドメインでラベル付けルールが共通 PS(Y | X) = PT(Y | X) • 重要度重み付き ERM で効果的にモデルの学習が可能 (詳細は後述) K. Matsui (RIKEN AIP) Transfer Learning Survey Foundations of Transfer Learning 44 / 180
  • 48. When to Transfer : 転移仮定 ii ドメインの “類似” をより積極的にモデリングする 例 ii: ターゲットシフト [Zhang+ (2013), Redko+ (2019)] • 元ドメインと目標ドメインで入力分布が共通 PS(X | Y) = PT(X | Y) • ドメイン毎にクラスバランスが異なる状況を想定 • [Redko+ (2018)] では最適輸送を使って効果的なモデルの学習を実現 (Fig) ただし一般には最適輸送はこのような問題は苦手 (輸送前と後でラベル を保存するため) K. Matsui (RIKEN AIP) Transfer Learning Survey Foundations of Transfer Learning 45 / 180
  • 49. When to Transfer : 転移仮定 iii ドメインの “類似” をより積極的にモデリングする 例 iii: 共通の隠れ空間の存在 [Duan+ (2012), Iwata&Yamada (2014)] Latent space D ' ^ / : , D W1 ↙ ↘ W2 D ' ^ / : , D ' ^ / : , Observed view 1 Observed view 2 ( ) • 適当な射影によって homogeneous な空間に落とせる (左) • 隠れ空間からの写像によって様々な表現が観測される (右) K. Matsui (RIKEN AIP) Transfer Learning Survey Foundations of Transfer Learning 46 / 180
  • 50. When to Transfer : 負転移 ドメインバイアスとも呼ばれる (メタ学習の文脈) • 2 つのシナリオ 1. 一方のドメインのみで学習したモデルを目標タスクで用いる 2. 転移学習によって学習したモデルを目標タスクで用いる で (2 の目標タスク性能) ≤ (1 の目標タスク性能) のとき負 転移 (negative transfer) という • 2 つのドメインが乖離しているほど負転移が発生しやすい 1.0 0.2 0.4 0.6 0.8 0.0 1.0 0.2 0.4 0.6 0.8 0.0 AUC AUC The number of target training casesThe number of target training cases (a) (b) source only transfer target only source only transfer target only K. Matsui (RIKEN AIP) Transfer Learning Survey Foundations of Transfer Learning 47 / 180
  • 51. Paradigm Shift in Transfer Learning via Deep Learning
  • 52. 深層学習の登場は転移学習をどう変えたか? • 転移学習の観点では, 表現学習としての深層学習の発展が 大きなポイント • これまでマニュアルで設計していた特徴量をネットワーク が自然に獲得 • 転移学習においては, データから各ドメインに関する特徴 の抽出も可能になった • ドメイン不変な特徴量はそのまま転移可能 • 特徴を独立な成分に分解し, ドメイン間で共有されている 成分は転移し, 異なっている成分は転移しない (disentangled representation, 後述) K. Matsui (RIKEN AIP) Transfer Learning Survey Paradigm Shift in Transfer Learning via Deep Learning 48 / 180
  • 53. 深層ニューラルネットによる特徴表現の獲得– 1 week for training • 5 conv. layers + 3 fully connected layers Layer 5 – 2 GPUs – 1 week for training conv. layers + 3 fully connected layers 13 Conv 1 : EdgeColor Conv 3 : Texture Conv 5 : Object Parts FC 8 : Object Classes AlexNet [Krizhevski+ (NIPS12)] Fig : Ushiku, ACML2019 Tutorial ZeilerFergus, ECCV2014 K. Matsui (RIKEN AIP) Transfer Learning Survey Paradigm Shift in Transfer Learning via Deep Learning 49 / 180
  • 54. 転移学習としての表現学習 output y1 output y3output y2 Fig: [Bengio+ (2013)] • ドメイン不変な特徴を獲得する • オートエンコーダや敵対的学習 (後述) などが良く用いられる K. Matsui (RIKEN AIP) Transfer Learning Survey Paradigm Shift in Transfer Learning via Deep Learning 50 / 180
  • 55. オートエンコーダによる表現学習 Transfer Learning with Deep Autoencoders [Zhuang+ (2015)] • オートエンコーダによる教師付き表現学習 min Err(x, ˆx) reconstruction error +α (KL(PS||PT) + KL(PT||PS)) discrepancy +β ℓ(yS; θ, ξS) softmax loss +γReg • 元ドメインと目標ドメインで encoding 層と decoding 層の重みを共有 K. Matsui (RIKEN AIP) Transfer Learning Survey Paradigm Shift in Transfer Learning via Deep Learning 51 / 180
  • 56. 敵対的学習による表現学習 Domain Adversarial Training [Ganin+ (2016)] ptrue(X) pz(z) G(z; θg) pg(X) D(x; θd) xo xf PS(X) PT (X) D(x; θd) xS xT G(·; θE) φS φT • 敵対的学習 (左図) をドメイン適応に応用 (右図) • ドメイン不変な特徴表現の学習が目的 K. Matsui (RIKEN AIP) Transfer Learning Survey Paradigm Shift in Transfer Learning via Deep Learning 52 / 180
  • 57. 敵対的学習による表現学習 ii Domain Adversarial Training [Ganin+ (2016)] • 入力データを特徴抽出器に噛ませ, クラスラベルの識別器 (通常の識別 器, 上段) とドメインラベルの識別器 (下段) にそれぞれ入力 • ドメイン識別器の学習は gradient に負定数をかけ逆伝播する gradient reversal layer を導入することで実現 K. Matsui (RIKEN AIP) Transfer Learning Survey Paradigm Shift in Transfer Learning via Deep Learning 53 / 180
  • 58. ドメインの類似と相違の獲得 i Domain Separation Networks [Bousmalis+ (2016)] • ドメインの “違い” をネットワークに学習させる • private encoder でドメイン固有の特徴を学習し, shared encoder でド メイン横断的な特徴を学習する K. Matsui (RIKEN AIP) Transfer Learning Survey Paradigm Shift in Transfer Learning via Deep Learning 54 / 180
  • 59. ドメインの類似と相違の獲得 ii 定式化 : 4 つの損失関数の重み付き和を最小化 min L = Ltask + αLrecon + βLdiff + γLsim • 第 1 項は判別誤差 (負の対数尤度) Lclass = − ∑ i yS i log ˆyS i • 第 2 項は元の特徴と変換後の特徴の再構築誤差 Lrecon = ∑ i ℓ(xS i , ˆx S i ) + ∑ j ℓ(xT j , ˆx T j ), ℓ(x, ˆx) = 1 k ∥x − ˆx∥2 − 1 k2 ((x − ˆx)⊤ 1)2 • 第 3 項はドメイン共有の特徴とドメイン固有の特徴を直交方向に学習 させる Ldifference = Hs⊤ c Hs p 2 F + Ht⊤ c Ht p 2 F • 第 4 項はドメインの類似性に関する誤差 e.g. 交差エントロピー ∑ ˆ ( ˆ ) K. Matsui (RIKEN AIP) Transfer Learning Survey Paradigm Shift in Transfer Learning via Deep Learning 55 / 180
  • 60. Disentangled Representation i もつれのない表現 [Achille+ (2018), Locatello+ (2019),...] • データが独立な複数の構成要素からなる場合にその独立成 分を個別に取り出すような特徴表現 • 特に複数のドメイン間での転移可能性に重きが置かれる Fig : Evaluating the Unsupervised Learning of Disentangled Representations K. Matsui (RIKEN AIP) Transfer Learning Survey Paradigm Shift in Transfer Learning via Deep Learning 56 / 180
  • 61. Disentangled Representation ii Disentangled Representation の学習: 変分オートエンコーダ (VAE) X qφ(z | X) pθ(X | z) ˆXz ∼ N(0, I) β-VAE [Higgins+ (2017)] ベースの方法が多数提案されている Lβ = 1 N N∑ n=1 (Eq [log p (xn|z)] − β KL (q (z|xn) ∥p(z))) • β = 1 が通常の VAE • β 1 とすることで第 2 項の罰則が学習に大きく寄与し, disentangled representation が獲得されやすくなる. • ただし β のチューニングに sensitive K. Matsui (RIKEN AIP) Transfer Learning Survey Paradigm Shift in Transfer Learning via Deep Learning 57 / 180
  • 62. Disentangled Representation iii β-VAE β-TCVAE Gender (-6, 6)female male Fig : [Chen+ 2018]β-TCVAE [Chen+ (2018)] Lβ−TC =Eq(z|n)p(n)[log p(n | z)] − αIq(z; n) − β KL ( q(z) ∏ q ( zj ) ) − γ ∑ KL ( q ( zj ) ∥p ( zj )) • VAE の第 2 項をさらに分解し項別に重み付け (α と γ は 1 で固定) • 第 3 項は total correlation と呼ばれ, この項へのペナルティが独 立な表現の獲得に大きく寄与する K. Matsui (RIKEN AIP) Transfer Learning Survey Paradigm Shift in Transfer Learning via Deep Learning 58 / 180
  • 63. Disentangled Representation iv 任意の生成モデルに対して, disentangled representation を教師なし 学習することは可能なのか? → モデル or データセットに inductive bias がなければ無理 Theorem 1 (教師なし学習不可能性 Locatello+ (2019)) d 1 として, r.v. z が従う分布 P の密度関数が p(z) = ∏d i=1 p(zi) と書けるとする. このとき, ある全単射 f : supp(z) → supp(z) の族が存在し, 1. ∂fi(u) ∂uj ̸= 0 a.e. ∀i, j 2. P(z ≤ u) = P(f(z) ≤ u), ∀u ∈ supp(z) 1 → z と f(z) は completely entangled 2 → z と f(z) は同じ周辺分布を持つ K. Matsui (RIKEN AIP) Transfer Learning Survey Paradigm Shift in Transfer Learning via Deep Learning 59 / 180
  • 64. Disentangled Representation v cf : Independent Component Analysis (独立成分分析, ICA) Fig : [Tharwat 2018] • 観測されるデータは, 独立な複数の発生源からのシグナル の混合であると考える • 単一ドメインにおける ある種の disentangled representation (表現の転移は基本的に考えない) ← 線形 ICA の場合 K. Matsui (RIKEN AIP) Transfer Learning Survey Paradigm Shift in Transfer Learning via Deep Learning 60 / 180
  • 65. Disentangled Representation vi cf : 非線形 ICA (Disentangled Representation との違いは???) • 真のシグナル (潜在変数) に非線形変換 がかかったものが データとして観測される • データから真の潜在変数を復元可能か? 復元の不可能性 [HyvärinenPajunen (1999)] 観測 x に対して, y = g(x) で定まる復元 y の各成分が独立にな るような変換 g が (常に) 存在する. ただしこの復元は一意に は定まらない → 独立性だけでは非線形 ICA はできない 復元のアイデア: contrastive learning [Hyvärinen+ (2018)] • 異なる複数の分布 (ドメインに相当) を識別するモデルを 学習する • ドメインラベルが正しく識別されるモデルの中間層で真の 潜在表現の extractor が獲得される K. Matsui (RIKEN AIP) Transfer Learning Survey Paradigm Shift in Transfer Learning via Deep Learning 61 / 180
  • 66. Related Fields of Transfer Learning
  • 67. Multi-Task Learning 複数の類似タスクを各タスクの情報を共有しながら同時学習 Fig: [Ruder (2017)] • NN の場合, ネットワークの構造を工夫してタスク間でパラ メータを共有する (上図) • 非 NN の場合, 各タスクのパラメータが近くなるような正 則化をかける (下式 3 項目): min θ1,...,θT 1 2 T∑ t=1 n∑ i=1 (fθt (xi) − yi)2 loss + 1 2 T∑ t=1 λt∥θt∥2 inner−task + 1 4 T∑ t,t′=1 γt,t′ ∥θt − θt′ ∥2 inter−task K. Matsui (RIKEN AIP) Transfer Learning Survey Related Fields of Transfer Learning 62 / 180
  • 68. Multi-View Learning i Fig: [Xu+ (2013)] 同じものが別の見え方で観測される K. Matsui (RIKEN AIP) Transfer Learning Survey Related Fields of Transfer Learning 63 / 180
  • 69. Multi-View Learning ii Principles for Multi-view Learning [Xu+ (2013)] 1. Consensus Principle [Dasgupta+ (2002)] Pr(f1 ̸= f2 ) ≥ max{Prerr(f1 ), Prerr(f2 )} • 2 通りの view に対する独立な仮説 f1 , f2 の誤差はこれらの 仮説が不一致である確率で上から抑えられる • co-regularization 型の手法: 予測損失 +consensus 正則化 ∑ L(yi, f(xi)) loss + ∑ (f1 (xi) − f2 (xi))2 regularization 2. Complementary Principle • 各 view は他の view がもたない情報を含む • 複数の view からデータの情報を補完して学習の性能を向 上させることができる → co-training 型の手法 K. Matsui (RIKEN AIP) Transfer Learning Survey Related Fields of Transfer Learning 64 / 180
  • 70. Multi-View Learning iii Multi-view discriminant transfer (MDT) [YangGao (2013)] • 元ドメイン: {(xS i , zS i , yS i )} (2 views, ラベルありデータ) • 目標ドメイン: {(xT j , zT j )} (2 views ラベルなしデータ) Task: 目標ドメインデータのラベル yT j を当てる MDT の学習問題 max ξ ξ⊤Qξ ξ⊤Pξ ⇔ Qξ = λPξ (generalized eigenvalue problem) • P : view-wise within-class covariance • Q = Qw − c1Qd − c2Qc • Qw : between-class covariance に対応 • Qd : domain discrepancy に対応 • Qc : view consistency に対応 K. Matsui (RIKEN AIP) Transfer Learning Survey Related Fields of Transfer Learning 65 / 180
  • 71. Meta-Learning i •  •  • stacked generalization • Model-Agnostic Meta-Learning (MAML) [Finn+ (2017)] • Task embedding (TASK2VEC) [Achille+ (2019)] K. Matsui (RIKEN AIP) Transfer Learning Survey Related Fields of Transfer Learning 66 / 180
  • 72. Meta-Learning ii : Stacked Generalization •  •  •  • 様々なアルゴリズムで仮説を学習し, その出力を入力とする上位の仮説 をさらに学習 • kaggle 等のコンペで強力なアプローチとして普及 K. Matsui (RIKEN AIP) Transfer Learning Survey Related Fields of Transfer Learning 67 / 180
  • 73. Meta-Learning iii : Model-Agnostic Meta-Learning (MAML) 様々なタスクに共通に “良い初期値” を学習する Fig: [Finn+ (2017)] • パラメータ θ を勾配法の更新則によって異なるタスクに適応させる: θ′ i ← θ − α∇θLTi (fθ) ここで Ti は目標タスク, fθ はモデル, L は損失関数 • タスクの出現の仕方に関して SGD で適切なパラメータを学習: θ ← θ − β∇θ ∑ Ti∼p(T) LTi (fθ′ i ) 少ない更新回数で新たなタスクに適応できるようにパラメータを学習 K. Matsui (RIKEN AIP) Transfer Learning Survey Related Fields of Transfer Learning 68 / 180
  • 74. Meta-Learning iv : Task Embedding (TASK2VEC) Fig: [Achille+ (2019)] • 学習済み NN の Fisher 情報行列を使ってタスクのベクトル 表現を獲得 → タスク間の類似度計算が可能に • タスク間の類似度からタスク毎の適切な特徴抽出機を予測 K. Matsui (RIKEN AIP) Transfer Learning Survey Related Fields of Transfer Learning 69 / 180
  • 75. Learning to Optimize i Fig : Learning to Optimize with Reinforcement Learning £ 機械学習の成功は (データからのパターンの自動抽出のような) デ ータ駆動の考え方に依るところが大きい £ しかし学習アルゴリズムの設計は依然として人手に依っている → 学習アルゴリズムは学習可能? K. Matsui (RIKEN AIP) Transfer Learning Survey Related Fields of Transfer Learning 70 / 180
  • 76. Learning to Optimize ii [LiMalik ICLR2017] State Action Cost Policy f(x(i) ) Fig : Learning to Optimize with Reinforcement Learning • π の選び方によって最適化アルゴリズムが変わる → π の学習 = 最適化アルゴリズムの学習とみなせる • ある最適化アルゴリズムの実行はある固定された方策 π の下で MDP を実行する操作とみなせるみなせる → 強化学習 (Guided Policy Search) によって方策 π を学習 K. Matsui (RIKEN AIP) Transfer Learning Survey Related Fields of Transfer Learning 71 / 180
  • 77. Learning to Learn i £ 多くの文献でlearning to learn = メタ学習 とされている £ 人間の • “あるタスクに対する能力を別の新規タスクに汎化する” 能力 • “汎化のために必要な経験 · 例 · 反復回数などを学習する” 能力 を計算機上で実現したい £ Learning to Optimize with Reinforcement Learning によれば, Learning to Optimize で損失関数を目的関数とした場合に相当 £ 学習するメタ知識の種類に応じて 3 種類に大別 1. Learning What to Learn [ThrunPratt (2012)] 2. Learning Which Model to Learn [Brazdil (2008)] 3. Learning How to Learn [LiMalik (2017), Andrychowicz+ (2016)] K. Matsui (RIKEN AIP) Transfer Learning Survey Related Fields of Transfer Learning 72 / 180
  • 78. Learning to Learn ii Learning to learn by gradient descent by gradient descent [Andrychowicz+ (2016)] Optimizee Optimizer t-2 t-1 t m m m + + + ft-1 ftft-2 ∇t-2 ∇t-1 ∇t ht-2 ht-1 ht ht+1 gt-1 gt θt-2 θt-1 θt θt+1 gt-2 • DNN の optimizer (SGD, RMSprop, ADAM...) の更新則を学習 • パラメータ ϕ で optimizer をパラメトリックモデリング: θt+1 = θt + gt(∇f(θt), ϕ) • ϕ に関する損失関数を最小化: L(ϕ) = Ef [f (θ∗ (f, ϕ))] K. Matsui (RIKEN AIP) Transfer Learning Survey Related Fields of Transfer Learning 73 / 180
  • 79. Few-shot Learning i Fig: [HariharanGirshick (2017)] • 興味あるタスク (目標ドメイン) のラベル付きデータが少数 (few) • one-shot : ラベル付きデータが 1 例のみ • zero-shot : ラベル付きデータ無し • 特に Zero-shot の場合は訓練時に見たことのないラベルをもつテスト データを扱う. ラベルそのものは観測できないが, ラベルについての補 助情報が学習可能という設定 K. Matsui (RIKEN AIP) Transfer Learning Survey Related Fields of Transfer Learning 74 / 180
  • 80. Few-shot Learning ii Matching Networks [Vinyals+ (2016)] • one-shot learning において, 元ドメインデータ S = {(xi, yi)} が与えら れたとき目標データ x のラベル y の予測分布を NN で学習 P(y|x, S) = k∑ i=1 a (x, xi) yi • ニューラル機械翻訳の文脈での単語アラインメントモデルに対応 cf [Bahdanau+ (2015)] 3.1 節 K. Matsui (RIKEN AIP) Transfer Learning Survey Related Fields of Transfer Learning 75 / 180
  • 81. メタ強化学習 i 過去のタスクの知見を使って新たな強化学習タスクを高速に 解く. • 学習者はタスク分布 P(T ) を持っていて, そこからのサンプ リングができるという設定 • 同じタスク分布からサンプリングされた新しいタスクに対 しては高速に適応する • 最近の meta-RL では特に, タスク = マルコフ決定過程 (MDP) としている アプローチ 方策を事前学習しておき, few-shot で現在のタスクに適応させ る [Wang+ (2016), Finn + (2017)] K. Matsui (RIKEN AIP) Transfer Learning Survey Related Fields of Transfer Learning 76 / 180
  • 82. メタ強化学習 ii Model-Agnostic Meta-Learning (MAML) [Finn+ (2017)] • MAML を RL に適用 • 損失関数として期待リワードを取る: LTi (fθ) = −Ext,at∼fϕ,qτi [ H∑ t=1 Ri (xt, at) ] • fθ : 方策関数 • Ri : タスク Ti におけるリワード関数 • 勾配法でパラメータ θ を最適化 (ただし期待リワードは一 般に微分不可能なので方策勾配を取る) K. Matsui (RIKEN AIP) Transfer Learning Survey Related Fields of Transfer Learning 77 / 180
  • 83. Sim2Real Training Test Fig : [Tobin+ 2017] • コストのかかる方策の学習をシミュレータ内で行い, 現実 の問題に転移 • シミュレータ側の精度向上が背景 K. Matsui (RIKEN AIP) Transfer Learning Survey Related Fields of Transfer Learning 78 / 180
  • 84. Domain Randomization Fig: [Tobin+ (2017)] シミュレータのパラメータにランダムな摂動を加えて多様性を 持たせ, 目標ドメイン (現実の問題) を包含してしまうような元 ドメインを作る → 内挿問題化してしまおうという気分 K. Matsui (RIKEN AIP) Transfer Learning Survey Related Fields of Transfer Learning 79 / 180
  • 85. Topics in Transfer Learning
  • 86. Feature Augmentation i 元ドメインと目標ドメインの特徴ベクトルを統合して学習する Frustratingly Easy Domain Adaptation [Daumé (2007)] • 教師付き転移学習の方法 • 入力ベクトルを, ドメイン不変, 元ドメイン固有, 目標ドメ イン固有の 3 パートに対応するベクトルに変換: xS → ψS = (xS, xS, 0) xT → ψT = (xT, 0, xT) • ψS, ψT は同一次元のベクトルなので, 後は統合して教師付 き学習 K. Matsui (RIKEN AIP) Transfer Learning Survey Topics in Transfer Learning 80 / 180
  • 87. Feature Augmentation ii Learning with Augmented Features [Duan+ (2012)] • Frustratingly Easy method + 共通空間への射影 xS → ψS = (PxS, xS, 0) xT → ψT = (QxT, 0, xT) P, Q は射影行列 • SVM のモデルパラメータと射影行列を同時に学習: min P,Q min w,b,ξi,ξi 1 2 ∥w∥2 + C ( ns∑ i=1 ξs i + nt∑ i=1 ξt i ) s.t. ys i ( w⊤ψs ( xs i ) + b ) ≥ 1 − ξs i , ξs i ≥ 0 yt i ( w⊤ψt ( xt i ) + b ) ≥ 1 − ξt i , ξt i ≥ 0 ∥P∥2 F ≤ λp, ∥Q∥2 F ≤ λq ∥ · ∥F は行列のフロベニウスノルム K. Matsui (RIKEN AIP) Transfer Learning Survey Topics in Transfer Learning 81 / 180
  • 88. Pseudo Labeling for Target Data i 教師なし転移学習において, 目標ドメインのラベル無しデータに擬似ラベル をつけて学習をすることで目標タスクの性能向上を図る • Self-training [Chen+ (2011)] • Co-training [Chen+ (2011)] • Tri-training [Saito+ (2017)] 疑似ラベル学習とエントロピー正則化の等価性 [Lee+ (2013)] L = 1 n n∑ i=1 ℓ (yi, h(xi; θ)) loss for labeled data +α(t) 1 n′ n′ ∑ j=1 ℓ ( y′ j , h(x′ j ; θ) ) loss for unlabeled data C(θ, λ) = n∑ i=1 log P (yi | xi; θ) + λ 1 n′ n′ ∑ j=1 P ( y = 1 | x′ j , θ ) log P ( y = 1 | x′ j , θ ) entropy regularization 上段: 疑似ラベル学習の目的関数, 下段: エントロピー正則化付き学習の目的 関数. 各項が対応関係にある. K. Matsui (RIKEN AIP) Transfer Learning Survey Topics in Transfer Learning 82 / 180
  • 89. Pseudo Labeling for Target Data ii Asymmetric Tri-training [Saito+ (2017)] K. Matsui (RIKEN AIP) Transfer Learning Survey Topics in Transfer Learning 83 / 180
  • 90. Domain Selection i DS1 = {{(xS1 i , yS1 i )} nS1 i=1 , PS1 } DS2 = {{(xS2 i , yS2 i )} nS2 i=1 , PS2 } DSK = {{(xSK i , ySK i )} nSK i=1 , PSK } DT = {{xT i }nT i=1, PT } • 複数の元ドメインから目標タスクに寄与するものを選択したい • ドメイン間の不一致度や目標ドメインのタスク性能を指標に選択 K. Matsui (RIKEN AIP) Transfer Learning Survey Topics in Transfer Learning 84 / 180
  • 91. Domain Selection ii 不一致度と相補性に基づく元ドメイン選択 [Bhatt+ (2016)] T S1 S2 S3 S4 Disc(T, S1) ≤ Disc(T, S2) ≤ Disc(T, S3) ≤ Disc(T, S4) 1. 元ドメインを目標ドメインとの不一致度の大きさでランキング 2. 上位から, 既に選ばれたドメインと相補的になるように次を選択: 上図の例では S1 → S3 → S4 (S2 は選択しない) K. Matsui (RIKEN AIP) Transfer Learning Survey Topics in Transfer Learning 85 / 180
  • 92. Knowledge Distillation i 学習済みモデル (予測性能高, 複雑度高) の性能をより規模が小 さく学習しやすいモデルに継承させたい アイデア 元ドメインタスクのモデルパラメータを記憶して転移する (パラメータ転移) 必要はなく, 入出力関係が記憶されていれば 良い → (ノンパラメトリックな) 関数として転移 • 定式化 [Hinton+ (2015), Kimura+ (2018)] : min fT λ1 N N∑ i=1 ℓ1(yi, fT(xi)) + λ2 N N∑ i=1 ℓ2(fS(xi), fT(xi)) • fS は学習済みモデル, fT は目標モデル • 第 1 項は目標モデルに対する通常の損失 • 第 2 項は学習済みモデルの予測と目標モデルの予測を近づけるた めの損失 K. Matsui (RIKEN AIP) Transfer Learning Survey Topics in Transfer Learning 86 / 180
  • 93. Knowledge Distillation ii Dark Knowledge An example of hard and soft targets 0 1 0 0 .9 .1 .05 .3 .2 .005 original hard targets output of geometric ensemble softened output of ensemble dog dog cat cow cat car 10 −910 −6 Softened outputs reveal the dark knowledge in the ensemble. cow car dog catcow car Fig : [Hinton+ (2014)] K. Matsui (RIKEN AIP) Transfer Learning Survey Topics in Transfer Learning 87 / 180
  • 94. Knowledge Distillation iii Born-Again Neurak Networks (BANs) Born-Again Neurak Networks [Furlanello+ (2018)] • 教師モデルと全く同じ構造の生徒モデルを複数学習しアンサンブルす ることで教師モデルを上回る性能のモデルが学習可能 • BANs の学習問題: シーケンシャルに以下の output matching を解く min θk L(f(x, arg min θk−1 L(y, f(x, θk−1))), f(x, θk)) • BANs Ensemble: 学習したモデルのアンサンブルで予測 ˆfk (x) = 1 k k∑ i=1 f(x, θi) K. Matsui (RIKEN AIP) Transfer Learning Survey Topics in Transfer Learning 88 / 180
  • 95. Catastrophic Forgetting i ニューラルネットが新規タスクを学習すると, 以前学習したタ スクの情報を忘れてしまう現象 [McCloskeyCohen (1989)] → 以前のタスクに対するパフォーマンスが低下 Example 1 (fine-tuning) 目標ドメインで出力層の再学習を行うとき, 誤差逆伝播法に よって元ドメインで学習したパラメータが破壊されてしまう … 1000 … 20 Fine-tuning L∇ ( )iiL yx , K. Matsui (RIKEN AIP) Transfer Learning Survey Topics in Transfer Learning 89 / 180
  • 96. Catastrophic Forgetting ii 対策 • Learning without forgetting [LiHoiem (2018)] • タスク間で共通のパラメータ θS • 元タスク固有のパラメータ θo • 目標タスク固有のパラメータ θn を用意して, 以下の最適化問題を解く (蒸留を使った定式化) min θS,θo,θn λo Lold(Yold, ˆYold) loss for old task + Lnew(Ynew, ˆYnew) loss for new task + R(θS, θo, θn) regularization • Elastic weight consolidation [Kirkpatrick+ (2017)] L(θ) = LB(θ) + i λ 2 Fi θi − θ∗ A,i 2 θ • 両タスクで error が小さくなるようなパ ラメータ空間の領域に入るように正則化 • 通常の L2 正則化に情報行列で重み付け K. Matsui (RIKEN AIP) Transfer Learning Survey Topics in Transfer Learning 90 / 180
  • 97. (Conditional) Neural Processes i Fig : [Kim+ (2019)] • 条件付き分布 p(y | x, Z, θ) の深層生成モデル [Garnelo+ 2018] • x : target input • Z = {(xi, yi)}M m=1 : context set • θ : model parameters • GP 回帰の事前知識を入れられる·予測の不確実性を評価で きる機能と NN の高い予測性能の良いとこ取りをしたい K. Matsui (RIKEN AIP) Transfer Learning Survey Topics in Transfer Learning 91 / 180
  • 98. (Conditional) Neural Processes ii x1 y1 x2 y2 x3 y3 MLPθ MLPθ MLPθ MLPΨ MLPΨ MLPΨ r1 r2 r3 s1 s2 s3 rCm m sC x rC ~ MLP y ENCODER DECODER Deterministic Path Latent Path NEURAL PROCESS m Mean z z * * x1 y1 x2 y2 x3 y3 MLP MLP MLP MLP MLP MLP r1 r2 r3 s1 s2 s3 m sC x ~ MLP y ENCODER DECODER Deterministic Path Latent Path Self- attnϕ Self- attnω Cross- attention x1 x2 x3 x r r ATTENTIVE NEURAL PROCESS m Mean Keys Query Values z z * * * * * Fig : [Kim+ (2019)] • ネットワーク構造は VAE に近い (左図) encode→reparametrization→decode • GP のような入力間の類似度を評価するためのオプション e.g. attention mechanism [Kim+ (2019)] (右図) K. Matsui (RIKEN AIP) Transfer Learning Survey Topics in Transfer Learning 92 / 180
  • 99. (Conditional) Neural Processes iii メタ学習への応用 [Galashov+ (2019)] Bayesian optimization from meta-learning viewpoint GP などの事前分布からターゲット関数の類似物をサンプリン グ可能 → 事前分布として Neural process を使用 Algorithm 1 Bayesian Optimisation Input: f∗ - Target function of interest (= T ∗ ). D0 = {(x0, y0)} - Observed evaluations of f∗ . N - Maximum number of function iterations. Mθ - Model pre-trained on evaluations of similar functions f1, . . . fn ∼ p(T ). for n=1, ... , N do // Model-adaptation Optimise θ to improve M’s prediction on Dn−1. Thompson sampling: Draw ˆgn ∼ M, find xn = arg minx∈X E ˆg(y|x) Evaluate target function and save result. Dn ← Dn−1 ∪ {(xn, f∗ (xn))} end for K. Matsui (RIKEN AIP) Transfer Learning Survey Topics in Transfer Learning 93 / 180
  • 100. (Conditional) Neural Processes iv メタ学習への応用 [Galashov+ (2019)] モデル M のサンプリングに neural process を用いる理由 1. statistical efficiency 少ない context point 数で正確に関数値評価が可能 2. calibrated uncertainties 探索と活用のバランス (モデルの不確実性評価) 3. 推論時の計算量が O(n + m) (サンプルサイズの線形オーダ ー, オリジナルの NP の場合) 4. non-parametric modeling → MAML のような推論時の学習率 · 更新頻度などのハイパ ラ設定が不要 K. Matsui (RIKEN AIP) Transfer Learning Survey Topics in Transfer Learning 94 / 180
  • 101. (Conditional) Neural Processes v メタ学習への応用 [Galashov+ (2019)] Adversarial task search for RL agents [Ruderman+ 2018] Task (p∗ s, p∗ g) = argminps,pg fA(M, ps, pg) (M∗ , p∗ s, p∗ g) = argminM,ps,pg fA(M, ps, pg) 3 1. Position search: 2. Full maze search: •  •  •  •  fA M ps, pg K. Matsui (RIKEN AIP) Transfer Learning Survey Topics in Transfer Learning 95 / 180
  • 102. 能動学習のための転移学習 i Regret Bounds for Transfer Learning in Bayesian Optimisation [Shilton+ (2017)] • 材料科学などの “実験” を伴う分野はデータ数が少ないこ とに加えてデータ取得コストが非常に大きい → 実験計画 (能動学習) でデータの取得方針を最適化 • 一方, “実験” の大きな特徴として設定の異なる実験群を通 じて対象に関する知識が蓄積される → “よく似た実験”のデータが活用できる可能性がある 目的: ベイズ最適化に対して転移学習で別リソースからの知識を活 用する K. Matsui (RIKEN AIP) Transfer Learning Survey Topics in Transfer Learning 96 / 180
  • 103. 能動学習のための転移学習 ii アプローチ f’ f σS Env-GP f’ f ∆f f’+∆f Diff-GP • Env-GP : 元ドメインのデータを目標ドメインのデータと思 って使う (観測ノイズを十分大きく取ると, 目標ドメインの 関数からのサンプルとみなせる) • Diff-GP : 元ドメインの目的関数と目標ドメインの目的関数 のギャップを直接ガウス過程でモデリング K. Matsui (RIKEN AIP) Transfer Learning Survey Topics in Transfer Learning 97 / 180
  • 104. 能動学習のための転移学習 iii 応用: 適応的マッピング [穂積 + (2019)] K. Matsui (RIKEN AIP) Transfer Learning Survey Topics in Transfer Learning 98 / 180
  • 105. BERT [Devlin+ (2018)] Bidirectional Encoder Representations from Transformers • NLP における言語モデルの pre-training • BooksCorpus (800M words) + Eng. Wikipedia (2500M words) をコーパス として使用 • fine-tuning によって様々なタスクで高い性能を発揮 K. Matsui (RIKEN AIP) Transfer Learning Survey Topics in Transfer Learning 99 / 180
  • 106. Rethinking ImageNet Pre-training [He+ 2018] pre-training fine-tuning は本当に必要? • COCO dataset の学習で • ランダム初期化から学習したモデル • ImageNet で事前学習したモデル を比較したところ, comparable な結果を得た K. Matsui (RIKEN AIP) Transfer Learning Survey Topics in Transfer Learning 100 / 180
  • 107. Taskonomy: Disentangling Task Transfer Learning [Zamir+ 2018] taskonomy (task taxonomy) • 26 種類の画像関連タスクを総当 たりして相性の良い元ドメイン · 目標ドメインの組を見つける • タスク間の関係 (転移可能性) を 有効ハイパーグラフ (taskonomy, 左図) として可視化 • 400 万枚の画像に対して全ての タスクに対応するアノテーショ ンをつけたデータセットを作成 し実施 K. Matsui (RIKEN AIP) Transfer Learning Survey Topics in Transfer Learning 101 / 180
  • 108. Theory of Transfer Learning (Instance Transfer)
  • 109. 定式化 • 教師なし転移 · インスタンス転移の状況を想定 • 目標ドメインでの期待リスク最小化がしたい: RT(h) = E(X,Y)∼PT(X,Y)[ℓ(h(X), Y)] → min • 目標ドメインにラベル情報がないため, 元ドメインのラベ ル付きデータを活用する • 主に 2 通りのアプローチ 1. 確率密度比に基づく評価 2. 確率分布の不一致度 (discrepancy) に基づく評価 K. Matsui (RIKEN AIP) Transfer Learning Survey Theory of Transfer Learning (Instance Transfer) 102 / 180
  • 110. 確率密度比に基づく方法: 重要度重み付き学習 i 転移仮定 • 共変量シフト: PT(Y | X) = PS(Y | X) • 絶対連続性: PT(X) ≪ PS(X) このとき, 目標ドメインの期待リスクは元ドメインの重み付き期待リスクと して書ける: RT(h) = E(X,Y)∼PT(X,Y)[ℓ(h(X), Y)] = ∫ ∫ (x,y) ℓ(h(x), y)PT(x, y)d(x, y) = ∫ ∫ (x,y) ℓ(h(x), y) PT(y | x) =PS(y|x) PT(x) PS(x) PS(x) d(x, y) = ∫ ∫ (x,y) ℓ(h(x), y) PS(y | x)PS(x) =PS(x,y) PT(x) PS(x) d(x, y) = ∫ ∫ (x,y) ℓ(h(x), y)PS(x, y) PT(x) PS(x) d(x, y) = E(X,Y)∼PS(X,Y) [ PT(X) PS(X) ℓ(h(X), Y) ] K. Matsui (RIKEN AIP) Transfer Learning Survey Theory of Transfer Learning (Instance Transfer) 103 / 180
  • 111. 確率密度比に基づく方法: 重要度重み付き学習 ii r(X) = PT(X) PS(X) とおく RT(h) = E(X,Y)∼PS(X,Y) [r(X)ℓ(h(X), Y)] ≈ 1 NS NS∑ i=1 ˆr(xi)ℓ(h(xi), yi) 結局, RT(h) を最小にする仮説 h は以下の 2 ステップのアルゴリ ズムで推定できる (重要度重み付き学習 [Sugiyama+ (2012)]) Step 1 密度比関数 r(x) を元ドメインと目標ドメインのラ ベル無しデータから推定 Step 2 ˆr(x) で重み付けをした元ドメインのラベル付きデ ータで仮説 h を学習 K. Matsui (RIKEN AIP) Transfer Learning Survey Theory of Transfer Learning (Instance Transfer) 104 / 180
  • 112. 確率密度比に基づく方法: 重要度重み付き学習 iii • 重要度重み付き学習は目標ドメインに近い元ドメインのイ ンスタンスに大きな重みを与えて仮説を学習 • 密度比関数は, 両ドメインのラベル無しデータから一致推 定量が構成可能 [Kanamori+ (2012)] • RT の大きさは, 重要度重み付き経験誤差の大きさと, 重要 度重みの推定誤差の大きさに依存 K. Matsui (RIKEN AIP) Transfer Learning Survey Theory of Transfer Learning (Instance Transfer) 105 / 180
  • 113. 拡張: 変数選択 + 重要度重み付き学習 i [M+ (2019)] • カーネル密度比推定は常に全変数が要求される → 問題によってはデータ取得コストがネックになる • 予め密度比に寄与する変数を選択し, それのみを使いたい 方法 : adaptive scaling + L1 正則化付き ERM min ξ∈[0,1]d L(fξ) + η∥ξ∥1, ˆfξ(z) = ˆf(ξ ◦ z) • ˆf は f の一致推定量 (カーネル密度比推定などで推定) • 発想は adaptive lasso に近い • ˆf の推定時に power series kernel を使えば ˆf と ˆfξ は同一の RKHS の元になる • 適当な条件の下で変数選択の一致性を保証 K. Matsui (RIKEN AIP) Transfer Learning Survey Theory of Transfer Learning (Instance Transfer) 106 / 180
  • 114. 拡張: 変数選択 + 重要度重み付き学習 ii [M+ (2019)] 実験: 共変量シフトの下での判別問題 Table 5: Comparison of classification accuracy kernel NNG Lasso SFS adapt full no adapt pcas 0.830 (13/17) 0.830 (17/17) 0.830 (12/17) 0.830 0.773 ckd 0.981 (8/17) 0.981 (17/17) 0.981 (16/17) 0.981 0.943 ccancer 0.884 (4/27) 0.879 (19/27) 0.879 (22/27) 0.879 0.884 cnuclear 0.634 (60/71) 0.599 (62/71) 0.603 (37/71) 0.619 0.587 • 正判別率と変数選択の割合を比較 (提案法, Lasso, 前向き漸 次的選択, 変数選択なし, 補正なし) K. Matsui (RIKEN AIP) Transfer Learning Survey Theory of Transfer Learning (Instance Transfer) 107 / 180
  • 115. 拡張: 変数選択 + 重要度重み付き学習 iii [M+ (2019)] 全変数で推定した密度比 vs 変数選択後の密度比 提案法は判別精度を落とさず密度比推定の精度も保つ K. Matsui (RIKEN AIP) Transfer Learning Survey Theory of Transfer Learning (Instance Transfer) 108 / 180
  • 116. 確率分布の不一致度に基づく方法 fT, fS をそれぞれ目標ドメイン, 元ドメインの真のラベル関数と する 目標リスクの典型的な上界の表現 RT(h, fT) ≤ RS(h, fS) + Disc(PT, PS) + Diff(fT, fS) • Disc : 元ドメインと目標ドメインの周辺分布の不一致度 • Diff : 元ドメインと目標ドメインのラベル関数の違い • 教師なし転移学習の場合, Diff を小さくする操作ができな い (目標ドメインのラベルがないため) • Disc をいかに小さく抑えられるかが RT を小さくするのに 本質的に重要 K. Matsui (RIKEN AIP) Transfer Learning Survey Theory of Transfer Learning (Instance Transfer) 109 / 180
  • 117. 確率分布の不一致度に基づく方法 i : H∆H-divergence • 2 値判別問題 • H∆H-divergence でドメインの不一致度を評価: dH∆H(DS, DT) = 2 sup h,h′ |PS(h(x) ̸= h′ (x)) − PT(h(x) ̸= h′ (x))| Theorem 2 (Ben-David+ (2010)) H を VC 次元 d の仮説空間とする. このとき任意の δ に対して 確率 1 − δ 以上で以下が成立 RPT (h, fT) ≤ RPS (h, fS) + 1 2 dH∆H(DS, DT) Disc +4 √ 2d log 2NT + log 2 δ NT + min h∈H RPT (h, fT) + RPS (h, fS) Diff K. Matsui (RIKEN AIP) Transfer Learning Survey Theory of Transfer Learning (Instance Transfer) 110 / 180
  • 118. 確率分布の不一致度に基づく方法 ii : Wasserstein distance 準備: 最適輸送問題 • (Ω, d) : 距離空間 • P(Ω) : Ω 上の確率測度 2 つの確率測度 PS, PT ∈ P(Ω) に対して, 一方から他方への輸送 コスト最小化問題を考える (Monge-Kantorovich 問題) arg min γ ∫ Ω1×Ω2 d(x, x′ )dγ(x, y) s.t. PΩ1 #γ = PT, PΩ2 #γ = PS • γ : PT と PS のカップリング測度 • d : Ω × Ω → R+ : Ω 上の距離 (輸送コスト) • PΩi #γ : γ の射影 PΩi による押し出し K. Matsui (RIKEN AIP) Transfer Learning Survey Theory of Transfer Learning (Instance Transfer) 111 / 180
  • 119. 確率分布の不一致度に基づく方法 ii : Wasserstein distance Definition 3 (Wasserstein 距離) W1(PT, PS) := inf γ∈ ∏ (PT,PS) ∫ Ω×Ω d(x, x′ )dγ(x, x′ ) ∏ (PT, PS) : PT, PS のカップリング測度の族 Theorem 3 (Kantrovich-Rubinstein 双対) W1(PT, PS) = sup f:1−Lipschitz EPT [f(x)] − EPS [f(x)] 特に, f が K-Lipschitz ならば EPT [f(x)] ≤ EPS [f(x)] + KW1(PT, PS) が成立 → RT(h) ≤ RS(h) + Wasserstein 距離 K. Matsui (RIKEN AIP) Transfer Learning Survey Theory of Transfer Learning (Instance Transfer) 112 / 180
  • 120. 確率分布の不一致度に基づく方法 ii : Wasserstein distance • 2 値判別 • 絶対値損失 ℓ(h(x) − y) = |h(x) − y| 転移仮定 • 共変量シフト: PT(Y | X) = PS(Y | X) Theorem 4 (Shen+ (2018)) h ∈ H : K-Lipschitz w.r.t. d に対して以下が成立: RT(h) ≤ RS(h) + 2KW1(PT, PS) + min h′ (RT(h′ ) + PS(h′ )) K. Matsui (RIKEN AIP) Transfer Learning Survey Theory of Transfer Learning (Instance Transfer) 113 / 180
  • 121. 既存の理論解析のまとめ ■ 密度比に基づいた方法 (✓) 理論評価がタイト (✓) 効率的なアルゴリズムがある (×) 共変量シフトの仮定がないと理論解析できない (×) 絶対連続性の仮定は応用ではしばしばみたされない → 仮定をみたすドメインを人手で選別する必要がある ■ 不一致度に基づいた方法 (✓) 絶対連続性の仮定がいらない (×) 共変量シフトの仮定がないと理論解析できない (×) 理論評価がタイトでない (PS = PT のとき上界と下界が一 致しない) K. Matsui (RIKEN AIP) Transfer Learning Survey Theory of Transfer Learning (Instance Transfer) 114 / 180
  • 122. Impossibility Theorems for Domain Adaptation
  • 123. 再掲: 教師なし DA の汎化誤差バウンド 目標リスクの典型的な上界の表現 RT(h, fT) ≤ RS(h, fS) + Disc(PT, PS) + Diff(fT, fS) • Disc : 元ドメインと目標ドメインの周辺分布の不一致度 • Diff : 元ドメインと目標ドメインのラベル関数の違い 例 (Ben-David+ (2010)) H を VC 次元 d の仮説空間とする. このとき任意の δ に対して 確率 1 − δ 以上で以下が成立 RPT (h, fT) ≤ RPS (h, fS) + 1 2 dH∆H(DS, DT) Disc +4 √ 2d log 2NT + log 2 δ NT + min h∈H RPT (h, fT) + RPS (h, fS) Diff K. Matsui (RIKEN AIP) Transfer Learning Survey Impossibility Theorems for Domain Adaptation 115 / 180
  • 124. 教師なしドメイン適応の必要条件 教師なし DA が成功するために必要な仮定は何か? Most Common Assumptions : • 共変量シフト PT(Y | X) = PS(Y | X) • 元ドメインと目標ドメインの入力の周辺分布の discrepancy が小さいこと Disc(PXT , PXS ) : small • 両方のドメインで誤差が小さくなるような共通の仮説が存 在すること λH = (Diff(fT, fS) =) minh∈H RS(h) + RT(h) : small これら 3 条件が理論的にも必要条件になっていることを示す → impossibility theorems K. Matsui (RIKEN AIP) Transfer Learning Survey Impossibility Theorems for Domain Adaptation 116 / 180
  • 125. 準備 i Domain Adaptation Learner Definition 4 (Domain Adaptation Learner) A : ∞∪ m=1 ∞∪ n=1 (X × {0, 1})m × Xn → {0, 1}X • “元ドメインのラベルありデータと目標ドメインのラベル なしデータから仮説を学習する” という写像 K. Matsui (RIKEN AIP) Transfer Learning Survey Impossibility Theorems for Domain Adaptation 117 / 180
  • 126. 準備 ii Learnability Definition 5 (Learnability) A (ε, δ, m, n)-learns PT from PS relative to H :⇐⇒ Pr S∼i.i.d(PS)m Tu∼i.i.d(PXT ) n [RT (A (S, Tu)) ≤ RT(H) + ε] ≥ 1 − δ • RT(H) = infh∈H RT(h) • S : 元ドメインのサイズ m のラベルありデータ • Tu : 目標ドメインのサイズ n のラベルなしデータ データの出方の確率分布に対して, A が学習した仮説の期待リスク ≤ H で達成可能な最小の期待リスク + ε が 1 − δ 以上の確率で成り立つこと K. Matsui (RIKEN AIP) Transfer Learning Survey Impossibility Theorems for Domain Adaptation 118 / 180
  • 127. Necessity Theorem i Theorem 5 (H∆H が小さいことの必要性 (Ben-David+ (2010))) ある B ⊂ A に対して, 集合 {h−1 (1) ∩ B | h ∈ H} は 2 つ以上の部分集 合を持ち, かつそれらは集合の包含関係で全順序付けられていると する. このとき, 任意の ε 0 に対して, ある元ドメイン上の同時分布 P0 S と目標ドメイン上の同時分布 P0 T が存在して, 以下を満たす: 任意の domain adaptation learner A と任意の整数 m, n 0 に対し て, あるラベル関数 f : X → {0, 1} が存在して 1. λH ε 2. P0 S と P0 T は共変量シフト条件を満たす 3. 期待リスクが確率 1 2 以上で大きい: Pr S∼i.i.d(P0 S)m Tu∼i.i.d(P0 XT ) n [ RTf (A(S, Tu)) ≥ 1 2 ] ≥ 1 2 K. Matsui (RIKEN AIP) Transfer Learning Survey Impossibility Theorems for Domain Adaptation 119 / 180
  • 128. Necessity Theorem ii Theorem 6 (λH が小さいことの必要性 (Ben-David+ (2010))) H を X 上の仮説集合で, VCdim(H) |X| とする. このとき, 任意の ε 0 に対して, ある元ドメイン上の同時分布 P0 S と目標ドメイン上の同時分布 P0 T が存在して, 以下を満たす: 任意の domain adaptation learner A と任意の整数 m, n 0 に対し て, あるラベル関数 f : X → {0, 1} が存在して 1. dH∆H(P0 XT , P0 XS ) ε 2. P0 S と P0 T は共変量シフト条件を満たす 3. 期待リスクが確率 1 2 以上で大きい: Pr S∼i.i.d(P0 S)m Tu∼i.i.d(P0 XT ) n [ RTf (A(S, Tu)) ≥ 1 2 ] ≥ 1 2 K. Matsui (RIKEN AIP) Transfer Learning Survey Impossibility Theorems for Domain Adaptation 120 / 180
  • 129. Necessity Theorem iii 定理の解釈 共変量シフトの仮定があっても, • 周辺分布の間の discrepancy が小さいこと • ideal hypothesis が存在すること のいずれかが欠ければ, 高い確率で期待リスクが大きくなって しまう K. Matsui (RIKEN AIP) Transfer Learning Survey Impossibility Theorems for Domain Adaptation 121 / 180
  • 130. Example [Ben-Davis+ (2010)] PS PT y = 1 y = 0 0 ξ 2ξ 3ξ 4ξ 5ξ 6ξ 7ξ 8ξ 9ξ 10ξ 11ξ • PS : {(2kξ, 1) | k ∈ N} 上の一様分布 (元ドメイン) • PT : {((2k + 1)ξ, 0) | k ∈ N} 上の一様分布 (目標ドメイン) • ξ ∈ (0, 1) は 2kξ, 2(k + 1)ξ ≤ 1 なる小さい数 (Fig : ξ = 2 23 ) • H = { ht(x) = { 1 x t 0 otherwise t ∈ [0, 1] } このとき, RT(H) = RS(H) = 0 で, 以下が成立: 1. PS, PT は共変量シフトを満たす 2. dH∆H(PT, PS) = ξ (discrepancy は小さい) 3. λH = 1 − ξ よって RT(h∗ S) ≥ 1 − ξ (目標リスクは大きい) K. Matsui (RIKEN AIP) Transfer Learning Survey Impossibility Theorems for Domain Adaptation 122 / 180
  • 131. Hardness Results i 準備 1 Definition 6 (DA learnability をちょっと modify) • W = {(PXS , PXT , f)} : 元ドメイン, 目標ドメインの周辺分布とラベル関数の三組 • A : domain adaptation learner • S = {(xs i , f(xs i ))}, xs i ∼i.i.d PXS (元ドメインデータ) • Tu = {xt i}, xt i ∼i.i.d PXT (目標ドメインデータ) A (ε, δ, m, n)-solves domain adaptation for class W :⇐⇒ Pr [RT (A (S, Tu)) ≤ ε] ≥ 1 − δ, ∀(PXS , PXT , f) ∈ W class W のどんな教師なし DA の設定が来ても, A は高い確率で 目標リスクが小さい仮説を学習できる K. Matsui (RIKEN AIP) Transfer Learning Survey Impossibility Theorems for Domain Adaptation 123 / 180
  • 132. Hardness Results ii 準備 2 Definition 7 (capacity of H to produce a zero-error classifier with margin γ) • X ⊂ Rd • DX : X 上の分布 • h : X → {0, 1} : 判別器 • Bγ(x) : 中心 x ∈ X, 半径 γ の ball h が DX に関して γ-margin の判別器 :⇐⇒ DX (Bγ(x)) 0, h(y) = h(z), ∀x ∈ X, ∀y, z ∈ Bγ(x) 同値な言い換え (h は DX の台上でリプシッツ): |h(y) − h(z)| ≤ 1 2γ ∥y − z∥, y, z ∈ supp(DX ) K. Matsui (RIKEN AIP) Transfer Learning Survey Impossibility Theorems for Domain Adaptation 124 / 180
  • 133. Hardness Results iii Theorem 7 ((Ben-DavidUrner (2012))) 任意の有限集合 X と ε + δ 1 2 を満たす任意の ε, δ 0 に対 して以下を仮定: m + n √ (1 − 2(ε + δ))|X|. このとき, • dH∆H(PXT , PXS ) = 0 • min h∈H RT(h, f) = 0 (h ≡ 1, h ≡ 0 ∈ H) • CB(PXS , PXT ) := inf B∈B,PXT (B)̸=0 PXS (B) PXT (B) ≥ 1 2 , B ⊂ 2X であるような教師なし DA のクラス W に対して, (PS, PT, f) ∈ W を (ε, δ, m, n)-solve するような DA learner A は存在しない K. Matsui (RIKEN AIP) Transfer Learning Survey Impossibility Theorems for Domain Adaptation 125 / 180
  • 134. Hardness Results iv 定理に関する Remark 仮定の解釈 (DA をするのに有利な設定) • Theorem 7では, 目標タスクに対して, “目標ドメインのラベ ルありデータが 1 点でもあれば誤差ゼロの仮説が学習可 能” という強い仮定 • また, 元ドメインと目標ドメインは discrepancy 及び密度 比どちらで図っても “似ている” ようなクラス Hardness の回避 [Ben-DavidUrner (2012)] Theorem 7で • X = [0, 1]d • ラベル関数 f : λ-リプシッツ のとき, m + n ≥ √ (1 − 2(ε + δ))(1 − λ)d が成り立てば hardness result の例外となる K. Matsui (RIKEN AIP) Transfer Learning Survey Impossibility Theorems for Domain Adaptation 126 / 180
  • 135. Usefulness of Unlabeled Data 目標ドメインのラベルなしデータは DA においてどの程度役に たっているのか? Theorem 8 ((Ben-DavidUrner (2012))) X = [0, 1]d , VCdim(H) +∞ とし, DA のクラス W を以下で定める: W = { (PS, PT, f) RT(H) = 0, CB(PXS , PXT ) ≥ 0 } . このとき, ∃c 1, ∀ε 0, δ 0, (PS, PT, f) ∈ W, 元ドメインと目標ド メインのサンプルサイズをそれぞれ m ≥ c [ VCdim(H) + log 1 δ CB(PXS , PXT )(1 − ε)ε log ( VCdim(H) CB(PXS , PXT )(1 − ε)ε )] n ≥ 1 ε ( 2|X| log 3|X| δ ) ととると, Pr[RT(A(S, Tu)) ≤ ε] ≥ 1 − δ が成立つ A が存在する K. Matsui (RIKEN AIP) Transfer Learning Survey Impossibility Theorems for Domain Adaptation 127 / 180
  • 136. Theory of Transfer Learning (Parameter Transfer)
  • 137. 定式化 Learning bound for parameter transfer learning [Kumagai (2016)] ■ 目標ドメインの設定 • パラメトリック特徴写像が存在 ψθ : XT → Rm, θ ∈ Θ, Θ ⊂ ノルム空間 with ∥ · ∥ • 仮説 hT ,θ,w(x) := ⟨w, ψθ(x)⟩ • 仮説集合 HT = {⟨w, ψθ(x)⟩ | (θ, w) ∈ Θ × WT } ■ 元ドメインの設定 • 生成分布または仮説集合がパラメトリック: • 生成分布の場合 PS = {PS,θ,w | (θ, w) ∈ Θ × WS} • 仮説集合の場合 HS = {hS,θ,w | (θ, w) ∈ Θ × WS} • 部分パラメータ空間 Θ が目標ドメインと共有されている • 有効なパラメータ (θ∗ S, w∗ S) が存在 K. Matsui (RIKEN AIP) Transfer Learning Survey Theory of Transfer Learning (Parameter Transfer) 128 / 180
  • 138. パラメータ転移学習のアルゴリズム 元ドメインの有効パラメータ θ∗ S を用いたときの目標ドメイン の最適パラメータ: w∗ T = arg min w∈WT RT (θ∗ S, w) target risk パラメータ転移アルゴリズム Step 1: θ∗ S の推定量 ˆθN を元ドメインで学習 (N はサンプルサイズ) Step 2: ˆθN を目標ドメインへ転移し以下の ERM を解く ˆwN,n = arg min w∈WT 1 n n∑ j=1 ℓ(yj, ⟨w, ψˆθN (xj)⟩) + ρr(w) K. Matsui (RIKEN AIP) Transfer Learning Survey Theory of Transfer Learning (Parameter Transfer) 129 / 180
  • 139. パラメータ転移学習の汎化誤差上界 i Definition 8 (局所安定性) ψθ が局所安定 :⇔ ∃εθ : XT → R0, ∃Lψ 0 s.t. ∥θ − θ′ ∥ ≤ εθ(x) ⇒ ∥ψθ(x) − ψθ′ (x)∥2 ≤ Lψ∥θ − θ′ ∥ θ に関する局所リプシッツ性に相当. εθ(x) を permissible radius of perturbation (PRP) と呼ぶ. Definition 9 (転移学習可能性) ψθ が, 推定量 ˆθN に関して確率 1 − δN,n でパラメータ転移学 習可能 :⇔ Pr(∥ˆθN − θ∗ S∥ ≤ εθ∗ S (x1:n)) ≥ 1 − δN,n ここで, x1:n = {x1, ..., xn} に対して εθ(x1:n)) = minj=1,...,n εθ(xj) K. Matsui (RIKEN AIP) Transfer Learning Survey Theory of Transfer Learning (Parameter Transfer) 130 / 180
  • 140. パラメータ転移学習の汎化誤差上界 ii 仮定 • パラメトリック特徴写像 ψθ は局所安定かつ有界 • 推定量 ˆθN は確率 1 − δN,n でパラメータ転移学習可能 • 損失関数 ℓ は L-リプシッツ, 凸, 有界 • 正則化項 r は 1-強凸, r(0) = 0 Theorem 9 (汎化誤差上界 [Kumagai (2016)]) RT (ˆθN, ˆwN,n) − RT (θ∗ S, w∗ T ) ≤ C √ n + C′ ˆθN − θ∗ S + C′′ n1/4 √ ˆθN − θ∗ S with probability 1 − (δ + 2δN,n). C, C′, C′′ は正定数. K. Matsui (RIKEN AIP) Transfer Learning Survey Theory of Transfer Learning (Parameter Transfer) 131 / 180
  • 141. パラメータ転移学習の汎化誤差上界 iii 定理の解釈 RT (ˆθN, ˆwN,n) − RT (θ∗ S, w∗ T ) ≤ c    ˆθN − θ∗ S √ ρ + 1 √ nρ + θN − θ∗ S 1/2 ρ3/4 + 1 nρ + ρ    特に • 正則化パラメータを ρ = max{n−1/3, ∥ˆθN − θ∗ S∥2/7} とおき, • ∥ˆθN − θ∗ S∥ ≈ 1 N が成り立つとき, RT (ˆθN, ˆwN,n) − RT (θ∗ S, w∗ T ) ≤ c max{n−1/3 , N−1/7 } が成立 → 元ドメインのサンプルサイズを N ≥ n7/3 程度取れば汎化誤 差は小さい K. Matsui (RIKEN AIP) Transfer Learning Survey Theory of Transfer Learning (Parameter Transfer) 132 / 180
  • 142. 自己教示学習への応用 Dictionary Learning Sparse Coding 入力のスパース表現を学習するための辞書を元ドメインで教 師なし学習し, 目標ドメインへ転移 Dictionary Learning min D,z1,...,zn n∑ i=1 1 2 ∥xi − Dzi∥2 + λ∥zi∥1 Sparse Coding ϕD(x) := arg max z∈Rm 1 2 ∥x − Dz∥2 + λ∥z∥1 • D = [d1, ..., dm] ∈ Rd×m, ∥dj∥ = 1 : 辞書 • z : x のスパース表現 K. Matsui (RIKEN AIP) Transfer Learning Survey Theory of Transfer Learning (Parameter Transfer) 133 / 180
  • 143. Sparse Coding の局所安定性 i Definition 10 (k-margin) 辞書 D の x における k-margin Mk(D, x) := max I⊂[m],|I|=m−k min j∈I { λ − ⟨ dj, x − DφD(x) ⟩ } Definition 11 (µ-incoherence) 辞書 D が µ-incoherent ⇔ ⟨ di, dj ⟩ ≤ µ/ √ d (i ̸= j) K. Matsui (RIKEN AIP) Transfer Learning Survey Theory of Transfer Learning (Parameter Transfer) 134 / 180
  • 144. Sparse Coding の局所安定性 ii ∥D∥1,2 := maxi∈[m] ∥di∥ Theorem 10 (Sparse Coding Stability) 辞書 D, ˜D が, ∥D − ˜D∥1,2 ≤ λ かつ D は µ-incoherent で以下を 満たすと仮定 ∥D − ˜D∥1,2 ≤ Mk,D(x)2λ 64 max{1, ∥x∥}4 =:ϵk,D(x) : PRP このとき, 以下が成立 φD(x) − φ˜D(x) 2 ≤ 4∥x∥2 √ k (1 − µk/ √ d)λ ∥D − ˜D∥1,2 K. Matsui (RIKEN AIP) Transfer Learning Survey Theory of Transfer Learning (Parameter Transfer) 135 / 180
  • 145. Dictionary Learning の転移学習可能性 i スパースモデルに対する仮定 1. (Model) ある辞書 D∗ が存在して, 全ての x はスパース表現 z とノイズ ξ によって以下の形で独立に生成される x = D∗ z + ξ 2. (Dictionary) 辞書 D は µ-incoherent 3. (Representation) k-sparse (i.e. ∥z∥0 ≤ k) かつ定数 C が存 在して, zi ̸= 0 な i に対して |zi| ≥ C 4. (Noise) ξ = (ξ1, ..., ξd) は各成分 ξi が独立な σ√ d -sub-Gaussian i.e. ∀t ∈ R, E[exp(tξi)] ≤ exp( (σ/ √ d)2ξ2 i 2 ) K. Matsui (RIKEN AIP) Transfer Learning Survey Theory of Transfer Learning (Parameter Transfer) 136 / 180
  • 146. Dictionary Learning の転移学習可能性 ii Theorem 11 (Margin bound) 0 t 1 とし, δt,λ を以下で定義 δt,λ := 2σ (1 − t) √ dλ exp ( − (1 − t)2 dλ2 8σ2 ) + 2σm √ dλ exp ( − dλ2 8σ2 ) + 4σk C √ d(1 − µk/ √ d) exp ( − C2 d(1 − µk/ √ d) 8σ2 ) + 8σ(d − k) √ dλ exp ( − dλ2 32σ2 ) このとき, d ≥ {( 1 + 6 (1−t) ) µk }2 かつ λ = d−τ (1/4 ≤ τ ≤ 1/2) ⇒ Pr[Mk,D∗(x) ≥ tλ] ≥ 1 − δt,λ が成立. ⇒ ϵk,D(x) := Mk,D(x)2λ 64 max{1,∥x∥}4 ≥ t2λ3 64 max{1,∥x∥}4 = Θ ( d−3τ ) w.p. 1 − δt,λ (1/4 ≤ τ ≤ 1/2) K. Matsui (RIKEN AIP) Transfer Learning Survey Theory of Transfer Learning (Parameter Transfer) 137 / 180
  • 147. Dictionary Learning の転移学習可能性 iii ある Dictionary Learning algorithm が存在して Pr [ ∥ˆDN − D∗ ∥1,2 ≤ O(d−3τ ) ] ≥ 1 − δN が成り立つとき, ¯δ = δN + nδt,λ ととれば, dictionary learning の 転移学習可能性が成り立つ: Pr [ ∥ˆDN − D∗ ∥1,2 ≤ εk,D∗ (x1:n) ] ≥ 1 − ¯δ Remark 1 上記の仮定を満たすような DL algorithm は存在 [Arora+ (JMLR 2015)] 以上より, dictionary learning に対しても汎化誤差上界が保証 される K. Matsui (RIKEN AIP) Transfer Learning Survey Theory of Transfer Learning (Parameter Transfer) 138 / 180
  • 148. Immunity : An Optimality of Domain Adaptation
  • 149. Optimal Domain Adaptation [Scott (2019)] i 2 値判別における domain adaptation これまでの domain adaptation 評価指標として損失関数 (特に 0-1 損失) の期待値で表される ものに依存 → これが DA を難しくしている要因では? e.g. 教師なし DA では, 0-1 損失の下ではラベルノイズに対し て強い仮定 (共変量シフトなど) が必要 Question (共変量シフトのような) feature dependent label noise (FDLN) の下で, より簡易かつ有効な転移学習が可能か? K. Matsui (RIKEN AIP) Transfer Learning Survey Immunity : An Optimality of Domain Adaptation 139 / 180
  • 150. Optimal Domain Adaptation [Scott (2019)] ii Contribution • controlled discovery rate (CDR) を評価指標とした場合, • covariate-shift with posterior-drift (CSPD) というラベルノ イズの下で 元ドメインの最適なモデル = 目標ドメインの最適なモデル を証明 (immunity) → 特別な adaptation をすることなく元ドメインで学習した モデルを目標ドメインで使うことが可能 特に以下の 2 つの設定を考察 • inductive setting : 学習者が元ドメインの同時分布にのみ アクセスできる • semi-supervised setting : 教師なし DA と同じ K. Matsui (RIKEN AIP) Transfer Learning Survey Immunity : An Optimality of Domain Adaptation 140 / 180
  • 151. Covariate-Shift with Posterior-Drift i Definition 12 (Covariate Shift) PrP(Y = 1 | X = x) ηP = PrQ(Y = 1 | X = x) ηQ → ラベル分布が元ドメインと目標ドメインで共通 (入力の周 辺分布は違っていても良い) Definition 13 (Posterior Drift) • PX = QX (入力の周辺分布が共通) かつ • ∃ϕ : 狭義単調増加関数 s.t. ηP(x) = ϕ(ηQ(x)), ∀x ∈ X → 入力分布はドメイン間で共通, ラベル分布は up to 単調変 換で一致 K. Matsui (RIKEN AIP) Transfer Learning Survey Immunity : An Optimality of Domain Adaptation 141 / 180
  • 152. Covariate-Shift with Posterior-Drift ii Definition 14 (Covariate-Shift with Posterior-Drift) ∃ϕ : 狭義単調増加関数 s.t. ηP(x) = ϕ(ηQ(x)), ∀x ∈ X → ラベル分布は up to 単調変換で一致 • Posterior drift から周辺分布が共通という条件を外したも の • 教師なし DA において, ドメイン間の類似度のモデリング として “仮定なし”と “共変量シフト”の中間を埋めるよう な設定 K. Matsui (RIKEN AIP) Transfer Learning Survey Immunity : An Optimality of Domain Adaptation 142 / 180
  • 153. Immunity i Notation • OPTD(Q) : inductive setting において, 評価指標 D の下で 最適な判別モデル • OPTD(ηQ, QX) : semi-supervised setting において, 評価指 標 D の下で最適な判別モデル Definition 15 (Immunity) 評価指標 D が immune であるとは, 1. (for inductive setting) OPTD(Q) = OPTD(P) 2. (for semi-supervised setting) OPTD(ηQ, QX) = OPTD(ηP, QX) K. Matsui (RIKEN AIP) Transfer Learning Survey Immunity : An Optimality of Domain Adaptation 143 / 180
  • 154. Immunity ii 直感的な解釈: 一般に, ある評価指標 D がある DA 問題のクラスに対して immune :⇐⇒ D の下で最適な判別モデルが元ドメインと目標ドメイン で共通 practical には, immunity とは P ̸= Q であることを忘れて学習 を行ってしまっても(評価指標 D の下では)OK という性質 K. Matsui (RIKEN AIP) Transfer Learning Survey Immunity : An Optimality of Domain Adaptation 144 / 180
  • 155. Immunity iii 様々な DA の設定と対応する immunity 1. symmetric feature-independent label noise • probability of error criterion が immune [Jabbari 2010] 2. symmetric feature-dependent label noise • probability of error criterion が immune [Menon+ 2018] 3. feature-dependent annotator noise (PD を含む) • AUC が immune [Menon+ 2018] 4. asymmetric label-dependent (but feature-independent) label noise • balanced error rate (BER) が immune [Menon+ 2015] • BER は label-dependent label noise に対して immune な唯 一の指標 5. PU learning • Neyman-Pearson criterion が immune [Blanchard+ 2010] K. Matsui (RIKEN AIP) Transfer Learning Survey Immunity : An Optimality of Domain Adaptation 145 / 180
  • 156. Generalized Neyman-Pearson Criterion i Notation • g : X → [0, 1], g(x) = Pr(Y = 1 | X = x) : 確率的判別器 • Power: BQ(g) := EQ1 [g(X)] = ∫ g(x)q1(x)dµ(x) • 真のラベルが 1 のときに予測ラベルが 1 である確率 • 1 − β error, TPR, 感度, recall などとも呼ばれる • Size: AQ(g) := EQ0 [g(X)] = ∫ g(x)q0(x)dµ(x) • 真のラベルが 0 のときに予測ラベルが 1 である確率 • α error, FPR, 1 - 特異度などとも呼ばれる ここで, Qy = Pr[X | Y = y] (y = 0, 1), qy はその密度関数 K. Matsui (RIKEN AIP) Transfer Learning Survey Immunity : An Optimality of Domain Adaptation 146 / 180
  • 157. Generalized Neyman-Pearson Criterion ii Definition 16 (Generalized Neyman-Pearson Criterion) 確率的判別器 g∗ がパラメータ 0 ≤ θ0 θ1 ≤ 1 および 0 α 1 の GNP criterion の下で最適 :⇔ g∗ が以下の最適化問題の解 max g θ1BQ(g) + (1 − θ1) AQ(g) s.t. θ0BQ(g) + (1 − θ0) AQ(g) ≤ α • θ1 = 1, θ0 = 0 の場合を conventional な Neyman-Pearson (NP) criterion とよぶ K. Matsui (RIKEN AIP) Transfer Learning Survey Immunity : An Optimality of Domain Adaptation 147 / 180
  • 158. Generalized Neyman-Pearson Criterion iii Theorem 12 (g∗ の特徴づけ) ある tQ,α ∈ [0, 1], qQ,α ∈ [0, 1) が存在して, g∗ (x) = gQ,α(x) :=    1, ηQ(x) tQ,α qQ,α, ηQ(x) = tQ,α 0, ηQ(x) tQ,α • これは, 最適な判別器が尤度比で与えられることと等価 • 証明の方針 : Neyman-Pearson の補題 (単一の仮説検定では尤度比検定 が最強力検定となる) を, 帰無仮説と対立仮説に対応する尤 度がそれぞれ contaminate されたバージョンに拡張 K. Matsui (RIKEN AIP) Transfer Learning Survey Immunity : An Optimality of Domain Adaptation 148 / 180
  • 159. Generalized Neyman-Pearson Criterion iv Definition 17 (controlled discovery rate, CDR) 確率的判別機 g∗ が CDR criterion の下で最適 :⇐⇒ g∗ が GNP criterion において θ1 = 1, θ0 = πQ = PrQ[Y = 1] (目標ドメインのラベル prior) と置いた場合の最適化問題 max g BQ(g) s.t. DQ(g) := QX(g(X) = 1) ≤ α の最適解である K. Matsui (RIKEN AIP) Transfer Learning Survey Immunity : An Optimality of Domain Adaptation 149 / 180
  • 160. Key Insight CDR criterion の下での DA の目標 P と QX の情報のみから目標ドメインでラベルが 1 の確率が tQ,α 以上である入力集合 GQ,α = {x | ηQ(x) ≥ tQ,α} を推定する → 教師なし DA が実現できる 実際には, • いくつかの仮定の下で GP,Q,α = {x | ηP(x) ≥ tP,Q,α} は一致推定可能 (Theorem 4 in [Scott (2019)]) • CSPD の仮定下では GQ,α = GP,Q,α が成立 (すなわち左辺も一致推定可能) ∗ 理論的な結果で, どれくらい実用性があるかは未知 K. Matsui (RIKEN AIP) Transfer Learning Survey Immunity : An Optimality of Domain Adaptation 150 / 180
  • 162. 通常の転移学習における困難 £ 破滅的忘却 • 元ドメインの性能は無視されるため, 転移後のモデルの元ドメイ ンでの性能が著しく低下している可能性が高い → 後ろ向き学習が困難 £ シングルタスク • 複数の目標タスクに同時に適応できない → タスクごとに再学習が必要 £ 負転移 • 質の大きくことなるドメイン間での転移はしない場合よりも性 能を悪化させる可能性がある → 良い元ドメインを適切に選択する必要 K. Matsui (RIKEN AIP) Transfer Learning Survey Life-long (Continual) Learning 151 / 180
  • 163. Life-long Learning に要請される性質 仮定: 各ドメインは逐次的に与えられ, 学習済みドメインのデータは 捨てる £ 破滅的忘却の回避 • 過去タスクの性能も担保する (次のオンライン学習可能性とも 関係) £ オンライン学習可能 • 逐次的に与えられるタスクを学習する能力 (繰り返し転移学習) £ タスク間の知識共有 • 知識の積み上げ (現在のタスクを効率よく, 過去タスクも初見時 より効率よく) 目標 : 上記の性質をもつ単一のモデルを学習する K. Matsui (RIKEN AIP) Transfer Learning Survey Life-long (Continual) Learning 152 / 180
  • 164. Life-long Learning のデータ生成例 Split MNIST Permuted MNIST •  •  (10 2 ) •  •  •  (10 10 ) •  ( ) K. Matsui (RIKEN AIP) Transfer Learning Survey Life-long (Continual) Learning 153 / 180
  • 165. Life-long Learning におけるタスク 1. Incremental Task Learning タスク ID が既知のときクラスラベルを当てる 2. Incremental Domain Learning タスク ID が未知のときクラスラベルを当てる 3. Incremental Class Learning タスク ID が未知のときタスク ID とクラスラベルを当てる ——– ∗ 実際は (task-wise な) データの真のラベルとタスク内のラベル (エイリア ス) は異なるため上の分類は若干不正確 ∗ 正確には, 1, 2 で当てるのはエイリアス, 3 で当てるのは真のクラスラベル K. Matsui (RIKEN AIP) Transfer Learning Survey Life-long (Continual) Learning 154 / 180
  • 166. Life-long Learning におけるタスク例 Split MNIST 1. Incremental Task Learning : Task 2 first class second class 2. Incremental Domain Learning : ( Task ) first class [0, 2, 4, 6, 8] second class [1, 3, 5, 7, 9] 3. Incremental Class Learning : 0 vs 1, 2 vs 3, 4 vs 5, 6 vs 7, 8 vs 9 K. Matsui (RIKEN AIP) Transfer Learning Survey Life-long (Continual) Learning 155 / 180
  • 167. Life-long Learning へのアプローチ Continual Learning Methods Replay-based methods Rehearsal iCaRL [18] ER [44] SER [45] TEM [46] Pseudo Rehearsal DGR [14] PR [47] CCLUGM [48] LGM [49] Constrained GEM [50] A-GEM [8] GSS [43] Regularization-based methods Prior-focused EWC [28] IMM [29] SI [51] R-EWC [52] MAS [15] Riemannian Walk [16] Data-focused LwF [53] LFL [54] EBLL [11] DMC [55] Parameter isolation methods Fixed Network PackNet [56] PathNet [32] Piggyback [57] HAT [58] Dynamic Architectures PNN [59] Expert Gate [7] RCL [60] DAN [19] Fig : [De Lange + 2019] 1. Replay-based methods 過去タスクの学習データを利用 2. Regularization-based methods モデルに正則化 3. Parameter isolation methods タスクごとにモデルパラメータを個別に保持 K. Matsui (RIKEN AIP) Transfer Learning Survey Life-long (Continual) Learning 156 / 180
  • 168. Replay-based Methods 例 £ Rehearsal • バッファに過去タスクのデータを保存し各タスクで使う • 生データをそのまま保存, 圧縮したデータを保存, など • 残したデータにモデルが過適合する傾向 £ Pseudo Rehearsal (Generative Replay) • 各タスクで予測モデルとは別にデータの生成モデルを学習 • GAN や VAE などの深層生成モデルが用いられる • あるタスクのデータと深層生成モデルからサンプリングし たデータから予測モデルと次の深層生成モデルを学習 £ Constrained • 過去タスクを阻害しないよう新規タスクに制約条件を課す K. Matsui (RIKEN AIP) Transfer Learning Survey Life-long (Continual) Learning 157 / 180
  • 169. Regularization-based Methods £ Prior-focused • Elastic Weight Consolidation • L2 正則化項に Fisher 情報行列で重みを導入 • Synaptic Intelligence • L2 正則化項に独自の重みを導入 £ Data-focused • Learning without Forgetting • 損失関数に知識蒸留の項を加える • Deep Model Consolidation • Double distillation loss なる知識蒸留のための損失関数 を導入 K. Matsui (RIKEN AIP) Transfer Learning Survey Life-long (Continual) Learning 158 / 180
  • 170. Parameter Isolation Methods £ Dynamic Architectures output2 output3output1 input h (2) 2 h (3) 2h (1) 2 h (1) 1 h (2) 1 h (3) 1 a a a a Task 1 Task 2 Task 3 Fig : [Rusu+ 2016] • Progressive Neural Networks • タスクごとに NN を学習 • 前のタスク NN の下層から次タ スクの NN へカスケード的 に結合 £ Fixed Network Fig : [Fernando+ 2017] • PathNet • モデルの学習と同時にモジュー ル (畳込層など) を結ぶパスも 学習 • 学習が完了したら重みを固定 (次のタスクでは更新しない) K. Matsui (RIKEN AIP) Transfer Learning Survey Life-long (Continual) Learning 159 / 180
  • 171. Experiments i Split MNIST Fig:[Hsu+ 2019] K. Matsui (RIKEN AIP) Transfer Learning Survey Life-long (Continual) Learning 160 / 180
  • 172. Experiments ii Permuted MNIST Fig:[Hsu+ 2019] K. Matsui (RIKEN AIP) Transfer Learning Survey Life-long (Continual) Learning 161 / 180
  • 173. Life-long Learning における Disentangled Representation i Life-Long Disentangled Representation [Achille+ (2018)] Fig : Achille+, NIPS2018 • 各クラスタが各シナリオにおけるデータ/環境に対応 • 各データ x は generative factors zn (座標のようなもの) の 組で表される • 異なるクラスタでいくつかの generative factor を共有 K. Matsui (RIKEN AIP) Transfer Learning Survey Life-long (Continual) Learning 162 / 180
  • 174. Life-long Learning における Disentangled Representation ii Life-Long Disentangled Representation の学習 1 A CB Figure 1: A: Schematic representation of the life-long learning data distr corresponds to a cluster s. Data samples x constituting each cluster can be de (data generative factors zn). Different clusters may share some data generative C: ConContinSchematic of the “dreaming” feedback loop. We use a snapshot ( old, ✓old) to generate an imaginary batch of data xold for a previously experi the current environment, we ensure that the representation is still consistent o can reconstruct it (see red dashed lines). Recent state of the art approaches to unsupervised disentangled repre Generative Factor zn model architecture q (zs |xs )= as N(µ(x), (x)) + (1 as ) N(0, I) as : latent mask Model Assumption Objective Function LMDL( , ) = Ezs q (·|xs) [ log p (x|zs , s)] Reconstruction error + (|KL (q (zs |xs ) p(z)) Representation capacity C Target )2 Latent Mask as n = KL Exs batch [q (zs n|xs batch )] p (zn)Atypicality Score Latent Mask as n = 1, if n 0, otherwise β-VAE-like K. Matsui (RIKEN AIP) Transfer Learning Survey Life-long (Continual) Learning 163 / 180
  • 175. Life-long Learning における Disentangled Representation iii Life-Long Disentangled Representation の学習 2 Environment s s = ˆs if Ezˆs log p xs batch |zˆs , ˆs Lˆs as = aˆs sr+1 otherwise ˆs = arg max s q (s|xs batch) (“Dreaming” feedback) Lpast( , ) = Ez,s ,x [D [q (z|x ) , q (z |x )] Encoder proximity + D [q (x|z, s ) , q (x |z, s )] Decoder proximity ] Overall Objective L( , ) = LMDL( , ) + Lpast( , ) K. Matsui (RIKEN AIP) Transfer Learning Survey Life-long (Continual) Learning 164 / 180
  • 176. Life-long Learning における Disentangled Representation iv NatLab/EDE Cross-Domain Reconstructions OrigNatLabEDE Reconstructionsas OrigNatLabEDE Reconstructionsas B C Disentangled Entangled • VSAE (提案法, left) は 2 つのデータセットの “semantic homologies” (共通の generative factor) を見つけられる  e.g. サボテン → 赤いオブジェクト K. Matsui (RIKEN AIP) Transfer Learning Survey Life-long (Continual) Learning 165 / 180
  • 178. Concluding Remarks 引用 [Ng (NIPS 2016), Ruder (2017)] • 転移学習は深層学習の台頭以降, 発展著しい • しかし, 問題設定やアプローチなどが散在している状況 • 様々な問題設定を統一的に扱えるフレームワーク (理論) の整備が望まれる K. Matsui (RIKEN AIP) Transfer Learning Survey Concluding Remarks 166 / 180
  • 179. 転移学習の俯瞰的な文献 · ウェブサイト i [1] Pan, S. J. Yang, Q (2010). A survey on transfer learning. IEEE Transactions on knowledge and data engineering, 22(10), 1345-1359. [2] 神嶌敏弘 (2010). 転移学習. 人工知能学会誌, 25(4), 572-580. [3] 神嶌敏弘 (2009). 転移学習のサーベイ. データマイニングと統計数理研 究会 (第 9 回). http://www.kamishima.net/archive/2009-tr-jsai_dmsm1-PR.pdf • 深層学習以前の転移学習のサーベイ • しかし重要なコンセプトがコンパクトに纏まっており, 現在でも 非常に有用 [4] Ruder, S. (2017). Transfer Learning - Machine Learning’s Next Frontier. http://ruder.io/transfer-learning/index.html • 最近の転移学習と周辺分野のサーベイ • 特に深層学習における転移学習の諸手法と文献がよく纏まってい る K. Matsui (RIKEN AIP) Transfer Learning Survey Concluding Remarks 167 / 180