3. Table of contents i
1. Introduction
2. Foundations of Transfer Learning
3. Paradigm Shift in Transfer Learning via Deep Learning
4. Related Fields of Transfer Learning
5. Topics in Transfer Learning
6. Theory of Transfer Learning (Instance Transfer)
K. Matsui (RIKEN AIP) Transfer Learning Survey 2 / 180
4. Table of contents ii
7. Impossibility Theorems for Domain Adaptation
8. Theory of Transfer Learning (Parameter Transfer)
9. Immunity : An Optimality of Domain Adaptation
10. Life-long (Continual) Learning
11. Concluding Remarks
K. Matsui (RIKEN AIP) Transfer Learning Survey 3 / 180
6. 転移学習って?
素朴な観察
人間は, ある問題に取り組む際に全く知識の無い状態からス
タートするか?
NO : 人間は過去に経験した問題解決から得た知識を現在の問
題に転用できる
• 過去の知識の積み上げができる
• 問題の間の類似構造を自然に把握できる
• 獲得した知識を繰り返し転用することができる
Research Question
これらの機能を計算機上で実現するには???
K. Matsui (RIKEN AIP) Transfer Learning Survey Introduction 4 / 180
7. 機械学習 / Machine Learning
人工知能研究の一分野として
“Field of study that gives computers the ability to learn without
being explicitly programmed” [Samuel (1959)].
データ科学の一分野として
“The term machine learning refers to the automated detection
of meaningful patterns in data” [Shalev-Shwartz&Ben-David (2014)].
’
• “Machine Learning” の出典
A. Samuel “Some Studies in Machine
Learning Using the Game of
Checkers”, 1959.
• generalization (汎化, 学習した能力
が未知の事例に対しても上手く働く
こと) の考え方も論じられている
K. Matsui (RIKEN AIP) Transfer Learning Survey Introduction 5 / 180
8. 機械学習における様々なタスク: 教師あり学習
入力 x と出力 y のペアから入出力関係 x → y を獲得
K. Matsui (RIKEN AIP) Transfer Learning Survey Introduction 6 / 180
11. 機械学習における様々なタスク: 能動学習 i
x1
x2
y
ε
x f(x) y = f(x) + ε
不確実性の下でブラックボックス関数 f に関する統計的推論を
行うためのデータ観測戦略を考える
K. Matsui (RIKEN AIP) Transfer Learning Survey Introduction 9 / 180
12. 機械学習における様々なタスク: 能動学習 ii
能動学習の基本的な問題設定
• 候補入力 x1, ..., xn が与えられている
• 関数 f を評価して出力 yi = f(xi) を得るにはコスト (e.g. 時
間, 費用...) がかかる
このとき, できるだけ少ないコスト (観測回数) で
問題設定 1: 関数推定 関数 f を精度良く推定したい
f∗
= arg min
ˆf∈F
n∑
i=1
(f(xi) −ˆf(xi))2
問題設定 2: 最適化 関数 f の maximizer を求めたい
x∗
i = arg max
x∈{x1,...,xn}
f(x)
K. Matsui (RIKEN AIP) Transfer Learning Survey Introduction 10 / 180
21. 元ドメインと目標ドメインが異なる例 ii
データの分布がドメイン間で異なる
PS ̸= PT
Training Data
(source domain)
Hospital A
Hospital B
Hospital C
Training
Prediction Model
Apply
Hospital D
(target domain)
• Multi-center prognostic analysis
Ø source : 3 different hospitals
Ø target : a hospital
• Task :
to learn a prediction model in S
that performs well in T
• Probability distribution of covariates of
the patients can differ among hospitals
A Transfer Learning Method for Multi-Center
Prognostic Prediction Analysis [Matsui+ 2018]
K. Matsui (RIKEN AIP) Transfer Learning Survey Introduction 19 / 180
22. 元ドメインと目標ドメインが異なる例 iii
Fig: [Yang+ (2009)]
• 元ドメインと目標ドメインの “違い方” によって対応する
観測データの “違い方” も変わる
K. Matsui (RIKEN AIP) Transfer Learning Survey Introduction 20 / 180
23. 転移学習の必要性
異なるドメインのデータや知見を統合して取り扱うための
方法論
• 目標ドメイン, 元ドメインともにデータが少数のとき
→ 各ドメインのデータを統合して活用できる
• 医学研究などの small data な領域で威力を発揮
• 目標ドメインは小データだが元ドメインにデータが大量に
あるとき
→ 各ドメインで要約統計量を学習しておき, それを別のド
メインで活用できる
• 生データを保持しなくて良いのでストレージやメモリの節
約になる
• プライバシーの観点からもメリットがある?
K. Matsui (RIKEN AIP) Transfer Learning Survey Introduction 21 / 180
31. 半教師あり転移学習 / 能動的転移学習 i
根本的な問い
• 教師なし転移学習 (学習時からテスト時までずっと目標ド
メインのラベルが無い状況) は妥当な問題設定なのか?
• 目標ドメインでも少しはラベルが取れる状況を考える方が
自然では?
→ 半教師あり学習/能動学習
• 半教師あり転移学習 :
元ドメインではラベルありデータ, 目標ドメインでは少量
のラベルありデータと大量のラベル無しデータが使える
• 能動的転移学習 :
目標ドメインのどのインスタンスにラベルを付けるかを適
応的に選択
K. Matsui (RIKEN AIP) Transfer Learning Survey Foundations of Transfer Learning 28 / 180
32. 半教師あり転移学習 i
問題設定
• 元ドメインで available なデータ:
• ラベルありデータ Ds = {(xs
i , ys
i )}ms
i=1
• 目標ドメインで available なデータ:
• ラベルありデータ Dt = {(xt
i, yt
i)}mt
i=1,
• ラベル無しデータ Du = {xu
i }mu
i=1
目的
Ds, Dt, Du から目標ドメインのための予測モデルを学習
→ 目標ドメインにラベルありデータが存在するのでモデルの
評価が可能
K. Matsui (RIKEN AIP) Transfer Learning Survey Foundations of Transfer Learning 29 / 180
33. 半教師あり転移学習 ii
Semi-supervised DA via Minimax Entropy [Saito+ (2019)]
1. ドメイン不変な prototype (各クラスの代表元) を推定
2. 推定した prototype を使って xu
i から discriminative
features を抽出
→ 特徴抽出器とタスク判別器の間の敵対的学習として定式化
K. Matsui (RIKEN AIP) Transfer Learning Survey Foundations of Transfer Learning 30 / 180
34. 能動的転移学習 i
問題設定
• 元ドメインで available なデータ:
• ラベルありデータ Ds = {(xs
i , ys
i )}ms
i=1
• 目標ドメインで available なデータ:
• ラベルありデータ Dt = {(xt
i, yt
i)}mt
i=1
• 初期状態で Dt ̸= ∅ の場合 [Wang+ 2014]
• 初期状態で Dt = ∅ の場合 [Su+ 2019]
• ラベル無しデータ Du = {xu
i }mu
i=1
目的
Ds, Dt, Du を用いて, Du の元のラベルを適応的に観測しなが
ら目標ドメインのための予測モデルを学習
→ 目標ドメインにラベルありデータが存在するのでモデルの
評価が可能
K. Matsui (RIKEN AIP) Transfer Learning Survey Foundations of Transfer Learning 31 / 180
36. 能動的転移学習 iii
Active Adversarial Domain Adaptation [Su+ (2019)]
Domain Adversarial Training (ドメイン適応)
+
Importance Weighting (能動学習)
£ sample selection の方針
• 経験損失が大きい点を取る vs 重要度が高い点を取る
• 重要度は GAN の discriminator から計算: pT(ˆx)
pS(ˆx)
=
1−G∗
d
(ˆx)
G∗
d
(ˆx)
K. Matsui (RIKEN AIP) Transfer Learning Survey Foundations of Transfer Learning 33 / 180
37. 自己教示学習
• 元ドメインではラベル無しデータのみが, 目標ドメインではラベル付き
データが利用可能な場合
• 元ドメインで教師なし特徴抽出し, 目標ドメインの教師付き学習に援用
Supervised Classification
Semi-supervised Learning
Transfer Learning
Self-taught Learning
K. Matsui (RIKEN AIP) Transfer Learning Survey Foundations of Transfer Learning 34 / 180
38. 強化学習における転移学習 i
[久保 2019] では強化学習においてモデルの転移能力を獲得する
ための主要な 2 つのアプローチを紹介
1. メタ学習 (モデルの転移能力の獲得)
• Learning to learn : 教育の仕方の学習
• Learning to train : 学習の仕方の学習
2. 転移学習 (知識やデータの再利用)
• Sim2Real : シミュレーションから現実への転移
• domain randomization : シミュレーションの多様化
詳細は後述
K. Matsui (RIKEN AIP) Transfer Learning Survey Foundations of Transfer Learning 35 / 180
39. 強化学習における転移学習 ii
別の定式化
ドメインを “タスク空間とタスク分布のペア” と考えたエージ
ェントベースの転移学習 (4 種類の転移シナリオ)
Task Space Task Space
N1
N2
NM
M1
M2
M3
M4
1. Across two agents of
different domains
2. Across two agents
in the same domains
3. Across two agents
in the same task
4. Across multi-agents
in the same domain
Fig : [Fachantidis 2016]K. Matsui (RIKEN AIP) Transfer Learning Survey Foundations of Transfer Learning 36 / 180
40. 転移学習の基本的な問題
1. What to transfer (何を転移するか)
• instance transfer (データそのものを転移)
• feature transfer (抽出した特徴を転移)
• parameter transfer (学習したモデルや特徴抽出器を転移)
2. When to transfer (いつ転移するか)
• 転移学習が成功するのは元ドメインと目標ドメインが似て
いるとき
• 例: covariate-shift [Shimodaira (2000)] PrS[y | x] = PrT[y | x]
• 負転移 (転移によって目標ドメインの性能が低下)
3. How to transfer (どう転移するか, 具体的なアルゴリズム)
• 例: 重要度重み付き学習 [Sugiyama+ (2012)]
• 例: 最適輸送によるドメイン適応 [Courty+ (2017)]
K. Matsui (RIKEN AIP) Transfer Learning Survey Foundations of Transfer Learning 37 / 180
41. What to Transfer : Instance Transfer
元ドメインのデータを目標ドメインのデータとして学習に
用いる
例: 重要度重み付き学習, 最適輸送に基づくドメイン適応
• homogeneous な状況を想定 (ドメイン間で標本空間は共通)
K. Matsui (RIKEN AIP) Transfer Learning Survey Foundations of Transfer Learning 38 / 180
42. What to Transfer : Feature Transfer
元ドメインと目標ドメインで共通の特徴を抽出し学習に用いる
例: Augmented features [Duan+ (2012)]
• heterogeneous な状況を想定 (ドメイン間で標本空間が異なる)
K. Matsui (RIKEN AIP) Transfer Learning Survey Foundations of Transfer Learning 39 / 180
43. What to Transfer : Parameter Transfer i
元ドメインで学習したモデルや特徴抽出器のパラメータを目標
ドメインで用いる
例: fine-tuning
…
1000
…
20
Fine-tuning
L∇ ( )iiL yx ,
• あるデータセットで予め学習した NN の出力層を目標データで再学習
• 出力層の手前までのネットワークのパラメータは固定
→ ただしこの定義にはいくつか流派? がある模様 (次ページ)
K. Matsui (RIKEN AIP) Transfer Learning Survey Foundations of Transfer Learning 40 / 180
44. What to Transfer : Parameter Transfer ii
Fig:[Li&Hoiem (2016)]
• [Li&Hoiem (2016)] では出力層手前までも再学習するものを fine-tuning
と呼んでいる (元ドメインの学習結果を warm-start とする)
• 出力層手前までを固定するものは feature extraction と呼ばれている
K. Matsui (RIKEN AIP) Transfer Learning Survey Foundations of Transfer Learning 41 / 180
45. When to Transfer : Discrepancy i
何らかの指標で元ドメインと目標ドメインが “似ている” とき
転移を実施
例: ドメインの確率分布の不一致度 (discrepancy)
• discrepancy が小さいとき, 目標ドメインのデータは元ドメインとよく
似た生成メカニズムを持っていると考えられる
• 様々な discrepancy が定義されている
• H∆H divergence [Ben-David+ (2010)]
• Wasserstein distance [Courty+ (2017)]
• source-guided discrepancy [Kuroki+ (2019)]
K. Matsui (RIKEN AIP) Transfer Learning Survey Foundations of Transfer Learning 42 / 180
46. When to Transfer : Discrepancy ii
Integral Probability Metrics (IPM) [Sriperumbudur+ (2012)]
DiscG(PT, PS) := sup
g∈G
|ET[g] − ES[g]|
• PT, PS はそれぞれ元ドメイン, 目標ドメインの確率分布, g はテスト関数
• Wasserstein metric, total variation, kernel MMD, source-guided
discrepancy などを含む統一的な discrepancy の定式化
• M = supx∈X,g∈G g(x) とする. このとき, 確率 1 − δ 以上で以下のサンプ
ル近似バウンドが成立
|DiscG(PT, PS) − DiscG(ˆPT, ˆPS)|
≤ 2ℜT,nT (G) + 2ℜS,nS (G) + M
√
18 log
4
δ
(
1
√
nT
+
1
√
nS
)
• ℜT,nT (G), ℜS,nS (G) : 目標ドメイン, 元ドメインにおける G のラデマ
ッハ複雑度
• nT, nS : 各ドメインのサンプルサイズ
→ 転移学習の理論解析時に非常に有用
K. Matsui (RIKEN AIP) Transfer Learning Survey Foundations of Transfer Learning 43 / 180
47. When to Transfer : 転移仮定 i
ドメインの “類似” をより積極的にモデリングする
例 i: 共変量シフト [Shimodaira (2000)]
• 元ドメインと目標ドメインでラベル付けルールが共通
PS(Y | X) = PT(Y | X)
• 重要度重み付き ERM で効果的にモデルの学習が可能 (詳細は後述)
K. Matsui (RIKEN AIP) Transfer Learning Survey Foundations of Transfer Learning 44 / 180
48. When to Transfer : 転移仮定 ii
ドメインの “類似” をより積極的にモデリングする
例 ii: ターゲットシフト [Zhang+ (2013), Redko+ (2019)]
• 元ドメインと目標ドメインで入力分布が共通
PS(X | Y) = PT(X | Y)
• ドメイン毎にクラスバランスが異なる状況を想定
• [Redko+ (2018)] では最適輸送を使って効果的なモデルの学習を実現
(Fig)
ただし一般には最適輸送はこのような問題は苦手 (輸送前と後でラベル
を保存するため)
K. Matsui (RIKEN AIP) Transfer Learning Survey Foundations of Transfer Learning 45 / 180
49. When to Transfer : 転移仮定 iii
ドメインの “類似” をより積極的にモデリングする
例 iii: 共通の隠れ空間の存在 [Duan+ (2012), Iwata&Yamada (2014)]
Latent space
D
'
^
/
:
,
D
W1 ↙ ↘ W2
D
'
^
/
:
,
D
'
^
/
:
,
Observed view 1 Observed view 2
( )
• 適当な射影によって homogeneous な空間に落とせる (左)
• 隠れ空間からの写像によって様々な表現が観測される (右)
K. Matsui (RIKEN AIP) Transfer Learning Survey Foundations of Transfer Learning 46 / 180
50. When to Transfer : 負転移
ドメインバイアスとも呼ばれる (メタ学習の文脈)
• 2 つのシナリオ
1. 一方のドメインのみで学習したモデルを目標タスクで用いる
2. 転移学習によって学習したモデルを目標タスクで用いる
で (2 の目標タスク性能) ≤ (1 の目標タスク性能) のとき負
転移 (negative transfer) という
• 2 つのドメインが乖離しているほど負転移が発生しやすい
1.0
0.2
0.4
0.6
0.8
0.0
1.0
0.2
0.4
0.6
0.8
0.0
AUC
AUC
The number of target training casesThe number of target training cases
(a) (b)
source only
transfer
target only
source only
transfer
target only
K. Matsui (RIKEN AIP) Transfer Learning Survey Foundations of Transfer Learning 47 / 180
52. 深層学習の登場は転移学習をどう変えたか?
• 転移学習の観点では, 表現学習としての深層学習の発展が
大きなポイント
• これまでマニュアルで設計していた特徴量をネットワーク
が自然に獲得
• 転移学習においては, データから各ドメインに関する特徴
の抽出も可能になった
• ドメイン不変な特徴量はそのまま転移可能
• 特徴を独立な成分に分解し, ドメイン間で共有されている
成分は転移し, 異なっている成分は転移しない
(disentangled representation, 後述)
K. Matsui (RIKEN AIP) Transfer Learning Survey Paradigm Shift in Transfer Learning via Deep Learning 48 / 180
53. 深層ニューラルネットによる特徴表現の獲得– 1 week for
training
• 5 conv. layers + 3 fully connected layers
Layer 5
– 2 GPUs
– 1 week for
training
conv. layers + 3 fully connected layers
13
Conv 1 :
EdgeColor
Conv 3 :
Texture
Conv 5 :
Object Parts
FC 8 :
Object Classes
AlexNet [Krizhevski+ (NIPS12)]
Fig : Ushiku, ACML2019 Tutorial
ZeilerFergus, ECCV2014
K. Matsui (RIKEN AIP) Transfer Learning Survey Paradigm Shift in Transfer Learning via Deep Learning 49 / 180
54. 転移学習としての表現学習
output y1 output y3output y2
Fig: [Bengio+ (2013)]
• ドメイン不変な特徴を獲得する
• オートエンコーダや敵対的学習 (後述) などが良く用いられる
K. Matsui (RIKEN AIP) Transfer Learning Survey Paradigm Shift in Transfer Learning via Deep Learning 50 / 180
55. オートエンコーダによる表現学習
Transfer Learning with Deep Autoencoders [Zhuang+ (2015)]
• オートエンコーダによる教師付き表現学習
min Err(x, ˆx)
reconstruction error
+α (KL(PS||PT) + KL(PT||PS))
discrepancy
+β ℓ(yS; θ, ξS)
softmax loss
+γReg
• 元ドメインと目標ドメインで encoding 層と decoding 層の重みを共有
K. Matsui (RIKEN AIP) Transfer Learning Survey Paradigm Shift in Transfer Learning via Deep Learning 51 / 180
56. 敵対的学習による表現学習
Domain Adversarial Training [Ganin+ (2016)]
ptrue(X)
pz(z)
G(z; θg)
pg(X)
D(x; θd)
xo xf
PS(X) PT (X)
D(x; θd)
xS xT
G(·; θE)
φS φT
• 敵対的学習 (左図) をドメイン適応に応用 (右図)
• ドメイン不変な特徴表現の学習が目的
K. Matsui (RIKEN AIP) Transfer Learning Survey Paradigm Shift in Transfer Learning via Deep Learning 52 / 180
57. 敵対的学習による表現学習 ii
Domain Adversarial Training [Ganin+ (2016)]
• 入力データを特徴抽出器に噛ませ, クラスラベルの識別器 (通常の識別
器, 上段) とドメインラベルの識別器 (下段) にそれぞれ入力
• ドメイン識別器の学習は gradient に負定数をかけ逆伝播する gradient
reversal layer を導入することで実現
K. Matsui (RIKEN AIP) Transfer Learning Survey Paradigm Shift in Transfer Learning via Deep Learning 53 / 180
58. ドメインの類似と相違の獲得 i
Domain Separation Networks [Bousmalis+ (2016)]
• ドメインの “違い” をネットワークに学習させる
• private encoder でドメイン固有の特徴を学習し, shared encoder でド
メイン横断的な特徴を学習する
K. Matsui (RIKEN AIP) Transfer Learning Survey Paradigm Shift in Transfer Learning via Deep Learning 54 / 180
59. ドメインの類似と相違の獲得 ii
定式化 : 4 つの損失関数の重み付き和を最小化
min L = Ltask + αLrecon + βLdiff + γLsim
• 第 1 項は判別誤差 (負の対数尤度)
Lclass = −
∑
i
yS
i log ˆyS
i
• 第 2 項は元の特徴と変換後の特徴の再構築誤差
Lrecon =
∑
i
ℓ(xS
i , ˆx
S
i ) +
∑
j
ℓ(xT
j , ˆx
T
j ), ℓ(x, ˆx) =
1
k
∥x − ˆx∥2
−
1
k2
((x − ˆx)⊤
1)2
• 第 3 項はドメイン共有の特徴とドメイン固有の特徴を直交方向に学習
させる
Ldifference = Hs⊤
c Hs
p
2
F
+ Ht⊤
c Ht
p
2
F
• 第 4 項はドメインの類似性に関する誤差 e.g. 交差エントロピー
∑
ˆ
(
ˆ
)
K. Matsui (RIKEN AIP) Transfer Learning Survey Paradigm Shift in Transfer Learning via Deep Learning 55 / 180
60. Disentangled Representation i
もつれのない表現 [Achille+ (2018), Locatello+ (2019),...]
• データが独立な複数の構成要素からなる場合にその独立成
分を個別に取り出すような特徴表現
• 特に複数のドメイン間での転移可能性に重きが置かれる
Fig : Evaluating the Unsupervised Learning of Disentangled Representations
K. Matsui (RIKEN AIP) Transfer Learning Survey Paradigm Shift in Transfer Learning via Deep Learning 56 / 180
61. Disentangled Representation ii
Disentangled Representation の学習: 変分オートエンコーダ
(VAE)
X qφ(z | X) pθ(X | z)
ˆXz ∼ N(0, I)
β-VAE [Higgins+ (2017)] ベースの方法が多数提案されている
Lβ =
1
N
N∑
n=1
(Eq [log p (xn|z)] − β KL (q (z|xn) ∥p(z)))
• β = 1 が通常の VAE
• β 1 とすることで第 2 項の罰則が学習に大きく寄与し,
disentangled representation が獲得されやすくなる.
• ただし β のチューニングに sensitive
K. Matsui (RIKEN AIP) Transfer Learning Survey Paradigm Shift in Transfer Learning via Deep Learning 57 / 180
62. Disentangled Representation iii
β-VAE β-TCVAE
Gender (-6, 6)female male
Fig : [Chen+ 2018]β-TCVAE [Chen+ (2018)]
Lβ−TC =Eq(z|n)p(n)[log p(n | z)] − αIq(z; n)
− β KL
(
q(z)
∏
q
(
zj
)
)
− γ
∑
KL
(
q
(
zj
)
∥p
(
zj
))
• VAE の第 2 項をさらに分解し項別に重み付け (α と γ は 1 で固定)
• 第 3 項は total correlation と呼ばれ, この項へのペナルティが独
立な表現の獲得に大きく寄与する
K. Matsui (RIKEN AIP) Transfer Learning Survey Paradigm Shift in Transfer Learning via Deep Learning 58 / 180
63. Disentangled Representation iv
任意の生成モデルに対して, disentangled representation を教師なし
学習することは可能なのか?
→ モデル or データセットに inductive bias がなければ無理
Theorem 1 (教師なし学習不可能性 Locatello+ (2019))
d 1 として, r.v. z が従う分布 P の密度関数が
p(z) =
∏d
i=1 p(zi) と書けるとする. このとき, ある全単射
f : supp(z) → supp(z) の族が存在し,
1.
∂fi(u)
∂uj
̸= 0 a.e. ∀i, j
2. P(z ≤ u) = P(f(z) ≤ u), ∀u ∈ supp(z)
1 → z と f(z) は completely entangled
2 → z と f(z) は同じ周辺分布を持つ
K. Matsui (RIKEN AIP) Transfer Learning Survey Paradigm Shift in Transfer Learning via Deep Learning 59 / 180
64. Disentangled Representation v
cf : Independent Component Analysis (独立成分分析, ICA)
Fig : [Tharwat 2018]
• 観測されるデータは, 独立な複数の発生源からのシグナル
の混合であると考える
• 単一ドメインにおける ある種の disentangled
representation (表現の転移は基本的に考えない)
← 線形 ICA の場合
K. Matsui (RIKEN AIP) Transfer Learning Survey Paradigm Shift in Transfer Learning via Deep Learning 60 / 180
65. Disentangled Representation vi
cf : 非線形 ICA (Disentangled Representation との違いは???)
• 真のシグナル (潜在変数) に非線形変換 がかかったものが
データとして観測される
• データから真の潜在変数を復元可能か?
復元の不可能性 [HyvärinenPajunen (1999)]
観測 x に対して, y = g(x) で定まる復元 y の各成分が独立にな
るような変換 g が (常に) 存在する. ただしこの復元は一意に
は定まらない → 独立性だけでは非線形 ICA はできない
復元のアイデア: contrastive learning [Hyvärinen+ (2018)]
• 異なる複数の分布 (ドメインに相当) を識別するモデルを
学習する
• ドメインラベルが正しく識別されるモデルの中間層で真の
潜在表現の extractor が獲得される
K. Matsui (RIKEN AIP) Transfer Learning Survey Paradigm Shift in Transfer Learning via Deep Learning 61 / 180
67. Multi-Task Learning
複数の類似タスクを各タスクの情報を共有しながら同時学習
Fig: [Ruder (2017)]
• NN の場合, ネットワークの構造を工夫してタスク間でパラ
メータを共有する (上図)
• 非 NN の場合, 各タスクのパラメータが近くなるような正
則化をかける (下式 3 項目):
min
θ1,...,θT
1
2
T∑
t=1
n∑
i=1
(fθt (xi) − yi)2
loss
+
1
2
T∑
t=1
λt∥θt∥2
inner−task
+
1
4
T∑
t,t′=1
γt,t′ ∥θt − θt′ ∥2
inter−task
K. Matsui (RIKEN AIP) Transfer Learning Survey Related Fields of Transfer Learning 62 / 180
68. Multi-View Learning i
Fig: [Xu+ (2013)]
同じものが別の見え方で観測される
K. Matsui (RIKEN AIP) Transfer Learning Survey Related Fields of Transfer Learning 63 / 180
69. Multi-View Learning ii
Principles for Multi-view Learning [Xu+ (2013)]
1. Consensus Principle [Dasgupta+ (2002)]
Pr(f1
̸= f2
) ≥ max{Prerr(f1
), Prerr(f2
)}
• 2 通りの view に対する独立な仮説 f1
, f2
の誤差はこれらの
仮説が不一致である確率で上から抑えられる
• co-regularization 型の手法: 予測損失 +consensus 正則化
∑
L(yi, f(xi))
loss
+
∑
(f1
(xi) − f2
(xi))2
regularization
2. Complementary Principle
• 各 view は他の view がもたない情報を含む
• 複数の view からデータの情報を補完して学習の性能を向
上させることができる
→ co-training 型の手法
K. Matsui (RIKEN AIP) Transfer Learning Survey Related Fields of Transfer Learning 64 / 180
70. Multi-View Learning iii
Multi-view discriminant transfer (MDT) [YangGao (2013)]
• 元ドメイン: {(xS
i , zS
i , yS
i )} (2 views, ラベルありデータ)
• 目標ドメイン: {(xT
j , zT
j )} (2 views ラベルなしデータ)
Task: 目標ドメインデータのラベル yT
j を当てる
MDT の学習問題
max
ξ
ξ⊤Qξ
ξ⊤Pξ
⇔ Qξ = λPξ (generalized eigenvalue problem)
• P : view-wise within-class covariance
• Q = Qw − c1Qd − c2Qc
• Qw : between-class covariance に対応
• Qd : domain discrepancy に対応
• Qc : view consistency に対応
K. Matsui (RIKEN AIP) Transfer Learning Survey Related Fields of Transfer Learning 65 / 180
71. Meta-Learning i
•
•
• stacked generalization
• Model-Agnostic Meta-Learning (MAML) [Finn+ (2017)]
• Task embedding (TASK2VEC) [Achille+ (2019)]
K. Matsui (RIKEN AIP) Transfer Learning Survey Related Fields of Transfer Learning 66 / 180
72. Meta-Learning ii : Stacked Generalization
•
•
•
• 様々なアルゴリズムで仮説を学習し, その出力を入力とする上位の仮説
をさらに学習
• kaggle 等のコンペで強力なアプローチとして普及
K. Matsui (RIKEN AIP) Transfer Learning Survey Related Fields of Transfer Learning 67 / 180
73. Meta-Learning iii : Model-Agnostic Meta-Learning (MAML)
様々なタスクに共通に “良い初期値” を学習する
Fig: [Finn+ (2017)]
• パラメータ θ を勾配法の更新則によって異なるタスクに適応させる:
θ′
i ← θ − α∇θLTi
(fθ)
ここで Ti は目標タスク, fθ はモデル, L は損失関数
• タスクの出現の仕方に関して SGD で適切なパラメータを学習:
θ ← θ − β∇θ
∑
Ti∼p(T)
LTi
(fθ′
i
)
少ない更新回数で新たなタスクに適応できるようにパラメータを学習
K. Matsui (RIKEN AIP) Transfer Learning Survey Related Fields of Transfer Learning 68 / 180
74. Meta-Learning iv : Task Embedding (TASK2VEC)
Fig: [Achille+ (2019)]
• 学習済み NN の Fisher 情報行列を使ってタスクのベクトル
表現を獲得 → タスク間の類似度計算が可能に
• タスク間の類似度からタスク毎の適切な特徴抽出機を予測
K. Matsui (RIKEN AIP) Transfer Learning Survey Related Fields of Transfer Learning 69 / 180
75. Learning to Optimize i
Fig : Learning to Optimize with Reinforcement Learning
£ 機械学習の成功は (データからのパターンの自動抽出のような) デ
ータ駆動の考え方に依るところが大きい
£ しかし学習アルゴリズムの設計は依然として人手に依っている
→ 学習アルゴリズムは学習可能?
K. Matsui (RIKEN AIP) Transfer Learning Survey Related Fields of Transfer Learning 70 / 180
76. Learning to Optimize ii
[LiMalik ICLR2017]
State
Action Cost
Policy
f(x(i)
)
Fig : Learning to Optimize with Reinforcement Learning
• π の選び方によって最適化アルゴリズムが変わる
→ π の学習 = 最適化アルゴリズムの学習とみなせる
• ある最適化アルゴリズムの実行はある固定された方策 π の下で
MDP を実行する操作とみなせるみなせる
→ 強化学習 (Guided Policy Search) によって方策 π を学習
K. Matsui (RIKEN AIP) Transfer Learning Survey Related Fields of Transfer Learning 71 / 180
77. Learning to Learn i
£ 多くの文献でlearning to learn = メタ学習 とされている
£ 人間の
• “あるタスクに対する能力を別の新規タスクに汎化する” 能力
• “汎化のために必要な経験 · 例 · 反復回数などを学習する” 能力
を計算機上で実現したい
£ Learning to Optimize with Reinforcement Learning によれば,
Learning to Optimize で損失関数を目的関数とした場合に相当
£ 学習するメタ知識の種類に応じて 3 種類に大別
1. Learning What to Learn [ThrunPratt (2012)]
2. Learning Which Model to Learn [Brazdil (2008)]
3. Learning How to Learn [LiMalik (2017), Andrychowicz+ (2016)]
K. Matsui (RIKEN AIP) Transfer Learning Survey Related Fields of Transfer Learning 72 / 180
78. Learning to Learn ii
Learning to learn by gradient descent by gradient descent
[Andrychowicz+ (2016)]
Optimizee
Optimizer
t-2 t-1 t
m m m
+ + +
ft-1 ftft-2
∇t-2 ∇t-1 ∇t
ht-2 ht-1 ht ht+1
gt-1 gt
θt-2 θt-1 θt θt+1
gt-2
• DNN の optimizer (SGD, RMSprop, ADAM...) の更新則を学習
• パラメータ ϕ で optimizer をパラメトリックモデリング:
θt+1 = θt + gt(∇f(θt), ϕ)
• ϕ に関する損失関数を最小化:
L(ϕ) = Ef [f (θ∗
(f, ϕ))]
K. Matsui (RIKEN AIP) Transfer Learning Survey Related Fields of Transfer Learning 73 / 180
79. Few-shot Learning i
Fig: [HariharanGirshick (2017)]
• 興味あるタスク (目標ドメイン) のラベル付きデータが少数 (few)
• one-shot : ラベル付きデータが 1 例のみ
• zero-shot : ラベル付きデータ無し
• 特に Zero-shot の場合は訓練時に見たことのないラベルをもつテスト
データを扱う. ラベルそのものは観測できないが, ラベルについての補
助情報が学習可能という設定
K. Matsui (RIKEN AIP) Transfer Learning Survey Related Fields of Transfer Learning 74 / 180
80. Few-shot Learning ii
Matching Networks [Vinyals+ (2016)]
• one-shot learning において, 元ドメインデータ S = {(xi, yi)} が与えら
れたとき目標データ x のラベル y の予測分布を NN で学習
P(y|x, S) =
k∑
i=1
a (x, xi) yi
• ニューラル機械翻訳の文脈での単語アラインメントモデルに対応
cf [Bahdanau+ (2015)] 3.1 節
K. Matsui (RIKEN AIP) Transfer Learning Survey Related Fields of Transfer Learning 75 / 180
81. メタ強化学習 i
過去のタスクの知見を使って新たな強化学習タスクを高速に
解く.
• 学習者はタスク分布 P(T ) を持っていて, そこからのサンプ
リングができるという設定
• 同じタスク分布からサンプリングされた新しいタスクに対
しては高速に適応する
• 最近の meta-RL では特に, タスク = マルコフ決定過程
(MDP) としている
アプローチ
方策を事前学習しておき, few-shot で現在のタスクに適応させ
る [Wang+ (2016), Finn + (2017)]
K. Matsui (RIKEN AIP) Transfer Learning Survey Related Fields of Transfer Learning 76 / 180
82. メタ強化学習 ii
Model-Agnostic Meta-Learning (MAML) [Finn+ (2017)]
• MAML を RL に適用
• 損失関数として期待リワードを取る:
LTi
(fθ) = −Ext,at∼fϕ,qτi
[ H∑
t=1
Ri (xt, at)
]
• fθ : 方策関数
• Ri : タスク Ti におけるリワード関数
• 勾配法でパラメータ θ を最適化 (ただし期待リワードは一
般に微分不可能なので方策勾配を取る)
K. Matsui (RIKEN AIP) Transfer Learning Survey Related Fields of Transfer Learning 77 / 180
83. Sim2Real
Training Test
Fig : [Tobin+ 2017]
• コストのかかる方策の学習をシミュレータ内で行い, 現実
の問題に転移
• シミュレータ側の精度向上が背景
K. Matsui (RIKEN AIP) Transfer Learning Survey Related Fields of Transfer Learning 78 / 180
84. Domain Randomization
Fig: [Tobin+ (2017)]
シミュレータのパラメータにランダムな摂動を加えて多様性を
持たせ, 目標ドメイン (現実の問題) を包含してしまうような元
ドメインを作る → 内挿問題化してしまおうという気分
K. Matsui (RIKEN AIP) Transfer Learning Survey Related Fields of Transfer Learning 79 / 180
87. Feature Augmentation ii
Learning with Augmented Features [Duan+ (2012)]
• Frustratingly Easy method + 共通空間への射影
xS → ψS = (PxS, xS, 0)
xT → ψT = (QxT, 0, xT)
P, Q は射影行列
• SVM のモデルパラメータと射影行列を同時に学習:
min
P,Q
min
w,b,ξi,ξi
1
2
∥w∥2
+ C
( ns∑
i=1
ξs
i +
nt∑
i=1
ξt
i
)
s.t.
ys
i
(
w⊤ψs
(
xs
i
)
+ b
)
≥ 1 − ξs
i , ξs
i ≥ 0
yt
i
(
w⊤ψt
(
xt
i
)
+ b
)
≥ 1 − ξt
i , ξt
i ≥ 0
∥P∥2
F ≤ λp, ∥Q∥2
F ≤ λq
∥ · ∥F は行列のフロベニウスノルム
K. Matsui (RIKEN AIP) Transfer Learning Survey Topics in Transfer Learning 81 / 180
88. Pseudo Labeling for Target Data i
教師なし転移学習において, 目標ドメインのラベル無しデータに擬似ラベル
をつけて学習をすることで目標タスクの性能向上を図る
• Self-training [Chen+ (2011)]
• Co-training [Chen+ (2011)]
• Tri-training [Saito+ (2017)]
疑似ラベル学習とエントロピー正則化の等価性 [Lee+ (2013)]
L =
1
n
n∑
i=1
ℓ (yi, h(xi; θ))
loss for labeled data
+α(t)
1
n′
n′
∑
j=1
ℓ
(
y′
j , h(x′
j ; θ)
)
loss for unlabeled data
C(θ, λ) =
n∑
i=1
log P (yi | xi; θ) + λ
1
n′
n′
∑
j=1
P
(
y = 1 | x′
j , θ
)
log P
(
y = 1 | x′
j , θ
)
entropy regularization
上段: 疑似ラベル学習の目的関数, 下段: エントロピー正則化付き学習の目的
関数. 各項が対応関係にある.
K. Matsui (RIKEN AIP) Transfer Learning Survey Topics in Transfer Learning 82 / 180
89. Pseudo Labeling for Target Data ii
Asymmetric Tri-training [Saito+ (2017)]
K. Matsui (RIKEN AIP) Transfer Learning Survey Topics in Transfer Learning 83 / 180
90. Domain Selection i
DS1 = {{(xS1
i , yS1
i )}
nS1
i=1 , PS1 }
DS2 = {{(xS2
i , yS2
i )}
nS2
i=1 , PS2 }
DSK
= {{(xSK
i , ySK
i )}
nSK
i=1 , PSK
}
DT = {{xT
i }nT
i=1, PT }
• 複数の元ドメインから目標タスクに寄与するものを選択したい
• ドメイン間の不一致度や目標ドメインのタスク性能を指標に選択
K. Matsui (RIKEN AIP) Transfer Learning Survey Topics in Transfer Learning 84 / 180
91. Domain Selection ii
不一致度と相補性に基づく元ドメイン選択 [Bhatt+ (2016)]
T
S1
S2
S3
S4
Disc(T, S1) ≤ Disc(T, S2) ≤ Disc(T, S3) ≤ Disc(T, S4)
1. 元ドメインを目標ドメインとの不一致度の大きさでランキング
2. 上位から, 既に選ばれたドメインと相補的になるように次を選択:
上図の例では S1 → S3 → S4 (S2 は選択しない)
K. Matsui (RIKEN AIP) Transfer Learning Survey Topics in Transfer Learning 85 / 180
92. Knowledge Distillation i
学習済みモデル (予測性能高, 複雑度高) の性能をより規模が小
さく学習しやすいモデルに継承させたい
アイデア
元ドメインタスクのモデルパラメータを記憶して転移する
(パラメータ転移) 必要はなく, 入出力関係が記憶されていれば
良い → (ノンパラメトリックな) 関数として転移
• 定式化 [Hinton+ (2015), Kimura+ (2018)] :
min
fT
λ1
N
N∑
i=1
ℓ1(yi, fT(xi)) +
λ2
N
N∑
i=1
ℓ2(fS(xi), fT(xi))
• fS は学習済みモデル, fT は目標モデル
• 第 1 項は目標モデルに対する通常の損失
• 第 2 項は学習済みモデルの予測と目標モデルの予測を近づけるた
めの損失
K. Matsui (RIKEN AIP) Transfer Learning Survey Topics in Transfer Learning 86 / 180
93. Knowledge Distillation ii Dark Knowledge
An example of hard and soft targets
0 1 0 0
.9 .1
.05 .3 .2 .005
original hard
targets
output of
geometric
ensemble
softened output
of ensemble
dog
dog
cat
cow cat car
10
−910
−6
Softened outputs reveal the dark knowledge in the ensemble.
cow car
dog catcow car
Fig : [Hinton+ (2014)]
K. Matsui (RIKEN AIP) Transfer Learning Survey Topics in Transfer Learning 87 / 180
94. Knowledge Distillation iii Born-Again Neurak Networks (BANs)
Born-Again Neurak Networks [Furlanello+ (2018)]
• 教師モデルと全く同じ構造の生徒モデルを複数学習しアンサンブルす
ることで教師モデルを上回る性能のモデルが学習可能
• BANs の学習問題: シーケンシャルに以下の output matching を解く
min
θk
L(f(x, arg min
θk−1
L(y, f(x, θk−1))), f(x, θk))
• BANs Ensemble: 学習したモデルのアンサンブルで予測
ˆfk
(x) =
1
k
k∑
i=1
f(x, θi)
K. Matsui (RIKEN AIP) Transfer Learning Survey Topics in Transfer Learning 88 / 180
95. Catastrophic Forgetting i
ニューラルネットが新規タスクを学習すると, 以前学習したタ
スクの情報を忘れてしまう現象 [McCloskeyCohen (1989)]
→ 以前のタスクに対するパフォーマンスが低下
Example 1 (fine-tuning)
目標ドメインで出力層の再学習を行うとき, 誤差逆伝播法に
よって元ドメインで学習したパラメータが破壊されてしまう
…
1000
…
20
Fine-tuning
L∇ ( )iiL yx ,
K. Matsui (RIKEN AIP) Transfer Learning Survey Topics in Transfer Learning 89 / 180
96. Catastrophic Forgetting ii 対策
• Learning without forgetting [LiHoiem (2018)]
• タスク間で共通のパラメータ θS
• 元タスク固有のパラメータ θo
• 目標タスク固有のパラメータ θn
を用意して, 以下の最適化問題を解く (蒸留を使った定式化)
min
θS,θo,θn
λo Lold(Yold, ˆYold)
loss for old task
+ Lnew(Ynew, ˆYnew)
loss for new task
+ R(θS, θo, θn)
regularization
• Elastic weight consolidation [Kirkpatrick+ (2017)]
L(θ) = LB(θ) +
i
λ
2
Fi θi − θ∗
A,i
2
θ
• 両タスクで error が小さくなるようなパ
ラメータ空間の領域に入るように正則化
• 通常の L2 正則化に情報行列で重み付け
K. Matsui (RIKEN AIP) Transfer Learning Survey Topics in Transfer Learning 90 / 180
97. (Conditional) Neural Processes i
Fig : [Kim+ (2019)]
• 条件付き分布 p(y | x, Z, θ) の深層生成モデル [Garnelo+
2018]
• x : target input
• Z = {(xi, yi)}M
m=1 : context set
• θ : model parameters
• GP 回帰の事前知識を入れられる·予測の不確実性を評価で
きる機能と NN の高い予測性能の良いとこ取りをしたい
K. Matsui (RIKEN AIP) Transfer Learning Survey Topics in Transfer Learning 91 / 180
98. (Conditional) Neural Processes ii
x1 y1
x2 y2
x3 y3
MLPθ
MLPθ
MLPθ
MLPΨ
MLPΨ
MLPΨ
r1
r2
r3
s1
s2
s3
rCm
m sC
x
rC
~
MLP y
ENCODER DECODER
Deterministic
Path
Latent
Path
NEURAL PROCESS
m Mean
z
z
*
* x1 y1
x2 y2
x3 y3
MLP
MLP
MLP
MLP
MLP
MLP
r1
r2
r3
s1
s2
s3
m sC
x
~
MLP y
ENCODER DECODER
Deterministic
Path
Latent
Path
Self-
attnϕ
Self-
attnω
Cross-
attention
x1 x2 x3 x
r
r
ATTENTIVE NEURAL PROCESS
m Mean
Keys Query
Values
z
z
*
*
*
*
*
Fig : [Kim+ (2019)]
• ネットワーク構造は VAE に近い (左図)
encode→reparametrization→decode
• GP のような入力間の類似度を評価するためのオプション
e.g. attention mechanism [Kim+ (2019)] (右図)
K. Matsui (RIKEN AIP) Transfer Learning Survey Topics in Transfer Learning 92 / 180
99. (Conditional) Neural Processes iii
メタ学習への応用 [Galashov+ (2019)]
Bayesian optimization from meta-learning viewpoint
GP などの事前分布からターゲット関数の類似物をサンプリン
グ可能 → 事前分布として Neural process を使用
Algorithm 1 Bayesian Optimisation
Input:
f∗
- Target function of interest (= T ∗
).
D0 = {(x0, y0)} - Observed evaluations of f∗
.
N - Maximum number of function iterations.
Mθ - Model pre-trained on evaluations of similar
functions f1, . . . fn ∼ p(T ).
for n=1, ... , N do
// Model-adaptation
Optimise θ to improve M’s prediction on Dn−1.
Thompson sampling: Draw ˆgn ∼ M, find
xn = arg minx∈X E ˆg(y|x)
Evaluate target function and save result.
Dn ← Dn−1 ∪ {(xn, f∗
(xn))}
end for
K. Matsui (RIKEN AIP) Transfer Learning Survey Topics in Transfer Learning 93 / 180
100. (Conditional) Neural Processes iv
メタ学習への応用 [Galashov+ (2019)]
モデル M のサンプリングに neural process を用いる理由
1. statistical efficiency
少ない context point 数で正確に関数値評価が可能
2. calibrated uncertainties
探索と活用のバランス (モデルの不確実性評価)
3. 推論時の計算量が O(n + m) (サンプルサイズの線形オーダ
ー, オリジナルの NP の場合)
4. non-parametric modeling
→ MAML のような推論時の学習率 · 更新頻度などのハイパ
ラ設定が不要
K. Matsui (RIKEN AIP) Transfer Learning Survey Topics in Transfer Learning 94 / 180
101. (Conditional) Neural Processes v
メタ学習への応用 [Galashov+ (2019)]
Adversarial task search for RL agents [Ruderman+ 2018]
Task (p∗
s, p∗
g) = argminps,pg
fA(M, ps, pg)
(M∗
, p∗
s, p∗
g) = argminM,ps,pg
fA(M, ps, pg)
3
1. Position search:
2. Full maze search:
•
•
•
•
fA
M
ps, pg
K. Matsui (RIKEN AIP) Transfer Learning Survey Topics in Transfer Learning 95 / 180
102. 能動学習のための転移学習 i
Regret Bounds for Transfer Learning in Bayesian
Optimisation [Shilton+ (2017)]
• 材料科学などの “実験” を伴う分野はデータ数が少ないこ
とに加えてデータ取得コストが非常に大きい
→ 実験計画 (能動学習) でデータの取得方針を最適化
• 一方, “実験” の大きな特徴として設定の異なる実験群を通
じて対象に関する知識が蓄積される
→ “よく似た実験”のデータが活用できる可能性がある
目的:
ベイズ最適化に対して転移学習で別リソースからの知識を活
用する
K. Matsui (RIKEN AIP) Transfer Learning Survey Topics in Transfer Learning 96 / 180
103. 能動学習のための転移学習 ii
アプローチ
f’
f
σS
Env-GP
f’
f
∆f
f’+∆f
Diff-GP
• Env-GP : 元ドメインのデータを目標ドメインのデータと思
って使う (観測ノイズを十分大きく取ると, 目標ドメインの
関数からのサンプルとみなせる)
• Diff-GP : 元ドメインの目的関数と目標ドメインの目的関数
のギャップを直接ガウス過程でモデリング
K. Matsui (RIKEN AIP) Transfer Learning Survey Topics in Transfer Learning 97 / 180
104. 能動学習のための転移学習 iii
応用: 適応的マッピング [穂積 + (2019)]
K. Matsui (RIKEN AIP) Transfer Learning Survey Topics in Transfer Learning 98 / 180
105. BERT [Devlin+ (2018)]
Bidirectional Encoder Representations from Transformers
• NLP における言語モデルの pre-training
• BooksCorpus (800M words) + Eng. Wikipedia (2500M words) をコーパス
として使用
• fine-tuning によって様々なタスクで高い性能を発揮
K. Matsui (RIKEN AIP) Transfer Learning Survey Topics in Transfer Learning 99 / 180
106. Rethinking ImageNet Pre-training [He+ 2018]
pre-training fine-tuning は本当に必要?
• COCO dataset の学習で
• ランダム初期化から学習したモデル
• ImageNet で事前学習したモデル
を比較したところ, comparable な結果を得た
K. Matsui (RIKEN AIP) Transfer Learning Survey Topics in Transfer Learning 100 / 180
107. Taskonomy: Disentangling Task Transfer Learning [Zamir+ 2018]
taskonomy (task taxonomy)
• 26 種類の画像関連タスクを総当
たりして相性の良い元ドメイン ·
目標ドメインの組を見つける
• タスク間の関係 (転移可能性) を
有効ハイパーグラフ (taskonomy,
左図) として可視化
• 400 万枚の画像に対して全ての
タスクに対応するアノテーショ
ンをつけたデータセットを作成
し実施
K. Matsui (RIKEN AIP) Transfer Learning Survey Topics in Transfer Learning 101 / 180
111. 確率密度比に基づく方法: 重要度重み付き学習 ii
r(X) = PT(X)
PS(X) とおく
RT(h) = E(X,Y)∼PS(X,Y) [r(X)ℓ(h(X), Y)]
≈
1
NS
NS∑
i=1
ˆr(xi)ℓ(h(xi), yi)
結局, RT(h) を最小にする仮説 h は以下の 2 ステップのアルゴリ
ズムで推定できる (重要度重み付き学習 [Sugiyama+ (2012)])
Step 1 密度比関数 r(x) を元ドメインと目標ドメインのラ
ベル無しデータから推定
Step 2 ˆr(x) で重み付けをした元ドメインのラベル付きデ
ータで仮説 h を学習
K. Matsui (RIKEN AIP) Transfer Learning Survey Theory of Transfer Learning (Instance Transfer) 104 / 180
112. 確率密度比に基づく方法: 重要度重み付き学習 iii
• 重要度重み付き学習は目標ドメインに近い元ドメインのイ
ンスタンスに大きな重みを与えて仮説を学習
• 密度比関数は, 両ドメインのラベル無しデータから一致推
定量が構成可能 [Kanamori+ (2012)]
• RT の大きさは, 重要度重み付き経験誤差の大きさと, 重要
度重みの推定誤差の大きさに依存
K. Matsui (RIKEN AIP) Transfer Learning Survey Theory of Transfer Learning (Instance Transfer) 105 / 180
113. 拡張: 変数選択 + 重要度重み付き学習 i [M+ (2019)]
• カーネル密度比推定は常に全変数が要求される
→ 問題によってはデータ取得コストがネックになる
• 予め密度比に寄与する変数を選択し, それのみを使いたい
方法 : adaptive scaling + L1 正則化付き ERM
min
ξ∈[0,1]d
L(fξ) + η∥ξ∥1, ˆfξ(z) = ˆf(ξ ◦ z)
• ˆf は f の一致推定量 (カーネル密度比推定などで推定)
• 発想は adaptive lasso に近い
• ˆf の推定時に power series kernel を使えば ˆf と ˆfξ は同一の
RKHS の元になる
• 適当な条件の下で変数選択の一致性を保証
K. Matsui (RIKEN AIP) Transfer Learning Survey Theory of Transfer Learning (Instance Transfer) 106 / 180
114. 拡張: 変数選択 + 重要度重み付き学習 ii [M+ (2019)]
実験: 共変量シフトの下での判別問題
Table 5: Comparison of classification accuracy
kernel NNG Lasso SFS adapt full no adapt
pcas 0.830 (13/17) 0.830 (17/17) 0.830 (12/17) 0.830 0.773
ckd 0.981 (8/17) 0.981 (17/17) 0.981 (16/17) 0.981 0.943
ccancer 0.884 (4/27) 0.879 (19/27) 0.879 (22/27) 0.879 0.884
cnuclear 0.634 (60/71) 0.599 (62/71) 0.603 (37/71) 0.619 0.587
• 正判別率と変数選択の割合を比較 (提案法, Lasso, 前向き漸
次的選択, 変数選択なし, 補正なし)
K. Matsui (RIKEN AIP) Transfer Learning Survey Theory of Transfer Learning (Instance Transfer) 107 / 180
115. 拡張: 変数選択 + 重要度重み付き学習 iii [M+ (2019)]
全変数で推定した密度比 vs 変数選択後の密度比
提案法は判別精度を落とさず密度比推定の精度も保つ
K. Matsui (RIKEN AIP) Transfer Learning Survey Theory of Transfer Learning (Instance Transfer) 108 / 180
124. 教師なしドメイン適応の必要条件
教師なし DA が成功するために必要な仮定は何か?
Most Common Assumptions :
• 共変量シフト
PT(Y | X) = PS(Y | X)
• 元ドメインと目標ドメインの入力の周辺分布の
discrepancy が小さいこと
Disc(PXT
, PXS
) : small
• 両方のドメインで誤差が小さくなるような共通の仮説が存
在すること
λH = (Diff(fT, fS) =) minh∈H RS(h) + RT(h) : small
これら 3 条件が理論的にも必要条件になっていることを示す
→ impossibility theorems
K. Matsui (RIKEN AIP) Transfer Learning Survey Impossibility Theorems for Domain Adaptation 116 / 180
125. 準備 i Domain Adaptation Learner
Definition 4 (Domain Adaptation Learner)
A :
∞∪
m=1
∞∪
n=1
(X × {0, 1})m
× Xn
→ {0, 1}X
• “元ドメインのラベルありデータと目標ドメインのラベル
なしデータから仮説を学習する” という写像
K. Matsui (RIKEN AIP) Transfer Learning Survey Impossibility Theorems for Domain Adaptation 117 / 180
126. 準備 ii Learnability
Definition 5 (Learnability)
A (ε, δ, m, n)-learns PT from PS relative to H
:⇐⇒ Pr
S∼i.i.d(PS)m
Tu∼i.i.d(PXT )
n
[RT (A (S, Tu)) ≤ RT(H) + ε] ≥ 1 − δ
• RT(H) = infh∈H RT(h)
• S : 元ドメインのサイズ m のラベルありデータ
• Tu : 目標ドメインのサイズ n のラベルなしデータ
データの出方の確率分布に対して,
A が学習した仮説の期待リスク
≤ H で達成可能な最小の期待リスク + ε
が 1 − δ 以上の確率で成り立つこと
K. Matsui (RIKEN AIP) Transfer Learning Survey Impossibility Theorems for Domain Adaptation 118 / 180
127. Necessity Theorem i
Theorem 5 (H∆H が小さいことの必要性 (Ben-David+ (2010)))
ある B ⊂ A に対して, 集合 {h−1
(1) ∩ B | h ∈ H} は 2 つ以上の部分集
合を持ち, かつそれらは集合の包含関係で全順序付けられていると
する.
このとき, 任意の ε 0 に対して, ある元ドメイン上の同時分布 P0
S
と目標ドメイン上の同時分布 P0
T が存在して, 以下を満たす:
任意の domain adaptation learner A と任意の整数 m, n 0 に対し
て, あるラベル関数 f : X → {0, 1} が存在して
1. λH ε
2. P0
S と P0
T は共変量シフト条件を満たす
3. 期待リスクが確率 1
2 以上で大きい:
Pr
S∼i.i.d(P0
S)m
Tu∼i.i.d(P0
XT
)
n
[
RTf
(A(S, Tu)) ≥
1
2
]
≥
1
2
K. Matsui (RIKEN AIP) Transfer Learning Survey Impossibility Theorems for Domain Adaptation 119 / 180
128. Necessity Theorem ii
Theorem 6 (λH が小さいことの必要性 (Ben-David+ (2010)))
H を X 上の仮説集合で, VCdim(H) |X| とする.
このとき, 任意の ε 0 に対して, ある元ドメイン上の同時分布 P0
S
と目標ドメイン上の同時分布 P0
T が存在して, 以下を満たす:
任意の domain adaptation learner A と任意の整数 m, n 0 に対し
て, あるラベル関数 f : X → {0, 1} が存在して
1. dH∆H(P0
XT
, P0
XS
) ε
2. P0
S と P0
T は共変量シフト条件を満たす
3. 期待リスクが確率 1
2 以上で大きい:
Pr
S∼i.i.d(P0
S)m
Tu∼i.i.d(P0
XT
)
n
[
RTf
(A(S, Tu)) ≥
1
2
]
≥
1
2
K. Matsui (RIKEN AIP) Transfer Learning Survey Impossibility Theorems for Domain Adaptation 120 / 180
129. Necessity Theorem iii
定理の解釈
共変量シフトの仮定があっても,
• 周辺分布の間の discrepancy が小さいこと
• ideal hypothesis が存在すること
のいずれかが欠ければ, 高い確率で期待リスクが大きくなって
しまう
K. Matsui (RIKEN AIP) Transfer Learning Survey Impossibility Theorems for Domain Adaptation 121 / 180
131. Hardness Results i 準備 1
Definition 6 (DA learnability をちょっと modify)
• W = {(PXS
, PXT
, f)} :
元ドメイン, 目標ドメインの周辺分布とラベル関数の三組
• A : domain adaptation learner
• S = {(xs
i , f(xs
i ))}, xs
i ∼i.i.d PXS
(元ドメインデータ)
• Tu = {xt
i}, xt
i ∼i.i.d PXT
(目標ドメインデータ)
A (ε, δ, m, n)-solves domain adaptation for class W
:⇐⇒ Pr [RT (A (S, Tu)) ≤ ε] ≥ 1 − δ, ∀(PXS
, PXT
, f) ∈ W
class W のどんな教師なし DA の設定が来ても, A は高い確率で
目標リスクが小さい仮説を学習できる
K. Matsui (RIKEN AIP) Transfer Learning Survey Impossibility Theorems for Domain Adaptation 123 / 180
132. Hardness Results ii 準備 2
Definition 7 (capacity of H to produce a zero-error classifier
with margin γ)
• X ⊂ Rd
• DX : X 上の分布
• h : X → {0, 1} : 判別器
• Bγ(x) : 中心 x ∈ X, 半径 γ の ball
h が DX に関して γ-margin の判別器
:⇐⇒ DX (Bγ(x)) 0, h(y) = h(z), ∀x ∈ X, ∀y, z ∈ Bγ(x)
同値な言い換え (h は DX の台上でリプシッツ):
|h(y) − h(z)| ≤
1
2γ
∥y − z∥, y, z ∈ supp(DX )
K. Matsui (RIKEN AIP) Transfer Learning Survey Impossibility Theorems for Domain Adaptation 124 / 180
133. Hardness Results iii
Theorem 7 ((Ben-DavidUrner (2012)))
任意の有限集合 X と ε + δ 1
2 を満たす任意の ε, δ 0 に対
して以下を仮定:
m + n
√
(1 − 2(ε + δ))|X|.
このとき,
• dH∆H(PXT
, PXS
) = 0
• min
h∈H
RT(h, f) = 0 (h ≡ 1, h ≡ 0 ∈ H)
• CB(PXS
, PXT
) := inf
B∈B,PXT
(B)̸=0
PXS
(B)
PXT
(B)
≥
1
2
, B ⊂ 2X
であるような教師なし DA のクラス W に対して, (PS, PT, f) ∈ W
を (ε, δ, m, n)-solve するような DA learner A は存在しない
K. Matsui (RIKEN AIP) Transfer Learning Survey Impossibility Theorems for Domain Adaptation 125 / 180
134. Hardness Results iv 定理に関する Remark
仮定の解釈 (DA をするのに有利な設定)
• Theorem 7では, 目標タスクに対して, “目標ドメインのラベ
ルありデータが 1 点でもあれば誤差ゼロの仮説が学習可
能” という強い仮定
• また, 元ドメインと目標ドメインは discrepancy 及び密度
比どちらで図っても “似ている” ようなクラス
Hardness の回避 [Ben-DavidUrner (2012)]
Theorem 7で
• X = [0, 1]d
• ラベル関数 f : λ-リプシッツ
のとき, m + n ≥
√
(1 − 2(ε + δ))(1 − λ)d が成り立てば
hardness result の例外となる
K. Matsui (RIKEN AIP) Transfer Learning Survey Impossibility Theorems for Domain Adaptation 126 / 180
135. Usefulness of Unlabeled Data
目標ドメインのラベルなしデータは DA においてどの程度役に
たっているのか?
Theorem 8 ((Ben-DavidUrner (2012)))
X = [0, 1]d
, VCdim(H) +∞ とし, DA のクラス W を以下で定める:
W =
{
(PS, PT, f) RT(H) = 0, CB(PXS
, PXT
) ≥ 0
}
.
このとき, ∃c 1, ∀ε 0, δ 0, (PS, PT, f) ∈ W, 元ドメインと目標ド
メインのサンプルサイズをそれぞれ
m ≥ c
[
VCdim(H) + log 1
δ
CB(PXS
, PXT
)(1 − ε)ε
log
(
VCdim(H)
CB(PXS
, PXT
)(1 − ε)ε
)]
n ≥
1
ε
(
2|X| log 3|X|
δ
)
ととると, Pr[RT(A(S, Tu)) ≤ ε] ≥ 1 − δ が成立つ A が存在する
K. Matsui (RIKEN AIP) Transfer Learning Survey Impossibility Theorems for Domain Adaptation 127 / 180
140. パラメータ転移学習の汎化誤差上界 ii
仮定
• パラメトリック特徴写像 ψθ は局所安定かつ有界
• 推定量 ˆθN は確率 1 − δN,n でパラメータ転移学習可能
• 損失関数 ℓ は L-リプシッツ, 凸, 有界
• 正則化項 r は 1-強凸, r(0) = 0
Theorem 9 (汎化誤差上界 [Kumagai (2016)])
RT (ˆθN, ˆwN,n) − RT (θ∗
S, w∗
T )
≤
C
√
n
+ C′ ˆθN − θ∗
S + C′′
n1/4
√
ˆθN − θ∗
S
with probability 1 − (δ + 2δN,n). C, C′, C′′ は正定数.
K. Matsui (RIKEN AIP) Transfer Learning Survey Theory of Transfer Learning (Parameter Transfer) 131 / 180
141. パラメータ転移学習の汎化誤差上界 iii
定理の解釈
RT (ˆθN, ˆwN,n) − RT (θ∗
S, w∗
T )
≤ c
ˆθN − θ∗
S
√
ρ
+
1
√
nρ
+
θN − θ∗
S
1/2
ρ3/4
+
1
nρ
+ ρ
特に
• 正則化パラメータを ρ = max{n−1/3, ∥ˆθN − θ∗
S∥2/7} とおき,
• ∥ˆθN − θ∗
S∥ ≈ 1
N が成り立つとき,
RT (ˆθN, ˆwN,n) − RT (θ∗
S, w∗
T ) ≤ c max{n−1/3
, N−1/7
}
が成立
→ 元ドメインのサンプルサイズを N ≥ n7/3 程度取れば汎化誤
差は小さい
K. Matsui (RIKEN AIP) Transfer Learning Survey Theory of Transfer Learning (Parameter Transfer) 132 / 180
142. 自己教示学習への応用
Dictionary Learning Sparse Coding
入力のスパース表現を学習するための辞書を元ドメインで教
師なし学習し, 目標ドメインへ転移
Dictionary Learning
min
D,z1,...,zn
n∑
i=1
1
2
∥xi − Dzi∥2
+ λ∥zi∥1
Sparse Coding
ϕD(x) := arg max
z∈Rm
1
2
∥x − Dz∥2
+ λ∥z∥1
• D = [d1, ..., dm] ∈ Rd×m, ∥dj∥ = 1 : 辞書
• z : x のスパース表現
K. Matsui (RIKEN AIP) Transfer Learning Survey Theory of Transfer Learning (Parameter Transfer) 133 / 180
143. Sparse Coding の局所安定性 i
Definition 10 (k-margin)
辞書 D の x における k-margin
Mk(D, x) := max
I⊂[m],|I|=m−k
min
j∈I
{
λ −
⟨
dj, x − DφD(x)
⟩ }
Definition 11 (µ-incoherence)
辞書 D が µ-incoherent ⇔
⟨
di, dj
⟩
≤ µ/
√
d (i ̸= j)
K. Matsui (RIKEN AIP) Transfer Learning Survey Theory of Transfer Learning (Parameter Transfer) 134 / 180
144. Sparse Coding の局所安定性 ii
∥D∥1,2 := maxi∈[m] ∥di∥
Theorem 10 (Sparse Coding Stability)
辞書 D, ˜D が, ∥D − ˜D∥1,2 ≤ λ かつ D は µ-incoherent で以下を
満たすと仮定
∥D − ˜D∥1,2 ≤
Mk,D(x)2λ
64 max{1, ∥x∥}4
=:ϵk,D(x) : PRP
このとき, 以下が成立
φD(x) − φ˜D(x) 2
≤
4∥x∥2
√
k
(1 − µk/
√
d)λ
∥D − ˜D∥1,2
K. Matsui (RIKEN AIP) Transfer Learning Survey Theory of Transfer Learning (Parameter Transfer) 135 / 180
145. Dictionary Learning の転移学習可能性 i
スパースモデルに対する仮定
1. (Model) ある辞書 D∗
が存在して, 全ての x はスパース表現
z とノイズ ξ によって以下の形で独立に生成される
x = D∗
z + ξ
2. (Dictionary) 辞書 D は µ-incoherent
3. (Representation) k-sparse (i.e. ∥z∥0 ≤ k) かつ定数 C が存
在して, zi ̸= 0 な i に対して |zi| ≥ C
4. (Noise) ξ = (ξ1, ..., ξd) は各成分 ξi が独立な
σ√
d
-sub-Gaussian i.e. ∀t ∈ R, E[exp(tξi)] ≤ exp(
(σ/
√
d)2ξ2
i
2 )
K. Matsui (RIKEN AIP) Transfer Learning Survey Theory of Transfer Learning (Parameter Transfer) 136 / 180
149. Optimal Domain Adaptation [Scott (2019)] i
2 値判別における domain adaptation
これまでの domain adaptation
評価指標として損失関数 (特に 0-1 損失) の期待値で表される
ものに依存
→ これが DA を難しくしている要因では?
e.g. 教師なし DA では, 0-1 損失の下ではラベルノイズに対し
て強い仮定 (共変量シフトなど) が必要
Question
(共変量シフトのような) feature dependent label noise
(FDLN) の下で, より簡易かつ有効な転移学習が可能か?
K. Matsui (RIKEN AIP) Transfer Learning Survey Immunity : An Optimality of Domain Adaptation 139 / 180
150. Optimal Domain Adaptation [Scott (2019)] ii
Contribution
• controlled discovery rate (CDR) を評価指標とした場合,
• covariate-shift with posterior-drift (CSPD) というラベルノ
イズの下で
元ドメインの最適なモデル = 目標ドメインの最適なモデル
を証明 (immunity)
→ 特別な adaptation をすることなく元ドメインで学習した
モデルを目標ドメインで使うことが可能
特に以下の 2 つの設定を考察
• inductive setting : 学習者が元ドメインの同時分布にのみ
アクセスできる
• semi-supervised setting : 教師なし DA と同じ
K. Matsui (RIKEN AIP) Transfer Learning Survey Immunity : An Optimality of Domain Adaptation 140 / 180
151. Covariate-Shift with Posterior-Drift i
Definition 12 (Covariate Shift)
PrP(Y = 1 | X = x)
ηP
= PrQ(Y = 1 | X = x)
ηQ
→ ラベル分布が元ドメインと目標ドメインで共通 (入力の周
辺分布は違っていても良い)
Definition 13 (Posterior Drift)
• PX = QX (入力の周辺分布が共通) かつ
• ∃ϕ : 狭義単調増加関数 s.t. ηP(x) = ϕ(ηQ(x)), ∀x ∈ X
→ 入力分布はドメイン間で共通, ラベル分布は up to 単調変
換で一致
K. Matsui (RIKEN AIP) Transfer Learning Survey Immunity : An Optimality of Domain Adaptation 141 / 180
152. Covariate-Shift with Posterior-Drift ii
Definition 14 (Covariate-Shift with Posterior-Drift)
∃ϕ : 狭義単調増加関数 s.t. ηP(x) = ϕ(ηQ(x)), ∀x ∈ X
→ ラベル分布は up to 単調変換で一致
• Posterior drift から周辺分布が共通という条件を外したも
の
• 教師なし DA において, ドメイン間の類似度のモデリング
として “仮定なし”と “共変量シフト”の中間を埋めるよう
な設定
K. Matsui (RIKEN AIP) Transfer Learning Survey Immunity : An Optimality of Domain Adaptation 142 / 180
153. Immunity i
Notation
• OPTD(Q) : inductive setting において, 評価指標 D の下で
最適な判別モデル
• OPTD(ηQ, QX) : semi-supervised setting において, 評価指
標 D の下で最適な判別モデル
Definition 15 (Immunity)
評価指標 D が immune であるとは,
1. (for inductive setting)
OPTD(Q) = OPTD(P)
2. (for semi-supervised setting)
OPTD(ηQ, QX) = OPTD(ηP, QX)
K. Matsui (RIKEN AIP) Transfer Learning Survey Immunity : An Optimality of Domain Adaptation 143 / 180
154. Immunity ii
直感的な解釈: 一般に,
ある評価指標 D がある DA 問題のクラスに対して immune
:⇐⇒ D の下で最適な判別モデルが元ドメインと目標ドメイン
で共通
practical には, immunity とは P ̸= Q であることを忘れて学習
を行ってしまっても(評価指標 D の下では)OK という性質
K. Matsui (RIKEN AIP) Transfer Learning Survey Immunity : An Optimality of Domain Adaptation 144 / 180
155. Immunity iii
様々な DA の設定と対応する immunity
1. symmetric feature-independent label noise
• probability of error criterion が immune [Jabbari 2010]
2. symmetric feature-dependent label noise
• probability of error criterion が immune [Menon+ 2018]
3. feature-dependent annotator noise (PD を含む)
• AUC が immune [Menon+ 2018]
4. asymmetric label-dependent (but feature-independent)
label noise
• balanced error rate (BER) が immune [Menon+ 2015]
• BER は label-dependent label noise に対して immune な唯
一の指標
5. PU learning
• Neyman-Pearson criterion が immune [Blanchard+ 2010]
K. Matsui (RIKEN AIP) Transfer Learning Survey Immunity : An Optimality of Domain Adaptation 145 / 180
174. Life-long Learning における Disentangled Representation ii
Life-Long Disentangled Representation の学習 1
A CB
Figure 1: A: Schematic representation of the life-long learning data distr
corresponds to a cluster s. Data samples x constituting each cluster can be de
(data generative factors zn). Different clusters may share some data generative
C: ConContinSchematic of the “dreaming” feedback loop. We use a snapshot
( old, ✓old) to generate an imaginary batch of data xold for a previously experi
the current environment, we ensure that the representation is still consistent o
can reconstruct it (see red dashed lines).
Recent state of the art approaches to unsupervised disentangled repre
Generative Factor zn
model architecture
q (zs
|xs
)= as
N(µ(x), (x))
+ (1 as
) N(0, I)
as : latent mask
Model Assumption
Objective Function
LMDL( , ) = Ezs q (·|xs) [ log p (x|zs
, s)]
Reconstruction error
+ (|KL (q (zs
|xs
) p(z))
Representation capacity
C
Target
)2
Latent Mask as
n = KL Exs
batch
[q (zs
n|xs
batch )] p (zn)Atypicality Score
Latent Mask as
n =
1, if n
0, otherwise
β-VAE-like
K. Matsui (RIKEN AIP) Transfer Learning Survey Life-long (Continual) Learning 163 / 180
175. Life-long Learning における Disentangled Representation iii
Life-Long Disentangled Representation の学習 2
Environment s
s =
ˆs if Ezˆs log p xs
batch |zˆs
, ˆs Lˆs as
= aˆs
sr+1 otherwise
ˆs = arg max
s
q (s|xs
batch)
(“Dreaming” feedback)
Lpast( , )
= Ez,s ,x [D [q (z|x ) , q (z |x )]
Encoder proximity
+ D [q (x|z, s ) , q (x |z, s )]
Decoder proximity
]
Overall Objective
L( , ) = LMDL( , ) + Lpast( , )
K. Matsui (RIKEN AIP) Transfer Learning Survey Life-long (Continual) Learning 164 / 180
176. Life-long Learning における Disentangled Representation iv
NatLab/EDE Cross-Domain Reconstructions
OrigNatLabEDE
Reconstructionsas
OrigNatLabEDE
Reconstructionsas
B
C
Disentangled Entangled
• VSAE (提案法, left) は 2 つのデータセットの “semantic
homologies” (共通の generative factor) を見つけられる
e.g. サボテン → 赤いオブジェクト
K. Matsui (RIKEN AIP) Transfer Learning Survey Life-long (Continual) Learning 165 / 180