SSII2021 [OS2-01] 転移学習の基礎：異なるタスクの知識を利用するための機械学習の方法

転移学習の基礎
異なるタスクの知識を利用するための機械学習の方法
松井孝太
名古屋大学大学院医学系研究科生物統計学分野
第 27 回画像センシングシンポジウム (SSII2021)
2021 年 6 月 10 日

はじめに
Inductive Transfer : 10 Years Later (NIPS2005 Workshop)
Inductive transfer or transfer learning refers to the problem
of retaining and applying the knowledge learned in one or
more tasks to efficiently develop an effective hypothesis for a
new task.
帰納的転移または転移学習とは, 新しいタスクに対する有効
な仮説を効率的に見つけ出すために, 一つ以上の別のタスク
で学習された知識を保持 · 適用する問題を指す.
本発表の目的
• 転移学習を体系的に整理する
• 転移学習の問題設定と具体的な定式化を説明する
• 転移学習の具体的な方法の例を紹介する
注) ∗
の付いているスライドや章は時間の都合上説明を省略します
松井 (名古屋大) 転移学習の基礎 1 / 41

Table of contents i
1. 転移学習の定式化
2. 転移学習の基本問題
3. 深層学習時代の転移学習
4. ∗ 同時リスクを考慮した転移学習
5. メタ学習
6. まとめ
松井 (名古屋大) 転移学習の基礎 2 / 41

機械学習と転移学習
学習データテストデータ
学習データテストデータ
従来の機械学習（単⼀のドメイン）
ドメイン = (標本空間, データ分布)
転移学習（複数のドメイン）
元ドメイン⽬標ドメイン
学習データとテストデータ
の空間と分布は同じ
学習データと
テストデータ
の空間や分布
が異なる
松井 (名古屋大) 転移学習の基礎転移学習の定式化 3 / 41

転移学習の様々な問題設定
タスク集合
メタ知識
ドメイン適応
マルチタスク学習
メタ学習
継続学習
⽬標ドメイン
元ドメイン
転移の⽅向

ドメイン適応 (Domain Adaptation)
目的: 目標ドメインにおける期待リスク最小化
Find h∗
s.t. RT(h∗
) = min
h
RT(h),

∗
マルチタスク学習 (Multi-task Learning)
目標: 全てのドメインにおける期待リスク最小化
Find h∗
i s.t. Ri(h∗
i ) = min
h
Ri(h), i = 1, 2, ...

メタ学習 (Meta Learning)
目標: メタ知識 (タスク集合/分布に関する知識) の獲得
Find ω∗
= arg min
ω
ET =(L,D)∼P(T )[L(ω; D)]

∗
継続学習 (Continual Learning)
目標: ドメインの系列全体に対する期待リスク最小化
Find h∗
s.t. Ri(h∗
) = min
h
Ri(h), i = 1, 2, ...
• 単一のモデルでタスク系列を処理 (MTL との違い)
• 過去のタスク性能が劣化しないことにフォーカス (破滅的
忘却の回避)

転移学習の基本問題
1. 何を転移するか (What to transfer)
• 事例転移 (データそのものを転移)
• 特徴転移 (抽出した特徴間で転移)
• パラメータ転移 (学習したモデルや特徴抽出器を転移)
2. いつ転移するか (When to transfer)
• 元ドメインと目標ドメインが似ているとき
• 不一致度による “似てる度” の定量化
• 転移仮定 (転移を成功させるための条件)
• 負転移を回避したい
• 転移によって目標ドメインの性能がむしろ悪化
3. どう転移するか (How to transfer) : 具体的なアルゴリズム
松井 (名古屋大) 転移学習の基礎転移学習の基本問題 9 / 41

何を転移するか
元ドメインから目標ドメインへ転移する「知識」の種類
! !"#$%&'$()*%+,-
./012 !,34562"
! 7!"#$89:;0<=>?@A
BCDE
! FG8HIJFGKLM$N&OP
! !"#!$%&'( !"#$%&'(')*+,-.,/0
! )*+,-#./01
!"#$ %&#$ '()*+#$
! !"#$%&'$()*%+Q5E
./012 !Q34562"
! 7!"#$89:;0RS8TU*%
BVW !XYZ["
! TU*%&,345]^/>?
FGKLM$N0_`
! 2345 !1#'2)*+,-.,/0
! 6789:;<=> !3'2%2)*+,-.4/0
! !"#$%&'()*+,-.
/0123456#789:;
"#$%&<=>
! ?@'(+,-4A<
! 5678*!19:;%2)*+,-.</0
! 3=8>,*!7'?@AB?)*+,-.C/0*
! 3=8>D*!5BAE2)*+,-,-/0

いつ転移するか: 負転移
負転移
1. 一方のドメインのみで学習したモデルを目標タスクで用いる
2. 両ドメインを使って学習したモデルを目標タスクで用いる
として (2 のタスク性能) ≤ (1 のタスク性能) のとき (下図 (b))
1.0
0.2
0.4
0.6
0.8
0.0
1.0
0.2
0.4
0.6
0.8
0.0
AUC
AUC
The number of target training cases
The number of target training cases
(a) (b)
source only
transfer
target only
source only
transfer
target only
• 2 つのドメインが乖離しているほど負転移が発生しやすい
• 負転移を防ぐことは転移学習における重要な課題

いつ転移するか: ドメインの不一致度 (discrepancy)
ドメインの非類似度をデータ生成分布の不一致度で評価
• 不一致度が小さい → 両ドメインのデータ生成分布が似て
いる (負転移が起こりにくい)
• 様々な discrepancy が定義されている
• H∆H divergence [Ben-David+ (2010)]
• Wasserstein distance [Courty+ (2017)]
• source-guided discrepancy [Kuroki+ (2019)]

いつ転移するか: 転移仮定 i
ドメインの分布の違い方に対する仮定 [Quionero-Candela+ (2009)]
• データセットシフト : PS(X, Y) ̸= PT(X, Y)
• 共変量シフト : PS(Y | X) = PT(Y | X), PS(X) ̸= PT(X)
• クラス事前確率シフト (ターゲットシフト) :
PS(X | Y) = PT(X | Y), PS(Y) ̸= PT(Y)
• サンプル選択バイアス :
PS(X, Y) = P(X, Y | v = 1), PT(X, Y) = P(X, Y)
v は (X, Y) が学習データに含まれる (v = 1) か否 (v = 0) か
• クラスバランスシフト [Redko+ (2019)] :
PS = (1 − πS)P0 + πSP1, PT = (1 − πT)P0 + πTP1 (πS ̸= πT)
P0, P1 はクラス 0, 1 に対応する共変量分布

いつ転移するか: 転移仮定 iii
共通の生成過程 [Teshima+ (ICML2020)]
• 因果モデルで捉えられるデータ生成過程の知識を転移

深層学習時代の転移学習

深層学習の発展は転移学習をどう変えたか
1. 事前学習モデルの利用の拡大
• 巨大なネットワークでも事前学習済みモデルが公開されて
いる
• ファインチューニング (FT) によって自分で用意するデータ
は比較的少量で済む
2. 深層モデルによる表現学習/特徴抽出方法の進化
• 特徴量 (の抽出法) をネットワークに学習させる
• 特にドメインに関する特徴の抽出も可能になってきた
• ドメイン不変な特徴量による精度の向上
• 特徴を独立な成分に分解し, ドメイン間で共有されている成
分は転移し, 異なっている成分は転移しない (非もつれ表現)
松井 (名古屋大) 転移学習の基礎深層学習時代の転移学習 16 / 41

事前学習済みモデルの利用
· · ·
· · ·
• 元ドメインのデータで学習したネットワーク (構造, パラメ
ータ) を目標ドメインで利用
• 再学習なしで利用 (狭義の転移学習), 再学習ありで利用
(FT) どちらもある

巨大事前学習済みモデルとファインチューニング
• トランスフォーマー (上図) を用いた巨大な事前学習済み
モデルを FT して利用
• GPT-2 [Radford+ (2019)], GPT-3 [Brown+ (2020)],
DALL-E [Ramesh+ (2021)] (Open-AI)
• スクラッチ学習に膨大なコスト (計算リソースや時間) が
かかるモデルでも FT のみ (相対的に低コスト) で使える

知識蒸留 [Gou+ (2020)] : 事前学習済みモデルの圧縮
• 学習済みモデルのパラメータではなく, モデルが学習した
暗黙知 (dark knowledge) を転移する
• (猫を犬と間違える確率) ≪ (猫を車と間違える確率)
• 手書き数字の “2” は “7” よりも “3” に似ていやすい
• ネットワークを直接転移しないのでファインチューニング
に比べて転移先のモデルは小さくて済む (モデル圧縮)

∗
深層学習以前の特徴の獲得方法: カーネル法
• 幅が無限大の全結合型 2 層 NN として解釈可能
• 特徴抽出器 (入力層-中間層) はユーザーが設計, 固定

∗
カーネル法による特徴表現に基づく転移学習
元ドメイン⽬標ドメイン
次元が異なる
共通空間
[Duan+ (ICML2012)]
``いらいらするほど簡単なDA’’
[Daume III, ACL2007]
ドメイン共通の特徴
ドメイン固有の特徴
min
PS,PT
max
α
1⊤
ns+nt
α −
1
2
(α ◦ y)⊤
KPS,PT
(α ◦ y)
s.t. y⊤
α = 0, 0ns+nt
≤ α ≤ C1ns+nt
∥PS∥2
F ≤ λp, ∥PT∥2
F ≤ λq

深層モデルによる転移学習のための表現学習
• ドメイン不変な特徴抽出器/特徴表現を獲得する
• オートエンコーダーや敵対的学習が良く用いられる

不変な表現学習を目指す理論的根拠
目標ドメインの期待リスクバウンド (統計的学習理論) に基づ
く
目標リスクの典型的な上界の表現
RT(h, fT) ≤ RS(h, fS) + Disc(PT, PS) + Diff(fT, fS)
• fT, fS : 目標ドメイン, 元ドメインの真のラベル関数
• Disc : 元ドメインと目標ドメインの周辺分布の不一致度
• Diff : 元ドメインと目標ドメインのラベル関数の違い
• Disc を小さく抑えることが RT の最小化に直接寄与する
→ 両ドメインで不変な特徴量は分布の不一致度 Disc を小
さくする

∗
目標リスクの上界の例
• 2 値判別問題
• 全変動距離でドメインの不一致度を評価:
dH(DS, DT) = 2 sup
h∈H
|PS(AS) − PT(AT)|, A = {x ∈ D; h(x) = 1}
Theorem 1 (Ben-David+ (2010))
任意の δ > 0 に対して確率 1 − δ 以上で以下が成立
RT(h, fT) ≤ RS(h, fS) + dH(DS, DT)
| {z }
Disc
+ min
h∈H
RT(h, fT) + RS(h, fS)
| {z }
Diff

例: 深層オートエンコーダーによるドメイン不変表現学習
Transfer Learning with Deep Autoencoders [Zhuang+ (2015)]
• オートエンコーダーによる教師付き表現学習
min Err(x, x̂)
| {z }
reconstruction error
+α (KL(PS||PT) + KL(PT||PS))
| {z }
discrepancy
+β ℓ(yS; θ, ξS)
| {z }
softmax loss
+γReg
• 元ドメインと目標ドメインで符号化と復号化の重みを共有

例: 敵対的学習によるドメイン不変表現学習
Domain Adversarial Training [Ganin+ (2015)]
• 特徴抽出器がドメイン不変な特徴を抽出
• ドメイン識別器の学習は gradient に負定数をかけ逆伝播
する勾配反転層を導入することで実現

∗
同時リスクを考慮した転移学習

不変性のみを考慮することの限界 i
目標ドメインのリスク上界 (再掲)
RT(h, fT) ≤ RS(h, fS) + Disc(PT, PS) + Diff(fT, fS)
• 不変な特徴表現の獲得 = 第 2 項の最小化
• 同時リスク Diff(fT, fS) = infh∈H RS(h, fS) + RT(h, fT) は無視
→ 目標ドメインのラベル関数が考慮されない (上図)
松井 (名古屋大) 転移学習の基礎 ∗
同時リスクを考慮した転移学習 28 / 41

不変性のみを考慮することの限界 ii
• 実験的な同時リスクの検証 [Liu+ (2019)]
• DANN のようなドメイン不変な表現学習のみを行う手法で
は同時リスク RS(h) + RT(h) が大きくなるような仮説が学
習されてしまう

不変性と同時リスクの関係
同時リスクの下界 [Zhao+ (2019)]
RS(h ◦ g) + RT(h ◦ g)
≥
1
2

dJS(PT
(Y), PS
(Y)) − dJS(PT
(Z), PS
(Z))
2
• g : 特徴抽出器
• h : ラベル識別器
• dJS : JS ダイバージェンスの平方根
• Z : g によって抽出された特徴量
• ドメイン不変な表現学習に基づく転移学習が成功するため
の必要条件
• 右辺第 1 項 (ラベル分布の不一致度) が大きいとき, 右辺第
2 項の最小化 (不変表現学習) は RT(h ◦ g) を悪化させる

同時リスクを考慮した転移学習 i
Transferable Adversarial Training (TAT) [Liu+ (2019)]
• 元ドメインと目標ドメインのギャップを埋めるような疑似
データ (転移可能事例) を生成
• 転移可能事例を含めてラベル識別器を訓練
→ ドメイン不変な表現学習を経由せずに目標ドメインで
汎化するモデルを学習可能

同時リスクを考慮した転移学習 ii
TAT の学習問題
ドメイン識別器の
敵対的損失
交差エントロピー損失
転移可能特徴に関する
ドメイン識別器の敵対的損失
転移可能特徴に関する
ラベル識別器の敵対的損失
転移可能特徴
転移可能特徴の⽣成 (敵対的事例の⽣成則 + 正則化)

同時リスクを考慮した転移学習 iii
TAT による識別境界の学習と転移可能特徴の挙動
(a) Source Only Model (b) TAT (c) Transferable Examples

同時リスクを考慮した転移学習 iv
TAT の性能の評価 (識別精度)
Table 1. Classification accuracies (%) on Office-31 for unsupervised domain adaptation with ResNet-50.
METHOD A→W D→W W→D A→D D→A W→A AVG.
RESNET-50 (HE ET AL., 2016) 68.4±0.2 96.7±0.1 99.3±0.1 68.9±0.2 62.5±0.3 60.7±0.3 76.1
DAN (LONG ET AL., 2015) 80.5±0.4 97.1±0.2 99.6±0.1 78.6±0.2 63.6±0.3 62.8±0.2 80.4
DANN (GANIN ET AL., 2016) 82.6±0.4 96.9±0.2 99.3±0.2 81.5±0.4 68.4±0.5 67.5±0.5 82.7
ADDA (TZENG ET AL., 2017) 86.2±0.5 96.2±0.3 98.4±0.3 77.8±0.3 69.5±0.4 68.9±0.5 82.9
VADA (SHU ET AL., 2018) 86.5±0.5 98.2±0.4 99.7±0.2 86.7±0.4 70.1±0.4 70.5±0.4 85.4
GTA (SANKARANARAYANAN ET AL., 2018) 89.5±0.5 97.9±0.3 99.7±0.2 87.7±0.5 72.8±0.3 71.4±0.4 86.5
MCD (SAITO ET AL., 2018) 88.6±0.2 98.5±0.1 100.0±.0 92.2±0.2 69.5±0.1 69.7±0.3 86.5
CDAN (LONG ET AL., 2018) 93.1±0.1 98.6±0.1 100.0±.0 92.9±0.2 71.0±0.3 69.3±0.3 87.5
TAT 92.5±0.3 99.3±0.1 100.0±.0 93.2±0.2 73.1±0.3 72.1±0.3 88.4
Table 2. Classification accuracies (%) on Image-CLEF for unsupervised domain adaptation with ResNet-50.
METHOD I→P P→I I→C C→I C→P P→C AVG.
RESNET-50 (HE ET AL., 2016) 74.8±0.3 83.9±0.1 91.5±0.3 78.0±0.2 65.5±0.3 91.2±0.3 80.7
DAN (LONG ET AL., 2015) 74.5±0.4 82.2±0.2 92.8±0.2 86.3±0.4 69.2±0.4 89.8±0.4 82.5
DANN (GANIN ET AL., 2016) 75.0±0.3 86.0±0.3 96.2±0.4 87.0±0.5 74.3±0.5 91.5±0.6 85.0
CDAN (LONG ET AL., 2018) 76.7±0.3 90.6±0.3 97.0±0.4 90.5±0.4 74.5±0.3 93.5±0.4 87.1
TAT 78.8±0.2 92.0±0.2 97.5±0.3 92.0±0.3 78.2±0.4 94.7±0.4 88.9

メタ学習 (Meta Learning)
メタ学習の定義
複数の学習エピソード (≈ データ) を訓練データとしてメタ知
識 (または帰納バイアス) を学習しておくことで, 目的のタス
クにおいて少数の学習データしかなくても性能を高める
• 帰納バイアス学習 (inductive bias learning), 学習の仕方の
学習 (learning to learn) などとも呼ばれる
• メタ知識: 機械学習を実行する際におく様々な仮定
• データ分布の仮定 (例: データは正規分布に従うとみなす)
• どのようなモデルを使うか (仮説集合の指定)
• 線形モデル → 線形回帰, 線形判別
• 深層モデル → 深層学習
• モデルの最適化アルゴリズムに何を使うか
• 確率的勾配降下法 (SGD)
• Adam
松井 (名古屋大) 転移学習の基礎メタ学習 35 / 41

メタ学習の定式化 [Hospedales+ (2020)]
メタ損失 (⽬的関数)
第mドメインの損失
メタ知識 ω の下での
第mドメインの最適
パラメータ
: 第mドメインの訓練データ, 検証データ
メタ学習の2レベル最適化問題としての定式化
⽬的関数：メタ知識の最適化
制約条件：ドメイン毎のパラメータ学習

メタ学習の分類
• 何をメタ知識と考えるか
• パラメータの初期値 [Finn+ (2017)]
• 最適化器 [Chen+ (2017)]
• ハイパーパラメータ, ...
• メタ損失をどう設定するか
• 多数ショット (通常の) 学習 [Franceschi+ (2017)] vs 少数シ
ョット学習 [Finn+ (2017)]
• マルチタスク学習 [Li+ (2019)] vs シングルタスク学
習 [Veeriah+ (2019)]
• オンライン学習 [Veeriah+ (2019)] vs オフライン学習 [Finn+
(2017)], ...
• メタ損失をどう最適化するか
• 勾配ベースの最適化 [Finn+ (2017)]
• 強化学習による最適化 [Duan+ (2016)]
• 進化計算による最適化 [Soltoggio+ (2018)], ...

例: Model-Agnostic Meta-Learning (MAML)
様々なタスクに勾配法で少数ショット学習したときに性能が良
くなるような共通のパラメータの初期値を学習
• メタ知識 : 各タスクに共通なモデルパラメータの初期値
• メタ損失 : オフライン少数ショット学習
• メタ損失の最適化 : 勾配法に基づく

まとめとこれから
• 転移学習の基本概念
• 問題設定
• 基本問題: 何を/いつ/どうやって転移するか
• 不一致度と転移仮定
• 深層モデルによるドメイン不変な表現学習
• 同時リスクを考慮に入れた方法
• メタ学習
転移学習の実用化に向けて
• 実際の問題に利用されているのはほぼ事前学習とファイン
チューニングのみ
• 転移学習を製品に実装するために考えるべき課題 (例)
• モデルの評価 (目標ドメインでのラベル付きデータが必要)
• 製品に実装されたモデルの微調整や定期的な更新
松井 (名古屋大) 転移学習の基礎まとめ 39 / 41

References
[1] Hal Daumé III. Frustratingly easy domain adaptation. ACL, 2007.
[2] A. Krizhevsky et al. Imagenet classification with deep convolutional neural networks. NeurIPS, 2012.
[3] A. Radford et al. Language models are unsupervised multitask learners. OpenAI blog, 1(8):9, 2019.
[4] A. Ramesh et al. Zero-shot text-to-image generation. arXiv preprint arXiv:2102.12092, 2021.
[5] A. Soltoggio et al. Born to learn: the inspiration, progress, and future of evolved plastic artificial neural
networks. Neural Networks, 108:48–67, 2018.
[6] B. K. Sriperumbudur et al. On the empirical estimation of integral probability metrics. Electronic Journal of
Statistics, 6:1550–1599, 2012.
[7] C. Finn et al. Model-agnostic meta-learning for fast adaptation of deep networks. ICML, 2017.
[8] F. Zhuang et al. Supervised representation learning: Transfer learning with deep autoencoders. IJCAI, 2015.
[9] H. Liu et al. Transferable adversarial training: A general approach to adapting deep classifiers. ICML, 2019.
[10] H. Zhao et al. On learning invariant representations for domain adaptation, 2019.
[11] I. Redko et al. Optimal transport for multi-source domain adaptation under target shift. AISTATS, 2019.
[12] I. Sato et al. Managing computer-assisted detection system based on transfer learning with negative transfer
inhibition. KDD, 2018.
[13] J. Devlin et al. Bert: Pre-training of deep bidirectional transformers for language understanding. NAACL, 2018.
[14] J. Gou et al. Knowledge distillation: A survey. International Journal of Computer Vision, pages 1–31, 2021.
[15] J. Quionero-Candela et al. Dataset shift in machine learning. The MIT Press, 2009.
[16] L. Duan et al. Learning with augmented features for heterogeneous domain adaptation. ICML, 2012.
[17] L. Franceschi et al. Forward and reverse gradient-based hyperparameter optimization. 2017.

[18] M. Sugiyama et al. Density ratio estimation in machine learning. Cambridge University Press, 2012.
[19] N. Courty et al. Optimal transport for domain adaptation. IEEE transactions on pattern analysis and machine
intelligence, 39(9):1853–1865, 2016.
[20] S. Ben-David et al. A theory of learning from different domains. Machine learning, 79(1):151–175, 2010.
[21] S. Kuroki et al. Unsupervised domain adaptation based on source-guided discrepancy. 2019.
[22] T. Brown et al. Language models are few-shot learners. arXiv preprint arXiv:2005.14165, 2020.
[23] T. Teshima et al. Few-shot domain adaptation by causal mechanism transfer. 2020.
[24] V. Veeriah et al. Discovery of useful questions as auxiliary tasks. NeurIPS, 2019.
[25] Y. Chen et al. Learning to learn without gradient descent by gradient descent. 2017.
[26] Y. Duan et al. Rl ˆ2: Fast reinforcement learning via slow reinforcement learning. arXiv preprint
arXiv:1611.02779, 2016.
[27] Y. Ganin et al. Domain-adversarial training of neural networks. JMLR, 17(1):2096–2030, 2016.
[28] Y. Li et al. Feature-critic networks for heterogeneous domain generalization. 2019.
[29] T. Iwata and M. Yamada. Multi-view anomaly detection via robust probabilistic latent variable models.
NeurIPS, 2016.
[30] S. Ravi and H. Larochelle. Optimization as a model for few-shot learning. 2017.
[31] M. D. Zeiler and R. Fergus. Visualizing and understanding convolutional networks. 2014.

SSII2021 [OS2-01] 転移学習の基礎：異なるタスクの知識を利用するための機械学習の方法

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Similar to SSII2021 [OS2-01] 転移学習の基礎：異なるタスクの知識を利用するための機械学習の方法

Similar to SSII2021 [OS2-01] 転移学習の基礎：異なるタスクの知識を利用するための機械学習の方法 (20)

More from SSII

More from SSII (20)

SSII2021 [OS2-01] 転移学習の基礎：異なるタスクの知識を利用するための機械学習の方法