SlideShare a Scribd company logo
1 of 48
Download to read offline
転移学習の基礎
異なるタスクの知識を利用するための機械学習の方法
松井孝太
名古屋大学大学院医学系研究科 生物統計学分野
第 27 回画像センシングシンポジウム (SSII2021)
2021 年 6 月 10 日
はじめに
Inductive Transfer : 10 Years Later (NIPS2005 Workshop)
Inductive transfer or transfer learning refers to the problem
of retaining and applying the knowledge learned in one or
more tasks to efficiently develop an effective hypothesis for a
new task.
帰納的転移または転移学習とは, 新しいタスクに対する有効
な仮説を効率的に見つけ出すために, 一つ以上の別のタスク
で学習された知識を保持 · 適用する問題を指す.
本発表の目的
• 転移学習を体系的に整理する
• 転移学習の問題設定と具体的な定式化を説明する
• 転移学習の具体的な方法の例を紹介する
注) ∗
の付いているスライドや章は時間の都合上説明を省略します
松井 (名古屋大) 転移学習の基礎 1 / 41
Table of contents i
1. 転移学習の定式化
2. 転移学習の基本問題
3. 深層学習時代の転移学習
4. ∗ 同時リスクを考慮した転移学習
5. メタ学習
6. まとめ
松井 (名古屋大) 転移学習の基礎 2 / 41
転移学習の定式化
機械学習と転移学習
学習データ テストデータ
学習データ テストデータ
従来の機械学習(単⼀のドメイン)
ドメイン = (標本空間, データ分布)
転移学習(複数のドメイン)
元ドメイン ⽬標ドメイン
学習データとテストデータ
の空間と分布は同じ
学習データと
テストデータ
の空間や分布
が異なる
松井 (名古屋大) 転移学習の基礎 転移学習の定式化 3 / 41
転移学習の様々な問題設定
タスク集合
メタ知識
ドメイン適応
マルチタスク学習
メタ学習
継続学習
⽬標ドメイン
元ドメイン
転移の⽅向
松井 (名古屋大) 転移学習の基礎 転移学習の定式化 4 / 41
ドメイン適応 (Domain Adaptation)
目的: 目標ドメインにおける期待リスク最小化
Find h∗
s.t. RT(h∗
) = min
h
RT(h),
松井 (名古屋大) 転移学習の基礎 転移学習の定式化 5 / 41
∗
マルチタスク学習 (Multi-task Learning)
目標: 全てのドメインにおける期待リスク最小化
Find h∗
i s.t. Ri(h∗
i ) = min
h
Ri(h), i = 1, 2, ...
松井 (名古屋大) 転移学習の基礎 転移学習の定式化 6 / 41
メタ学習 (Meta Learning)
目標: メタ知識 (タスク集合/分布に関する知識) の獲得
Find ω∗
= arg min
ω
ET =(L,D)∼P(T )[L(ω; D)]
松井 (名古屋大) 転移学習の基礎 転移学習の定式化 7 / 41
∗
継続学習 (Continual Learning)
目標: ドメインの系列全体に対する期待リスク最小化
Find h∗
s.t. Ri(h∗
) = min
h
Ri(h), i = 1, 2, ...
• 単一のモデルでタスク系列を処理 (MTL との違い)
• 過去のタスク性能が劣化しないことにフォーカス (破滅的
忘却の回避)
松井 (名古屋大) 転移学習の基礎 転移学習の定式化 8 / 41
転移学習の基本問題
転移学習の基本問題
1. 何を転移するか (What to transfer)
• 事例転移 (データそのものを転移)
• 特徴転移 (抽出した特徴間で転移)
• パラメータ転移 (学習したモデルや特徴抽出器を転移)
2. いつ転移するか (When to transfer)
• 元ドメインと目標ドメインが似ているとき
• 不一致度による “似てる度” の定量化
• 転移仮定 (転移を成功させるための条件)
• 負転移を回避したい
• 転移によって目標ドメインの性能がむしろ悪化
3. どう転移するか (How to transfer) : 具体的なアルゴリズム
松井 (名古屋大) 転移学習の基礎 転移学習の基本問題 9 / 41
何を転移するか
元ドメインから目標ドメインへ転移する「知識」の種類
! !"#$%&'$()*%+,-
./012 !,34562"
! 7!"#$89:;0<=>?@A
BCDE
! FG8HIJFGKLM$N&OP
! !"#!$%&'( !"#$%&'(')*+,-.,/0
! )*+,-#./01
!"#$ %&#$ '()*+#$
! !"#$%&'$()*%+Q5E
./012 !Q34562"
! 7!"#$89:;0RS8TU*%
BVW !XYZ["
! TU*%&,345]^/>?
FGKLM$N0_`
! 2345 !1#'2)*+,-.,/0
! 6789:;<=> !3'2%2)*+,-.4/0
! !"#$%&'()*+,-.
/0123456#789:;
"#$%&<=>
! ?@'(+,-4A<
! 5678*!19:;%2)*+,-.</0
! 3=8>,*!7'?@AB?)*+,-.C/0*
! 3=8>D*!5BAE2)*+,-,-/0
松井 (名古屋大) 転移学習の基礎 転移学習の基本問題 10 / 41
いつ転移するか: 負転移
負転移
1. 一方のドメインのみで学習したモデルを目標タスクで用いる
2. 両ドメインを使って学習したモデルを目標タスクで用いる
として (2 のタスク性能) ≤ (1 のタスク性能) のとき (下図 (b))
1.0
0.2
0.4
0.6
0.8
0.0
1.0
0.2
0.4
0.6
0.8
0.0
AUC
AUC
The number of target training cases
The number of target training cases
(a) (b)
source only
transfer
target only
source only
transfer
target only
• 2 つのドメインが乖離しているほど負転移が発生しやすい
• 負転移を防ぐことは転移学習における重要な課題
松井 (名古屋大) 転移学習の基礎 転移学習の基本問題 11 / 41
いつ転移するか: ドメインの不一致度 (discrepancy)
ドメインの非類似度をデータ生成分布の不一致度で評価
• 不一致度が小さい → 両ドメインのデータ生成分布が似て
いる (負転移が起こりにくい)
• 様々な discrepancy が定義されている
• H∆H divergence [Ben-David+ (2010)]
• Wasserstein distance [Courty+ (2017)]
• source-guided discrepancy [Kuroki+ (2019)]
松井 (名古屋大) 転移学習の基礎 転移学習の基本問題 12 / 41
いつ転移するか: 転移仮定 i
ドメインの分布の違い方に対する仮定 [Quionero-Candela+ (2009)]
• データセットシフト : PS(X, Y) ̸= PT(X, Y)
• 共変量シフト : PS(Y | X) = PT(Y | X), PS(X) ̸= PT(X)
• クラス事前確率シフト (ターゲットシフト) :
PS(X | Y) = PT(X | Y), PS(Y) ̸= PT(Y)
• サンプル選択バイアス :
PS(X, Y) = P(X, Y | v = 1), PT(X, Y) = P(X, Y)
v は (X, Y) が学習データに含まれる (v = 1) か否 (v = 0) か
• クラスバランスシフト [Redko+ (2019)] :
PS = (1 − πS)P0 + πSP1, PT = (1 − πT)P0 + πTP1 (πS ̸= πT)
P0, P1 はクラス 0, 1 に対応する共変量分布
松井 (名古屋大) 転移学習の基礎 転移学習の基本問題 13 / 41
いつ転移するか: 転移仮定 iii
共通の生成過程 [Teshima+ (ICML2020)]
• 因果モデルで捉えられるデータ生成過程の知識を転移
松井 (名古屋大) 転移学習の基礎 転移学習の基本問題 15 / 41
深層学習時代の転移学習
深層学習の発展は転移学習をどう変えたか
1. 事前学習モデルの利用の拡大
• 巨大なネットワークでも事前学習済みモデルが公開されて
いる
• ファインチューニング (FT) によって自分で用意するデータ
は比較的少量で済む
2. 深層モデルによる表現学習/特徴抽出方法の進化
• 特徴量 (の抽出法) をネットワークに学習させる
• 特にドメインに関する特徴の抽出も可能になってきた
• ドメイン不変な特徴量による精度の向上
• 特徴を独立な成分に分解し, ドメイン間で共有されている成
分は転移し, 異なっている成分は転移しない (非もつれ表現)
松井 (名古屋大) 転移学習の基礎 深層学習時代の転移学習 16 / 41
事前学習済みモデルの利用
· · ·
· · ·
• 元ドメインのデータで学習したネットワーク (構造, パラメ
ータ) を目標ドメインで利用
• 再学習なしで利用 (狭義の転移学習), 再学習ありで利用
(FT) どちらもある
松井 (名古屋大) 転移学習の基礎 深層学習時代の転移学習 17 / 41
巨大事前学習済みモデルとファインチューニング
• トランスフォーマー (上図) を用いた巨大な事前学習済み
モデルを FT して利用
• GPT-2 [Radford+ (2019)], GPT-3 [Brown+ (2020)],
DALL-E [Ramesh+ (2021)] (Open-AI)
• スクラッチ学習に膨大なコスト (計算リソースや時間) が
かかるモデルでも FT のみ (相対的に低コスト) で使える
松井 (名古屋大) 転移学習の基礎 深層学習時代の転移学習 18 / 41
知識蒸留 [Gou+ (2020)] : 事前学習済みモデルの圧縮
• 学習済みモデルのパラメータではなく, モデルが学習した
暗黙知 (dark knowledge) を転移する
• (猫を犬と間違える確率) ≪ (猫を車と間違える確率)
• 手書き数字の “2” は “7” よりも “3” に似ていやすい
• ネットワークを直接転移しないのでファインチューニング
に比べて転移先のモデルは小さくて済む (モデル圧縮)
松井 (名古屋大) 転移学習の基礎 深層学習時代の転移学習 19 / 41
∗
深層学習以前の特徴の獲得方法: カーネル法
• 幅が無限大の全結合型 2 層 NN として解釈可能
• 特徴抽出器 (入力層-中間層) はユーザーが設計, 固定
松井 (名古屋大) 転移学習の基礎 深層学習時代の転移学習 21 / 41
∗
カーネル法による特徴表現に基づく転移学習
元ドメイン ⽬標ドメイン
次元が異なる
共通空間
[Duan+ (ICML2012)]
``いらいらするほど簡単なDA’’
[Daume III, ACL2007]
ドメイン共通の特徴
ドメイン固有の特徴
min
PS,PT
max
α
1⊤
ns+nt
α −
1
2
(α ◦ y)⊤
KPS,PT
(α ◦ y)
s.t. y⊤
α = 0, 0ns+nt
≤ α ≤ C1ns+nt
∥PS∥2
F ≤ λp, ∥PT∥2
F ≤ λq
松井 (名古屋大) 転移学習の基礎 深層学習時代の転移学習 22 / 41
深層モデルによる転移学習のための表現学習
• ドメイン不変な特徴抽出器/特徴表現を獲得する
• オートエンコーダーや敵対的学習が良く用いられる
松井 (名古屋大) 転移学習の基礎 深層学習時代の転移学習 23 / 41
不変な表現学習を目指す理論的根拠
目標ドメインの期待リスクバウンド (統計的学習理論) に基づ
く
目標リスクの典型的な上界の表現
RT(h, fT) ≤ RS(h, fS) + Disc(PT, PS) + Diff(fT, fS)
• fT, fS : 目標ドメイン, 元ドメインの真のラベル関数
• Disc : 元ドメインと目標ドメインの周辺分布の不一致度
• Diff : 元ドメインと目標ドメインのラベル関数の違い
• Disc を小さく抑えることが RT の最小化に直接寄与する
→ 両ドメインで不変な特徴量は分布の不一致度 Disc を小
さくする
松井 (名古屋大) 転移学習の基礎 深層学習時代の転移学習 24 / 41
∗
目標リスクの上界の例
• 2 値判別問題
• 全変動距離でドメインの不一致度を評価:
dH(DS, DT) = 2 sup
h∈H
|PS(AS) − PT(AT)|, A = {x ∈ D; h(x) = 1}
Theorem 1 (Ben-David+ (2010))
任意の δ > 0 に対して確率 1 − δ 以上で以下が成立
RT(h, fT) ≤ RS(h, fS) + dH(DS, DT)
| {z }
Disc
+ min
h∈H
RT(h, fT) + RS(h, fS)
| {z }
Diff
松井 (名古屋大) 転移学習の基礎 深層学習時代の転移学習 25 / 41
例: 深層オートエンコーダーによるドメイン不変表現学習
Transfer Learning with Deep Autoencoders [Zhuang+ (2015)]
• オートエンコーダーによる教師付き表現学習
min Err(x, x̂)
| {z }
reconstruction error
+α (KL(PS||PT) + KL(PT||PS))
| {z }
discrepancy
+β ℓ(yS; θ, ξS)
| {z }
softmax loss
+γReg
• 元ドメインと目標ドメインで符号化と復号化の重みを共有
松井 (名古屋大) 転移学習の基礎 深層学習時代の転移学習 26 / 41
例: 敵対的学習によるドメイン不変表現学習
Domain Adversarial Training [Ganin+ (2015)]
• 特徴抽出器がドメイン不変な特徴を抽出
• ドメイン識別器の学習は gradient に負定数をかけ逆伝播
する勾配反転層を導入することで実現
松井 (名古屋大) 転移学習の基礎 深層学習時代の転移学習 27 / 41
∗
同時リスクを考慮した転移学習
不変性のみを考慮することの限界 i
目標ドメインのリスク上界 (再掲)
RT(h, fT) ≤ RS(h, fS) + Disc(PT, PS) + Diff(fT, fS)
• 不変な特徴表現の獲得 = 第 2 項の最小化
• 同時リスク Diff(fT, fS) = infh∈H RS(h, fS) + RT(h, fT) は無視
→ 目標ドメインのラベル関数が考慮されない (上図)
松井 (名古屋大) 転移学習の基礎 ∗
同時リスクを考慮した転移学習 28 / 41
不変性のみを考慮することの限界 ii
• 実験的な同時リスクの検証 [Liu+ (2019)]
• DANN のようなドメイン不変な表現学習のみを行う手法で
は同時リスク RS(h) + RT(h) が大きくなるような仮説が学
習されてしまう
松井 (名古屋大) 転移学習の基礎 ∗
同時リスクを考慮した転移学習 29 / 41
不変性と同時リスクの関係
同時リスクの下界 [Zhao+ (2019)]
RS(h ◦ g) + RT(h ◦ g)
≥
1
2

dJS(PT
(Y), PS
(Y)) − dJS(PT
(Z), PS
(Z))
2
• g : 特徴抽出器
• h : ラベル識別器
• dJS : JS ダイバージェンスの平方根
• Z : g によって抽出された特徴量
• ドメイン不変な表現学習に基づく転移学習が成功するため
の必要条件
• 右辺第 1 項 (ラベル分布の不一致度) が大きいとき, 右辺第
2 項の最小化 (不変表現学習) は RT(h ◦ g) を悪化させる
松井 (名古屋大) 転移学習の基礎 ∗
同時リスクを考慮した転移学習 30 / 41
同時リスクを考慮した転移学習 i
Transferable Adversarial Training (TAT) [Liu+ (2019)]
• 元ドメインと目標ドメインのギャップを埋めるような疑似
データ (転移可能事例) を生成
• 転移可能事例を含めてラベル識別器を訓練
→ ドメイン不変な表現学習を経由せずに目標ドメインで
汎化するモデルを学習可能
松井 (名古屋大) 転移学習の基礎 ∗
同時リスクを考慮した転移学習 31 / 41
同時リスクを考慮した転移学習 ii
TAT の学習問題
ドメイン識別器の
敵対的損失
交差エントロピー損失
転移可能特徴に関する
ドメイン識別器の敵対的損失
転移可能特徴に関する
ラベル識別器の敵対的損失
転移可能特徴
転移可能特徴の⽣成 (敵対的事例の⽣成則 + 正則化)
松井 (名古屋大) 転移学習の基礎 ∗
同時リスクを考慮した転移学習 32 / 41
同時リスクを考慮した転移学習 iii
TAT による識別境界の学習と転移可能特徴の挙動
(a) Source Only Model (b) TAT (c) Transferable Examples
松井 (名古屋大) 転移学習の基礎 ∗
同時リスクを考慮した転移学習 33 / 41
同時リスクを考慮した転移学習 iv
TAT の性能の評価 (識別精度)
Table 1. Classification accuracies (%) on Office-31 for unsupervised domain adaptation with ResNet-50.
METHOD A→W D→W W→D A→D D→A W→A AVG.
RESNET-50 (HE ET AL., 2016) 68.4±0.2 96.7±0.1 99.3±0.1 68.9±0.2 62.5±0.3 60.7±0.3 76.1
DAN (LONG ET AL., 2015) 80.5±0.4 97.1±0.2 99.6±0.1 78.6±0.2 63.6±0.3 62.8±0.2 80.4
DANN (GANIN ET AL., 2016) 82.6±0.4 96.9±0.2 99.3±0.2 81.5±0.4 68.4±0.5 67.5±0.5 82.7
ADDA (TZENG ET AL., 2017) 86.2±0.5 96.2±0.3 98.4±0.3 77.8±0.3 69.5±0.4 68.9±0.5 82.9
VADA (SHU ET AL., 2018) 86.5±0.5 98.2±0.4 99.7±0.2 86.7±0.4 70.1±0.4 70.5±0.4 85.4
GTA (SANKARANARAYANAN ET AL., 2018) 89.5±0.5 97.9±0.3 99.7±0.2 87.7±0.5 72.8±0.3 71.4±0.4 86.5
MCD (SAITO ET AL., 2018) 88.6±0.2 98.5±0.1 100.0±.0 92.2±0.2 69.5±0.1 69.7±0.3 86.5
CDAN (LONG ET AL., 2018) 93.1±0.1 98.6±0.1 100.0±.0 92.9±0.2 71.0±0.3 69.3±0.3 87.5
TAT 92.5±0.3 99.3±0.1 100.0±.0 93.2±0.2 73.1±0.3 72.1±0.3 88.4
Table 2. Classification accuracies (%) on Image-CLEF for unsupervised domain adaptation with ResNet-50.
METHOD I→P P→I I→C C→I C→P P→C AVG.
RESNET-50 (HE ET AL., 2016) 74.8±0.3 83.9±0.1 91.5±0.3 78.0±0.2 65.5±0.3 91.2±0.3 80.7
DAN (LONG ET AL., 2015) 74.5±0.4 82.2±0.2 92.8±0.2 86.3±0.4 69.2±0.4 89.8±0.4 82.5
DANN (GANIN ET AL., 2016) 75.0±0.3 86.0±0.3 96.2±0.4 87.0±0.5 74.3±0.5 91.5±0.6 85.0
CDAN (LONG ET AL., 2018) 76.7±0.3 90.6±0.3 97.0±0.4 90.5±0.4 74.5±0.3 93.5±0.4 87.1
TAT 78.8±0.2 92.0±0.2 97.5±0.3 92.0±0.3 78.2±0.4 94.7±0.4 88.9
松井 (名古屋大) 転移学習の基礎 ∗
同時リスクを考慮した転移学習 34 / 41
メタ学習
メタ学習 (Meta Learning)
メタ学習の定義
複数の学習エピソード (≈ データ) を訓練データとしてメタ知
識 (または帰納バイアス) を学習しておくことで, 目的のタス
クにおいて少数の学習データしかなくても性能を高める
• 帰納バイアス学習 (inductive bias learning), 学習の仕方の
学習 (learning to learn) などとも呼ばれる
• メタ知識: 機械学習を実行する際におく様々な仮定
• データ分布の仮定 (例: データは正規分布に従うとみなす)
• どのようなモデルを使うか (仮説集合の指定)
• 線形モデル → 線形回帰, 線形判別
• 深層モデル → 深層学習
• モデルの最適化アルゴリズムに何を使うか
• 確率的勾配降下法 (SGD)
• Adam
松井 (名古屋大) 転移学習の基礎 メタ学習 35 / 41
メタ学習の定式化 [Hospedales+ (2020)]
メタ損失 (⽬的関数)
第mドメインの損失
メタ知識 ω の下での
第mドメインの最適
パラメータ
: 第mドメインの訓練データ, 検証データ
メタ学習の2レベル最適化問題としての定式化
⽬的関数:メタ知識の最適化
制約条件:ドメイン毎のパラメータ学習
松井 (名古屋大) 転移学習の基礎 メタ学習 36 / 41
メタ学習の分類
• 何をメタ知識と考えるか
• パラメータの初期値 [Finn+ (2017)]
• 最適化器 [Chen+ (2017)]
• ハイパーパラメータ, ...
• メタ損失をどう設定するか
• 多数ショット (通常の) 学習 [Franceschi+ (2017)] vs 少数シ
ョット学習 [Finn+ (2017)]
• マルチタスク学習 [Li+ (2019)] vs シングルタスク学
習 [Veeriah+ (2019)]
• オンライン学習 [Veeriah+ (2019)] vs オフライン学習 [Finn+
(2017)], ...
• メタ損失をどう最適化するか
• 勾配ベースの最適化 [Finn+ (2017)]
• 強化学習による最適化 [Duan+ (2016)]
• 進化計算による最適化 [Soltoggio+ (2018)], ...
松井 (名古屋大) 転移学習の基礎 メタ学習 37 / 41
例: Model-Agnostic Meta-Learning (MAML)
様々なタスクに勾配法で少数ショット学習したときに性能が良
くなるような共通のパラメータの初期値を学習
• メタ知識 : 各タスクに共通なモデルパラメータの初期値
• メタ損失 : オフライン少数ショット学習
• メタ損失の最適化 : 勾配法に基づく
松井 (名古屋大) 転移学習の基礎 メタ学習 38 / 41
まとめ
まとめとこれから
• 転移学習の基本概念
• 問題設定
• 基本問題: 何を/いつ/どうやって転移するか
• 不一致度と転移仮定
• 深層モデルによるドメイン不変な表現学習
• 同時リスクを考慮に入れた方法
• メタ学習
転移学習の実用化に向けて
• 実際の問題に利用されているのはほぼ事前学習とファイン
チューニングのみ
• 転移学習を製品に実装するために考えるべき課題 (例)
• モデルの評価 (目標ドメインでのラベル付きデータが必要)
• 製品に実装されたモデルの微調整や定期的な更新
松井 (名古屋大) 転移学習の基礎 まとめ 39 / 41
References
[1] Hal Daumé III. Frustratingly easy domain adaptation. ACL, 2007.
[2] A. Krizhevsky et al. Imagenet classification with deep convolutional neural networks. NeurIPS, 2012.
[3] A. Radford et al. Language models are unsupervised multitask learners. OpenAI blog, 1(8):9, 2019.
[4] A. Ramesh et al. Zero-shot text-to-image generation. arXiv preprint arXiv:2102.12092, 2021.
[5] A. Soltoggio et al. Born to learn: the inspiration, progress, and future of evolved plastic artificial neural
networks. Neural Networks, 108:48–67, 2018.
[6] B. K. Sriperumbudur et al. On the empirical estimation of integral probability metrics. Electronic Journal of
Statistics, 6:1550–1599, 2012.
[7] C. Finn et al. Model-agnostic meta-learning for fast adaptation of deep networks. ICML, 2017.
[8] F. Zhuang et al. Supervised representation learning: Transfer learning with deep autoencoders. IJCAI, 2015.
[9] H. Liu et al. Transferable adversarial training: A general approach to adapting deep classifiers. ICML, 2019.
[10] H. Zhao et al. On learning invariant representations for domain adaptation, 2019.
[11] I. Redko et al. Optimal transport for multi-source domain adaptation under target shift. AISTATS, 2019.
[12] I. Sato et al. Managing computer-assisted detection system based on transfer learning with negative transfer
inhibition. KDD, 2018.
[13] J. Devlin et al. Bert: Pre-training of deep bidirectional transformers for language understanding. NAACL, 2018.
[14] J. Gou et al. Knowledge distillation: A survey. International Journal of Computer Vision, pages 1–31, 2021.
[15] J. Quionero-Candela et al. Dataset shift in machine learning. The MIT Press, 2009.
[16] L. Duan et al. Learning with augmented features for heterogeneous domain adaptation. ICML, 2012.
[17] L. Franceschi et al. Forward and reverse gradient-based hyperparameter optimization. 2017.
松井 (名古屋大) 転移学習の基礎 まとめ 40 / 41
[18] M. Sugiyama et al. Density ratio estimation in machine learning. Cambridge University Press, 2012.
[19] N. Courty et al. Optimal transport for domain adaptation. IEEE transactions on pattern analysis and machine
intelligence, 39(9):1853–1865, 2016.
[20] S. Ben-David et al. A theory of learning from different domains. Machine learning, 79(1):151–175, 2010.
[21] S. Kuroki et al. Unsupervised domain adaptation based on source-guided discrepancy. 2019.
[22] T. Brown et al. Language models are few-shot learners. arXiv preprint arXiv:2005.14165, 2020.
[23] T. Teshima et al. Few-shot domain adaptation by causal mechanism transfer. 2020.
[24] V. Veeriah et al. Discovery of useful questions as auxiliary tasks. NeurIPS, 2019.
[25] Y. Chen et al. Learning to learn without gradient descent by gradient descent. 2017.
[26] Y. Duan et al. Rl ˆ2: Fast reinforcement learning via slow reinforcement learning. arXiv preprint
arXiv:1611.02779, 2016.
[27] Y. Ganin et al. Domain-adversarial training of neural networks. JMLR, 17(1):2096–2030, 2016.
[28] Y. Li et al. Feature-critic networks for heterogeneous domain generalization. 2019.
[29] T. Iwata and M. Yamada. Multi-view anomaly detection via robust probabilistic latent variable models.
NeurIPS, 2016.
[30] S. Ravi and H. Larochelle. Optimization as a model for few-shot learning. 2017.
[31] M. D. Zeiler and R. Fergus. Visualizing and understanding convolutional networks. 2014.
松井 (名古屋大) 転移学習の基礎 まとめ 41 / 41

More Related Content

What's hot

[DL輪読会]Learning Transferable Visual Models From Natural Language Supervision
[DL輪読会]Learning Transferable Visual Models From Natural Language Supervision[DL輪読会]Learning Transferable Visual Models From Natural Language Supervision
[DL輪読会]Learning Transferable Visual Models From Natural Language SupervisionDeep Learning JP
 
深層学習の数理
深層学習の数理深層学習の数理
深層学習の数理Taiji Suzuki
 
近年のHierarchical Vision Transformer
近年のHierarchical Vision Transformer近年のHierarchical Vision Transformer
近年のHierarchical Vision TransformerYusuke Uchida
 
Noisy Labels と戦う深層学習
Noisy Labels と戦う深層学習Noisy Labels と戦う深層学習
Noisy Labels と戦う深層学習Plot Hong
 
SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜
SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜
SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜SSII
 
【論文読み会】Deep Clustering for Unsupervised Learning of Visual Features
【論文読み会】Deep Clustering for Unsupervised Learning of Visual Features【論文読み会】Deep Clustering for Unsupervised Learning of Visual Features
【論文読み会】Deep Clustering for Unsupervised Learning of Visual FeaturesARISE analytics
 
Recent Advances on Transfer Learning and Related Topics Ver.2
Recent Advances on Transfer Learning and Related Topics Ver.2Recent Advances on Transfer Learning and Related Topics Ver.2
Recent Advances on Transfer Learning and Related Topics Ver.2Kota Matsui
 
深層学習の不確実性 - Uncertainty in Deep Neural Networks -
深層学習の不確実性 - Uncertainty in Deep Neural Networks -深層学習の不確実性 - Uncertainty in Deep Neural Networks -
深層学習の不確実性 - Uncertainty in Deep Neural Networks -tmtm otm
 
【メタサーベイ】数式ドリブン教師あり学習
【メタサーベイ】数式ドリブン教師あり学習【メタサーベイ】数式ドリブン教師あり学習
【メタサーベイ】数式ドリブン教師あり学習cvpaper. challenge
 
[DL輪読会]Understanding Black-box Predictions via Influence Functions
[DL輪読会]Understanding Black-box Predictions via Influence Functions [DL輪読会]Understanding Black-box Predictions via Influence Functions
[DL輪読会]Understanding Black-box Predictions via Influence Functions Deep Learning JP
 
[DL輪読会]When Does Label Smoothing Help?
[DL輪読会]When Does Label Smoothing Help?[DL輪読会]When Does Label Smoothing Help?
[DL輪読会]When Does Label Smoothing Help?Deep Learning JP
 
[DL輪読会]GLIDE: Guided Language to Image Diffusion for Generation and Editing
[DL輪読会]GLIDE: Guided Language to Image Diffusion  for Generation and Editing[DL輪読会]GLIDE: Guided Language to Image Diffusion  for Generation and Editing
[DL輪読会]GLIDE: Guided Language to Image Diffusion for Generation and EditingDeep Learning JP
 
自己教師学習(Self-Supervised Learning)
自己教師学習(Self-Supervised Learning)自己教師学習(Self-Supervised Learning)
自己教師学習(Self-Supervised Learning)cvpaper. challenge
 
[DL輪読会]Revisiting Deep Learning Models for Tabular Data (NeurIPS 2021) 表形式デー...
[DL輪読会]Revisiting Deep Learning Models for Tabular Data  (NeurIPS 2021) 表形式デー...[DL輪読会]Revisiting Deep Learning Models for Tabular Data  (NeurIPS 2021) 表形式デー...
[DL輪読会]Revisiting Deep Learning Models for Tabular Data (NeurIPS 2021) 表形式デー...Deep Learning JP
 
SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜
SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜
SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜SSII
 
PRML学習者から入る深層生成モデル入門
PRML学習者から入る深層生成モデル入門PRML学習者から入る深層生成モデル入門
PRML学習者から入る深層生成モデル入門tmtm otm
 
勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)
勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)
勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)RyuichiKanoh
 
生成モデルの Deep Learning
生成モデルの Deep Learning生成モデルの Deep Learning
生成モデルの Deep LearningSeiya Tokui
 
最適輸送入門
最適輸送入門最適輸送入門
最適輸送入門joisino
 

What's hot (20)

[DL輪読会]Learning Transferable Visual Models From Natural Language Supervision
[DL輪読会]Learning Transferable Visual Models From Natural Language Supervision[DL輪読会]Learning Transferable Visual Models From Natural Language Supervision
[DL輪読会]Learning Transferable Visual Models From Natural Language Supervision
 
深層学習の数理
深層学習の数理深層学習の数理
深層学習の数理
 
近年のHierarchical Vision Transformer
近年のHierarchical Vision Transformer近年のHierarchical Vision Transformer
近年のHierarchical Vision Transformer
 
Noisy Labels と戦う深層学習
Noisy Labels と戦う深層学習Noisy Labels と戦う深層学習
Noisy Labels と戦う深層学習
 
SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜
SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜
SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜
 
【論文読み会】Deep Clustering for Unsupervised Learning of Visual Features
【論文読み会】Deep Clustering for Unsupervised Learning of Visual Features【論文読み会】Deep Clustering for Unsupervised Learning of Visual Features
【論文読み会】Deep Clustering for Unsupervised Learning of Visual Features
 
Recent Advances on Transfer Learning and Related Topics Ver.2
Recent Advances on Transfer Learning and Related Topics Ver.2Recent Advances on Transfer Learning and Related Topics Ver.2
Recent Advances on Transfer Learning and Related Topics Ver.2
 
深層学習の不確実性 - Uncertainty in Deep Neural Networks -
深層学習の不確実性 - Uncertainty in Deep Neural Networks -深層学習の不確実性 - Uncertainty in Deep Neural Networks -
深層学習の不確実性 - Uncertainty in Deep Neural Networks -
 
【メタサーベイ】数式ドリブン教師あり学習
【メタサーベイ】数式ドリブン教師あり学習【メタサーベイ】数式ドリブン教師あり学習
【メタサーベイ】数式ドリブン教師あり学習
 
[DL輪読会]Understanding Black-box Predictions via Influence Functions
[DL輪読会]Understanding Black-box Predictions via Influence Functions [DL輪読会]Understanding Black-box Predictions via Influence Functions
[DL輪読会]Understanding Black-box Predictions via Influence Functions
 
[DL輪読会]When Does Label Smoothing Help?
[DL輪読会]When Does Label Smoothing Help?[DL輪読会]When Does Label Smoothing Help?
[DL輪読会]When Does Label Smoothing Help?
 
[DL輪読会]GLIDE: Guided Language to Image Diffusion for Generation and Editing
[DL輪読会]GLIDE: Guided Language to Image Diffusion  for Generation and Editing[DL輪読会]GLIDE: Guided Language to Image Diffusion  for Generation and Editing
[DL輪読会]GLIDE: Guided Language to Image Diffusion for Generation and Editing
 
自己教師学習(Self-Supervised Learning)
自己教師学習(Self-Supervised Learning)自己教師学習(Self-Supervised Learning)
自己教師学習(Self-Supervised Learning)
 
[DL輪読会]Revisiting Deep Learning Models for Tabular Data (NeurIPS 2021) 表形式デー...
[DL輪読会]Revisiting Deep Learning Models for Tabular Data  (NeurIPS 2021) 表形式デー...[DL輪読会]Revisiting Deep Learning Models for Tabular Data  (NeurIPS 2021) 表形式デー...
[DL輪読会]Revisiting Deep Learning Models for Tabular Data (NeurIPS 2021) 表形式デー...
 
Semantic segmentation
Semantic segmentationSemantic segmentation
Semantic segmentation
 
SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜
SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜
SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜
 
PRML学習者から入る深層生成モデル入門
PRML学習者から入る深層生成モデル入門PRML学習者から入る深層生成モデル入門
PRML学習者から入る深層生成モデル入門
 
勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)
勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)
勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)
 
生成モデルの Deep Learning
生成モデルの Deep Learning生成モデルの Deep Learning
生成モデルの Deep Learning
 
最適輸送入門
最適輸送入門最適輸送入門
最適輸送入門
 

Similar to SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法

文献紹介:Gate-Shift Networks for Video Action Recognition
文献紹介:Gate-Shift Networks for Video Action Recognition文献紹介:Gate-Shift Networks for Video Action Recognition
文献紹介:Gate-Shift Networks for Video Action RecognitionToru Tamaki
 
文献紹介:Token Shift Transformer for Video Classification
文献紹介:Token Shift Transformer for Video Classification文献紹介:Token Shift Transformer for Video Classification
文献紹介:Token Shift Transformer for Video ClassificationToru Tamaki
 
文献紹介:Deep Analysis of CNN-Based Spatio-Temporal Representations for Action Re...
文献紹介:Deep Analysis of CNN-Based Spatio-Temporal Representations for Action Re...文献紹介:Deep Analysis of CNN-Based Spatio-Temporal Representations for Action Re...
文献紹介:Deep Analysis of CNN-Based Spatio-Temporal Representations for Action Re...Toru Tamaki
 
2020/07/04 BSP-Net (CVPR2020)
2020/07/04 BSP-Net (CVPR2020)2020/07/04 BSP-Net (CVPR2020)
2020/07/04 BSP-Net (CVPR2020)Takuya Minagawa
 
LUT-Network ~本物のリアルタイムコンピューティングを目指して~
LUT-Network ~本物のリアルタイムコンピューティングを目指して~LUT-Network ~本物のリアルタイムコンピューティングを目指して~
LUT-Network ~本物のリアルタイムコンピューティングを目指して~ryuz88
 
行列計算を利用したデータ解析技術
行列計算を利用したデータ解析技術行列計算を利用したデータ解析技術
行列計算を利用したデータ解析技術Yoshihiro Mizoguchi
 
(文献紹介)深層学習による動被写体ロバストなカメラの動き推定
(文献紹介)深層学習による動被写体ロバストなカメラの動き推定(文献紹介)深層学習による動被写体ロバストなカメラの動き推定
(文献紹介)深層学習による動被写体ロバストなカメラの動き推定Morpho, Inc.
 
文献紹介:An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale
文献紹介:An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale文献紹介:An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale
文献紹介:An Image is Worth 16x16 Words: Transformers for Image Recognition at ScaleToru Tamaki
 
20171212 titech lecture_ishizaki_public
20171212 titech lecture_ishizaki_public20171212 titech lecture_ishizaki_public
20171212 titech lecture_ishizaki_publicKazuaki Ishizaki
 
200702material hirokawa
200702material hirokawa200702material hirokawa
200702material hirokawaRCCSRENKEI
 
DAシンポジウム2019招待講演「深層学習モデルの高速なTraining/InferenceのためのHW/SW技術」 金子紘也hare
DAシンポジウム2019招待講演「深層学習モデルの高速なTraining/InferenceのためのHW/SW技術」 金子紘也hareDAシンポジウム2019招待講演「深層学習モデルの高速なTraining/InferenceのためのHW/SW技術」 金子紘也hare
DAシンポジウム2019招待講演「深層学習モデルの高速なTraining/InferenceのためのHW/SW技術」 金子紘也harePreferred Networks
 
第18回コンピュータビジョン勉強会@関東「ICCV祭り」発表資料(kanejaki)
第18回コンピュータビジョン勉強会@関東「ICCV祭り」発表資料(kanejaki)第18回コンピュータビジョン勉強会@関東「ICCV祭り」発表資料(kanejaki)
第18回コンピュータビジョン勉強会@関東「ICCV祭り」発表資料(kanejaki)kanejaki
 
関数モデル 【クラウドアプリケーションのためのオブジェクト指向分析設計講座 第8回】
関数モデル 【クラウドアプリケーションのためのオブジェクト指向分析設計講座 第8回】関数モデル 【クラウドアプリケーションのためのオブジェクト指向分析設計講座 第8回】
関数モデル 【クラウドアプリケーションのためのオブジェクト指向分析設計講座 第8回】Tomoharu ASAMI
 
timeVaringMappedFixedValueについて
timeVaringMappedFixedValueについてtimeVaringMappedFixedValueについて
timeVaringMappedFixedValueについてDaisuke Matsubara
 
"Puzzle-Based Automatic Testing: Bringing Humans into the Loop by Solving Puz...
"Puzzle-Based Automatic Testing: Bringing Humans into the Loop by Solving Puz..."Puzzle-Based Automatic Testing: Bringing Humans into the Loop by Solving Puz...
"Puzzle-Based Automatic Testing: Bringing Humans into the Loop by Solving Puz...nkazuki
 
[DL輪読会]Learning to Navigate in Cities Without a Map
[DL輪読会]Learning to Navigate in Cities Without a Map[DL輪読会]Learning to Navigate in Cities Without a Map
[DL輪読会]Learning to Navigate in Cities Without a MapDeep Learning JP
 
博士論文本審査スライド
博士論文本審査スライド博士論文本審査スライド
博士論文本審査スライドRyuichi Ueda
 

Similar to SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法 (20)

文献紹介:Gate-Shift Networks for Video Action Recognition
文献紹介:Gate-Shift Networks for Video Action Recognition文献紹介:Gate-Shift Networks for Video Action Recognition
文献紹介:Gate-Shift Networks for Video Action Recognition
 
文献紹介:Token Shift Transformer for Video Classification
文献紹介:Token Shift Transformer for Video Classification文献紹介:Token Shift Transformer for Video Classification
文献紹介:Token Shift Transformer for Video Classification
 
文献紹介:Deep Analysis of CNN-Based Spatio-Temporal Representations for Action Re...
文献紹介:Deep Analysis of CNN-Based Spatio-Temporal Representations for Action Re...文献紹介:Deep Analysis of CNN-Based Spatio-Temporal Representations for Action Re...
文献紹介:Deep Analysis of CNN-Based Spatio-Temporal Representations for Action Re...
 
20200704 bsp net
20200704 bsp net20200704 bsp net
20200704 bsp net
 
2020/07/04 BSP-Net (CVPR2020)
2020/07/04 BSP-Net (CVPR2020)2020/07/04 BSP-Net (CVPR2020)
2020/07/04 BSP-Net (CVPR2020)
 
LUT-Network ~本物のリアルタイムコンピューティングを目指して~
LUT-Network ~本物のリアルタイムコンピューティングを目指して~LUT-Network ~本物のリアルタイムコンピューティングを目指して~
LUT-Network ~本物のリアルタイムコンピューティングを目指して~
 
行列計算を利用したデータ解析技術
行列計算を利用したデータ解析技術行列計算を利用したデータ解析技術
行列計算を利用したデータ解析技術
 
(文献紹介)深層学習による動被写体ロバストなカメラの動き推定
(文献紹介)深層学習による動被写体ロバストなカメラの動き推定(文献紹介)深層学習による動被写体ロバストなカメラの動き推定
(文献紹介)深層学習による動被写体ロバストなカメラの動き推定
 
文献紹介:An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale
文献紹介:An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale文献紹介:An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale
文献紹介:An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale
 
20171212 titech lecture_ishizaki_public
20171212 titech lecture_ishizaki_public20171212 titech lecture_ishizaki_public
20171212 titech lecture_ishizaki_public
 
200702material hirokawa
200702material hirokawa200702material hirokawa
200702material hirokawa
 
DAシンポジウム2019招待講演「深層学習モデルの高速なTraining/InferenceのためのHW/SW技術」 金子紘也hare
DAシンポジウム2019招待講演「深層学習モデルの高速なTraining/InferenceのためのHW/SW技術」 金子紘也hareDAシンポジウム2019招待講演「深層学習モデルの高速なTraining/InferenceのためのHW/SW技術」 金子紘也hare
DAシンポジウム2019招待講演「深層学習モデルの高速なTraining/InferenceのためのHW/SW技術」 金子紘也hare
 
第18回コンピュータビジョン勉強会@関東「ICCV祭り」発表資料(kanejaki)
第18回コンピュータビジョン勉強会@関東「ICCV祭り」発表資料(kanejaki)第18回コンピュータビジョン勉強会@関東「ICCV祭り」発表資料(kanejaki)
第18回コンピュータビジョン勉強会@関東「ICCV祭り」発表資料(kanejaki)
 
関数モデル 【クラウドアプリケーションのためのオブジェクト指向分析設計講座 第8回】
関数モデル 【クラウドアプリケーションのためのオブジェクト指向分析設計講座 第8回】関数モデル 【クラウドアプリケーションのためのオブジェクト指向分析設計講座 第8回】
関数モデル 【クラウドアプリケーションのためのオブジェクト指向分析設計講座 第8回】
 
timeVaringMappedFixedValueについて
timeVaringMappedFixedValueについてtimeVaringMappedFixedValueについて
timeVaringMappedFixedValueについて
 
"Puzzle-Based Automatic Testing: Bringing Humans into the Loop by Solving Puz...
"Puzzle-Based Automatic Testing: Bringing Humans into the Loop by Solving Puz..."Puzzle-Based Automatic Testing: Bringing Humans into the Loop by Solving Puz...
"Puzzle-Based Automatic Testing: Bringing Humans into the Loop by Solving Puz...
 
[DL輪読会]Learning to Navigate in Cities Without a Map
[DL輪読会]Learning to Navigate in Cities Without a Map[DL輪読会]Learning to Navigate in Cities Without a Map
[DL輪読会]Learning to Navigate in Cities Without a Map
 
Gurobi python
Gurobi pythonGurobi python
Gurobi python
 
博士論文本審査スライド
博士論文本審査スライド博士論文本審査スライド
博士論文本審査スライド
 
CMSI計算科学技術特論A(14) 量子化学計算の大規模化1
CMSI計算科学技術特論A(14) 量子化学計算の大規模化1CMSI計算科学技術特論A(14) 量子化学計算の大規模化1
CMSI計算科学技術特論A(14) 量子化学計算の大規模化1
 

More from SSII

SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​
SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​
SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​SSII
 
SSII2022 [TS3] コンテンツ制作を支援する機械学習技術​〜 イラストレーションやデザインの基礎から最新鋭の技術まで 〜​
SSII2022 [TS3] コンテンツ制作を支援する機械学習技術​〜 イラストレーションやデザインの基礎から最新鋭の技術まで 〜​SSII2022 [TS3] コンテンツ制作を支援する機械学習技術​〜 イラストレーションやデザインの基礎から最新鋭の技術まで 〜​
SSII2022 [TS3] コンテンツ制作を支援する機械学習技術​〜 イラストレーションやデザインの基礎から最新鋭の技術まで 〜​SSII
 
SSII2022 [TS2] 自律移動ロボットのためのロボットビジョン〜 オープンソースの自動運転ソフトAutowareを解説 〜
SSII2022 [TS2] 自律移動ロボットのためのロボットビジョン〜 オープンソースの自動運転ソフトAutowareを解説 〜SSII2022 [TS2] 自律移動ロボットのためのロボットビジョン〜 オープンソースの自動運転ソフトAutowareを解説 〜
SSII2022 [TS2] 自律移動ロボットのためのロボットビジョン〜 オープンソースの自動運転ソフトAutowareを解説 〜SSII
 
SSII2022 [OS3-04] Human-in-the-Loop 機械学習
SSII2022 [OS3-04] Human-in-the-Loop 機械学習SSII2022 [OS3-04] Human-in-the-Loop 機械学習
SSII2022 [OS3-04] Human-in-the-Loop 機械学習SSII
 
SSII2022 [OS3-03] スケーラブルなロボット学習システムに向けて
SSII2022 [OS3-03] スケーラブルなロボット学習システムに向けてSSII2022 [OS3-03] スケーラブルなロボット学習システムに向けて
SSII2022 [OS3-03] スケーラブルなロボット学習システムに向けてSSII
 
SSII2022 [OS3-02] Federated Learningの基礎と応用
SSII2022 [OS3-02] Federated Learningの基礎と応用SSII2022 [OS3-02] Federated Learningの基礎と応用
SSII2022 [OS3-02] Federated Learningの基礎と応用SSII
 
SSII2022 [OS3-01] 深層学習のための効率的なデータ収集と活用
SSII2022 [OS3-01] 深層学習のための効率的なデータ収集と活用SSII2022 [OS3-01] 深層学習のための効率的なデータ収集と活用
SSII2022 [OS3-01] 深層学習のための効率的なデータ収集と活用SSII
 
SSII2022 [OS2-01] イメージング最前線
SSII2022 [OS2-01] イメージング最前線SSII2022 [OS2-01] イメージング最前線
SSII2022 [OS2-01] イメージング最前線SSII
 
SSII2022 [OS1-01] AI時代のチームビルディング
SSII2022 [OS1-01] AI時代のチームビルディングSSII2022 [OS1-01] AI時代のチームビルディング
SSII2022 [OS1-01] AI時代のチームビルディングSSII
 
SSII2021 [SS2] Deepfake Generation and Detection – An Overview (ディープフェイクの生成と検出)
SSII2021 [SS2] Deepfake Generation and Detection – An Overview (ディープフェイクの生成と検出)SSII2021 [SS2] Deepfake Generation and Detection – An Overview (ディープフェイクの生成と検出)
SSII2021 [SS2] Deepfake Generation and Detection – An Overview (ディープフェイクの生成と検出)SSII
 
SSII2021 [SS1] Transformer x Computer Visionの 実活用可能性と展望 〜 TransformerのCompute...
SSII2021 [SS1] Transformer x Computer Visionの 実活用可能性と展望 〜 TransformerのCompute...SSII2021 [SS1] Transformer x Computer Visionの 実活用可能性と展望 〜 TransformerのCompute...
SSII2021 [SS1] Transformer x Computer Visionの 実活用可能性と展望 〜 TransformerのCompute...SSII
 
SSII2021 [TS3] 機械学習のアノテーションにおける データ収集​ 〜 精度向上のための仕組み・倫理や社会性バイアス 〜
SSII2021 [TS3] 機械学習のアノテーションにおける データ収集​ 〜 精度向上のための仕組み・倫理や社会性バイアス 〜SSII2021 [TS3] 機械学習のアノテーションにおける データ収集​ 〜 精度向上のための仕組み・倫理や社会性バイアス 〜
SSII2021 [TS3] 機械学習のアノテーションにおける データ収集​ 〜 精度向上のための仕組み・倫理や社会性バイアス 〜SSII
 
SSII2021 [TS2] 深層強化学習 〜 強化学習の基礎から応用まで 〜
SSII2021 [TS2] 深層強化学習 〜 強化学習の基礎から応用まで 〜SSII2021 [TS2] 深層強化学習 〜 強化学習の基礎から応用まで 〜
SSII2021 [TS2] 深層強化学習 〜 強化学習の基礎から応用まで 〜SSII
 
SSII2021 [TS1] Visual SLAM ~カメラ幾何の基礎から最近の技術動向まで~
SSII2021 [TS1] Visual SLAM ~カメラ幾何の基礎から最近の技術動向まで~SSII2021 [TS1] Visual SLAM ~カメラ幾何の基礎から最近の技術動向まで~
SSII2021 [TS1] Visual SLAM ~カメラ幾何の基礎から最近の技術動向まで~SSII
 
SSII2021 [OS3-03] 画像と点群を用いた、森林という広域空間のゾーニングと施業管理
SSII2021 [OS3-03] 画像と点群を用いた、森林という広域空間のゾーニングと施業管理SSII2021 [OS3-03] 画像と点群を用いた、森林という広域空間のゾーニングと施業管理
SSII2021 [OS3-03] 画像と点群を用いた、森林という広域空間のゾーニングと施業管理SSII
 
SSII2021 [OS3-02] BIM/CIMにおいて安価に点群を取得する目的とその利活用
SSII2021 [OS3-02] BIM/CIMにおいて安価に点群を取得する目的とその利活用SSII2021 [OS3-02] BIM/CIMにおいて安価に点群を取得する目的とその利活用
SSII2021 [OS3-02] BIM/CIMにおいて安価に点群を取得する目的とその利活用SSII
 
SSII2021 [OS3-01] 設備や環境の高品質計測点群取得と自動モデル化技術
SSII2021 [OS3-01] 設備や環境の高品質計測点群取得と自動モデル化技術SSII2021 [OS3-01] 設備や環境の高品質計測点群取得と自動モデル化技術
SSII2021 [OS3-01] 設備や環境の高品質計測点群取得と自動モデル化技術SSII
 
SSII2021 [OS3] 広域環境の3D計測と認識 ~ 人が活動する場のセンシングとモデル化 ~(オーガナイザーによる冒頭の導入)
SSII2021 [OS3] 広域環境の3D計測と認識 ~ 人が活動する場のセンシングとモデル化 ~(オーガナイザーによる冒頭の導入)SSII2021 [OS3] 広域環境の3D計測と認識 ~ 人が活動する場のセンシングとモデル化 ~(オーガナイザーによる冒頭の導入)
SSII2021 [OS3] 広域環境の3D計測と認識 ~ 人が活動する場のセンシングとモデル化 ~(オーガナイザーによる冒頭の導入)SSII
 
SSII2021 [OS2-03] 自己教師あり学習における対照学習の基礎と応用
SSII2021 [OS2-03] 自己教師あり学習における対照学習の基礎と応用SSII2021 [OS2-03] 自己教師あり学習における対照学習の基礎と応用
SSII2021 [OS2-03] 自己教師あり学習における対照学習の基礎と応用SSII
 
SSII2021 [OS1-03] エネルギーの情報化:需要家主体の分散協調型電力マネージメント
SSII2021 [OS1-03] エネルギーの情報化:需要家主体の分散協調型電力マネージメントSSII2021 [OS1-03] エネルギーの情報化:需要家主体の分散協調型電力マネージメント
SSII2021 [OS1-03] エネルギーの情報化:需要家主体の分散協調型電力マネージメントSSII
 

More from SSII (20)

SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​
SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​
SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​
 
SSII2022 [TS3] コンテンツ制作を支援する機械学習技術​〜 イラストレーションやデザインの基礎から最新鋭の技術まで 〜​
SSII2022 [TS3] コンテンツ制作を支援する機械学習技術​〜 イラストレーションやデザインの基礎から最新鋭の技術まで 〜​SSII2022 [TS3] コンテンツ制作を支援する機械学習技術​〜 イラストレーションやデザインの基礎から最新鋭の技術まで 〜​
SSII2022 [TS3] コンテンツ制作を支援する機械学習技術​〜 イラストレーションやデザインの基礎から最新鋭の技術まで 〜​
 
SSII2022 [TS2] 自律移動ロボットのためのロボットビジョン〜 オープンソースの自動運転ソフトAutowareを解説 〜
SSII2022 [TS2] 自律移動ロボットのためのロボットビジョン〜 オープンソースの自動運転ソフトAutowareを解説 〜SSII2022 [TS2] 自律移動ロボットのためのロボットビジョン〜 オープンソースの自動運転ソフトAutowareを解説 〜
SSII2022 [TS2] 自律移動ロボットのためのロボットビジョン〜 オープンソースの自動運転ソフトAutowareを解説 〜
 
SSII2022 [OS3-04] Human-in-the-Loop 機械学習
SSII2022 [OS3-04] Human-in-the-Loop 機械学習SSII2022 [OS3-04] Human-in-the-Loop 機械学習
SSII2022 [OS3-04] Human-in-the-Loop 機械学習
 
SSII2022 [OS3-03] スケーラブルなロボット学習システムに向けて
SSII2022 [OS3-03] スケーラブルなロボット学習システムに向けてSSII2022 [OS3-03] スケーラブルなロボット学習システムに向けて
SSII2022 [OS3-03] スケーラブルなロボット学習システムに向けて
 
SSII2022 [OS3-02] Federated Learningの基礎と応用
SSII2022 [OS3-02] Federated Learningの基礎と応用SSII2022 [OS3-02] Federated Learningの基礎と応用
SSII2022 [OS3-02] Federated Learningの基礎と応用
 
SSII2022 [OS3-01] 深層学習のための効率的なデータ収集と活用
SSII2022 [OS3-01] 深層学習のための効率的なデータ収集と活用SSII2022 [OS3-01] 深層学習のための効率的なデータ収集と活用
SSII2022 [OS3-01] 深層学習のための効率的なデータ収集と活用
 
SSII2022 [OS2-01] イメージング最前線
SSII2022 [OS2-01] イメージング最前線SSII2022 [OS2-01] イメージング最前線
SSII2022 [OS2-01] イメージング最前線
 
SSII2022 [OS1-01] AI時代のチームビルディング
SSII2022 [OS1-01] AI時代のチームビルディングSSII2022 [OS1-01] AI時代のチームビルディング
SSII2022 [OS1-01] AI時代のチームビルディング
 
SSII2021 [SS2] Deepfake Generation and Detection – An Overview (ディープフェイクの生成と検出)
SSII2021 [SS2] Deepfake Generation and Detection – An Overview (ディープフェイクの生成と検出)SSII2021 [SS2] Deepfake Generation and Detection – An Overview (ディープフェイクの生成と検出)
SSII2021 [SS2] Deepfake Generation and Detection – An Overview (ディープフェイクの生成と検出)
 
SSII2021 [SS1] Transformer x Computer Visionの 実活用可能性と展望 〜 TransformerのCompute...
SSII2021 [SS1] Transformer x Computer Visionの 実活用可能性と展望 〜 TransformerのCompute...SSII2021 [SS1] Transformer x Computer Visionの 実活用可能性と展望 〜 TransformerのCompute...
SSII2021 [SS1] Transformer x Computer Visionの 実活用可能性と展望 〜 TransformerのCompute...
 
SSII2021 [TS3] 機械学習のアノテーションにおける データ収集​ 〜 精度向上のための仕組み・倫理や社会性バイアス 〜
SSII2021 [TS3] 機械学習のアノテーションにおける データ収集​ 〜 精度向上のための仕組み・倫理や社会性バイアス 〜SSII2021 [TS3] 機械学習のアノテーションにおける データ収集​ 〜 精度向上のための仕組み・倫理や社会性バイアス 〜
SSII2021 [TS3] 機械学習のアノテーションにおける データ収集​ 〜 精度向上のための仕組み・倫理や社会性バイアス 〜
 
SSII2021 [TS2] 深層強化学習 〜 強化学習の基礎から応用まで 〜
SSII2021 [TS2] 深層強化学習 〜 強化学習の基礎から応用まで 〜SSII2021 [TS2] 深層強化学習 〜 強化学習の基礎から応用まで 〜
SSII2021 [TS2] 深層強化学習 〜 強化学習の基礎から応用まで 〜
 
SSII2021 [TS1] Visual SLAM ~カメラ幾何の基礎から最近の技術動向まで~
SSII2021 [TS1] Visual SLAM ~カメラ幾何の基礎から最近の技術動向まで~SSII2021 [TS1] Visual SLAM ~カメラ幾何の基礎から最近の技術動向まで~
SSII2021 [TS1] Visual SLAM ~カメラ幾何の基礎から最近の技術動向まで~
 
SSII2021 [OS3-03] 画像と点群を用いた、森林という広域空間のゾーニングと施業管理
SSII2021 [OS3-03] 画像と点群を用いた、森林という広域空間のゾーニングと施業管理SSII2021 [OS3-03] 画像と点群を用いた、森林という広域空間のゾーニングと施業管理
SSII2021 [OS3-03] 画像と点群を用いた、森林という広域空間のゾーニングと施業管理
 
SSII2021 [OS3-02] BIM/CIMにおいて安価に点群を取得する目的とその利活用
SSII2021 [OS3-02] BIM/CIMにおいて安価に点群を取得する目的とその利活用SSII2021 [OS3-02] BIM/CIMにおいて安価に点群を取得する目的とその利活用
SSII2021 [OS3-02] BIM/CIMにおいて安価に点群を取得する目的とその利活用
 
SSII2021 [OS3-01] 設備や環境の高品質計測点群取得と自動モデル化技術
SSII2021 [OS3-01] 設備や環境の高品質計測点群取得と自動モデル化技術SSII2021 [OS3-01] 設備や環境の高品質計測点群取得と自動モデル化技術
SSII2021 [OS3-01] 設備や環境の高品質計測点群取得と自動モデル化技術
 
SSII2021 [OS3] 広域環境の3D計測と認識 ~ 人が活動する場のセンシングとモデル化 ~(オーガナイザーによる冒頭の導入)
SSII2021 [OS3] 広域環境の3D計測と認識 ~ 人が活動する場のセンシングとモデル化 ~(オーガナイザーによる冒頭の導入)SSII2021 [OS3] 広域環境の3D計測と認識 ~ 人が活動する場のセンシングとモデル化 ~(オーガナイザーによる冒頭の導入)
SSII2021 [OS3] 広域環境の3D計測と認識 ~ 人が活動する場のセンシングとモデル化 ~(オーガナイザーによる冒頭の導入)
 
SSII2021 [OS2-03] 自己教師あり学習における対照学習の基礎と応用
SSII2021 [OS2-03] 自己教師あり学習における対照学習の基礎と応用SSII2021 [OS2-03] 自己教師あり学習における対照学習の基礎と応用
SSII2021 [OS2-03] 自己教師あり学習における対照学習の基礎と応用
 
SSII2021 [OS1-03] エネルギーの情報化:需要家主体の分散協調型電力マネージメント
SSII2021 [OS1-03] エネルギーの情報化:需要家主体の分散協調型電力マネージメントSSII2021 [OS1-03] エネルギーの情報化:需要家主体の分散協調型電力マネージメント
SSII2021 [OS1-03] エネルギーの情報化:需要家主体の分散協調型電力マネージメント
 

SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法

  • 2. はじめに Inductive Transfer : 10 Years Later (NIPS2005 Workshop) Inductive transfer or transfer learning refers to the problem of retaining and applying the knowledge learned in one or more tasks to efficiently develop an effective hypothesis for a new task. 帰納的転移または転移学習とは, 新しいタスクに対する有効 な仮説を効率的に見つけ出すために, 一つ以上の別のタスク で学習された知識を保持 · 適用する問題を指す. 本発表の目的 • 転移学習を体系的に整理する • 転移学習の問題設定と具体的な定式化を説明する • 転移学習の具体的な方法の例を紹介する 注) ∗ の付いているスライドや章は時間の都合上説明を省略します 松井 (名古屋大) 転移学習の基礎 1 / 41
  • 3. Table of contents i 1. 転移学習の定式化 2. 転移学習の基本問題 3. 深層学習時代の転移学習 4. ∗ 同時リスクを考慮した転移学習 5. メタ学習 6. まとめ 松井 (名古屋大) 転移学習の基礎 2 / 41
  • 5. 機械学習と転移学習 学習データ テストデータ 学習データ テストデータ 従来の機械学習(単⼀のドメイン) ドメイン = (標本空間, データ分布) 転移学習(複数のドメイン) 元ドメイン ⽬標ドメイン 学習データとテストデータ の空間と分布は同じ 学習データと テストデータ の空間や分布 が異なる 松井 (名古屋大) 転移学習の基礎 転移学習の定式化 3 / 41
  • 7. ドメイン適応 (Domain Adaptation) 目的: 目標ドメインにおける期待リスク最小化 Find h∗ s.t. RT(h∗ ) = min h RT(h), 松井 (名古屋大) 転移学習の基礎 転移学習の定式化 5 / 41
  • 8. ∗ マルチタスク学習 (Multi-task Learning) 目標: 全てのドメインにおける期待リスク最小化 Find h∗ i s.t. Ri(h∗ i ) = min h Ri(h), i = 1, 2, ... 松井 (名古屋大) 転移学習の基礎 転移学習の定式化 6 / 41
  • 9. メタ学習 (Meta Learning) 目標: メタ知識 (タスク集合/分布に関する知識) の獲得 Find ω∗ = arg min ω ET =(L,D)∼P(T )[L(ω; D)] 松井 (名古屋大) 転移学習の基礎 転移学習の定式化 7 / 41
  • 10. ∗ 継続学習 (Continual Learning) 目標: ドメインの系列全体に対する期待リスク最小化 Find h∗ s.t. Ri(h∗ ) = min h Ri(h), i = 1, 2, ... • 単一のモデルでタスク系列を処理 (MTL との違い) • 過去のタスク性能が劣化しないことにフォーカス (破滅的 忘却の回避) 松井 (名古屋大) 転移学習の基礎 転移学習の定式化 8 / 41
  • 12. 転移学習の基本問題 1. 何を転移するか (What to transfer) • 事例転移 (データそのものを転移) • 特徴転移 (抽出した特徴間で転移) • パラメータ転移 (学習したモデルや特徴抽出器を転移) 2. いつ転移するか (When to transfer) • 元ドメインと目標ドメインが似ているとき • 不一致度による “似てる度” の定量化 • 転移仮定 (転移を成功させるための条件) • 負転移を回避したい • 転移によって目標ドメインの性能がむしろ悪化 3. どう転移するか (How to transfer) : 具体的なアルゴリズム 松井 (名古屋大) 転移学習の基礎 転移学習の基本問題 9 / 41
  • 13. 何を転移するか 元ドメインから目標ドメインへ転移する「知識」の種類 ! !"#$%&'$()*%+,- ./012 !,34562" ! 7!"#$89:;0<=>?@A BCDE ! FG8HIJFGKLM$N&OP ! !"#!$%&'( !"#$%&'(')*+,-.,/0 ! )*+,-#./01 !"#$ %&#$ '()*+#$ ! !"#$%&'$()*%+Q5E ./012 !Q34562" ! 7!"#$89:;0RS8TU*% BVW !XYZ[" ! TU*%&,345]^/>? FGKLM$N0_` ! 2345 !1#'2)*+,-.,/0 ! 6789:;<=> !3'2%2)*+,-.4/0 ! !"#$%&'()*+,-. /0123456#789:; "#$%&<=> ! ?@'(+,-4A< ! 5678*!19:;%2)*+,-.</0 ! 3=8>,*!7'?@AB?)*+,-.C/0* ! 3=8>D*!5BAE2)*+,-,-/0 松井 (名古屋大) 転移学習の基礎 転移学習の基本問題 10 / 41
  • 14. いつ転移するか: 負転移 負転移 1. 一方のドメインのみで学習したモデルを目標タスクで用いる 2. 両ドメインを使って学習したモデルを目標タスクで用いる として (2 のタスク性能) ≤ (1 のタスク性能) のとき (下図 (b)) 1.0 0.2 0.4 0.6 0.8 0.0 1.0 0.2 0.4 0.6 0.8 0.0 AUC AUC The number of target training cases The number of target training cases (a) (b) source only transfer target only source only transfer target only • 2 つのドメインが乖離しているほど負転移が発生しやすい • 負転移を防ぐことは転移学習における重要な課題 松井 (名古屋大) 転移学習の基礎 転移学習の基本問題 11 / 41
  • 15. いつ転移するか: ドメインの不一致度 (discrepancy) ドメインの非類似度をデータ生成分布の不一致度で評価 • 不一致度が小さい → 両ドメインのデータ生成分布が似て いる (負転移が起こりにくい) • 様々な discrepancy が定義されている • H∆H divergence [Ben-David+ (2010)] • Wasserstein distance [Courty+ (2017)] • source-guided discrepancy [Kuroki+ (2019)] 松井 (名古屋大) 転移学習の基礎 転移学習の基本問題 12 / 41
  • 16. いつ転移するか: 転移仮定 i ドメインの分布の違い方に対する仮定 [Quionero-Candela+ (2009)] • データセットシフト : PS(X, Y) ̸= PT(X, Y) • 共変量シフト : PS(Y | X) = PT(Y | X), PS(X) ̸= PT(X) • クラス事前確率シフト (ターゲットシフト) : PS(X | Y) = PT(X | Y), PS(Y) ̸= PT(Y) • サンプル選択バイアス : PS(X, Y) = P(X, Y | v = 1), PT(X, Y) = P(X, Y) v は (X, Y) が学習データに含まれる (v = 1) か否 (v = 0) か • クラスバランスシフト [Redko+ (2019)] : PS = (1 − πS)P0 + πSP1, PT = (1 − πT)P0 + πTP1 (πS ̸= πT) P0, P1 はクラス 0, 1 に対応する共変量分布 松井 (名古屋大) 転移学習の基礎 転移学習の基本問題 13 / 41
  • 17.
  • 18. いつ転移するか: 転移仮定 iii 共通の生成過程 [Teshima+ (ICML2020)] • 因果モデルで捉えられるデータ生成過程の知識を転移 松井 (名古屋大) 転移学習の基礎 転移学習の基本問題 15 / 41
  • 20. 深層学習の発展は転移学習をどう変えたか 1. 事前学習モデルの利用の拡大 • 巨大なネットワークでも事前学習済みモデルが公開されて いる • ファインチューニング (FT) によって自分で用意するデータ は比較的少量で済む 2. 深層モデルによる表現学習/特徴抽出方法の進化 • 特徴量 (の抽出法) をネットワークに学習させる • 特にドメインに関する特徴の抽出も可能になってきた • ドメイン不変な特徴量による精度の向上 • 特徴を独立な成分に分解し, ドメイン間で共有されている成 分は転移し, 異なっている成分は転移しない (非もつれ表現) 松井 (名古屋大) 転移学習の基礎 深層学習時代の転移学習 16 / 41
  • 21. 事前学習済みモデルの利用 · · · · · · • 元ドメインのデータで学習したネットワーク (構造, パラメ ータ) を目標ドメインで利用 • 再学習なしで利用 (狭義の転移学習), 再学習ありで利用 (FT) どちらもある 松井 (名古屋大) 転移学習の基礎 深層学習時代の転移学習 17 / 41
  • 22. 巨大事前学習済みモデルとファインチューニング • トランスフォーマー (上図) を用いた巨大な事前学習済み モデルを FT して利用 • GPT-2 [Radford+ (2019)], GPT-3 [Brown+ (2020)], DALL-E [Ramesh+ (2021)] (Open-AI) • スクラッチ学習に膨大なコスト (計算リソースや時間) が かかるモデルでも FT のみ (相対的に低コスト) で使える 松井 (名古屋大) 転移学習の基礎 深層学習時代の転移学習 18 / 41
  • 23. 知識蒸留 [Gou+ (2020)] : 事前学習済みモデルの圧縮 • 学習済みモデルのパラメータではなく, モデルが学習した 暗黙知 (dark knowledge) を転移する • (猫を犬と間違える確率) ≪ (猫を車と間違える確率) • 手書き数字の “2” は “7” よりも “3” に似ていやすい • ネットワークを直接転移しないのでファインチューニング に比べて転移先のモデルは小さくて済む (モデル圧縮) 松井 (名古屋大) 転移学習の基礎 深層学習時代の転移学習 19 / 41
  • 24.
  • 25. ∗ 深層学習以前の特徴の獲得方法: カーネル法 • 幅が無限大の全結合型 2 層 NN として解釈可能 • 特徴抽出器 (入力層-中間層) はユーザーが設計, 固定 松井 (名古屋大) 転移学習の基礎 深層学習時代の転移学習 21 / 41
  • 26. ∗ カーネル法による特徴表現に基づく転移学習 元ドメイン ⽬標ドメイン 次元が異なる 共通空間 [Duan+ (ICML2012)] ``いらいらするほど簡単なDA’’ [Daume III, ACL2007] ドメイン共通の特徴 ドメイン固有の特徴 min PS,PT max α 1⊤ ns+nt α − 1 2 (α ◦ y)⊤ KPS,PT (α ◦ y) s.t. y⊤ α = 0, 0ns+nt ≤ α ≤ C1ns+nt ∥PS∥2 F ≤ λp, ∥PT∥2 F ≤ λq 松井 (名古屋大) 転移学習の基礎 深層学習時代の転移学習 22 / 41
  • 28. 不変な表現学習を目指す理論的根拠 目標ドメインの期待リスクバウンド (統計的学習理論) に基づ く 目標リスクの典型的な上界の表現 RT(h, fT) ≤ RS(h, fS) + Disc(PT, PS) + Diff(fT, fS) • fT, fS : 目標ドメイン, 元ドメインの真のラベル関数 • Disc : 元ドメインと目標ドメインの周辺分布の不一致度 • Diff : 元ドメインと目標ドメインのラベル関数の違い • Disc を小さく抑えることが RT の最小化に直接寄与する → 両ドメインで不変な特徴量は分布の不一致度 Disc を小 さくする 松井 (名古屋大) 転移学習の基礎 深層学習時代の転移学習 24 / 41
  • 29. ∗ 目標リスクの上界の例 • 2 値判別問題 • 全変動距離でドメインの不一致度を評価: dH(DS, DT) = 2 sup h∈H |PS(AS) − PT(AT)|, A = {x ∈ D; h(x) = 1} Theorem 1 (Ben-David+ (2010)) 任意の δ > 0 に対して確率 1 − δ 以上で以下が成立 RT(h, fT) ≤ RS(h, fS) + dH(DS, DT) | {z } Disc + min h∈H RT(h, fT) + RS(h, fS) | {z } Diff 松井 (名古屋大) 転移学習の基礎 深層学習時代の転移学習 25 / 41
  • 30. 例: 深層オートエンコーダーによるドメイン不変表現学習 Transfer Learning with Deep Autoencoders [Zhuang+ (2015)] • オートエンコーダーによる教師付き表現学習 min Err(x, x̂) | {z } reconstruction error +α (KL(PS||PT) + KL(PT||PS)) | {z } discrepancy +β ℓ(yS; θ, ξS) | {z } softmax loss +γReg • 元ドメインと目標ドメインで符号化と復号化の重みを共有 松井 (名古屋大) 転移学習の基礎 深層学習時代の転移学習 26 / 41
  • 31. 例: 敵対的学習によるドメイン不変表現学習 Domain Adversarial Training [Ganin+ (2015)] • 特徴抽出器がドメイン不変な特徴を抽出 • ドメイン識別器の学習は gradient に負定数をかけ逆伝播 する勾配反転層を導入することで実現 松井 (名古屋大) 転移学習の基礎 深層学習時代の転移学習 27 / 41
  • 33. 不変性のみを考慮することの限界 i 目標ドメインのリスク上界 (再掲) RT(h, fT) ≤ RS(h, fS) + Disc(PT, PS) + Diff(fT, fS) • 不変な特徴表現の獲得 = 第 2 項の最小化 • 同時リスク Diff(fT, fS) = infh∈H RS(h, fS) + RT(h, fT) は無視 → 目標ドメインのラベル関数が考慮されない (上図) 松井 (名古屋大) 転移学習の基礎 ∗ 同時リスクを考慮した転移学習 28 / 41
  • 34. 不変性のみを考慮することの限界 ii • 実験的な同時リスクの検証 [Liu+ (2019)] • DANN のようなドメイン不変な表現学習のみを行う手法で は同時リスク RS(h) + RT(h) が大きくなるような仮説が学 習されてしまう 松井 (名古屋大) 転移学習の基礎 ∗ 同時リスクを考慮した転移学習 29 / 41
  • 35. 不変性と同時リスクの関係 同時リスクの下界 [Zhao+ (2019)] RS(h ◦ g) + RT(h ◦ g) ≥ 1 2 dJS(PT (Y), PS (Y)) − dJS(PT (Z), PS (Z)) 2 • g : 特徴抽出器 • h : ラベル識別器 • dJS : JS ダイバージェンスの平方根 • Z : g によって抽出された特徴量 • ドメイン不変な表現学習に基づく転移学習が成功するため の必要条件 • 右辺第 1 項 (ラベル分布の不一致度) が大きいとき, 右辺第 2 項の最小化 (不変表現学習) は RT(h ◦ g) を悪化させる 松井 (名古屋大) 転移学習の基礎 ∗ 同時リスクを考慮した転移学習 30 / 41
  • 36. 同時リスクを考慮した転移学習 i Transferable Adversarial Training (TAT) [Liu+ (2019)] • 元ドメインと目標ドメインのギャップを埋めるような疑似 データ (転移可能事例) を生成 • 転移可能事例を含めてラベル識別器を訓練 → ドメイン不変な表現学習を経由せずに目標ドメインで 汎化するモデルを学習可能 松井 (名古屋大) 転移学習の基礎 ∗ 同時リスクを考慮した転移学習 31 / 41
  • 38. 同時リスクを考慮した転移学習 iii TAT による識別境界の学習と転移可能特徴の挙動 (a) Source Only Model (b) TAT (c) Transferable Examples 松井 (名古屋大) 転移学習の基礎 ∗ 同時リスクを考慮した転移学習 33 / 41
  • 39. 同時リスクを考慮した転移学習 iv TAT の性能の評価 (識別精度) Table 1. Classification accuracies (%) on Office-31 for unsupervised domain adaptation with ResNet-50. METHOD A→W D→W W→D A→D D→A W→A AVG. RESNET-50 (HE ET AL., 2016) 68.4±0.2 96.7±0.1 99.3±0.1 68.9±0.2 62.5±0.3 60.7±0.3 76.1 DAN (LONG ET AL., 2015) 80.5±0.4 97.1±0.2 99.6±0.1 78.6±0.2 63.6±0.3 62.8±0.2 80.4 DANN (GANIN ET AL., 2016) 82.6±0.4 96.9±0.2 99.3±0.2 81.5±0.4 68.4±0.5 67.5±0.5 82.7 ADDA (TZENG ET AL., 2017) 86.2±0.5 96.2±0.3 98.4±0.3 77.8±0.3 69.5±0.4 68.9±0.5 82.9 VADA (SHU ET AL., 2018) 86.5±0.5 98.2±0.4 99.7±0.2 86.7±0.4 70.1±0.4 70.5±0.4 85.4 GTA (SANKARANARAYANAN ET AL., 2018) 89.5±0.5 97.9±0.3 99.7±0.2 87.7±0.5 72.8±0.3 71.4±0.4 86.5 MCD (SAITO ET AL., 2018) 88.6±0.2 98.5±0.1 100.0±.0 92.2±0.2 69.5±0.1 69.7±0.3 86.5 CDAN (LONG ET AL., 2018) 93.1±0.1 98.6±0.1 100.0±.0 92.9±0.2 71.0±0.3 69.3±0.3 87.5 TAT 92.5±0.3 99.3±0.1 100.0±.0 93.2±0.2 73.1±0.3 72.1±0.3 88.4 Table 2. Classification accuracies (%) on Image-CLEF for unsupervised domain adaptation with ResNet-50. METHOD I→P P→I I→C C→I C→P P→C AVG. RESNET-50 (HE ET AL., 2016) 74.8±0.3 83.9±0.1 91.5±0.3 78.0±0.2 65.5±0.3 91.2±0.3 80.7 DAN (LONG ET AL., 2015) 74.5±0.4 82.2±0.2 92.8±0.2 86.3±0.4 69.2±0.4 89.8±0.4 82.5 DANN (GANIN ET AL., 2016) 75.0±0.3 86.0±0.3 96.2±0.4 87.0±0.5 74.3±0.5 91.5±0.6 85.0 CDAN (LONG ET AL., 2018) 76.7±0.3 90.6±0.3 97.0±0.4 90.5±0.4 74.5±0.3 93.5±0.4 87.1 TAT 78.8±0.2 92.0±0.2 97.5±0.3 92.0±0.3 78.2±0.4 94.7±0.4 88.9 松井 (名古屋大) 転移学習の基礎 ∗ 同時リスクを考慮した転移学習 34 / 41
  • 41. メタ学習 (Meta Learning) メタ学習の定義 複数の学習エピソード (≈ データ) を訓練データとしてメタ知 識 (または帰納バイアス) を学習しておくことで, 目的のタス クにおいて少数の学習データしかなくても性能を高める • 帰納バイアス学習 (inductive bias learning), 学習の仕方の 学習 (learning to learn) などとも呼ばれる • メタ知識: 機械学習を実行する際におく様々な仮定 • データ分布の仮定 (例: データは正規分布に従うとみなす) • どのようなモデルを使うか (仮説集合の指定) • 線形モデル → 線形回帰, 線形判別 • 深層モデル → 深層学習 • モデルの最適化アルゴリズムに何を使うか • 確率的勾配降下法 (SGD) • Adam 松井 (名古屋大) 転移学習の基礎 メタ学習 35 / 41
  • 42. メタ学習の定式化 [Hospedales+ (2020)] メタ損失 (⽬的関数) 第mドメインの損失 メタ知識 ω の下での 第mドメインの最適 パラメータ : 第mドメインの訓練データ, 検証データ メタ学習の2レベル最適化問題としての定式化 ⽬的関数:メタ知識の最適化 制約条件:ドメイン毎のパラメータ学習 松井 (名古屋大) 転移学習の基礎 メタ学習 36 / 41
  • 43. メタ学習の分類 • 何をメタ知識と考えるか • パラメータの初期値 [Finn+ (2017)] • 最適化器 [Chen+ (2017)] • ハイパーパラメータ, ... • メタ損失をどう設定するか • 多数ショット (通常の) 学習 [Franceschi+ (2017)] vs 少数シ ョット学習 [Finn+ (2017)] • マルチタスク学習 [Li+ (2019)] vs シングルタスク学 習 [Veeriah+ (2019)] • オンライン学習 [Veeriah+ (2019)] vs オフライン学習 [Finn+ (2017)], ... • メタ損失をどう最適化するか • 勾配ベースの最適化 [Finn+ (2017)] • 強化学習による最適化 [Duan+ (2016)] • 進化計算による最適化 [Soltoggio+ (2018)], ... 松井 (名古屋大) 転移学習の基礎 メタ学習 37 / 41
  • 44. 例: Model-Agnostic Meta-Learning (MAML) 様々なタスクに勾配法で少数ショット学習したときに性能が良 くなるような共通のパラメータの初期値を学習 • メタ知識 : 各タスクに共通なモデルパラメータの初期値 • メタ損失 : オフライン少数ショット学習 • メタ損失の最適化 : 勾配法に基づく 松井 (名古屋大) 転移学習の基礎 メタ学習 38 / 41
  • 46. まとめとこれから • 転移学習の基本概念 • 問題設定 • 基本問題: 何を/いつ/どうやって転移するか • 不一致度と転移仮定 • 深層モデルによるドメイン不変な表現学習 • 同時リスクを考慮に入れた方法 • メタ学習 転移学習の実用化に向けて • 実際の問題に利用されているのはほぼ事前学習とファイン チューニングのみ • 転移学習を製品に実装するために考えるべき課題 (例) • モデルの評価 (目標ドメインでのラベル付きデータが必要) • 製品に実装されたモデルの微調整や定期的な更新 松井 (名古屋大) 転移学習の基礎 まとめ 39 / 41
  • 47. References [1] Hal Daumé III. Frustratingly easy domain adaptation. ACL, 2007. [2] A. Krizhevsky et al. Imagenet classification with deep convolutional neural networks. NeurIPS, 2012. [3] A. Radford et al. Language models are unsupervised multitask learners. OpenAI blog, 1(8):9, 2019. [4] A. Ramesh et al. Zero-shot text-to-image generation. arXiv preprint arXiv:2102.12092, 2021. [5] A. Soltoggio et al. Born to learn: the inspiration, progress, and future of evolved plastic artificial neural networks. Neural Networks, 108:48–67, 2018. [6] B. K. Sriperumbudur et al. On the empirical estimation of integral probability metrics. Electronic Journal of Statistics, 6:1550–1599, 2012. [7] C. Finn et al. Model-agnostic meta-learning for fast adaptation of deep networks. ICML, 2017. [8] F. Zhuang et al. Supervised representation learning: Transfer learning with deep autoencoders. IJCAI, 2015. [9] H. Liu et al. Transferable adversarial training: A general approach to adapting deep classifiers. ICML, 2019. [10] H. Zhao et al. On learning invariant representations for domain adaptation, 2019. [11] I. Redko et al. Optimal transport for multi-source domain adaptation under target shift. AISTATS, 2019. [12] I. Sato et al. Managing computer-assisted detection system based on transfer learning with negative transfer inhibition. KDD, 2018. [13] J. Devlin et al. Bert: Pre-training of deep bidirectional transformers for language understanding. NAACL, 2018. [14] J. Gou et al. Knowledge distillation: A survey. International Journal of Computer Vision, pages 1–31, 2021. [15] J. Quionero-Candela et al. Dataset shift in machine learning. The MIT Press, 2009. [16] L. Duan et al. Learning with augmented features for heterogeneous domain adaptation. ICML, 2012. [17] L. Franceschi et al. Forward and reverse gradient-based hyperparameter optimization. 2017. 松井 (名古屋大) 転移学習の基礎 まとめ 40 / 41
  • 48. [18] M. Sugiyama et al. Density ratio estimation in machine learning. Cambridge University Press, 2012. [19] N. Courty et al. Optimal transport for domain adaptation. IEEE transactions on pattern analysis and machine intelligence, 39(9):1853–1865, 2016. [20] S. Ben-David et al. A theory of learning from different domains. Machine learning, 79(1):151–175, 2010. [21] S. Kuroki et al. Unsupervised domain adaptation based on source-guided discrepancy. 2019. [22] T. Brown et al. Language models are few-shot learners. arXiv preprint arXiv:2005.14165, 2020. [23] T. Teshima et al. Few-shot domain adaptation by causal mechanism transfer. 2020. [24] V. Veeriah et al. Discovery of useful questions as auxiliary tasks. NeurIPS, 2019. [25] Y. Chen et al. Learning to learn without gradient descent by gradient descent. 2017. [26] Y. Duan et al. Rl ˆ2: Fast reinforcement learning via slow reinforcement learning. arXiv preprint arXiv:1611.02779, 2016. [27] Y. Ganin et al. Domain-adversarial training of neural networks. JMLR, 17(1):2096–2030, 2016. [28] Y. Li et al. Feature-critic networks for heterogeneous domain generalization. 2019. [29] T. Iwata and M. Yamada. Multi-view anomaly detection via robust probabilistic latent variable models. NeurIPS, 2016. [30] S. Ravi and H. Larochelle. Optimization as a model for few-shot learning. 2017. [31] M. D. Zeiler and R. Fergus. Visualizing and understanding convolutional networks. 2014. 松井 (名古屋大) 転移学習の基礎 まとめ 41 / 41