SlideShare a Scribd company logo
1 of 33
1
DEEP LEARNING JP
[DL Papers]
http://deeplearning.jp/
"Meta-Learning Probablistic Inference for Prediction"
副題: Amortized Variational Inferenceを用いたメタ学習手法の、統一的理解
Presentater: Kei Akuzawa, Matsuo Lab. M2
書誌情報
• タイトル: META-LEARNING PROBABILISTIC INFERENCE FOR PREDICTION
• 著者: Jonathan Gordon, John Bronskill, Matthias Bauer, Sebastian
Nowozin, Richard E. Turner
• ケンブリッジ大学が中心
• ICLR2019 under review (scores: 6, 7, 8)
• https://openreview.net/forum?id=HkxStoC5F7
• TL;DR: 多くのメタ学習手法を包括するフレームワークの紹介と,それ
を踏まえた新しいメタ学習手法の紹介
• (断りがない限り,本資料の図表は発表論文からの引用)
目次
• メタ学習とは?
• 論文の背景
• メタ学習の統一的なフレームワークML-PIP
• 関連研究
• 提案手法
• 実験
• まとめ
メタ学習とは?
• 複数あるメタ訓練データセットは,タ
スクやドメインが異なって良い.
• 一つのメタ訓練データセットは訓練/テ
ストデータセットに分割される。
• それぞれの訓練データセットは非常に
少ないサンプルサイズ(1~100くらい)
本当に予測を行いたいデータセット。
テスト時に得られる少数の訓練サンプル
からこのデータセットに適応したい
メタ学習の問題設定(Ravi and Larochelle 2017)
• 注1. タスク:出力データが従う確率空間, ドメイン:入力データが従う確率空間 [Pan and Yang 2010]
• 注2. データセットごとにタスクが違う設定の研究が多いので,それぞれのデータセットを「タスク」
と呼ぶこともある
メタ訓練データセット
メタテストデータセット
図引用 Ravi and Larchelle 2017
メタ学習とは?
• (http://ibisforest.org/index.php?メタ学習 より.2018/12/08)
• (おそらく[Vilalta and Drissi 2002]の翻訳)
ある決まったバイアス,すなわち仮説空間の中から,事例に応じて,
適切な仮説を獲得する普通の学習器をベース学習器という.その上位
で,学習対象のタスクやドメインに応じて,学習器のバイアスを決定
するためのメタ知識を獲得するのがメタ学習 (meta learning).
メタ学習とは?
• バイアス:
• 帰納バイアス(Inductive Bias)のこと.ざっくり言うとハイパラ
• e.g., どの分類器を使うか,DNNのモデル構造
• 二つの仮説空間𝐻𝐿 𝐴
, 𝐻𝐿 𝐵
が|𝐻𝐿 𝐴
| ≤ |𝐻𝐿 𝐵
|を満たすなら,|𝐻𝐿 𝐴
|の方がバイアスが
強い.なぜなら,「小さい仮説空間に真の仮説𝐹: 𝑋 → 𝑌が含まれている」と
モデルの設計者が決めつけているから.
ある決まったバイアス,すなわち仮説空間の中から,事例に応じて,
適切な仮説を獲得する普通の学習器をベース学習器という.その上位
で,学習対象のタスクやドメインに応じて,学習器のバイアスを決定
するためのメタ知識を獲得するのがメタ学習 (meta learning).
メタ学習とは?
• ベース学習器:
• ベース学習器:学習アルゴリズムそのものか,学習アルゴリズムによって出
力された仮説のことを言ってるのだと思う
• 学習アルゴリズム:訓練データ集合𝑇から仮説空間𝐻𝐿への写像𝐿のこと.
• ここまでのまとめ: 普通の(メタでない)学習アルゴリズム𝐿はそれ
に対応する仮説空間𝐻𝐿を持っている。学習アルゴリズムとそれに付
随する𝐻𝐿は普通設計者がヒュリスティックに決める
ある決まったバイアス,すなわち仮説空間の中から,事例に応じて,
適切な仮説を獲得する普通の学習器をベース学習器という.その上位
で,学習対象のタスクやドメインに応じて,学習器のバイアスを決定
するためのメタ知識を獲得するのがメタ学習 (meta learning).
メタ学習とは?
• 学習対象のタスクやドメインに応じて:
• タスク:出力データの確率空間,ドメイン:入力データの確率空間
• つまり,メタ学習では訓練データセットが複数個降ってきて,それぞ
れのデータセットごとに入力や出力の空間が異なる状況を想定
ある決まったバイアス,すなわち仮説空間の中から,事例に応じて,
適切な仮説を獲得する普通の学習器をベース学習器という.その上位
で,学習対象のタスクやドメインに応じて,学習器のバイアスを決定
するためのメタ知識を獲得するのがメタ学習 (meta learning).
メタ学習とは?
• 学習器のバイアスを決定するためのメタ知識:
• バイアスを選ぶ: ある訓練データセット𝐷 𝑚を入力としたときに,背後にある
真の関数𝐹 𝑚
: 𝑋 𝑚
→ 𝑌 𝑚
を効率的に(=少ないサンプルで)近似することができ
る仮説空間𝐻 𝐿 𝑚を選びたいということだと思う
ある決まったバイアス,すなわち仮説空間の中から,事例に応じて,
適切な仮説を獲得する普通の学習器をベース学習器という.その上位
で,学習対象のタスクやドメインに応じて,学習器のバイアスを決定
するためのメタ知識を獲得するのがメタ学習 (meta learning).
メタ学習とは?
• つまり,メタ学習では:
• 通常設計者がヒュリスティックスに決める仮説空間𝐻 𝐿 𝑚を
• 複数の(タスクやドメインが異なる)データセットを活用して
• データ・ドリブンに決める
ある決まったバイアス,すなわち仮説空間の中から,事例に応じて,
適切な仮説を獲得する普通の学習器をベース学習器という.その上位
で,学習対象のタスクやドメインに応じて,学習器のバイアスを決定
するためのメタ知識を獲得するのがメタ学習 (meta learning).
論文の背景と貢献
• メタ学習の問題点:
• 統一的なフレームワークがなく,様々ある既存手法の関係性の理解が難しい
• この研究の貢献
• 既存のメタ学習手法を統一するようなフレームワークの紹介.例えば以下の
手法が含まれる.
• MAML[Finn+ 2017]
• Prototypical Nets[Snell+2017]
• Conditional Neural Process[Garnelo+2018]
• 既存のメタ学習手法との比較に基づいて、新しいメタ学習手法の提案
• 利点1. Rapid: 新しいタスクに対する適応が早い(DNNのForward1回 )
• 利点2. Flexible: タスクごとに,クラス数や訓練サンプル数が異なっていても良い
ML-PIP
• Meta-Learning approximate Probabilistic Inference for Prediction(ML-PIP)
• 著者らが提案するメタ学習の統一的なフレームワーク
• 以降紹介する二つ要素を持つメタ学習手法はML-PIPに属する
1. グラフィカルモデルによる表現
2. 近似予測分布の作り方
グラフィカルモデルによる表現
t番目の訓練データセット t番目のテストデータセット
t番目のデータセット(タスク)
に対して固有のパラメータ
全てのデータセット(タスク)
で共有されるパラメータ(メタ知識)
ML-PIPでは,データ生成過程を以下のようにモデリングする
グラフィカルモデルによる表現
グラフィカルモデルを決めた-> 予測分布の形がわかる
(𝜃を無視すれば)
𝜓 𝑡
は普通の分類器
データドリブンに学習された
𝜃(メタ知識)が𝜓 𝑡
の空間を規定
 メタ知識による帰納バイアスっぽい
近似予測分布の作り方
• データ生成過程と,予測分布の形はわかった.
• 予測分布: 𝑃 𝑦 𝑡 𝑥 𝑡, 𝜃 = 𝑃 𝑦 𝑡 𝑥 𝑡, 𝜓 𝑡 , 𝜃 𝑃 𝜓 𝑡 𝑥 𝑡, 𝐷 𝑡 , 𝜃 d𝜓 𝑡
• ただし𝑃(𝜓 𝑡 | 𝑥 𝑡, 𝐷 𝑡 , 𝜃)の計算はコストが高い(または解析的に求め
られない)ので,近似分布を考えてあげる
近似予測分布の作り方
• 予測分布: 𝑃 𝑦 𝑡 𝑥 𝑡, 𝜃 = 𝑃 𝑦 𝑡 𝑥 𝑡, 𝜓 𝑡 , 𝜃 𝑃 𝜓 𝑡 𝑥 𝑡, 𝐷 𝑡 , 𝜃 d𝜓 𝑡
• 近似分布: 𝑞 𝜙 𝑦 𝑡 𝑥 𝑡, 𝜃 = 𝑃 𝑦 𝑡 𝑥 𝑡, 𝜓 𝑡 , 𝜃 𝑞 𝜙 𝜓 𝑡 𝐷 𝑡 , 𝜃 d𝜓 𝑡
• パラメータ𝜙を持つInference Networkを導入し 𝑃 𝜓 𝑡 𝑥 𝑡, 𝐷 𝑡 , 𝜃 の計算を回避
• 𝑞 𝜙 𝜓 𝑡 𝐷 𝑡 , 𝜃 はVAEのエンコーダーのようなもの
• 𝑞 𝜙 𝜓 𝑡
𝐷 𝑡
, 𝜃 は𝐷 𝑡
の条件付き分布=>Amotized Variational Inference(AVI)
• 𝐷 𝑡 で条件づけないとVariational Inference(VI)になる.
• VIでは𝜓 𝑡 の推定にBack-propが必要だが,AVIはForward一発で高速
• AVIとVIの違いはKim+2018等を参照
• Loss関数: 予測分布と近似分布のKLD最小化
関連研究
• 多くのメタ学習手法がML-PIPのフレームワークに属する
• ただし𝑃 𝑦 𝑡 𝑥 𝑡, 𝜓 𝑡 , 𝜃 , 𝑞 𝜙 𝜓 𝑡 𝐷 𝑡 , 𝜃 のモデリングが異なる
• Gradient-based
• Metric-based
• Amortized MAP inference (今日は話さない)
• Conditional models trained via maximum likelihood
Gradient-based Meta-Learning
• 𝑞 𝜙 𝜓 𝑡
𝐷 𝑡
, 𝜃 の設計:
• 該当する研究
• Semi Amortized VAE (Kim+ 2018)
• MAML (Finn+ 2017)
• LSTM-based meta-learning (Ravi and Larochelle+ 2017)
• 欠点
• 誤差逆伝播の計算量が大きい
• 𝑝 𝑦 𝑥, 𝜓, 𝜃 = 𝑝 𝑦 𝑥, 𝜓 のように予測分布を簡略化してしまうことが多い
図引用 Finn+2017
概要:
初期値𝜓0から,Gradient Descentで
タスク固有のパラメータ𝜓(𝑡)
を得る
Metric-based Few-shot learning
• 𝑞 𝜙 𝜓 𝑡 𝐷 𝑡 , 𝜃 の設計:
• 𝑃 𝑦 𝑡 𝑥 𝑡, 𝜓 𝑡 , 𝜃 の設計:
• 該当する研究
• Prototypical Nets [Snell+2017]
• 欠点:
• 𝑞 𝜙 𝜓 𝑡
𝐷 𝑡
, 𝜃 が決定論的
• 𝑝 𝑦 𝑡 𝑥 𝑡, 𝜓 𝑡 , 𝜃 が「セントロイドとの距離を測る」という単純な近似をしてしまっている
図引用 Snell+2017
概要:
訓練データをエンコーダーℎ 𝜃で特徴空間に移したした後に
クラスごとにセントロイドを作って,テストデータとセント
ロイドの距離を特徴空間で測ることによるfew-shot学習.
Conditional models trained via maximum likelihood
• 𝑞 𝜙 𝜓 𝑡 𝐷 𝑡 , 𝜃 の設計:
• 決定論的な𝑞 𝜙
• 𝑞 𝜙 𝜓 𝑡 𝐷 𝑡 , 𝜃 を分布として考えるのではなく,データセットを入力にとって
特徴量𝜓 𝑡 (上の図の𝑟)を出力する決定論的なモデルアーキテクチャが存在して
いる場合を指してるのだと思う
• 該当する研究:
• Conditional Neural Process [Garnelo+ 2018]
概要:
訓練データセットを入力として
して出てきた特徴量をテスト
データに対する予測に使う
図引用 Garnelo+ 2018
提案手法: Versatile
• 概要:
• 分類版と回帰版がある
• 𝑞 𝜙 𝜓 𝑡 𝐷 𝑡 , 𝜃 が確率的(ガウス分布)
• 任意の訓練データ数kを入力にとれる.また入力に対してpermutation-invariant
• 𝑞 𝜙 𝜓 𝑡
𝐷 𝑡
, 𝜃 がBack-propを必要とせず高速
• タスクごとにshotが異なって良い
• 分類版ではタスクごとにwayも異なっていて良い
• way: クラス数, shot: 訓練データ数
提案手法: Versatile 分類タスク
• グローバルパラメータ𝜃が各訓練データ点をエンコード(ℎ 𝜃(𝑥))
• クラスkの全サンプルのℎ 𝜃(𝑥𝑖
𝑘
)をプーリングし,重みwを得る
提案手法: Versatile 分類タスク
• グローバルパラメータ𝜃が,テストデータ点をエンコード(ℎ 𝜃( 𝑥))
• ℎ 𝜃( 𝑥)を入力に、前スライドで得た重みを使って線型分類
提案手法: Versatile 分類タスク
• この𝑞 𝜙 𝜓 𝑡
𝐷 𝑡
, 𝜃 は何をしているのか
• 𝑞 𝜙 𝜓 𝐷 𝑡 , 𝜃 = 𝑐=1
𝐶
𝑞 𝜙 𝜓𝑐 ℎ 𝜃 𝑥 𝑛
𝑐
𝑛=1
𝑘 𝑐
, 𝜃 のように,𝜓のクラスごとの独立
性を仮定している(クラスごとにPoolingをしてる点に注意)
• 結局この𝑞 𝜙のどこが良いのか
• クラス数がタスクごとに変わっても良い
• 𝜓のクラスごとの独立性の仮定は理論が背景にあり,よい帰納バイアスに
なっている(c.f. softmax, appendix B)
提案手法: Versatile 回帰タスク
• xは視点でyは画像を想定.設定はGQN[Eslami+ 2018]と似てる
• グローバルパラメータ𝜃はGenerator
• 訓練データセット 𝑥𝑖
𝑡
, 𝑦𝑖
𝑡
𝑖=1
𝑘
を入力に潜在変数𝜓(𝑡)が出てくるイメージ
• 注:Neural Process[Garnelo +2018]に対する優位性がわからないが,versatileの方がarxivに上がった日付は早
かったので考慮できていないのか?
実験
1. Toy data
2. Few-shot classification
1. overall results
2. versatility
3. comparision to standard and amortized VI(今日は話さない)
3. Shapenet view reconstruction
実験1. 𝑞 𝜙(𝜓|𝐷)が𝑝 (𝜓|𝐷) を近似できるかToy dataで確認
• 訓練時に近づけるのは予測分布と近似分布であって,𝑞 𝜙(𝜓|𝐷)と
𝑝 (𝜓|𝐷) を明示的に近づけたわけではないが,実際は近づく
=> アルゴリズムが期待通りに動いていることのサポート
• 観測点が増えるほど𝑞 𝜙(𝜓|𝐷)が真の分布を近似できている
• データセット:
• omniglot
• miniImageNet
• SOTA
• 注:近年few-shot界隈ではResNetを特徴
抽出に使うだけでSOTAな結果が得られ
ることが[Chen+2018]等で指摘されてい
るが,この論文ではそうした大きなモ
デルは比較対象にしていない.
実験2-1. Overall results
実験2-2. Versatility
• データセット: omniglot
• テスト時に(左)wayか(右)shotを変えてもそれなりに動く(versatility)
• way: クラス数, shot: 訓練データ数
• ショット数を5から10に増やしても精度があがらないのは気になる
• おそらく元から99%でサチってるので参考にならない
• (Prototypical Netsとかでも同じことできる気がするが……?)
実験3. Shapenet view reconstruction
• GQNと同様,視点から画像の生成を行うタスク
• ベースライン:CVAE
• 訓練データをサンプルサイズ1にして, 𝑧~𝑞 𝜙 𝑧 𝑥 と視点ラベルから生成を行なっている?
• 提案法はCVAEに比べて良い結果
まとめと感想
• まとめ
• 近年のメタ学習手法の多くが同じデータ生成過程と予測分布を持つ
• Amortization大事
• 𝑃 𝑦 𝑡 𝑥 𝑡, 𝜓 𝑡 , 𝜃 , 𝑞 𝜙 𝜓 𝑡 𝐷 𝑡 , 𝜃 の設計が重要
• 提案法はタスクごとにway,shotが異なっても良い.
• 発表者の感想
• MAMLが流行っている印象だったが,あの𝑞 𝜙 𝜓 𝑡 𝐷 𝑡 , 𝜃 のモデリングがベ
ストかはよく考えなければいけないなという気持ちになった
• GQN[Eslami+2018]との関係は不明瞭(ML-PIPにはGQNにおけるposteriorが存在
しない)だが,GQNやNeural processもfew-shot(メタ)学習として解釈できる
• GQNのように「実はメタ(few-shot)学習で記述できる重要な問題」が眠っ
ているのではないか、アンテナを張ると良さそう
参考文献
• Vilalta, Y. Drissi, A perspective view and survey of meta-learning, Artificial
Intelligence Review, 18 (2) (2002), pp. 77-95
• Pan, S. J. and Yang, Q.: A Survey on Transfer Learning, IEEE Trans. on Knowl.
and Data Eng., Vol. 22, No. 10, pp. 1345-1359 (2010)
• S. Ravi and H. Larochelle. Optimization as a model for few-shot learning.
ICLR2017.
• C. Finn, P. Abbeel, and S. Levine. Model-agnostic meta-learning for fast
adaptation of deep networks. ICML2017.
• M. Garnelo, D. Rosenbaum, C. J. Maddison, T. Ramalho, D. Saxton, M.
Shanahan, Y. W. Teh, D. J. Rezende, and S. Eslami. Conditional neural
processes. ICML2018
• Y. Kim, S. Wiseman, A. C. Miller, D. Sontag, and A. M. Rush. Semi-amortized
variational autoencoders. In Proceedings of the 35th International
Conference on Machine Learning, 2018b.
• J. Snell, K. Swersky, and R. Zemel. Prototypical networks for few-shot
learning. In Advances in Neural Information Processing Systems, pages
4080–4090, 2017.
• Eslami, S. A., Rezende, D. J., Besse, F., Viola, F., Morcos, A. S., Garnelo, M.,
Ruderman, A., Rusu, A. A., Dani- helka, I., Gregor, K., et al. Neural scene
representation and rendering. Science, 360(6394):1204–1210, 2018.
• M. Garnelo, J. Schwarz, D. Rosenbaum, F. Viola, D. J. Rezende, S. Eslami, and
Y. W. Teh. Neural processes. ICML2018 workshop on Theoretical Foundations
and Applications of Deep Generative Models.
• Zitian Chen, Yanwei Fu, Yinda Zhang, Leonid Sigal, Multi-level Semantic
Feature Augmentation for One-shot Learning, arxiv 2018,
https://arxiv.org/abs/1804.05298

More Related Content

What's hot

[DL輪読会]Revisiting Deep Learning Models for Tabular Data (NeurIPS 2021) 表形式デー...
[DL輪読会]Revisiting Deep Learning Models for Tabular Data  (NeurIPS 2021) 表形式デー...[DL輪読会]Revisiting Deep Learning Models for Tabular Data  (NeurIPS 2021) 表形式デー...
[DL輪読会]Revisiting Deep Learning Models for Tabular Data (NeurIPS 2021) 表形式デー...Deep Learning JP
 
画像生成・生成モデル メタサーベイ
画像生成・生成モデル メタサーベイ画像生成・生成モデル メタサーベイ
画像生成・生成モデル メタサーベイcvpaper. challenge
 
[DL輪読会]Pay Attention to MLPs (gMLP)
[DL輪読会]Pay Attention to MLPs	(gMLP)[DL輪読会]Pay Attention to MLPs	(gMLP)
[DL輪読会]Pay Attention to MLPs (gMLP)Deep Learning JP
 
深層学習の数理
深層学習の数理深層学習の数理
深層学習の数理Taiji Suzuki
 
Humpback whale identification challenge反省会
Humpback whale identification challenge反省会Humpback whale identification challenge反省会
Humpback whale identification challenge反省会Yusuke Uchida
 
モデル高速化百選
モデル高速化百選モデル高速化百選
モデル高速化百選Yusuke Uchida
 
変分推論と Normalizing Flow
変分推論と Normalizing Flow変分推論と Normalizing Flow
変分推論と Normalizing FlowAkihiro Nitta
 
[DL輪読会]Vision Transformer with Deformable Attention (Deformable Attention Tra...
[DL輪読会]Vision Transformer with Deformable Attention (Deformable Attention Tra...[DL輪読会]Vision Transformer with Deformable Attention (Deformable Attention Tra...
[DL輪読会]Vision Transformer with Deformable Attention (Deformable Attention Tra...Deep Learning JP
 
ドメイン適応の原理と応用
ドメイン適応の原理と応用ドメイン適応の原理と応用
ドメイン適応の原理と応用Yoshitaka Ushiku
 
[DL輪読会]Focal Loss for Dense Object Detection
[DL輪読会]Focal Loss for Dense Object Detection[DL輪読会]Focal Loss for Dense Object Detection
[DL輪読会]Focal Loss for Dense Object DetectionDeep Learning JP
 
【メタサーベイ】基盤モデル / Foundation Models
【メタサーベイ】基盤モデル / Foundation Models【メタサーベイ】基盤モデル / Foundation Models
【メタサーベイ】基盤モデル / Foundation Modelscvpaper. challenge
 
Layer Normalization@NIPS+読み会・関西
Layer Normalization@NIPS+読み会・関西Layer Normalization@NIPS+読み会・関西
Layer Normalization@NIPS+読み会・関西Keigo Nishida
 
深層生成モデルを用いたマルチモーダル学習
深層生成モデルを用いたマルチモーダル学習深層生成モデルを用いたマルチモーダル学習
深層生成モデルを用いたマルチモーダル学習Masahiro Suzuki
 
[DL輪読会]1次近似系MAMLとその理論的背景
[DL輪読会]1次近似系MAMLとその理論的背景[DL輪読会]1次近似系MAMLとその理論的背景
[DL輪読会]1次近似系MAMLとその理論的背景Deep Learning JP
 
「世界モデル」と関連研究について
「世界モデル」と関連研究について「世界モデル」と関連研究について
「世界モデル」と関連研究についてMasahiro Suzuki
 
【DL輪読会】時系列予測 Transfomers の精度向上手法
【DL輪読会】時系列予測 Transfomers の精度向上手法【DL輪読会】時系列予測 Transfomers の精度向上手法
【DL輪読会】時系列予測 Transfomers の精度向上手法Deep Learning JP
 
PRML学習者から入る深層生成モデル入門
PRML学習者から入る深層生成モデル入門PRML学習者から入る深層生成モデル入門
PRML学習者から入る深層生成モデル入門tmtm otm
 
[DL輪読会]BERT: Pre-training of Deep Bidirectional Transformers for Language Und...
[DL輪読会]BERT: Pre-training of Deep Bidirectional Transformers for Language Und...[DL輪読会]BERT: Pre-training of Deep Bidirectional Transformers for Language Und...
[DL輪読会]BERT: Pre-training of Deep Bidirectional Transformers for Language Und...Deep Learning JP
 

What's hot (20)

[DL輪読会]Revisiting Deep Learning Models for Tabular Data (NeurIPS 2021) 表形式デー...
[DL輪読会]Revisiting Deep Learning Models for Tabular Data  (NeurIPS 2021) 表形式デー...[DL輪読会]Revisiting Deep Learning Models for Tabular Data  (NeurIPS 2021) 表形式デー...
[DL輪読会]Revisiting Deep Learning Models for Tabular Data (NeurIPS 2021) 表形式デー...
 
画像生成・生成モデル メタサーベイ
画像生成・生成モデル メタサーベイ画像生成・生成モデル メタサーベイ
画像生成・生成モデル メタサーベイ
 
[DL輪読会]Pay Attention to MLPs (gMLP)
[DL輪読会]Pay Attention to MLPs	(gMLP)[DL輪読会]Pay Attention to MLPs	(gMLP)
[DL輪読会]Pay Attention to MLPs (gMLP)
 
深層学習の数理
深層学習の数理深層学習の数理
深層学習の数理
 
Humpback whale identification challenge反省会
Humpback whale identification challenge反省会Humpback whale identification challenge反省会
Humpback whale identification challenge反省会
 
モデル高速化百選
モデル高速化百選モデル高速化百選
モデル高速化百選
 
変分推論と Normalizing Flow
変分推論と Normalizing Flow変分推論と Normalizing Flow
変分推論と Normalizing Flow
 
[DL輪読会]Vision Transformer with Deformable Attention (Deformable Attention Tra...
[DL輪読会]Vision Transformer with Deformable Attention (Deformable Attention Tra...[DL輪読会]Vision Transformer with Deformable Attention (Deformable Attention Tra...
[DL輪読会]Vision Transformer with Deformable Attention (Deformable Attention Tra...
 
ドメイン適応の原理と応用
ドメイン適応の原理と応用ドメイン適応の原理と応用
ドメイン適応の原理と応用
 
[DL輪読会]Focal Loss for Dense Object Detection
[DL輪読会]Focal Loss for Dense Object Detection[DL輪読会]Focal Loss for Dense Object Detection
[DL輪読会]Focal Loss for Dense Object Detection
 
【メタサーベイ】基盤モデル / Foundation Models
【メタサーベイ】基盤モデル / Foundation Models【メタサーベイ】基盤モデル / Foundation Models
【メタサーベイ】基盤モデル / Foundation Models
 
Layer Normalization@NIPS+読み会・関西
Layer Normalization@NIPS+読み会・関西Layer Normalization@NIPS+読み会・関西
Layer Normalization@NIPS+読み会・関西
 
BlackBox モデルの説明性・解釈性技術の実装
BlackBox モデルの説明性・解釈性技術の実装BlackBox モデルの説明性・解釈性技術の実装
BlackBox モデルの説明性・解釈性技術の実装
 
深層生成モデルを用いたマルチモーダル学習
深層生成モデルを用いたマルチモーダル学習深層生成モデルを用いたマルチモーダル学習
深層生成モデルを用いたマルチモーダル学習
 
[DL輪読会]1次近似系MAMLとその理論的背景
[DL輪読会]1次近似系MAMLとその理論的背景[DL輪読会]1次近似系MAMLとその理論的背景
[DL輪読会]1次近似系MAMLとその理論的背景
 
「世界モデル」と関連研究について
「世界モデル」と関連研究について「世界モデル」と関連研究について
「世界モデル」と関連研究について
 
【DL輪読会】時系列予測 Transfomers の精度向上手法
【DL輪読会】時系列予測 Transfomers の精度向上手法【DL輪読会】時系列予測 Transfomers の精度向上手法
【DL輪読会】時系列予測 Transfomers の精度向上手法
 
ELBO型VAEのダメなところ
ELBO型VAEのダメなところELBO型VAEのダメなところ
ELBO型VAEのダメなところ
 
PRML学習者から入る深層生成モデル入門
PRML学習者から入る深層生成モデル入門PRML学習者から入る深層生成モデル入門
PRML学習者から入る深層生成モデル入門
 
[DL輪読会]BERT: Pre-training of Deep Bidirectional Transformers for Language Und...
[DL輪読会]BERT: Pre-training of Deep Bidirectional Transformers for Language Und...[DL輪読会]BERT: Pre-training of Deep Bidirectional Transformers for Language Und...
[DL輪読会]BERT: Pre-training of Deep Bidirectional Transformers for Language Und...
 

Similar to [DL輪読会]Meta-Learning Probabilistic Inference for Prediction

Variational Template Machine for Data-to-Text Generation
Variational Template Machine for Data-to-Text GenerationVariational Template Machine for Data-to-Text Generation
Variational Template Machine for Data-to-Text Generationharmonylab
 
東大大学院 電子情報学特論講義資料「深層学習概論と理論解析の課題」大野健太
東大大学院 電子情報学特論講義資料「深層学習概論と理論解析の課題」大野健太東大大学院 電子情報学特論講義資料「深層学習概論と理論解析の課題」大野健太
東大大学院 電子情報学特論講義資料「深層学習概論と理論解析の課題」大野健太Preferred Networks
 
【招待講演】パラメータ制約付き行列分解のベイズ汎化誤差解析【StatsML若手シンポ2020】
【招待講演】パラメータ制約付き行列分解のベイズ汎化誤差解析【StatsML若手シンポ2020】【招待講演】パラメータ制約付き行列分解のベイズ汎化誤差解析【StatsML若手シンポ2020】
【招待講演】パラメータ制約付き行列分解のベイズ汎化誤差解析【StatsML若手シンポ2020】Naoki Hayashi
 
Statistical machine learning forecasting methods concerns and ways forward
Statistical machine learning forecasting methods concerns and ways forwardStatistical machine learning forecasting methods concerns and ways forward
Statistical machine learning forecasting methods concerns and ways forwardharmonylab
 
Tree-to-Sequence Attentional Neural Machine Translation (ACL 2016)
Tree-to-Sequence Attentional Neural Machine Translation (ACL 2016)Tree-to-Sequence Attentional Neural Machine Translation (ACL 2016)
Tree-to-Sequence Attentional Neural Machine Translation (ACL 2016)Toru Fujino
 
「解説資料」ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
「解説資料」ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation 「解説資料」ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
「解説資料」ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation Takumi Ohkuma
 
【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose EstimationDeep Learning JP
 
Feature engineering for predictive modeling using reinforcement learning
Feature engineering for predictive modeling using reinforcement learningFeature engineering for predictive modeling using reinforcement learning
Feature engineering for predictive modeling using reinforcement learningharmonylab
 
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence ModelingDeep Learning JP
 
Deep learning勉強会20121214ochi
Deep learning勉強会20121214ochiDeep learning勉強会20121214ochi
Deep learning勉強会20121214ochiOhsawa Goodfellow
 
Jubatusにおける大規模分散オンライン機械学習
Jubatusにおける大規模分散オンライン機械学習Jubatusにおける大規模分散オンライン機械学習
Jubatusにおける大規模分散オンライン機械学習Preferred Networks
 
深層生成モデルと世界モデル(2020/11/20版)
深層生成モデルと世界モデル(2020/11/20版)深層生成モデルと世界モデル(2020/11/20版)
深層生成モデルと世界モデル(2020/11/20版)Masahiro Suzuki
 
深層生成モデルと世界モデル, 深層生成モデルライブラリPixyzについて
深層生成モデルと世界モデル,深層生成モデルライブラリPixyzについて深層生成モデルと世界モデル,深層生成モデルライブラリPixyzについて
深層生成モデルと世界モデル, 深層生成モデルライブラリPixyzについてMasahiro Suzuki
 
ディープラーニング最近の発展とビジネス応用への課題
ディープラーニング最近の発展とビジネス応用への課題ディープラーニング最近の発展とビジネス応用への課題
ディープラーニング最近の発展とビジネス応用への課題Kenta Oono
 
第3回nips読み会・関西『variational inference foundations and modern methods』
第3回nips読み会・関西『variational inference  foundations and modern methods』第3回nips読み会・関西『variational inference  foundations and modern methods』
第3回nips読み会・関西『variational inference foundations and modern methods』koji ochiai
 
Rainbow: Combining Improvements in Deep Reinforcement Learning (AAAI2018 unde...
Rainbow: Combining Improvements in Deep Reinforcement Learning (AAAI2018 unde...Rainbow: Combining Improvements in Deep Reinforcement Learning (AAAI2018 unde...
Rainbow: Combining Improvements in Deep Reinforcement Learning (AAAI2018 unde...Toru Fujino
 
Non-autoregressive text generation
Non-autoregressive text generationNon-autoregressive text generation
Non-autoregressive text generationnlab_utokyo
 

Similar to [DL輪読会]Meta-Learning Probabilistic Inference for Prediction (20)

Variational Template Machine for Data-to-Text Generation
Variational Template Machine for Data-to-Text GenerationVariational Template Machine for Data-to-Text Generation
Variational Template Machine for Data-to-Text Generation
 
東大大学院 電子情報学特論講義資料「深層学習概論と理論解析の課題」大野健太
東大大学院 電子情報学特論講義資料「深層学習概論と理論解析の課題」大野健太東大大学院 電子情報学特論講義資料「深層学習概論と理論解析の課題」大野健太
東大大学院 電子情報学特論講義資料「深層学習概論と理論解析の課題」大野健太
 
NeurIPS2019参加報告
NeurIPS2019参加報告NeurIPS2019参加報告
NeurIPS2019参加報告
 
【招待講演】パラメータ制約付き行列分解のベイズ汎化誤差解析【StatsML若手シンポ2020】
【招待講演】パラメータ制約付き行列分解のベイズ汎化誤差解析【StatsML若手シンポ2020】【招待講演】パラメータ制約付き行列分解のベイズ汎化誤差解析【StatsML若手シンポ2020】
【招待講演】パラメータ制約付き行列分解のベイズ汎化誤差解析【StatsML若手シンポ2020】
 
Statistical machine learning forecasting methods concerns and ways forward
Statistical machine learning forecasting methods concerns and ways forwardStatistical machine learning forecasting methods concerns and ways forward
Statistical machine learning forecasting methods concerns and ways forward
 
Tree-to-Sequence Attentional Neural Machine Translation (ACL 2016)
Tree-to-Sequence Attentional Neural Machine Translation (ACL 2016)Tree-to-Sequence Attentional Neural Machine Translation (ACL 2016)
Tree-to-Sequence Attentional Neural Machine Translation (ACL 2016)
 
「解説資料」ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
「解説資料」ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation 「解説資料」ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
「解説資料」ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
 
【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
 
Feature engineering for predictive modeling using reinforcement learning
Feature engineering for predictive modeling using reinforcement learningFeature engineering for predictive modeling using reinforcement learning
Feature engineering for predictive modeling using reinforcement learning
 
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling
 
Deep learning勉強会20121214ochi
Deep learning勉強会20121214ochiDeep learning勉強会20121214ochi
Deep learning勉強会20121214ochi
 
Jubatusにおける大規模分散オンライン機械学習
Jubatusにおける大規模分散オンライン機械学習Jubatusにおける大規模分散オンライン機械学習
Jubatusにおける大規模分散オンライン機械学習
 
深層生成モデルと世界モデル(2020/11/20版)
深層生成モデルと世界モデル(2020/11/20版)深層生成モデルと世界モデル(2020/11/20版)
深層生成モデルと世界モデル(2020/11/20版)
 
深層生成モデルと世界モデル, 深層生成モデルライブラリPixyzについて
深層生成モデルと世界モデル,深層生成モデルライブラリPixyzについて深層生成モデルと世界モデル,深層生成モデルライブラリPixyzについて
深層生成モデルと世界モデル, 深層生成モデルライブラリPixyzについて
 
ディープラーニング最近の発展とビジネス応用への課題
ディープラーニング最近の発展とビジネス応用への課題ディープラーニング最近の発展とビジネス応用への課題
ディープラーニング最近の発展とビジネス応用への課題
 
第3回nips読み会・関西『variational inference foundations and modern methods』
第3回nips読み会・関西『variational inference  foundations and modern methods』第3回nips読み会・関西『variational inference  foundations and modern methods』
第3回nips読み会・関西『variational inference foundations and modern methods』
 
Rainbow: Combining Improvements in Deep Reinforcement Learning (AAAI2018 unde...
Rainbow: Combining Improvements in Deep Reinforcement Learning (AAAI2018 unde...Rainbow: Combining Improvements in Deep Reinforcement Learning (AAAI2018 unde...
Rainbow: Combining Improvements in Deep Reinforcement Learning (AAAI2018 unde...
 
DeepCas
DeepCasDeepCas
DeepCas
 
Non-autoregressive text generation
Non-autoregressive text generationNon-autoregressive text generation
Non-autoregressive text generation
 
Overview and Roadmap
Overview and RoadmapOverview and Roadmap
Overview and Roadmap
 

More from Deep Learning JP

【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving PlannersDeep Learning JP
 
【DL輪読会】事前学習用データセットについて
【DL輪読会】事前学習用データセットについて【DL輪読会】事前学習用データセットについて
【DL輪読会】事前学習用データセットについてDeep Learning JP
 
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...Deep Learning JP
 
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】Zero-Shot Dual-Lens Super-ResolutionDeep Learning JP
 
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxivDeep Learning JP
 
【DL輪読会】マルチモーダル LLM
【DL輪読会】マルチモーダル LLM【DL輪読会】マルチモーダル LLM
【DL輪読会】マルチモーダル LLMDeep Learning JP
 
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
 【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo... 【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...Deep Learning JP
 
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】AnyLoc: Towards Universal Visual Place RecognitionDeep Learning JP
 
【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?Deep Learning JP
 
【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究について【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究についてDeep Learning JP
 
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )Deep Learning JP
 
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...Deep Learning JP
 
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"Deep Learning JP
 
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
【DL輪読会】"Language Instructed Reinforcement Learning  for Human-AI Coordination "【DL輪読会】"Language Instructed Reinforcement Learning  for Human-AI Coordination "
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "Deep Learning JP
 
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat ModelsDeep Learning JP
 
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"Deep Learning JP
 
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...Deep Learning JP
 
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...Deep Learning JP
 
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...Deep Learning JP
 
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...Deep Learning JP
 

More from Deep Learning JP (20)

【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
 
【DL輪読会】事前学習用データセットについて
【DL輪読会】事前学習用データセットについて【DL輪読会】事前学習用データセットについて
【DL輪読会】事前学習用データセットについて
 
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
 
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
 
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
 
【DL輪読会】マルチモーダル LLM
【DL輪読会】マルチモーダル LLM【DL輪読会】マルチモーダル LLM
【DL輪読会】マルチモーダル LLM
 
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
 【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo... 【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
 
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
 
【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?
 
【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究について【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究について
 
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
 
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
 
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
 
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
【DL輪読会】"Language Instructed Reinforcement Learning  for Human-AI Coordination "【DL輪読会】"Language Instructed Reinforcement Learning  for Human-AI Coordination "
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
 
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
 
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
 
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
 
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
 
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
 
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
 

Recently uploaded

Postman LT Fukuoka_Quick Prototype_By Daniel
Postman LT Fukuoka_Quick Prototype_By DanielPostman LT Fukuoka_Quick Prototype_By Daniel
Postman LT Fukuoka_Quick Prototype_By Danieldanielhu54
 
スマートフォンを用いた新生児あやし動作の教示システム
スマートフォンを用いた新生児あやし動作の教示システムスマートフォンを用いた新生児あやし動作の教示システム
スマートフォンを用いた新生児あやし動作の教示システムsugiuralab
 
新人研修のまとめ 2024/04/12の勉強会で発表されたものです。
新人研修のまとめ       2024/04/12の勉強会で発表されたものです。新人研修のまとめ       2024/04/12の勉強会で発表されたものです。
新人研修のまとめ 2024/04/12の勉強会で発表されたものです。iPride Co., Ltd.
 
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略Ryo Sasaki
 
20240412_HCCJP での Windows Server 2025 Active Directory
20240412_HCCJP での Windows Server 2025 Active Directory20240412_HCCJP での Windows Server 2025 Active Directory
20240412_HCCJP での Windows Server 2025 Active Directoryosamut
 
Amazon SES を勉強してみる その12024/04/12の勉強会で発表されたものです。
Amazon SES を勉強してみる その12024/04/12の勉強会で発表されたものです。Amazon SES を勉強してみる その12024/04/12の勉強会で発表されたものです。
Amazon SES を勉強してみる その12024/04/12の勉強会で発表されたものです。iPride Co., Ltd.
 
UPWARD_share_company_information_20240415.pdf
UPWARD_share_company_information_20240415.pdfUPWARD_share_company_information_20240415.pdf
UPWARD_share_company_information_20240415.pdffurutsuka
 
IoT in the era of generative AI, Thanks IoT ALGYAN.pptx
IoT in the era of generative AI, Thanks IoT ALGYAN.pptxIoT in the era of generative AI, Thanks IoT ALGYAN.pptx
IoT in the era of generative AI, Thanks IoT ALGYAN.pptxAtomu Hidaka
 
PHP-Conference-Odawara-2024-04-000000000
PHP-Conference-Odawara-2024-04-000000000PHP-Conference-Odawara-2024-04-000000000
PHP-Conference-Odawara-2024-04-000000000Shota Ito
 

Recently uploaded (9)

Postman LT Fukuoka_Quick Prototype_By Daniel
Postman LT Fukuoka_Quick Prototype_By DanielPostman LT Fukuoka_Quick Prototype_By Daniel
Postman LT Fukuoka_Quick Prototype_By Daniel
 
スマートフォンを用いた新生児あやし動作の教示システム
スマートフォンを用いた新生児あやし動作の教示システムスマートフォンを用いた新生児あやし動作の教示システム
スマートフォンを用いた新生児あやし動作の教示システム
 
新人研修のまとめ 2024/04/12の勉強会で発表されたものです。
新人研修のまとめ       2024/04/12の勉強会で発表されたものです。新人研修のまとめ       2024/04/12の勉強会で発表されたものです。
新人研修のまとめ 2024/04/12の勉強会で発表されたものです。
 
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
 
20240412_HCCJP での Windows Server 2025 Active Directory
20240412_HCCJP での Windows Server 2025 Active Directory20240412_HCCJP での Windows Server 2025 Active Directory
20240412_HCCJP での Windows Server 2025 Active Directory
 
Amazon SES を勉強してみる その12024/04/12の勉強会で発表されたものです。
Amazon SES を勉強してみる その12024/04/12の勉強会で発表されたものです。Amazon SES を勉強してみる その12024/04/12の勉強会で発表されたものです。
Amazon SES を勉強してみる その12024/04/12の勉強会で発表されたものです。
 
UPWARD_share_company_information_20240415.pdf
UPWARD_share_company_information_20240415.pdfUPWARD_share_company_information_20240415.pdf
UPWARD_share_company_information_20240415.pdf
 
IoT in the era of generative AI, Thanks IoT ALGYAN.pptx
IoT in the era of generative AI, Thanks IoT ALGYAN.pptxIoT in the era of generative AI, Thanks IoT ALGYAN.pptx
IoT in the era of generative AI, Thanks IoT ALGYAN.pptx
 
PHP-Conference-Odawara-2024-04-000000000
PHP-Conference-Odawara-2024-04-000000000PHP-Conference-Odawara-2024-04-000000000
PHP-Conference-Odawara-2024-04-000000000
 

[DL輪読会]Meta-Learning Probabilistic Inference for Prediction

  • 1. 1 DEEP LEARNING JP [DL Papers] http://deeplearning.jp/ "Meta-Learning Probablistic Inference for Prediction" 副題: Amortized Variational Inferenceを用いたメタ学習手法の、統一的理解 Presentater: Kei Akuzawa, Matsuo Lab. M2
  • 2. 書誌情報 • タイトル: META-LEARNING PROBABILISTIC INFERENCE FOR PREDICTION • 著者: Jonathan Gordon, John Bronskill, Matthias Bauer, Sebastian Nowozin, Richard E. Turner • ケンブリッジ大学が中心 • ICLR2019 under review (scores: 6, 7, 8) • https://openreview.net/forum?id=HkxStoC5F7 • TL;DR: 多くのメタ学習手法を包括するフレームワークの紹介と,それ を踏まえた新しいメタ学習手法の紹介 • (断りがない限り,本資料の図表は発表論文からの引用)
  • 3. 目次 • メタ学習とは? • 論文の背景 • メタ学習の統一的なフレームワークML-PIP • 関連研究 • 提案手法 • 実験 • まとめ
  • 4. メタ学習とは? • 複数あるメタ訓練データセットは,タ スクやドメインが異なって良い. • 一つのメタ訓練データセットは訓練/テ ストデータセットに分割される。 • それぞれの訓練データセットは非常に 少ないサンプルサイズ(1~100くらい) 本当に予測を行いたいデータセット。 テスト時に得られる少数の訓練サンプル からこのデータセットに適応したい メタ学習の問題設定(Ravi and Larochelle 2017) • 注1. タスク:出力データが従う確率空間, ドメイン:入力データが従う確率空間 [Pan and Yang 2010] • 注2. データセットごとにタスクが違う設定の研究が多いので,それぞれのデータセットを「タスク」 と呼ぶこともある メタ訓練データセット メタテストデータセット 図引用 Ravi and Larchelle 2017
  • 5. メタ学習とは? • (http://ibisforest.org/index.php?メタ学習 より.2018/12/08) • (おそらく[Vilalta and Drissi 2002]の翻訳) ある決まったバイアス,すなわち仮説空間の中から,事例に応じて, 適切な仮説を獲得する普通の学習器をベース学習器という.その上位 で,学習対象のタスクやドメインに応じて,学習器のバイアスを決定 するためのメタ知識を獲得するのがメタ学習 (meta learning).
  • 6. メタ学習とは? • バイアス: • 帰納バイアス(Inductive Bias)のこと.ざっくり言うとハイパラ • e.g., どの分類器を使うか,DNNのモデル構造 • 二つの仮説空間𝐻𝐿 𝐴 , 𝐻𝐿 𝐵 が|𝐻𝐿 𝐴 | ≤ |𝐻𝐿 𝐵 |を満たすなら,|𝐻𝐿 𝐴 |の方がバイアスが 強い.なぜなら,「小さい仮説空間に真の仮説𝐹: 𝑋 → 𝑌が含まれている」と モデルの設計者が決めつけているから. ある決まったバイアス,すなわち仮説空間の中から,事例に応じて, 適切な仮説を獲得する普通の学習器をベース学習器という.その上位 で,学習対象のタスクやドメインに応じて,学習器のバイアスを決定 するためのメタ知識を獲得するのがメタ学習 (meta learning).
  • 7. メタ学習とは? • ベース学習器: • ベース学習器:学習アルゴリズムそのものか,学習アルゴリズムによって出 力された仮説のことを言ってるのだと思う • 学習アルゴリズム:訓練データ集合𝑇から仮説空間𝐻𝐿への写像𝐿のこと. • ここまでのまとめ: 普通の(メタでない)学習アルゴリズム𝐿はそれ に対応する仮説空間𝐻𝐿を持っている。学習アルゴリズムとそれに付 随する𝐻𝐿は普通設計者がヒュリスティックに決める ある決まったバイアス,すなわち仮説空間の中から,事例に応じて, 適切な仮説を獲得する普通の学習器をベース学習器という.その上位 で,学習対象のタスクやドメインに応じて,学習器のバイアスを決定 するためのメタ知識を獲得するのがメタ学習 (meta learning).
  • 8. メタ学習とは? • 学習対象のタスクやドメインに応じて: • タスク:出力データの確率空間,ドメイン:入力データの確率空間 • つまり,メタ学習では訓練データセットが複数個降ってきて,それぞ れのデータセットごとに入力や出力の空間が異なる状況を想定 ある決まったバイアス,すなわち仮説空間の中から,事例に応じて, 適切な仮説を獲得する普通の学習器をベース学習器という.その上位 で,学習対象のタスクやドメインに応じて,学習器のバイアスを決定 するためのメタ知識を獲得するのがメタ学習 (meta learning).
  • 9. メタ学習とは? • 学習器のバイアスを決定するためのメタ知識: • バイアスを選ぶ: ある訓練データセット𝐷 𝑚を入力としたときに,背後にある 真の関数𝐹 𝑚 : 𝑋 𝑚 → 𝑌 𝑚 を効率的に(=少ないサンプルで)近似することができ る仮説空間𝐻 𝐿 𝑚を選びたいということだと思う ある決まったバイアス,すなわち仮説空間の中から,事例に応じて, 適切な仮説を獲得する普通の学習器をベース学習器という.その上位 で,学習対象のタスクやドメインに応じて,学習器のバイアスを決定 するためのメタ知識を獲得するのがメタ学習 (meta learning).
  • 10. メタ学習とは? • つまり,メタ学習では: • 通常設計者がヒュリスティックスに決める仮説空間𝐻 𝐿 𝑚を • 複数の(タスクやドメインが異なる)データセットを活用して • データ・ドリブンに決める ある決まったバイアス,すなわち仮説空間の中から,事例に応じて, 適切な仮説を獲得する普通の学習器をベース学習器という.その上位 で,学習対象のタスクやドメインに応じて,学習器のバイアスを決定 するためのメタ知識を獲得するのがメタ学習 (meta learning).
  • 11. 論文の背景と貢献 • メタ学習の問題点: • 統一的なフレームワークがなく,様々ある既存手法の関係性の理解が難しい • この研究の貢献 • 既存のメタ学習手法を統一するようなフレームワークの紹介.例えば以下の 手法が含まれる. • MAML[Finn+ 2017] • Prototypical Nets[Snell+2017] • Conditional Neural Process[Garnelo+2018] • 既存のメタ学習手法との比較に基づいて、新しいメタ学習手法の提案 • 利点1. Rapid: 新しいタスクに対する適応が早い(DNNのForward1回 ) • 利点2. Flexible: タスクごとに,クラス数や訓練サンプル数が異なっていても良い
  • 12. ML-PIP • Meta-Learning approximate Probabilistic Inference for Prediction(ML-PIP) • 著者らが提案するメタ学習の統一的なフレームワーク • 以降紹介する二つ要素を持つメタ学習手法はML-PIPに属する 1. グラフィカルモデルによる表現 2. 近似予測分布の作り方
  • 15. 近似予測分布の作り方 • データ生成過程と,予測分布の形はわかった. • 予測分布: 𝑃 𝑦 𝑡 𝑥 𝑡, 𝜃 = 𝑃 𝑦 𝑡 𝑥 𝑡, 𝜓 𝑡 , 𝜃 𝑃 𝜓 𝑡 𝑥 𝑡, 𝐷 𝑡 , 𝜃 d𝜓 𝑡 • ただし𝑃(𝜓 𝑡 | 𝑥 𝑡, 𝐷 𝑡 , 𝜃)の計算はコストが高い(または解析的に求め られない)ので,近似分布を考えてあげる
  • 16. 近似予測分布の作り方 • 予測分布: 𝑃 𝑦 𝑡 𝑥 𝑡, 𝜃 = 𝑃 𝑦 𝑡 𝑥 𝑡, 𝜓 𝑡 , 𝜃 𝑃 𝜓 𝑡 𝑥 𝑡, 𝐷 𝑡 , 𝜃 d𝜓 𝑡 • 近似分布: 𝑞 𝜙 𝑦 𝑡 𝑥 𝑡, 𝜃 = 𝑃 𝑦 𝑡 𝑥 𝑡, 𝜓 𝑡 , 𝜃 𝑞 𝜙 𝜓 𝑡 𝐷 𝑡 , 𝜃 d𝜓 𝑡 • パラメータ𝜙を持つInference Networkを導入し 𝑃 𝜓 𝑡 𝑥 𝑡, 𝐷 𝑡 , 𝜃 の計算を回避 • 𝑞 𝜙 𝜓 𝑡 𝐷 𝑡 , 𝜃 はVAEのエンコーダーのようなもの • 𝑞 𝜙 𝜓 𝑡 𝐷 𝑡 , 𝜃 は𝐷 𝑡 の条件付き分布=>Amotized Variational Inference(AVI) • 𝐷 𝑡 で条件づけないとVariational Inference(VI)になる. • VIでは𝜓 𝑡 の推定にBack-propが必要だが,AVIはForward一発で高速 • AVIとVIの違いはKim+2018等を参照 • Loss関数: 予測分布と近似分布のKLD最小化
  • 17. 関連研究 • 多くのメタ学習手法がML-PIPのフレームワークに属する • ただし𝑃 𝑦 𝑡 𝑥 𝑡, 𝜓 𝑡 , 𝜃 , 𝑞 𝜙 𝜓 𝑡 𝐷 𝑡 , 𝜃 のモデリングが異なる • Gradient-based • Metric-based • Amortized MAP inference (今日は話さない) • Conditional models trained via maximum likelihood
  • 18. Gradient-based Meta-Learning • 𝑞 𝜙 𝜓 𝑡 𝐷 𝑡 , 𝜃 の設計: • 該当する研究 • Semi Amortized VAE (Kim+ 2018) • MAML (Finn+ 2017) • LSTM-based meta-learning (Ravi and Larochelle+ 2017) • 欠点 • 誤差逆伝播の計算量が大きい • 𝑝 𝑦 𝑥, 𝜓, 𝜃 = 𝑝 𝑦 𝑥, 𝜓 のように予測分布を簡略化してしまうことが多い 図引用 Finn+2017 概要: 初期値𝜓0から,Gradient Descentで タスク固有のパラメータ𝜓(𝑡) を得る
  • 19. Metric-based Few-shot learning • 𝑞 𝜙 𝜓 𝑡 𝐷 𝑡 , 𝜃 の設計: • 𝑃 𝑦 𝑡 𝑥 𝑡, 𝜓 𝑡 , 𝜃 の設計: • 該当する研究 • Prototypical Nets [Snell+2017] • 欠点: • 𝑞 𝜙 𝜓 𝑡 𝐷 𝑡 , 𝜃 が決定論的 • 𝑝 𝑦 𝑡 𝑥 𝑡, 𝜓 𝑡 , 𝜃 が「セントロイドとの距離を測る」という単純な近似をしてしまっている 図引用 Snell+2017 概要: 訓練データをエンコーダーℎ 𝜃で特徴空間に移したした後に クラスごとにセントロイドを作って,テストデータとセント ロイドの距離を特徴空間で測ることによるfew-shot学習.
  • 20. Conditional models trained via maximum likelihood • 𝑞 𝜙 𝜓 𝑡 𝐷 𝑡 , 𝜃 の設計: • 決定論的な𝑞 𝜙 • 𝑞 𝜙 𝜓 𝑡 𝐷 𝑡 , 𝜃 を分布として考えるのではなく,データセットを入力にとって 特徴量𝜓 𝑡 (上の図の𝑟)を出力する決定論的なモデルアーキテクチャが存在して いる場合を指してるのだと思う • 該当する研究: • Conditional Neural Process [Garnelo+ 2018] 概要: 訓練データセットを入力として して出てきた特徴量をテスト データに対する予測に使う 図引用 Garnelo+ 2018
  • 21. 提案手法: Versatile • 概要: • 分類版と回帰版がある • 𝑞 𝜙 𝜓 𝑡 𝐷 𝑡 , 𝜃 が確率的(ガウス分布) • 任意の訓練データ数kを入力にとれる.また入力に対してpermutation-invariant • 𝑞 𝜙 𝜓 𝑡 𝐷 𝑡 , 𝜃 がBack-propを必要とせず高速 • タスクごとにshotが異なって良い • 分類版ではタスクごとにwayも異なっていて良い • way: クラス数, shot: 訓練データ数
  • 22. 提案手法: Versatile 分類タスク • グローバルパラメータ𝜃が各訓練データ点をエンコード(ℎ 𝜃(𝑥)) • クラスkの全サンプルのℎ 𝜃(𝑥𝑖 𝑘 )をプーリングし,重みwを得る
  • 23. 提案手法: Versatile 分類タスク • グローバルパラメータ𝜃が,テストデータ点をエンコード(ℎ 𝜃( 𝑥)) • ℎ 𝜃( 𝑥)を入力に、前スライドで得た重みを使って線型分類
  • 24. 提案手法: Versatile 分類タスク • この𝑞 𝜙 𝜓 𝑡 𝐷 𝑡 , 𝜃 は何をしているのか • 𝑞 𝜙 𝜓 𝐷 𝑡 , 𝜃 = 𝑐=1 𝐶 𝑞 𝜙 𝜓𝑐 ℎ 𝜃 𝑥 𝑛 𝑐 𝑛=1 𝑘 𝑐 , 𝜃 のように,𝜓のクラスごとの独立 性を仮定している(クラスごとにPoolingをしてる点に注意) • 結局この𝑞 𝜙のどこが良いのか • クラス数がタスクごとに変わっても良い • 𝜓のクラスごとの独立性の仮定は理論が背景にあり,よい帰納バイアスに なっている(c.f. softmax, appendix B)
  • 25. 提案手法: Versatile 回帰タスク • xは視点でyは画像を想定.設定はGQN[Eslami+ 2018]と似てる • グローバルパラメータ𝜃はGenerator • 訓練データセット 𝑥𝑖 𝑡 , 𝑦𝑖 𝑡 𝑖=1 𝑘 を入力に潜在変数𝜓(𝑡)が出てくるイメージ • 注:Neural Process[Garnelo +2018]に対する優位性がわからないが,versatileの方がarxivに上がった日付は早 かったので考慮できていないのか?
  • 26. 実験 1. Toy data 2. Few-shot classification 1. overall results 2. versatility 3. comparision to standard and amortized VI(今日は話さない) 3. Shapenet view reconstruction
  • 27. 実験1. 𝑞 𝜙(𝜓|𝐷)が𝑝 (𝜓|𝐷) を近似できるかToy dataで確認 • 訓練時に近づけるのは予測分布と近似分布であって,𝑞 𝜙(𝜓|𝐷)と 𝑝 (𝜓|𝐷) を明示的に近づけたわけではないが,実際は近づく => アルゴリズムが期待通りに動いていることのサポート • 観測点が増えるほど𝑞 𝜙(𝜓|𝐷)が真の分布を近似できている
  • 28. • データセット: • omniglot • miniImageNet • SOTA • 注:近年few-shot界隈ではResNetを特徴 抽出に使うだけでSOTAな結果が得られ ることが[Chen+2018]等で指摘されてい るが,この論文ではそうした大きなモ デルは比較対象にしていない. 実験2-1. Overall results
  • 29. 実験2-2. Versatility • データセット: omniglot • テスト時に(左)wayか(右)shotを変えてもそれなりに動く(versatility) • way: クラス数, shot: 訓練データ数 • ショット数を5から10に増やしても精度があがらないのは気になる • おそらく元から99%でサチってるので参考にならない • (Prototypical Netsとかでも同じことできる気がするが……?)
  • 30. 実験3. Shapenet view reconstruction • GQNと同様,視点から画像の生成を行うタスク • ベースライン:CVAE • 訓練データをサンプルサイズ1にして, 𝑧~𝑞 𝜙 𝑧 𝑥 と視点ラベルから生成を行なっている? • 提案法はCVAEに比べて良い結果
  • 31. まとめと感想 • まとめ • 近年のメタ学習手法の多くが同じデータ生成過程と予測分布を持つ • Amortization大事 • 𝑃 𝑦 𝑡 𝑥 𝑡, 𝜓 𝑡 , 𝜃 , 𝑞 𝜙 𝜓 𝑡 𝐷 𝑡 , 𝜃 の設計が重要 • 提案法はタスクごとにway,shotが異なっても良い. • 発表者の感想 • MAMLが流行っている印象だったが,あの𝑞 𝜙 𝜓 𝑡 𝐷 𝑡 , 𝜃 のモデリングがベ ストかはよく考えなければいけないなという気持ちになった • GQN[Eslami+2018]との関係は不明瞭(ML-PIPにはGQNにおけるposteriorが存在 しない)だが,GQNやNeural processもfew-shot(メタ)学習として解釈できる • GQNのように「実はメタ(few-shot)学習で記述できる重要な問題」が眠っ ているのではないか、アンテナを張ると良さそう
  • 32. 参考文献 • Vilalta, Y. Drissi, A perspective view and survey of meta-learning, Artificial Intelligence Review, 18 (2) (2002), pp. 77-95 • Pan, S. J. and Yang, Q.: A Survey on Transfer Learning, IEEE Trans. on Knowl. and Data Eng., Vol. 22, No. 10, pp. 1345-1359 (2010) • S. Ravi and H. Larochelle. Optimization as a model for few-shot learning. ICLR2017. • C. Finn, P. Abbeel, and S. Levine. Model-agnostic meta-learning for fast adaptation of deep networks. ICML2017. • M. Garnelo, D. Rosenbaum, C. J. Maddison, T. Ramalho, D. Saxton, M. Shanahan, Y. W. Teh, D. J. Rezende, and S. Eslami. Conditional neural processes. ICML2018
  • 33. • Y. Kim, S. Wiseman, A. C. Miller, D. Sontag, and A. M. Rush. Semi-amortized variational autoencoders. In Proceedings of the 35th International Conference on Machine Learning, 2018b. • J. Snell, K. Swersky, and R. Zemel. Prototypical networks for few-shot learning. In Advances in Neural Information Processing Systems, pages 4080–4090, 2017. • Eslami, S. A., Rezende, D. J., Besse, F., Viola, F., Morcos, A. S., Garnelo, M., Ruderman, A., Rusu, A. A., Dani- helka, I., Gregor, K., et al. Neural scene representation and rendering. Science, 360(6394):1204–1210, 2018. • M. Garnelo, J. Schwarz, D. Rosenbaum, F. Viola, D. J. Rezende, S. Eslami, and Y. W. Teh. Neural processes. ICML2018 workshop on Theoretical Foundations and Applications of Deep Generative Models. • Zitian Chen, Yanwei Fu, Yinda Zhang, Leonid Sigal, Multi-level Semantic Feature Augmentation for One-shot Learning, arxiv 2018, https://arxiv.org/abs/1804.05298