SlideShare a Scribd company logo
1 of 34
Download to read offline
EMNLP2016読み会@⿊橋研
佐藤 元紀|Motoki Sato
NAIST 松本研 (M1)
1.  Deep Multi-Task Learning
with Shared Memory
2.  How Transferable are Neural Networks
in NLP Applications?
名前 佐藤 元紀 (さとう もとき)
所属 NAIST (松本研)
学年 修⼠1年⽣
Twitter @aonotas
 あおのたす
⾃⼰紹介 2
研究の興味 QA, 対話, 深層学習
   Chainer派閥
紹介する論⽂①
紹介する論⽂①
l Deep Multi-Task Learning with Shared Memory
–  LSTMに外部メモリを追加し, Multi-Taskを解く
–  ⽂書分類タスク(同じドメインの複数データセット)
•  Movie Review
–  タスクで共通のメモリ, タスクごとのメモリを⽤意
4
Motivation
l Neural Networkは過学習しやすい
–  Pre-trainingが使われるが,
直接タスクを最適化しているわけではない
–  Multiタスクで共通知識を共有して性能を向上させたい
l LSTMの外にメモリを付けて表現⼒向上を狙う
5
提案⼿法1 6
提案⼿法1 7
l  ⼊⼒⽂
提案⼿法1 8
l  LSTMの隠れ層
提案⼿法1 9
l  外部メモリ
提案⼿法1 10
l  ⽂書クラス分類
ここの部分を詳しく! 11
モデルの詳細 12
l  通常のLSTM
モデルの詳細 13
l  外部メモリ
モデルの詳細 14
l  Reading key vector
l  Erase vector
l  Add vector
モデルの詳細 15
l  Read
l  Write
l  Fusion
提案⼿法2 16
実験結果 17
実例 18
紹介する論⽂②
紹介する論⽂②
l How Transferable are Neural Networks in NLP
Applications?
–  NLPにおける転移学習の論⽂
–  画像のNN分野での転移学習との⽐較
–  結論が分かりやすい(予想通りっちゃ予想通り)
20
問題設定 21
学習
データ
多
学習データ
少
Source Target
Train NN
Transfer
転移学習アルゴリズム
l INIT
–  ⼤きいデータで学習し, 
NNのパラメータを初期値とする (Fine-tune)
l MULTI
–  同時に⼤きいデータと⼩さいデータで学習する
l MULTI+INUT
–  ⼤きいデータで学習し, その後マルチタスクで解く
22
画像 vs NLP
l 画像
–  連続値
–  素性がピクセル単位
l NLP
–  離散的
23
問題設定 24
Source(学習データ多い) Target(学習データ少ない)
⽂分類 ⽂ペア
問題設定 25
Source(学習データ多い)
Target(学習データ 少)
データのドメインが同じ
Target(学習データ 少)
データのドメインが違う
⽂分類 ⽂ペア
ネットワーク構造 26
実験結果 27
パラメータは更新しない
パラメータは更新する
ランダム初期値
Pre-trained embedding
Target(学習データ 少)
データのドメインが同じ
Target(学習データ 少)
データのドメインが違う
実験結果 28
パラメータ固定
l  ドメイン似ている
–  Embedding, hiddenはTransfer
l  ドメインが異なる
–  EmbeddingだけTransfer
実験結果 29
パラメータ固定
l  ドメイン似ている
–  Embedding, hiddenはTransfer
l  ドメインが異なる
–  EmbeddingだけTransfer
MULTIの効果 30
が⼤きい:Targetのロスを重視する
が⼩さい:Sourceのロスを重視する
Output Layer以外を共有。
ネットワーク構造
MULTI 31
■ドメイン似ているタスク
–  Source重視の⽅が良い
■ドメインが異なるタスク
–  MULTIでもダメ
INIT
Non-
transfer
疑問①
l ドメインが似ているタスク, 
ドメインが違うタスクで,
転移学習できるのか?
→ タスクの類似度に⼤きく依存する
32
疑問②
l 転移できるかどうかは、層ごとに異なるのか?
→ Output Layerは転移できない
  Word Embeddingは転移できる
33
疑問③
l INIT, MULTIは効果あるのか?
→ INIT, MULTIも効果がある。
  しかし両⽅使うのは向上は⾒られなかった
34

More Related Content

What's hot

What's hot (7)

TensorFlowによるCNNアーキテクチャ構築
TensorFlowによるCNNアーキテクチャ構築TensorFlowによるCNNアーキテクチャ構築
TensorFlowによるCNNアーキテクチャ構築
 
Differentiable neural conputers
Differentiable neural conputersDifferentiable neural conputers
Differentiable neural conputers
 
[DL輪読会] Using millions of emoji occurrences to learn any-domain representatio...
[DL輪読会] Using millions of emoji occurrences to learn any-domain representatio...[DL輪読会] Using millions of emoji occurrences to learn any-domain representatio...
[DL輪読会] Using millions of emoji occurrences to learn any-domain representatio...
 
Dropout Distillation
Dropout DistillationDropout Distillation
Dropout Distillation
 
20161217 脳画像解析とubuntu
20161217 脳画像解析とubuntu20161217 脳画像解析とubuntu
20161217 脳画像解析とubuntu
 
20171212 gtc pfn海野裕也_chainerで加速する深層学習とフレームワークの未来
20171212 gtc pfn海野裕也_chainerで加速する深層学習とフレームワークの未来20171212 gtc pfn海野裕也_chainerで加速する深層学習とフレームワークの未来
20171212 gtc pfn海野裕也_chainerで加速する深層学習とフレームワークの未来
 
『ポケットスタディ ネットワークスペシャリスト[第2版]』著者が販促しつつ試験対策の話をします
『ポケットスタディ ネットワークスペシャリスト[第2版]』著者が販促しつつ試験対策の話をします『ポケットスタディ ネットワークスペシャリスト[第2版]』著者が販促しつつ試験対策の話をします
『ポケットスタディ ネットワークスペシャリスト[第2版]』著者が販促しつつ試験対策の話をします
 

Viewers also liked

Viewers also liked (11)

Multi-modal Neural Machine Translation - Iacer Calixto
Multi-modal Neural Machine Translation - Iacer CalixtoMulti-modal Neural Machine Translation - Iacer Calixto
Multi-modal Neural Machine Translation - Iacer Calixto
 
最先端NLP勉強会 “Learning Language Games through Interaction” Sida I. Wang, Percy L...
最先端NLP勉強会“Learning Language Games through Interaction”Sida I. Wang, Percy L...最先端NLP勉強会“Learning Language Games through Interaction”Sida I. Wang, Percy L...
最先端NLP勉強会 “Learning Language Games through Interaction” Sida I. Wang, Percy L...
 
On the benchmark of Chainer
On the benchmark of ChainerOn the benchmark of Chainer
On the benchmark of Chainer
 
深層学習ライブラリの環境問題Chainer Meetup2016 07-02
深層学習ライブラリの環境問題Chainer Meetup2016 07-02深層学習ライブラリの環境問題Chainer Meetup2016 07-02
深層学習ライブラリの環境問題Chainer Meetup2016 07-02
 
ヤフー音声認識サービスでのディープラーニングとGPU利用事例
ヤフー音声認識サービスでのディープラーニングとGPU利用事例ヤフー音声認識サービスでのディープラーニングとGPU利用事例
ヤフー音声認識サービスでのディープラーニングとGPU利用事例
 
俺のtensorが全然flowしないのでみんなchainer使おう by DEEPstation
俺のtensorが全然flowしないのでみんなchainer使おう by DEEPstation俺のtensorが全然flowしないのでみんなchainer使おう by DEEPstation
俺のtensorが全然flowしないのでみんなchainer使おう by DEEPstation
 
マシンパーセプション研究におけるChainer活用事例
マシンパーセプション研究におけるChainer活用事例マシンパーセプション研究におけるChainer活用事例
マシンパーセプション研究におけるChainer活用事例
 
Chainer Update v1.8.0 -> v1.10.0+
Chainer Update v1.8.0 -> v1.10.0+Chainer Update v1.8.0 -> v1.10.0+
Chainer Update v1.8.0 -> v1.10.0+
 
Chainer, Cupy入門
Chainer, Cupy入門Chainer, Cupy入門
Chainer, Cupy入門
 
NVIDIA 更新情報: Tesla P100 PCIe/cuDNN 5.1
NVIDIA 更新情報: Tesla P100 PCIe/cuDNN 5.1NVIDIA 更新情報: Tesla P100 PCIe/cuDNN 5.1
NVIDIA 更新情報: Tesla P100 PCIe/cuDNN 5.1
 
Chainerを使って細胞を数えてみた
Chainerを使って細胞を数えてみたChainerを使って細胞を数えてみた
Chainerを使って細胞を数えてみた
 

Similar to EMNLP2016読み会@黒橋研

opensource and accessibility (Dec2000) Part 2
opensource and accessibility (Dec2000) Part 2opensource and accessibility (Dec2000) Part 2
opensource and accessibility (Dec2000) Part 2
Takuya Nishimoto
 

Similar to EMNLP2016読み会@黒橋研 (10)

[DL Hacks]Model-Agnostic Meta-Learning for Fast Adaptation of Deep Network
[DL Hacks]Model-Agnostic Meta-Learning for Fast Adaptation of Deep Network[DL Hacks]Model-Agnostic Meta-Learning for Fast Adaptation of Deep Network
[DL Hacks]Model-Agnostic Meta-Learning for Fast Adaptation of Deep Network
 
深層学習(岡本孝之 著) - Deep Learning chap.1 and 2
深層学習(岡本孝之 著) - Deep Learning chap.1 and 2深層学習(岡本孝之 著) - Deep Learning chap.1 and 2
深層学習(岡本孝之 著) - Deep Learning chap.1 and 2
 
Point net
Point netPoint net
Point net
 
「深層学習による自然言語処理」読書会 4.2記憶ネットワーク@レトリバ
「深層学習による自然言語処理」読書会 4.2記憶ネットワーク@レトリバ「深層学習による自然言語処理」読書会 4.2記憶ネットワーク@レトリバ
「深層学習による自然言語処理」読書会 4.2記憶ネットワーク@レトリバ
 
TensorFlowで遊んでみよう!
TensorFlowで遊んでみよう!TensorFlowで遊んでみよう!
TensorFlowで遊んでみよう!
 
opensource and accessibility (Dec2000) Part 2
opensource and accessibility (Dec2000) Part 2opensource and accessibility (Dec2000) Part 2
opensource and accessibility (Dec2000) Part 2
 
eXtremeProgramming入門
eXtremeProgramming入門eXtremeProgramming入門
eXtremeProgramming入門
 
Overcoming Catastrophic Forgetting in Neural Networks読んだ
Overcoming Catastrophic Forgetting in Neural Networks読んだOvercoming Catastrophic Forgetting in Neural Networks読んだ
Overcoming Catastrophic Forgetting in Neural Networks読んだ
 
オトナのプログラミング勉強会 オトナのDeep Learning 2016-11
オトナのプログラミング勉強会 オトナのDeep Learning 2016-11オトナのプログラミング勉強会 オトナのDeep Learning 2016-11
オトナのプログラミング勉強会 オトナのDeep Learning 2016-11
 
視覚化サービス構築の際に気をつけること
視覚化サービス構築の際に気をつけること視覚化サービス構築の際に気をつけること
視覚化サービス構築の際に気をつけること
 

EMNLP2016読み会@黒橋研