SlideShare a Scribd company logo
1 of 31
Download to read offline
DL輪読会
Convolutional Sequence to Sequence Learning
2017/05/19
松尾研究室
M1 中川 ⼤海
Agenda
1. Information
2. Introduction
3. Related Works
4. Proposed Model
5. Experiments & Results
6. Conclusion
2
1. Information
• Author
– Jonas Gehring, Michael Auli, David Grangier, Denis Yarats, Yann N. Dauphin
– FAIR(Facebook AI Research)
• Submitted for arXiv on 8 May 2017
• Summary
• fully convolutionalなseq2seqモデル
• GLU, multi-hop attention, residual connectionなどの機構
• GNMTより精度⾼くて9倍くらい早い
• 実装がGitHubに上がってます(https://github.com/facebookresearch/fairseq)
3
2. Introduction
• 翻訳界隈でGNMT(Google Neural Machine Translation)が話題
– encoder-decoder, bi-directional encoder, attention, LSTMブロック積んでresidual層で勾配消失防ぐ
• ⼀⽅、⾃然⾔語処理界隈では最近は並列計算できるCNNを⽤いるモデルが流⾏り
– RNN: 並列計算できない、系列が⻑くなると勾配消失しやすい
– CNN: 並列計算できるため計算⾼速化が可能、離れた系列間の関係も学習しやすい
• これまでもCNNを⽤いた⼿法は数々存在し、以下のような系譜をたどっている
1. 精度は勝てないけど計算は早くなる
2. 限られたデータセットでなら勝てる: [Bradbury et al. (2016), Kalchbrenner et al. (2016)]
3. 多様なデータセットで勝てる: [Gehring et al. (2016), Dauphin et al. (2016)]
• not fully convolutional
• not generative model like seq2seq
4
3. Related Work: ⾃然⾔語処理におけるタスク
• 識別
– language modeling(⾔語モデル)
– sentence classification
– sentiment analysis
– etc
• ⽣成
– sequence to sequence learning
• 翻訳, 要約
– caption generation
– etc
5
• 評価指標
– Accuracy
– PPL(Perplexity)
• 単語の平均分岐数
• 2(1単語あたりのエントロピー)
• どれぐらい単語を特定しにくいか(=⼩さいほどよい)
– BLEU(Bilingual Evaluation Understudy)
• 正解(プロの翻訳)と予測の類似度的な指標
• ⼤きいほどよい
– ...
3. Related Work: GNMT [Wu et al. 2016]
• encoder-decoderモデル
– encode: 翻訳元の⾔語から潜在状態
– decode: 潜在状態から翻訳先の⾔語へ
• ⼀層⽬のみbi-directional encoder
– 初めの⽅の単語も⽂脈情報考慮できる
– encoderの精度はattentionの効果にも影響
• attention
– ⼊⼒系列のどこに注⽬して訳すればよいかまで学習
– 計算時間は増えるが⻑い系列に特に有効
• 各層をresidualに
– 出⼒H(x)でなく残差関数F(x)=H(x)-xを学習
– 層を増やしても勾配消失しにくい
– ⼊⼒をそのまま出⼒に加算するだけで実装できる
6
3. Related Work: CNNを活⽤した⾃然⾔語処理モデル
• Sentence Classification [Kim, 2014]
• Character-level Text classification [Zhang et al. 2015]
• Quasi-RNN [Bradbury et al. 2016]
– LSTMライクにプーリング
• その他いろいろあります
– http://ksksksks2.hatenadiary.jp/entry/20170122/1485082800
– http://deeplearning.hatenablog.com/entry/neural_machine_translation_theory#seq2seq
– https://www.slideshare.net/sheemap/convolutional-neural-netwoks
• 計算は⾼速化されるが、LSTMベースより精度が良
かったり悪かったり、有効なデータセットが限られて
いたり
7
3. Related Work: CNNを活⽤した⾃然⾔語処理モデル
• Language Modeling with Gated CNN [Dauphin et al. 2016]
– Gated Linear Unitsをゲート関数として導⼊
– Residual処理
– WikiText-103のタスクでSoTAのPPL
– LSTMベースの20倍の速度
8
3. Related Work: CNNを活⽤したNMT
• Language Modeling with Gated CNN [Dauphin et al. 2016]
– Gated Linear Unitsをゲート関数として導⼊
– “allows the model to select which words or features are relevant to predict the next word.”
– それまでの翻訳を踏まえて、その時点で⽂脈の特定の部分に着⽬するか広く⾒るか...などを表すゲート関数を学習できる
– tanhベースのゲート関数よりも勾配が消失しにくい
9
4. Proposed Model
• やっていること
1. ⼊⼒をembedding→畳み込みしてGLUに通す
• decoder側も同様
2. multi-hop attentionを計算
• allow machines to reference different parts of text to
build understanding during encoding.
3. attentionつきの⼊⼒とdecoder contextsから予測
10
4. Proposed Model
• やっていること
1. ⼊⼒をembedding→畳み込みしてGLUに通す
• decoder側も同様
2. multi-hop attentionを計算
• allow machines to reference different parts of text to
build understanding during encoding.
3. attentionつきの⼊⼒とdecoder contextsから予測
11
4. Proposed Model
• やっていること
1. ⼊⼒をembedding→畳み込みしてGLUに通す
• decoder側も同様
2. multi-hop attentionを計算
• allow machines to reference different parts of text to
build understanding during encoding.
3. attentionつきの⼊⼒とdecoder contextsから予測
12
4. Proposed Model
• やっていること
1. ⼊⼒をembedding→畳み込みしてGLUに通す
• decoder側も同様
2. multi-hop attentionを計算
• allow machines to reference different parts of text to
build understanding during encoding.
3. attentionつきの⼊⼒とdecoder contextsから予測
13
→もう少し詳しく⾒ていきます
4. Proposed Model
• やっていること
1. ⼊⼒をembedding→畳み込みしてGLUに通す
• decoder側も同様
• Position Embedding
– inputやoutputが⽂のどの部分を扱っているかの情報
14
を によって
にembedding。
もconcatenateして
とする。
4. Proposed Model
• やっていること
1. ⼊⼒をembedding→畳み込みしてGLUに通す
• decoder側も同様
• Convolution
– 各隠れ層でresidual処理を⾏っている
15
⼊⼒ベクトル を
のカーネルで畳み込んで とする。
4. Proposed Model
• やっていること
1. ⼊⼒をembedding→畳み込みしてGLUに通す
• decoder側も同様
• Gated Linear Units
– σ(B) controls which inputs A of the current context are
relevant
16
から へ変換。
4. Proposed Model
• やっていること
2. multi-hop attentionを計算
– current decoder state とprevious target element から
attention score を求める
– decoder state summary とoutput of the last encoder
からattention を求める
– conditional input を求める
17
z: large input context
e: point information
zがkey、z+eがvalueとして
key-value memory networkのように働くらしい
4. Proposed Model
• やっていること
2. multi-hop attentionを計算
– decoder layer はk-1個のattention historyにアクセスできる
• に が含まれるため
– 過去のattention情報を反映しやすい
• RNNだと消失しやすい
– https://code.facebook.com/posts/1978007565818999/a-
novel-approach-to-neural-machine-translation/
18
4. Proposed Model
• やっていること
3. attentionつきの⼊⼒とdecoder contextsから予測
19
5. Experiments & Results
• Translation task
– Datasets
• WMTʼ16 English-Romanian, WMTʼ14 English-German, WMTʼ14 English-French
– Experiment 1: Recurrent vs. Convolutional
• LSTMベースのモデルたち, ByteNet, GNMT
– Experiment2: Generation speed vs. GNMT
– Experiment3: Effect of some architectures
20
5. Experiments & Results
• Summarization task
– Datasets
• Abstractive summarization (Gigaword corpus)
– Compare Accuracy with RNN SoTA Models
• Shen et al., 2016
• Suzuki & Nagata, 2017
21
5. Results: Translation task
• 1. Recurrent vs. Convolutional
– いずれのデータセットでも最良のBLEU
22
5. Results: Translation task
• 2. Generation speed vs. GNMT
– 提案モデルのGPU(K40)でGNMTの
GPU(K80)より⾼精度で9.3倍の速さ
• K80はK40⼆つ分みたいなもの
• “We did not have such a GPU available”
– ビームサーチ幅(b)を広げるとスピードは多少落ち
るが、BLEUは上がる
– CPUはコア数が違うので⽐較できないとのこと
23
5. Results: Translation task
• 3. Effect of position embedding
– position embeddingはあまり影響なし
24
5. Results: Translation task
• 3. Effect of multi-step attention
– decoder layer全てにattentionするのが最良
– 計算的なoverheadもほとんどない
25
5. Results: Translation task
• 3. Effect of kernel size & depth
– 狭く、深くが良い
26
– Encoderは結構深くできる
– Decoderはあまり効果なし
5. Results: Summarization task
• Accuracy
– 勝ってるorそんなに負けてない(らしい)
– ⽐較対象のモデルはいろいろspecificな加⼯してる
• けど、⼿を加えていない提案モデルでも同じくらいの精度を出せている、とのこと
– 提案モデルにも同様の処理はできる(らしい)
27
6. Conclusion
• fully convolutionalなseq2seqモデルを提案
– GLU, residual connection, multi-hop attention(, position embedding)などの機構を活⽤
• seq2seqモデルでSoTAな精度&GNMTの9倍の速度を達成した
28
感想
• CNNすごい
• NMTとかattentionとか全然わかってなかったので勉強になりました
– 参考資料⾒ると結構分かるようになると思います
29
参考⽂献
• Gehring, Jonas, et al. "Convolutional Sequence to Sequence Learning." arXiv preprint arXiv:1705.03122 (2017).
• Kim, Yoon. "Convolutional neural networks for sentence classification." arXiv preprint arXiv:1408.5882 (2014).
• Zhang, Xiang, Junbo Zhao, and Yann LeCun. "Character-level convolutional networks for text
classification." Advances in neural information processing systems. 2015.
• Bradbury, James, et al. "Quasi-Recurrent Neural Networks." arXiv preprint arXiv:1611.01576 (2016).
• Wu, Yonghui, et al. "Google's Neural Machine Translation System: Bridging the Gap between Human and
Machine Translation." arXiv preprint arXiv:1609.08144 (2016).
• Dauphin, Yann N., et al. "Language Modeling with Gated Convolutional Networks." arXiv preprint
arXiv:1612.08083 (2016).
• Shen, Shiqi, et al. "Neural Headline Generation with Sentence-wise Optimization." arXiv preprint
arXiv:1604.01904 (2016).
• Suzuki, Jun, and Masaaki Nagata. "Cutting-off Redundant Repeating Generations for Neural Abstractive
Summarization." EACL 2017 (2017): 291.
30
参考⽂献
• Facebook AI Researchによる説明
– https://code.facebook.com/posts/1978007565818999/a-novel-approach-to-neural-machine-translation/
• NMT⼀般の参考
– http://deeplearning.hatenablog.com/entry/neural_machine_translation_theory#seq2seq
• GNMTの解説
– http://smerity.com/articles/2016/google_nmt_arch.html
– http://www.yasuhisay.info/entry/2016/11/23/000000
• Residual層の解説
– http://terada-h.hatenablog.com/entry/2016/12/13/192940
• Attentionの解説
– https://www.slideshare.net/yutakikuchi927/deep-learning-nlp-attention
– インタラクティブに理解できる→ http://distill.pub/2016/augmented-rnns/
31

More Related Content

What's hot

[DL輪読会]Convolutional Conditional Neural Processesと Neural Processes Familyの紹介
[DL輪読会]Convolutional Conditional Neural Processesと Neural Processes Familyの紹介[DL輪読会]Convolutional Conditional Neural Processesと Neural Processes Familyの紹介
[DL輪読会]Convolutional Conditional Neural Processesと Neural Processes Familyの紹介Deep Learning JP
 
動作認識の最前線:手法,タスク,データセット
動作認識の最前線:手法,タスク,データセット動作認識の最前線:手法,タスク,データセット
動作認識の最前線:手法,タスク,データセットToru Tamaki
 
【DL輪読会】An Image is Worth One Word: Personalizing Text-to-Image Generation usi...
【DL輪読会】An Image is Worth One Word: Personalizing Text-to-Image Generation usi...【DL輪読会】An Image is Worth One Word: Personalizing Text-to-Image Generation usi...
【DL輪読会】An Image is Worth One Word: Personalizing Text-to-Image Generation usi...Deep Learning JP
 
教師なしGNNによるIoTデバイスの異常通信検知の検討
教師なしGNNによるIoTデバイスの異常通信検知の検討教師なしGNNによるIoTデバイスの異常通信検知の検討
教師なしGNNによるIoTデバイスの異常通信検知の検討ARISE analytics
 
グラフデータ分析 入門編
グラフデータ分析 入門編グラフデータ分析 入門編
グラフデータ分析 入門編順也 山口
 
GAN(と強化学習との関係)
GAN(と強化学習との関係)GAN(と強化学習との関係)
GAN(と強化学習との関係)Masahiro Suzuki
 
[DL輪読会]ICLR2020の分布外検知速報
[DL輪読会]ICLR2020の分布外検知速報[DL輪読会]ICLR2020の分布外検知速報
[DL輪読会]ICLR2020の分布外検知速報Deep Learning JP
 
Anomaly detection 系の論文を一言でまとめた
Anomaly detection 系の論文を一言でまとめたAnomaly detection 系の論文を一言でまとめた
Anomaly detection 系の論文を一言でまとめたぱんいち すみもと
 
[DL輪読会]Graph R-CNN for Scene Graph Generation
[DL輪読会]Graph R-CNN for Scene Graph Generation[DL輪読会]Graph R-CNN for Scene Graph Generation
[DL輪読会]Graph R-CNN for Scene Graph GenerationDeep Learning JP
 
マルチモーダル深層学習の研究動向
マルチモーダル深層学習の研究動向マルチモーダル深層学習の研究動向
マルチモーダル深層学習の研究動向Koichiro Mori
 
【DL輪読会】Representational Continuity for Unsupervised Continual Learning ( ICLR...
【DL輪読会】Representational Continuity for Unsupervised Continual Learning ( ICLR...【DL輪読会】Representational Continuity for Unsupervised Continual Learning ( ICLR...
【DL輪読会】Representational Continuity for Unsupervised Continual Learning ( ICLR...Deep Learning JP
 
Transformerを雰囲気で理解する
Transformerを雰囲気で理解するTransformerを雰囲気で理解する
Transformerを雰囲気で理解するAtsukiYamaguchi1
 
Transformerを多層にする際の勾配消失問題と解決法について
Transformerを多層にする際の勾配消失問題と解決法についてTransformerを多層にする際の勾配消失問題と解決法について
Transformerを多層にする際の勾配消失問題と解決法についてSho Takase
 
【基調講演】『深層学習の原理の理解に向けた理論の試み』 今泉 允聡(東大)
【基調講演】『深層学習の原理の理解に向けた理論の試み』 今泉 允聡(東大)【基調講演】『深層学習の原理の理解に向けた理論の試み』 今泉 允聡(東大)
【基調講演】『深層学習の原理の理解に向けた理論の試み』 今泉 允聡(東大)MLSE
 
[DL輪読会]モデルベース強化学習とEnergy Based Model
[DL輪読会]モデルベース強化学習とEnergy Based Model[DL輪読会]モデルベース強化学習とEnergy Based Model
[DL輪読会]モデルベース強化学習とEnergy Based ModelDeep Learning JP
 
【DL輪読会】Implicit Behavioral Cloning
【DL輪読会】Implicit Behavioral Cloning【DL輪読会】Implicit Behavioral Cloning
【DL輪読会】Implicit Behavioral CloningDeep Learning JP
 
【DL輪読会】ViT + Self Supervised Learningまとめ
【DL輪読会】ViT + Self Supervised Learningまとめ【DL輪読会】ViT + Self Supervised Learningまとめ
【DL輪読会】ViT + Self Supervised LearningまとめDeep Learning JP
 
全力解説!Transformer
全力解説!Transformer全力解説!Transformer
全力解説!TransformerArithmer Inc.
 
【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion Models
【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion Models【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion Models
【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion ModelsDeep Learning JP
 

What's hot (20)

[DL輪読会]Convolutional Conditional Neural Processesと Neural Processes Familyの紹介
[DL輪読会]Convolutional Conditional Neural Processesと Neural Processes Familyの紹介[DL輪読会]Convolutional Conditional Neural Processesと Neural Processes Familyの紹介
[DL輪読会]Convolutional Conditional Neural Processesと Neural Processes Familyの紹介
 
動作認識の最前線:手法,タスク,データセット
動作認識の最前線:手法,タスク,データセット動作認識の最前線:手法,タスク,データセット
動作認識の最前線:手法,タスク,データセット
 
【DL輪読会】An Image is Worth One Word: Personalizing Text-to-Image Generation usi...
【DL輪読会】An Image is Worth One Word: Personalizing Text-to-Image Generation usi...【DL輪読会】An Image is Worth One Word: Personalizing Text-to-Image Generation usi...
【DL輪読会】An Image is Worth One Word: Personalizing Text-to-Image Generation usi...
 
教師なしGNNによるIoTデバイスの異常通信検知の検討
教師なしGNNによるIoTデバイスの異常通信検知の検討教師なしGNNによるIoTデバイスの異常通信検知の検討
教師なしGNNによるIoTデバイスの異常通信検知の検討
 
グラフデータ分析 入門編
グラフデータ分析 入門編グラフデータ分析 入門編
グラフデータ分析 入門編
 
GAN(と強化学習との関係)
GAN(と強化学習との関係)GAN(と強化学習との関係)
GAN(と強化学習との関係)
 
[DL輪読会]ICLR2020の分布外検知速報
[DL輪読会]ICLR2020の分布外検知速報[DL輪読会]ICLR2020の分布外検知速報
[DL輪読会]ICLR2020の分布外検知速報
 
Anomaly detection 系の論文を一言でまとめた
Anomaly detection 系の論文を一言でまとめたAnomaly detection 系の論文を一言でまとめた
Anomaly detection 系の論文を一言でまとめた
 
[DL輪読会]Graph R-CNN for Scene Graph Generation
[DL輪読会]Graph R-CNN for Scene Graph Generation[DL輪読会]Graph R-CNN for Scene Graph Generation
[DL輪読会]Graph R-CNN for Scene Graph Generation
 
マルチモーダル深層学習の研究動向
マルチモーダル深層学習の研究動向マルチモーダル深層学習の研究動向
マルチモーダル深層学習の研究動向
 
ResNetの仕組み
ResNetの仕組みResNetの仕組み
ResNetの仕組み
 
【DL輪読会】Representational Continuity for Unsupervised Continual Learning ( ICLR...
【DL輪読会】Representational Continuity for Unsupervised Continual Learning ( ICLR...【DL輪読会】Representational Continuity for Unsupervised Continual Learning ( ICLR...
【DL輪読会】Representational Continuity for Unsupervised Continual Learning ( ICLR...
 
Transformerを雰囲気で理解する
Transformerを雰囲気で理解するTransformerを雰囲気で理解する
Transformerを雰囲気で理解する
 
Transformerを多層にする際の勾配消失問題と解決法について
Transformerを多層にする際の勾配消失問題と解決法についてTransformerを多層にする際の勾配消失問題と解決法について
Transformerを多層にする際の勾配消失問題と解決法について
 
【基調講演】『深層学習の原理の理解に向けた理論の試み』 今泉 允聡(東大)
【基調講演】『深層学習の原理の理解に向けた理論の試み』 今泉 允聡(東大)【基調講演】『深層学習の原理の理解に向けた理論の試み』 今泉 允聡(東大)
【基調講演】『深層学習の原理の理解に向けた理論の試み』 今泉 允聡(東大)
 
[DL輪読会]モデルベース強化学習とEnergy Based Model
[DL輪読会]モデルベース強化学習とEnergy Based Model[DL輪読会]モデルベース強化学習とEnergy Based Model
[DL輪読会]モデルベース強化学習とEnergy Based Model
 
【DL輪読会】Implicit Behavioral Cloning
【DL輪読会】Implicit Behavioral Cloning【DL輪読会】Implicit Behavioral Cloning
【DL輪読会】Implicit Behavioral Cloning
 
【DL輪読会】ViT + Self Supervised Learningまとめ
【DL輪読会】ViT + Self Supervised Learningまとめ【DL輪読会】ViT + Self Supervised Learningまとめ
【DL輪読会】ViT + Self Supervised Learningまとめ
 
全力解説!Transformer
全力解説!Transformer全力解説!Transformer
全力解説!Transformer
 
【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion Models
【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion Models【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion Models
【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion Models
 

Viewers also liked

Convolutional Neural Netwoks で自然言語処理をする
Convolutional Neural Netwoks で自然言語処理をするConvolutional Neural Netwoks で自然言語処理をする
Convolutional Neural Netwoks で自然言語処理をするDaiki Shimada
 
論文紹介 Pixel Recurrent Neural Networks
論文紹介 Pixel Recurrent Neural Networks論文紹介 Pixel Recurrent Neural Networks
論文紹介 Pixel Recurrent Neural NetworksSeiya Tokui
 
[DL輪読会]Attention Is All You Need
[DL輪読会]Attention Is All You Need[DL輪読会]Attention Is All You Need
[DL輪読会]Attention Is All You NeedDeep Learning JP
 
Introduction of “Fairness in Learning: Classic and Contextual Bandits”
Introduction of “Fairness in Learning: Classic and Contextual Bandits”Introduction of “Fairness in Learning: Classic and Contextual Bandits”
Introduction of “Fairness in Learning: Classic and Contextual Bandits”Kazuto Fukuchi
 
Safe and Efficient Off-Policy Reinforcement Learning
Safe and Efficient Off-Policy Reinforcement LearningSafe and Efficient Off-Policy Reinforcement Learning
Safe and Efficient Off-Policy Reinforcement Learningmooopan
 
時系列データ3
時系列データ3時系列データ3
時系列データ3graySpace999
 
Introduction of "TrailBlazer" algorithm
Introduction of "TrailBlazer" algorithmIntroduction of "TrailBlazer" algorithm
Introduction of "TrailBlazer" algorithmKatsuki Ohto
 
Learning to learn by gradient descent by gradient descent
Learning to learn by gradient descent by gradient descentLearning to learn by gradient descent by gradient descent
Learning to learn by gradient descent by gradient descentHiroyuki Fukuda
 
Fast and Probvably Seedings for k-Means
Fast and Probvably Seedings for k-MeansFast and Probvably Seedings for k-Means
Fast and Probvably Seedings for k-MeansKimikazu Kato
 
Dual Learning for Machine Translation (NIPS 2016)
Dual Learning for Machine Translation (NIPS 2016)Dual Learning for Machine Translation (NIPS 2016)
Dual Learning for Machine Translation (NIPS 2016)Toru Fujino
 
InfoGAN: Interpretable Representation Learning by Information Maximizing Gen...
InfoGAN: Interpretable Representation Learning by Information Maximizing Gen...InfoGAN: Interpretable Representation Learning by Information Maximizing Gen...
InfoGAN: Interpretable Representation Learning by Information Maximizing Gen...Shuhei Yoshida
 
Conditional Image Generation with PixelCNN Decoders
Conditional Image Generation with PixelCNN DecodersConditional Image Generation with PixelCNN Decoders
Conditional Image Generation with PixelCNN Decoderssuga93
 
Interaction Networks for Learning about Objects, Relations and Physics
Interaction Networks for Learning about Objects, Relations and PhysicsInteraction Networks for Learning about Objects, Relations and Physics
Interaction Networks for Learning about Objects, Relations and PhysicsKen Kuroki
 
Improving Variational Inference with Inverse Autoregressive Flow
Improving Variational Inference with Inverse Autoregressive FlowImproving Variational Inference with Inverse Autoregressive Flow
Improving Variational Inference with Inverse Autoregressive FlowTatsuya Shirakawa
 
論文紹介 Combining Model-Based and Model-Free Updates for Trajectory-Centric Rein...
論文紹介 Combining Model-Based and Model-Free Updates for Trajectory-Centric Rein...論文紹介 Combining Model-Based and Model-Free Updates for Trajectory-Centric Rein...
論文紹介 Combining Model-Based and Model-Free Updates for Trajectory-Centric Rein...Kusano Hitoshi
 
NIPS 2016 Overview and Deep Learning Topics
NIPS 2016 Overview and Deep Learning Topics  NIPS 2016 Overview and Deep Learning Topics
NIPS 2016 Overview and Deep Learning Topics Koichi Hamada
 
Differential privacy without sensitivity [NIPS2016読み会資料]
Differential privacy without sensitivity [NIPS2016読み会資料]Differential privacy without sensitivity [NIPS2016読み会資料]
Differential privacy without sensitivity [NIPS2016読み会資料]Kentaro Minami
 
Matching networks for one shot learning
Matching networks for one shot learningMatching networks for one shot learning
Matching networks for one shot learningKazuki Fujikawa
 
ICML2016読み会 概要紹介
ICML2016読み会 概要紹介ICML2016読み会 概要紹介
ICML2016読み会 概要紹介Kohei Hayashi
 

Viewers also liked (20)

Convolutional Neural Netwoks で自然言語処理をする
Convolutional Neural Netwoks で自然言語処理をするConvolutional Neural Netwoks で自然言語処理をする
Convolutional Neural Netwoks で自然言語処理をする
 
論文紹介 Pixel Recurrent Neural Networks
論文紹介 Pixel Recurrent Neural Networks論文紹介 Pixel Recurrent Neural Networks
論文紹介 Pixel Recurrent Neural Networks
 
[DL輪読会]Attention Is All You Need
[DL輪読会]Attention Is All You Need[DL輪読会]Attention Is All You Need
[DL輪読会]Attention Is All You Need
 
Introduction of “Fairness in Learning: Classic and Contextual Bandits”
Introduction of “Fairness in Learning: Classic and Contextual Bandits”Introduction of “Fairness in Learning: Classic and Contextual Bandits”
Introduction of “Fairness in Learning: Classic and Contextual Bandits”
 
Safe and Efficient Off-Policy Reinforcement Learning
Safe and Efficient Off-Policy Reinforcement LearningSafe and Efficient Off-Policy Reinforcement Learning
Safe and Efficient Off-Policy Reinforcement Learning
 
時系列データ3
時系列データ3時系列データ3
時系列データ3
 
Introduction of "TrailBlazer" algorithm
Introduction of "TrailBlazer" algorithmIntroduction of "TrailBlazer" algorithm
Introduction of "TrailBlazer" algorithm
 
Learning to learn by gradient descent by gradient descent
Learning to learn by gradient descent by gradient descentLearning to learn by gradient descent by gradient descent
Learning to learn by gradient descent by gradient descent
 
Fast and Probvably Seedings for k-Means
Fast and Probvably Seedings for k-MeansFast and Probvably Seedings for k-Means
Fast and Probvably Seedings for k-Means
 
Dual Learning for Machine Translation (NIPS 2016)
Dual Learning for Machine Translation (NIPS 2016)Dual Learning for Machine Translation (NIPS 2016)
Dual Learning for Machine Translation (NIPS 2016)
 
Value iteration networks
Value iteration networksValue iteration networks
Value iteration networks
 
InfoGAN: Interpretable Representation Learning by Information Maximizing Gen...
InfoGAN: Interpretable Representation Learning by Information Maximizing Gen...InfoGAN: Interpretable Representation Learning by Information Maximizing Gen...
InfoGAN: Interpretable Representation Learning by Information Maximizing Gen...
 
Conditional Image Generation with PixelCNN Decoders
Conditional Image Generation with PixelCNN DecodersConditional Image Generation with PixelCNN Decoders
Conditional Image Generation with PixelCNN Decoders
 
Interaction Networks for Learning about Objects, Relations and Physics
Interaction Networks for Learning about Objects, Relations and PhysicsInteraction Networks for Learning about Objects, Relations and Physics
Interaction Networks for Learning about Objects, Relations and Physics
 
Improving Variational Inference with Inverse Autoregressive Flow
Improving Variational Inference with Inverse Autoregressive FlowImproving Variational Inference with Inverse Autoregressive Flow
Improving Variational Inference with Inverse Autoregressive Flow
 
論文紹介 Combining Model-Based and Model-Free Updates for Trajectory-Centric Rein...
論文紹介 Combining Model-Based and Model-Free Updates for Trajectory-Centric Rein...論文紹介 Combining Model-Based and Model-Free Updates for Trajectory-Centric Rein...
論文紹介 Combining Model-Based and Model-Free Updates for Trajectory-Centric Rein...
 
NIPS 2016 Overview and Deep Learning Topics
NIPS 2016 Overview and Deep Learning Topics  NIPS 2016 Overview and Deep Learning Topics
NIPS 2016 Overview and Deep Learning Topics
 
Differential privacy without sensitivity [NIPS2016読み会資料]
Differential privacy without sensitivity [NIPS2016読み会資料]Differential privacy without sensitivity [NIPS2016読み会資料]
Differential privacy without sensitivity [NIPS2016読み会資料]
 
Matching networks for one shot learning
Matching networks for one shot learningMatching networks for one shot learning
Matching networks for one shot learning
 
ICML2016読み会 概要紹介
ICML2016読み会 概要紹介ICML2016読み会 概要紹介
ICML2016読み会 概要紹介
 

Similar to [DL輪読会]Convolutional Sequence to Sequence Learning

2012-03-08 MSS研究会
2012-03-08 MSS研究会2012-03-08 MSS研究会
2012-03-08 MSS研究会Kimikazu Kato
 
How to Schedule Machine Learning Workloads Nicely In Kubernetes #CNDT2020 / C...
How to Schedule Machine Learning Workloads Nicely In Kubernetes #CNDT2020 / C...How to Schedule Machine Learning Workloads Nicely In Kubernetes #CNDT2020 / C...
How to Schedule Machine Learning Workloads Nicely In Kubernetes #CNDT2020 / C...Preferred Networks
 
SakataMoriLab GNN勉強会第一回資料
SakataMoriLab GNN勉強会第一回資料SakataMoriLab GNN勉強会第一回資料
SakataMoriLab GNN勉強会第一回資料ttt_miura
 
GTC 2018 で発表されたディープラーニング最新情報
GTC 2018 で発表されたディープラーニング最新情報GTC 2018 で発表されたディープラーニング最新情報
GTC 2018 で発表されたディープラーニング最新情報NVIDIA Japan
 
Fluentdでログを集めてGlusterFSに保存してMapReduceで集計
Fluentdでログを集めてGlusterFSに保存してMapReduceで集計Fluentdでログを集めてGlusterFSに保存してMapReduceで集計
Fluentdでログを集めてGlusterFSに保存してMapReduceで集計maebashi
 
[DL輪読会]EfficientDet: Scalable and Efficient Object Detection
[DL輪読会]EfficientDet: Scalable and Efficient Object Detection[DL輪読会]EfficientDet: Scalable and Efficient Object Detection
[DL輪読会]EfficientDet: Scalable and Efficient Object DetectionDeep Learning JP
 
Programming camp 2008, Codereading
Programming camp 2008, CodereadingProgramming camp 2008, Codereading
Programming camp 2008, CodereadingHiro Yoshioka
 
【メタサーベイ】基盤モデル / Foundation Models
【メタサーベイ】基盤モデル / Foundation Models【メタサーベイ】基盤モデル / Foundation Models
【メタサーベイ】基盤モデル / Foundation Modelscvpaper. challenge
 
[DL輪読会]Relational inductive biases, deep learning, and graph networks
[DL輪読会]Relational inductive biases, deep learning, and graph networks[DL輪読会]Relational inductive biases, deep learning, and graph networks
[DL輪読会]Relational inductive biases, deep learning, and graph networksDeep Learning JP
 
Halide, Darkroom - 並列化のためのソフトウェア・研究
Halide, Darkroom - 並列化のためのソフトウェア・研究Halide, Darkroom - 並列化のためのソフトウェア・研究
Halide, Darkroom - 並列化のためのソフトウェア・研究Yuichi Yoshida
 
第9回ACRiウェビナー_日立/島田様ご講演資料
第9回ACRiウェビナー_日立/島田様ご講演資料第9回ACRiウェビナー_日立/島田様ご講演資料
第9回ACRiウェビナー_日立/島田様ご講演資料直久 住川
 
GCをみればRTSが見えてくる、かも。。。
GCをみればRTSが見えてくる、かも。。。GCをみればRTSが見えてくる、かも。。。
GCをみればRTSが見えてくる、かも。。。dec9ue
 
GiNZAで始める日本語依存構造解析 〜CaboCha, UDPipe, Stanford NLPとの比較〜
GiNZAで始める日本語依存構造解析 〜CaboCha, UDPipe, Stanford NLPとの比較〜GiNZAで始める日本語依存構造解析 〜CaboCha, UDPipe, Stanford NLPとの比較〜
GiNZAで始める日本語依存構造解析 〜CaboCha, UDPipe, Stanford NLPとの比較〜Megagon Labs
 
Rubyによるお手軽分散処理
Rubyによるお手軽分散処理Rubyによるお手軽分散処理
Rubyによるお手軽分散処理maebashi
 
Deep learning実装の基礎と実践
Deep learning実装の基礎と実践Deep learning実装の基礎と実践
Deep learning実装の基礎と実践Seiya Tokui
 
Cq tse-fm3セミナー資料
Cq tse-fm3セミナー資料Cq tse-fm3セミナー資料
Cq tse-fm3セミナー資料Masaki Muranaka
 
(JP) GPGPUがPostgreSQLを加速する
(JP) GPGPUがPostgreSQLを加速する(JP) GPGPUがPostgreSQLを加速する
(JP) GPGPUがPostgreSQLを加速するKohei KaiGai
 

Similar to [DL輪読会]Convolutional Sequence to Sequence Learning (20)

2012-03-08 MSS研究会
2012-03-08 MSS研究会2012-03-08 MSS研究会
2012-03-08 MSS研究会
 
How to Schedule Machine Learning Workloads Nicely In Kubernetes #CNDT2020 / C...
How to Schedule Machine Learning Workloads Nicely In Kubernetes #CNDT2020 / C...How to Schedule Machine Learning Workloads Nicely In Kubernetes #CNDT2020 / C...
How to Schedule Machine Learning Workloads Nicely In Kubernetes #CNDT2020 / C...
 
SakataMoriLab GNN勉強会第一回資料
SakataMoriLab GNN勉強会第一回資料SakataMoriLab GNN勉強会第一回資料
SakataMoriLab GNN勉強会第一回資料
 
SAIS/SIGMOD参加報告 in SAIS/DWS2018報告会@Yahoo! JAPAN
SAIS/SIGMOD参加報告 in SAIS/DWS2018報告会@Yahoo! JAPANSAIS/SIGMOD参加報告 in SAIS/DWS2018報告会@Yahoo! JAPAN
SAIS/SIGMOD参加報告 in SAIS/DWS2018報告会@Yahoo! JAPAN
 
GTC 2018 で発表されたディープラーニング最新情報
GTC 2018 で発表されたディープラーニング最新情報GTC 2018 で発表されたディープラーニング最新情報
GTC 2018 で発表されたディープラーニング最新情報
 
Fluentdでログを集めてGlusterFSに保存してMapReduceで集計
Fluentdでログを集めてGlusterFSに保存してMapReduceで集計Fluentdでログを集めてGlusterFSに保存してMapReduceで集計
Fluentdでログを集めてGlusterFSに保存してMapReduceで集計
 
[DL輪読会]EfficientDet: Scalable and Efficient Object Detection
[DL輪読会]EfficientDet: Scalable and Efficient Object Detection[DL輪読会]EfficientDet: Scalable and Efficient Object Detection
[DL輪読会]EfficientDet: Scalable and Efficient Object Detection
 
Programming camp 2008, Codereading
Programming camp 2008, CodereadingProgramming camp 2008, Codereading
Programming camp 2008, Codereading
 
【メタサーベイ】基盤モデル / Foundation Models
【メタサーベイ】基盤モデル / Foundation Models【メタサーベイ】基盤モデル / Foundation Models
【メタサーベイ】基盤モデル / Foundation Models
 
[DL輪読会]Relational inductive biases, deep learning, and graph networks
[DL輪読会]Relational inductive biases, deep learning, and graph networks[DL輪読会]Relational inductive biases, deep learning, and graph networks
[DL輪読会]Relational inductive biases, deep learning, and graph networks
 
Halide, Darkroom - 並列化のためのソフトウェア・研究
Halide, Darkroom - 並列化のためのソフトウェア・研究Halide, Darkroom - 並列化のためのソフトウェア・研究
Halide, Darkroom - 並列化のためのソフトウェア・研究
 
第9回ACRiウェビナー_日立/島田様ご講演資料
第9回ACRiウェビナー_日立/島田様ご講演資料第9回ACRiウェビナー_日立/島田様ご講演資料
第9回ACRiウェビナー_日立/島田様ご講演資料
 
GCをみればRTSが見えてくる、かも。。。
GCをみればRTSが見えてくる、かも。。。GCをみればRTSが見えてくる、かも。。。
GCをみればRTSが見えてくる、かも。。。
 
20130126 sc12-reading
20130126 sc12-reading20130126 sc12-reading
20130126 sc12-reading
 
GiNZAで始める日本語依存構造解析 〜CaboCha, UDPipe, Stanford NLPとの比較〜
GiNZAで始める日本語依存構造解析 〜CaboCha, UDPipe, Stanford NLPとの比較〜GiNZAで始める日本語依存構造解析 〜CaboCha, UDPipe, Stanford NLPとの比較〜
GiNZAで始める日本語依存構造解析 〜CaboCha, UDPipe, Stanford NLPとの比較〜
 
Rubyによるお手軽分散処理
Rubyによるお手軽分散処理Rubyによるお手軽分散処理
Rubyによるお手軽分散処理
 
Deep learning実装の基礎と実践
Deep learning実装の基礎と実践Deep learning実装の基礎と実践
Deep learning実装の基礎と実践
 
研究を加速するChainerファミリー
研究を加速するChainerファミリー研究を加速するChainerファミリー
研究を加速するChainerファミリー
 
Cq tse-fm3セミナー資料
Cq tse-fm3セミナー資料Cq tse-fm3セミナー資料
Cq tse-fm3セミナー資料
 
(JP) GPGPUがPostgreSQLを加速する
(JP) GPGPUがPostgreSQLを加速する(JP) GPGPUがPostgreSQLを加速する
(JP) GPGPUがPostgreSQLを加速する
 

More from Deep Learning JP

【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving PlannersDeep Learning JP
 
【DL輪読会】事前学習用データセットについて
【DL輪読会】事前学習用データセットについて【DL輪読会】事前学習用データセットについて
【DL輪読会】事前学習用データセットについてDeep Learning JP
 
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...Deep Learning JP
 
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】Zero-Shot Dual-Lens Super-ResolutionDeep Learning JP
 
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxivDeep Learning JP
 
【DL輪読会】マルチモーダル LLM
【DL輪読会】マルチモーダル LLM【DL輪読会】マルチモーダル LLM
【DL輪読会】マルチモーダル LLMDeep Learning JP
 
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
 【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo... 【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...Deep Learning JP
 
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】AnyLoc: Towards Universal Visual Place RecognitionDeep Learning JP
 
【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?Deep Learning JP
 
【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究について【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究についてDeep Learning JP
 
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )Deep Learning JP
 
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...Deep Learning JP
 
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"Deep Learning JP
 
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
【DL輪読会】"Language Instructed Reinforcement Learning  for Human-AI Coordination "【DL輪読会】"Language Instructed Reinforcement Learning  for Human-AI Coordination "
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "Deep Learning JP
 
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat ModelsDeep Learning JP
 
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"Deep Learning JP
 
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...Deep Learning JP
 
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...Deep Learning JP
 
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...Deep Learning JP
 
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...Deep Learning JP
 

More from Deep Learning JP (20)

【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
 
【DL輪読会】事前学習用データセットについて
【DL輪読会】事前学習用データセットについて【DL輪読会】事前学習用データセットについて
【DL輪読会】事前学習用データセットについて
 
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
 
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
 
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
 
【DL輪読会】マルチモーダル LLM
【DL輪読会】マルチモーダル LLM【DL輪読会】マルチモーダル LLM
【DL輪読会】マルチモーダル LLM
 
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
 【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo... 【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
 
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
 
【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?
 
【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究について【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究について
 
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
 
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
 
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
 
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
【DL輪読会】"Language Instructed Reinforcement Learning  for Human-AI Coordination "【DL輪読会】"Language Instructed Reinforcement Learning  for Human-AI Coordination "
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
 
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
 
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
 
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
 
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
 
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
 
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
 

Recently uploaded

【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)Hiroki Ichikura
 
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略Ryo Sasaki
 
スマートフォンを用いた新生児あやし動作の教示システム
スマートフォンを用いた新生児あやし動作の教示システムスマートフォンを用いた新生児あやし動作の教示システム
スマートフォンを用いた新生児あやし動作の教示システムsugiuralab
 
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介Yuma Ohgami
 
SOPを理解する 2024/04/19 の勉強会で発表されたものです
SOPを理解する       2024/04/19 の勉強会で発表されたものですSOPを理解する       2024/04/19 の勉強会で発表されたものです
SOPを理解する 2024/04/19 の勉強会で発表されたものですiPride Co., Ltd.
 
TSAL operation mechanism and circuit diagram.pdf
TSAL operation mechanism and circuit diagram.pdfTSAL operation mechanism and circuit diagram.pdf
TSAL operation mechanism and circuit diagram.pdftaisei2219
 
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...Toru Tamaki
 
論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNet論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNetToru Tamaki
 
論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A survey論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A surveyToru Tamaki
 

Recently uploaded (9)

【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
 
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
 
スマートフォンを用いた新生児あやし動作の教示システム
スマートフォンを用いた新生児あやし動作の教示システムスマートフォンを用いた新生児あやし動作の教示システム
スマートフォンを用いた新生児あやし動作の教示システム
 
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
 
SOPを理解する 2024/04/19 の勉強会で発表されたものです
SOPを理解する       2024/04/19 の勉強会で発表されたものですSOPを理解する       2024/04/19 の勉強会で発表されたものです
SOPを理解する 2024/04/19 の勉強会で発表されたものです
 
TSAL operation mechanism and circuit diagram.pdf
TSAL operation mechanism and circuit diagram.pdfTSAL operation mechanism and circuit diagram.pdf
TSAL operation mechanism and circuit diagram.pdf
 
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
 
論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNet論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNet
 
論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A survey論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A survey
 

[DL輪読会]Convolutional Sequence to Sequence Learning

  • 1. DL輪読会 Convolutional Sequence to Sequence Learning 2017/05/19 松尾研究室 M1 中川 ⼤海
  • 2. Agenda 1. Information 2. Introduction 3. Related Works 4. Proposed Model 5. Experiments & Results 6. Conclusion 2
  • 3. 1. Information • Author – Jonas Gehring, Michael Auli, David Grangier, Denis Yarats, Yann N. Dauphin – FAIR(Facebook AI Research) • Submitted for arXiv on 8 May 2017 • Summary • fully convolutionalなseq2seqモデル • GLU, multi-hop attention, residual connectionなどの機構 • GNMTより精度⾼くて9倍くらい早い • 実装がGitHubに上がってます(https://github.com/facebookresearch/fairseq) 3
  • 4. 2. Introduction • 翻訳界隈でGNMT(Google Neural Machine Translation)が話題 – encoder-decoder, bi-directional encoder, attention, LSTMブロック積んでresidual層で勾配消失防ぐ • ⼀⽅、⾃然⾔語処理界隈では最近は並列計算できるCNNを⽤いるモデルが流⾏り – RNN: 並列計算できない、系列が⻑くなると勾配消失しやすい – CNN: 並列計算できるため計算⾼速化が可能、離れた系列間の関係も学習しやすい • これまでもCNNを⽤いた⼿法は数々存在し、以下のような系譜をたどっている 1. 精度は勝てないけど計算は早くなる 2. 限られたデータセットでなら勝てる: [Bradbury et al. (2016), Kalchbrenner et al. (2016)] 3. 多様なデータセットで勝てる: [Gehring et al. (2016), Dauphin et al. (2016)] • not fully convolutional • not generative model like seq2seq 4
  • 5. 3. Related Work: ⾃然⾔語処理におけるタスク • 識別 – language modeling(⾔語モデル) – sentence classification – sentiment analysis – etc • ⽣成 – sequence to sequence learning • 翻訳, 要約 – caption generation – etc 5 • 評価指標 – Accuracy – PPL(Perplexity) • 単語の平均分岐数 • 2(1単語あたりのエントロピー) • どれぐらい単語を特定しにくいか(=⼩さいほどよい) – BLEU(Bilingual Evaluation Understudy) • 正解(プロの翻訳)と予測の類似度的な指標 • ⼤きいほどよい – ...
  • 6. 3. Related Work: GNMT [Wu et al. 2016] • encoder-decoderモデル – encode: 翻訳元の⾔語から潜在状態 – decode: 潜在状態から翻訳先の⾔語へ • ⼀層⽬のみbi-directional encoder – 初めの⽅の単語も⽂脈情報考慮できる – encoderの精度はattentionの効果にも影響 • attention – ⼊⼒系列のどこに注⽬して訳すればよいかまで学習 – 計算時間は増えるが⻑い系列に特に有効 • 各層をresidualに – 出⼒H(x)でなく残差関数F(x)=H(x)-xを学習 – 層を増やしても勾配消失しにくい – ⼊⼒をそのまま出⼒に加算するだけで実装できる 6
  • 7. 3. Related Work: CNNを活⽤した⾃然⾔語処理モデル • Sentence Classification [Kim, 2014] • Character-level Text classification [Zhang et al. 2015] • Quasi-RNN [Bradbury et al. 2016] – LSTMライクにプーリング • その他いろいろあります – http://ksksksks2.hatenadiary.jp/entry/20170122/1485082800 – http://deeplearning.hatenablog.com/entry/neural_machine_translation_theory#seq2seq – https://www.slideshare.net/sheemap/convolutional-neural-netwoks • 計算は⾼速化されるが、LSTMベースより精度が良 かったり悪かったり、有効なデータセットが限られて いたり 7
  • 8. 3. Related Work: CNNを活⽤した⾃然⾔語処理モデル • Language Modeling with Gated CNN [Dauphin et al. 2016] – Gated Linear Unitsをゲート関数として導⼊ – Residual処理 – WikiText-103のタスクでSoTAのPPL – LSTMベースの20倍の速度 8
  • 9. 3. Related Work: CNNを活⽤したNMT • Language Modeling with Gated CNN [Dauphin et al. 2016] – Gated Linear Unitsをゲート関数として導⼊ – “allows the model to select which words or features are relevant to predict the next word.” – それまでの翻訳を踏まえて、その時点で⽂脈の特定の部分に着⽬するか広く⾒るか...などを表すゲート関数を学習できる – tanhベースのゲート関数よりも勾配が消失しにくい 9
  • 10. 4. Proposed Model • やっていること 1. ⼊⼒をembedding→畳み込みしてGLUに通す • decoder側も同様 2. multi-hop attentionを計算 • allow machines to reference different parts of text to build understanding during encoding. 3. attentionつきの⼊⼒とdecoder contextsから予測 10
  • 11. 4. Proposed Model • やっていること 1. ⼊⼒をembedding→畳み込みしてGLUに通す • decoder側も同様 2. multi-hop attentionを計算 • allow machines to reference different parts of text to build understanding during encoding. 3. attentionつきの⼊⼒とdecoder contextsから予測 11
  • 12. 4. Proposed Model • やっていること 1. ⼊⼒をembedding→畳み込みしてGLUに通す • decoder側も同様 2. multi-hop attentionを計算 • allow machines to reference different parts of text to build understanding during encoding. 3. attentionつきの⼊⼒とdecoder contextsから予測 12
  • 13. 4. Proposed Model • やっていること 1. ⼊⼒をembedding→畳み込みしてGLUに通す • decoder側も同様 2. multi-hop attentionを計算 • allow machines to reference different parts of text to build understanding during encoding. 3. attentionつきの⼊⼒とdecoder contextsから予測 13 →もう少し詳しく⾒ていきます
  • 14. 4. Proposed Model • やっていること 1. ⼊⼒をembedding→畳み込みしてGLUに通す • decoder側も同様 • Position Embedding – inputやoutputが⽂のどの部分を扱っているかの情報 14 を によって にembedding。 もconcatenateして とする。
  • 15. 4. Proposed Model • やっていること 1. ⼊⼒をembedding→畳み込みしてGLUに通す • decoder側も同様 • Convolution – 各隠れ層でresidual処理を⾏っている 15 ⼊⼒ベクトル を のカーネルで畳み込んで とする。
  • 16. 4. Proposed Model • やっていること 1. ⼊⼒をembedding→畳み込みしてGLUに通す • decoder側も同様 • Gated Linear Units – σ(B) controls which inputs A of the current context are relevant 16 から へ変換。
  • 17. 4. Proposed Model • やっていること 2. multi-hop attentionを計算 – current decoder state とprevious target element から attention score を求める – decoder state summary とoutput of the last encoder からattention を求める – conditional input を求める 17 z: large input context e: point information zがkey、z+eがvalueとして key-value memory networkのように働くらしい
  • 18. 4. Proposed Model • やっていること 2. multi-hop attentionを計算 – decoder layer はk-1個のattention historyにアクセスできる • に が含まれるため – 過去のattention情報を反映しやすい • RNNだと消失しやすい – https://code.facebook.com/posts/1978007565818999/a- novel-approach-to-neural-machine-translation/ 18
  • 19. 4. Proposed Model • やっていること 3. attentionつきの⼊⼒とdecoder contextsから予測 19
  • 20. 5. Experiments & Results • Translation task – Datasets • WMTʼ16 English-Romanian, WMTʼ14 English-German, WMTʼ14 English-French – Experiment 1: Recurrent vs. Convolutional • LSTMベースのモデルたち, ByteNet, GNMT – Experiment2: Generation speed vs. GNMT – Experiment3: Effect of some architectures 20
  • 21. 5. Experiments & Results • Summarization task – Datasets • Abstractive summarization (Gigaword corpus) – Compare Accuracy with RNN SoTA Models • Shen et al., 2016 • Suzuki & Nagata, 2017 21
  • 22. 5. Results: Translation task • 1. Recurrent vs. Convolutional – いずれのデータセットでも最良のBLEU 22
  • 23. 5. Results: Translation task • 2. Generation speed vs. GNMT – 提案モデルのGPU(K40)でGNMTの GPU(K80)より⾼精度で9.3倍の速さ • K80はK40⼆つ分みたいなもの • “We did not have such a GPU available” – ビームサーチ幅(b)を広げるとスピードは多少落ち るが、BLEUは上がる – CPUはコア数が違うので⽐較できないとのこと 23
  • 24. 5. Results: Translation task • 3. Effect of position embedding – position embeddingはあまり影響なし 24
  • 25. 5. Results: Translation task • 3. Effect of multi-step attention – decoder layer全てにattentionするのが最良 – 計算的なoverheadもほとんどない 25
  • 26. 5. Results: Translation task • 3. Effect of kernel size & depth – 狭く、深くが良い 26 – Encoderは結構深くできる – Decoderはあまり効果なし
  • 27. 5. Results: Summarization task • Accuracy – 勝ってるorそんなに負けてない(らしい) – ⽐較対象のモデルはいろいろspecificな加⼯してる • けど、⼿を加えていない提案モデルでも同じくらいの精度を出せている、とのこと – 提案モデルにも同様の処理はできる(らしい) 27
  • 28. 6. Conclusion • fully convolutionalなseq2seqモデルを提案 – GLU, residual connection, multi-hop attention(, position embedding)などの機構を活⽤ • seq2seqモデルでSoTAな精度&GNMTの9倍の速度を達成した 28
  • 30. 参考⽂献 • Gehring, Jonas, et al. "Convolutional Sequence to Sequence Learning." arXiv preprint arXiv:1705.03122 (2017). • Kim, Yoon. "Convolutional neural networks for sentence classification." arXiv preprint arXiv:1408.5882 (2014). • Zhang, Xiang, Junbo Zhao, and Yann LeCun. "Character-level convolutional networks for text classification." Advances in neural information processing systems. 2015. • Bradbury, James, et al. "Quasi-Recurrent Neural Networks." arXiv preprint arXiv:1611.01576 (2016). • Wu, Yonghui, et al. "Google's Neural Machine Translation System: Bridging the Gap between Human and Machine Translation." arXiv preprint arXiv:1609.08144 (2016). • Dauphin, Yann N., et al. "Language Modeling with Gated Convolutional Networks." arXiv preprint arXiv:1612.08083 (2016). • Shen, Shiqi, et al. "Neural Headline Generation with Sentence-wise Optimization." arXiv preprint arXiv:1604.01904 (2016). • Suzuki, Jun, and Masaaki Nagata. "Cutting-off Redundant Repeating Generations for Neural Abstractive Summarization." EACL 2017 (2017): 291. 30
  • 31. 参考⽂献 • Facebook AI Researchによる説明 – https://code.facebook.com/posts/1978007565818999/a-novel-approach-to-neural-machine-translation/ • NMT⼀般の参考 – http://deeplearning.hatenablog.com/entry/neural_machine_translation_theory#seq2seq • GNMTの解説 – http://smerity.com/articles/2016/google_nmt_arch.html – http://www.yasuhisay.info/entry/2016/11/23/000000 • Residual層の解説 – http://terada-h.hatenablog.com/entry/2016/12/13/192940 • Attentionの解説 – https://www.slideshare.net/yutakikuchi927/deep-learning-nlp-attention – インタラクティブに理解できる→ http://distill.pub/2016/augmented-rnns/ 31