SlideShare a Scribd company logo
1 of 40
Deep Speech 2:
End-to-End Speech
Recognition in English and
Mandarin
Amodei, et al.
ICML2016 読み会 2016/07/21 @ドワンゴセミナールーム
株式会社プリファードインフラストラクチャー
西鳥羽 二郎
自己紹介
 西鳥羽二郎
 株式会社 Preferred Infrastructure
- 製品事業部
- 研究開発
 音声認識
 自然言語処理
 その他諸々
 Twitter ID: jnishi
1
Deep Speech 2: End-to-Endの音声認識
 異なる言語(English, Mandarin), 雑音あるなしに関わらず
変更をほとんど必要としないモデル
 従来の音声認識よりも少ないコンポーネントで構成
 一般の人の書き起こしよりも精度が良い音声認識
 特徴
- 巨大なニューラルネットワークのモデル
- 巨大なデータ
- Deep Learning上の各種最適化
2
パターン認識としての音声認識
3
ニイタカヤマノボレ
音声信号データ
一般的な音声認識の構成
4
音声データ
特徴ベクトル列
音素生起確率
テキスト
スペクトル分析
ケプストラム分析
(Deep) Neural Network
言語モデル
文脈自由文法
状態系列(HMM)
最尤状態系列探索
音声認識は大変
 コンポーネント数が多く、かつそれぞれチューニングを
必要とする
 チューニングを必要とする条件も多い
- 環境の変化(≒データセットの変化)
- 言語の変化
 中国語
 (日本語)
5
Mandarin
 公用中国語
- 中国の中で最もポピュラーな言語
 話者数(Wikipedia調べ)
- 第一言語: 885,000,000 人
- 総話者: 1,365,053,177 人
6
英語と中国語の違い
English Mandarin
文字数(記号除く) 26 6000
文字体系 表音文字 表意文字
語彙の区切り 空白 句読点(?)
7
Deep Speech 2の構成
8
音声データ
特徴ベクトル列
文字生起確率
テキスト
Spectrograms of power
normalized audio clip
Recurrent Neural Network
N-gram言語モデル
Beam Search
特徴抽出
 Spectrograms of power normalized audio clip
1. 音声データをフレーム(通常20ms〜40ms)に分割する
2. 各フレーム毎のデータに離散フーリエ変換を行う
3. Mel filterbankを適用する
 Mel数(人の聴覚特性を反映した数字)を考慮したフィルタ
4. 対数を取る
5. 離散コサイン変換を行う
6. 低い次元から12個抽出する
9
一般的に使われる特徴抽出
 Log Filterbank
1. 音声データをフレーム(通常20ms〜40ms)に分割する
2. 各フレーム毎のデータに離散フーリエ変換を行う
3. Mel filterbankを適用する
 Mel数(人の聴覚特性を反映した数字)を考慮したフィルタ
4. 対数を取る
5. 離散コサイン変換を行う
6. 低い次元から12個抽出する
10
一般的に使われる特徴抽出
 MFCC(Mel Frequency Cepstral Coefficient)
1. 音声データをフレーム(通常20ms〜40ms)に分割する
2. 各フレーム毎のデータに離散フーリエ変換を行う
3. Mel filterbankを適用する
 Mel数(人の聴覚特性を反映した数字)を考慮したフィルタ
4. 対数を取る
5. 離散コサイン変換を行う
6. 低い次元から12個抽出する
11
ニューラルネットワークの構成
12
ニューラルネットワークの構成
13
Convolution層
Convolution層
 1-D: 前後の時間と組み合わせてConvolution
 2-D: 前後の時間及び周波数の組み合わせでのConvolution
14
Convolution層
 1-D: 前後の時間と組み合わせてConvolution
 2-D: 前後の時間及び周波数の組み合わせでのConvolution
 2-Dで3層のConvolution層を用いるのが通常のデータにお
いても雑音環境下のデータにおいても精度が良い
15
ニューラルネットワークの構成
16
Unidirectional GRU
Simple RNNとGRUの比較
 どの構成においてもSimple RNNよりもGRUの方が精度
が良いのでGRUを採用
17
ニューラルネットワークの構成
18
Lookahead
Convolution層
Lookahead Convolution
 Bidirectional GRUは精度面では良いが、online, 低レイテ
ンシでの実行ができない
19
Here W
(6)
k and b
(6)
k denote thek’th column of the weight matrix and k’th bias, respectively.
Oncewehavecomputed aprediction for P(ct |x), wecomputetheCTC loss[13] L(ˆy, y) to me
he error in prediction. During training, we can evaluate the gradient r ˆy L(ˆy, y) with respe
he network outputs given the ground-truth character sequence y. From this point, computin
gradient with respect to all of the model parameters may bedone via back-propagation throug
est of thenetwork. WeuseNesterov’sAccelerated gradient method for training [41].3
t1 t2 tn
どの段階の値を計算するにもt1
からtnのすべての入力が必要
Lookahead Convolution
20
指定したパラメータ(τ)分だけ
先の時刻の出力を用いる
ニューラルネットワークの構成
21
全結合層
ニューラルネットワークの構成
22
CTC損失関数
Connectionist Temporal Classification(CTC)
損失関数
 入力と出力の系列長が違う時に用いられる損失関数
 任意のRNNやLSTM等の出力に適用できる
 blank(空白文字)を導入し、正解文字列を順番に生成する
確率を求める
- CAT
 _C_A_T_
 ____CCCCA___TT
- aab
 a_ab_
 _aa__abb
23
デコーダー
 複数のスコアを組み合わせて最終出力を構成する
- ニューラルネットワークの出力(文字列の生起確率)
- 言語モデルによるスコア
- word count
 単語数(English)
 文字数(Mandarin)
 ビームサーチを行って上記スコアが最大になるような文
章を探索する
24
デコーダーのスコアリング
25
nesecharacters.
At inference time, CTC modelsarepaired awith langua
model trained on abigger corpusof text. Weuseaspeci
ized beam search (Hannun et al., 2014b) to find the tra
scription y that maximizes
Q(y) = log(pRNN(y|x)) + ↵ log(pLM(y)) + βwc(y)
where wc(y) is the number of words (English) or chara
ters (Chinese) in the transcription y. The weight ↵ co
trols the relative contributions of the language model a
theCTCnetwork. Theweight β encouragesmorewords
thetranscription. Theseparameters aretuned on aheld o
トランスクリプション
文字列のスコア
ニューラルネットワークが出
力する文字列の生起確率
言語モデルによるスコア
word count
α, βは学習データに応じて変更する
ニューラルネットワーク学習上の工夫:
Batch Normalization
 Batch Normalization
 SortaGrad
26
(Sequence-wise) Batch Normalization
 正則化に(Sequence-wise) Batch Normalizationを用いる
27
k k
Oncewehavecomputed aprediction for P(ct |x), wecomputetheCTC loss[13] L(ˆy, y) to mea
he error in prediction. During training, we can evaluate the gradient r ˆy L(ˆy, y) with respe
he network outputs given the ground-truth character sequence y. From this point, computing
radient with respect to all of the model parameters may bedone via back-propagation through
est of thenetwork. WeuseNesterov’sAccelerated gradient method for training [41].3
下位層からの入力にのみBatch
Normalizationを適用する
水平方向の入力にはBatch
Normalizationを適用しない
SortaGrad
 Curriculum learning
- CTCの学習初期はblank文字列を出力しがちで損失がとても大き
くなりやすい
- 学習データを系列の長さでソートし、短い音声データから学習
を行う
28
Deep Speech 2 : End-to-End Speech Recognition in English and Mandarin
Architecture Baseline BatchNorm GRU
5-layer, 1 RNN 13.55 14.40 10.53
5-layer, 3 RNN 11.61 10.56 8.00
7-layer, 5 RNN 10.77 9.78 7.79
9-layer, 7 RNN 10.83 9.52 8.19
9-layer, 7 RNN
no SortaGrad 11.96 9.78
Table 1: Comparison of WER on a development set as we
vary depth of RNN, application of BatchNorm and Sorta-
Grad, and type of recurrent hidden unit. All networkshave
50 100 150 200
Iteration (⇥10
20
30
40
50
60
Cost
SortaGradを用いない場合
精度が下がっている
最適化: 並列最適化
 Synchronous SGD
- 各GPUがローカルにデータのコピーを持つ
- ミニバッチの勾配を計算する
- 勾配を共有する
29
最適化: 並列最適化
 Synchronous SGD
- 各GPUがローカルにデータのコピーを持つ
- ミニバッチの勾配を計算する
- 勾配を共有する
30
勾配の共有に時間がかかるせい
でAsynchronous SGDよりも遅
いかも知れないが、扱いやすい
ので採用
最適化: 並列最適化
 Synchronous SGD
- 各GPUがローカルにデータのコピーを持つ
- ミニバッチの勾配を計算する
- 勾配を共有する
31
勾配の共有に時間がかかるせい
でAsynchronous SGDよりも遅
いかも知れないが、扱いやすい
ので採用
All-Reduceの高速化(4x-21x)に
より対応
学習データセット
 English
- 11,940時間
- 800万個の音源データ
 Mandarin
- 9,400時間
- 1,100万個の音源データ
32
学習データセット
33
12000時間までの範囲では学習
データが多ければ多いほど精度
が向上する
実験結果: 評価方法
 各種データに対して以下の方法で比較
- Deep Speech 2の出力
- 人手による聞き取り
 Amazon Mechanical Turkによるクラウドソーシングでの書き起こし
34
実験結果(English)
35
実験結果(Mandarin)
36
Deep Speech 2
 End-to-Endの高精度な音声認識
- 大規模なデータに対応したニューラルネットワークモデル
- 異なる言語、雑音のあるなしにも対応可能
 特徴
- Batch Normalization
- SortaGrad
- GRU
- Frequency Convolution
- Lookahead Convolution and Unidirectional Models
- Synchronous SGD
- Connectionist Temporal Classification
37
補足: Arxiv版
 https://arxiv.org/abs/1512.02595 に掲載されていてICML
版に掲載されていないこと
- Striding (in convolution)
- Language Modeling
- Scalability and Data parallelism
- Memory allocation
- Node and cluster architecture
- GPU Implementation of CTC Loss Function
- Batch Dispatch
- Data Augmentation
- Beam Search
38
Copyright © 2006-2016
Preferred Infrastructure All Right Reserved.

More Related Content

What's hot

What's hot (20)

[DL輪読会]Wav2CLIP: Learning Robust Audio Representations From CLIP
[DL輪読会]Wav2CLIP: Learning Robust Audio Representations From CLIP[DL輪読会]Wav2CLIP: Learning Robust Audio Representations From CLIP
[DL輪読会]Wav2CLIP: Learning Robust Audio Representations From CLIP
 
【メタサーベイ】Video Transformer
 【メタサーベイ】Video Transformer 【メタサーベイ】Video Transformer
【メタサーベイ】Video Transformer
 
[DL輪読会]Vision Transformer with Deformable Attention (Deformable Attention Tra...
[DL輪読会]Vision Transformer with Deformable Attention (Deformable Attention Tra...[DL輪読会]Vision Transformer with Deformable Attention (Deformable Attention Tra...
[DL輪読会]Vision Transformer with Deformable Attention (Deformable Attention Tra...
 
ICASSP 2019での音響信号処理分野の世界動向
ICASSP 2019での音響信号処理分野の世界動向ICASSP 2019での音響信号処理分野の世界動向
ICASSP 2019での音響信号処理分野の世界動向
 
[DL輪読会]Diffusion-based Voice Conversion with Fast Maximum Likelihood Samplin...
[DL輪読会]Diffusion-based Voice Conversion with Fast  Maximum Likelihood Samplin...[DL輪読会]Diffusion-based Voice Conversion with Fast  Maximum Likelihood Samplin...
[DL輪読会]Diffusion-based Voice Conversion with Fast Maximum Likelihood Samplin...
 
深層学習を用いた音源定位、音源分離、クラス分類の統合~環境音セグメンテーション手法の紹介~
深層学習を用いた音源定位、音源分離、クラス分類の統合~環境音セグメンテーション手法の紹介~深層学習を用いた音源定位、音源分離、クラス分類の統合~環境音セグメンテーション手法の紹介~
深層学習を用いた音源定位、音源分離、クラス分類の統合~環境音セグメンテーション手法の紹介~
 
最適輸送入門
最適輸送入門最適輸送入門
最適輸送入門
 
自己教師学習(Self-Supervised Learning)
自己教師学習(Self-Supervised Learning)自己教師学習(Self-Supervised Learning)
自己教師学習(Self-Supervised Learning)
 
統計的音声合成変換と近年の発展
統計的音声合成変換と近年の発展統計的音声合成変換と近年の発展
統計的音声合成変換と近年の発展
 
東京大学2020年度深層学習(Deep learning基礎講座) 第9回「深層学習と自然言語処理」
東京大学2020年度深層学習(Deep learning基礎講座) 第9回「深層学習と自然言語処理」東京大学2020年度深層学習(Deep learning基礎講座) 第9回「深層学習と自然言語処理」
東京大学2020年度深層学習(Deep learning基礎講座) 第9回「深層学習と自然言語処理」
 
Optimizer入門&最新動向
Optimizer入門&最新動向Optimizer入門&最新動向
Optimizer入門&最新動向
 
WaveNetが音声合成研究に与える影響
WaveNetが音声合成研究に与える影響WaveNetが音声合成研究に与える影響
WaveNetが音声合成研究に与える影響
 
[DL輪読会]data2vec: A General Framework for Self-supervised Learning in Speech,...
[DL輪読会]data2vec: A General Framework for  Self-supervised Learning in Speech,...[DL輪読会]data2vec: A General Framework for  Self-supervised Learning in Speech,...
[DL輪読会]data2vec: A General Framework for Self-supervised Learning in Speech,...
 
DNN音響モデルにおける特徴量抽出の諸相
DNN音響モデルにおける特徴量抽出の諸相DNN音響モデルにおける特徴量抽出の諸相
DNN音響モデルにおける特徴量抽出の諸相
 
優れた研究論文の書き方―7つの提案
優れた研究論文の書き方―7つの提案優れた研究論文の書き方―7つの提案
優れた研究論文の書き方―7つの提案
 
実践 Amazon Mechanical Turk ※下記の注意点をご覧ください(回答の質の悪化・報酬額の相場の変化・仕様変更)
実践 Amazon Mechanical Turk ※下記の注意点をご覧ください(回答の質の悪化・報酬額の相場の変化・仕様変更)実践 Amazon Mechanical Turk ※下記の注意点をご覧ください(回答の質の悪化・報酬額の相場の変化・仕様変更)
実践 Amazon Mechanical Turk ※下記の注意点をご覧ください(回答の質の悪化・報酬額の相場の変化・仕様変更)
 
研究効率化Tips Ver.2
研究効率化Tips Ver.2研究効率化Tips Ver.2
研究効率化Tips Ver.2
 
帰納バイアスが成立する条件
帰納バイアスが成立する条件帰納バイアスが成立する条件
帰納バイアスが成立する条件
 
深層学習に基づく音響特徴量からの振幅スペクトログラム予測
深層学習に基づく音響特徴量からの振幅スペクトログラム予測深層学習に基づく音響特徴量からの振幅スペクトログラム予測
深層学習に基づく音響特徴量からの振幅スペクトログラム予測
 
[DL輪読会]Attention Is All You Need
[DL輪読会]Attention Is All You Need[DL輪読会]Attention Is All You Need
[DL輪読会]Attention Is All You Need
 

Viewers also liked

Viewers also liked (17)

論文紹介 Pixel Recurrent Neural Networks
論文紹介 Pixel Recurrent Neural Networks論文紹介 Pixel Recurrent Neural Networks
論文紹介 Pixel Recurrent Neural Networks
 
ICML2016読み会 概要紹介
ICML2016読み会 概要紹介ICML2016読み会 概要紹介
ICML2016読み会 概要紹介
 
Dropout Distillation
Dropout DistillationDropout Distillation
Dropout Distillation
 
Estimating structured vector autoregressive models
Estimating structured vector autoregressive modelsEstimating structured vector autoregressive models
Estimating structured vector autoregressive models
 
Meta-Learning with Memory Augmented Neural Network
Meta-Learning with Memory Augmented Neural NetworkMeta-Learning with Memory Augmented Neural Network
Meta-Learning with Memory Augmented Neural Network
 
Learning Convolutional Neural Networks for Graphs
Learning Convolutional Neural Networks for GraphsLearning Convolutional Neural Networks for Graphs
Learning Convolutional Neural Networks for Graphs
 
GTC17 NVIDIA News
GTC17 NVIDIA NewsGTC17 NVIDIA News
GTC17 NVIDIA News
 
GTC 2017 基調講演からディープラーニング関連情報のご紹介
GTC 2017 基調講演からディープラーニング関連情報のご紹介GTC 2017 基調講演からディープラーニング関連情報のご紹介
GTC 2017 基調講演からディープラーニング関連情報のご紹介
 
HPCとAIをつなぐGPUクラウド
HPCとAIをつなぐGPUクラウドHPCとAIをつなぐGPUクラウド
HPCとAIをつなぐGPUクラウド
 
Facebookの人工知能アルゴリズム「memory networks」について調べてみた
Facebookの人工知能アルゴリズム「memory networks」について調べてみたFacebookの人工知能アルゴリズム「memory networks」について調べてみた
Facebookの人工知能アルゴリズム「memory networks」について調べてみた
 
次世代の AI とディープラーニング GTC 2017
次世代の AI とディープラーニング GTC 2017次世代の AI とディープラーニング GTC 2017
次世代の AI とディープラーニング GTC 2017
 
GTC 2017 さらに発展する AI 革命
GTC 2017 さらに発展する AI 革命GTC 2017 さらに発展する AI 革命
GTC 2017 さらに発展する AI 革命
 
Chainer v2 alpha
Chainer v2 alphaChainer v2 alpha
Chainer v2 alpha
 
NVIDIA GPU 技術最新情報
NVIDIA GPU 技術最新情報NVIDIA GPU 技術最新情報
NVIDIA GPU 技術最新情報
 
激アツ!GPUパワーとインフラの戦い
激アツ!GPUパワーとインフラの戦い激アツ!GPUパワーとインフラの戦い
激アツ!GPUパワーとインフラの戦い
 
ICCV2017一人読み会
ICCV2017一人読み会ICCV2017一人読み会
ICCV2017一人読み会
 
加速するデータドリブンコミュニケーション
加速するデータドリブンコミュニケーション加速するデータドリブンコミュニケーション
加速するデータドリブンコミュニケーション
 

Similar to Icml読み会 deep speech2

インターネット上の高品質な 遠隔コラボレーションに関する研究
インターネット上の高品質な遠隔コラボレーションに関する研究インターネット上の高品質な遠隔コラボレーションに関する研究
インターネット上の高品質な 遠隔コラボレーションに関する研究
Takashi Kishida
 
再帰型ニューラルネット in 機械学習プロフェッショナルシリーズ輪読会
再帰型ニューラルネット in 機械学習プロフェッショナルシリーズ輪読会再帰型ニューラルネット in 機械学習プロフェッショナルシリーズ輪読会
再帰型ニューラルネット in 機械学習プロフェッショナルシリーズ輪読会
Shotaro Sano
 
Learning Deep Architectures for AI (第 3 回 Deep Learning 勉強会資料; 松尾)
Learning Deep Architectures for AI (第 3 回 Deep Learning 勉強会資料; 松尾)Learning Deep Architectures for AI (第 3 回 Deep Learning 勉強会資料; 松尾)
Learning Deep Architectures for AI (第 3 回 Deep Learning 勉強会資料; 松尾)
Ohsawa Goodfellow
 
プロトコル変換ゲートウェイPTGWの 実証実験と評価
プロトコル変換ゲートウェイPTGWの実証実験と評価プロトコル変換ゲートウェイPTGWの実証実験と評価
プロトコル変換ゲートウェイPTGWの 実証実験と評価
Takashi Kishida
 
インターネット上の多目的な 音声伝送システムに関する研究
インターネット上の多目的な音声伝送システムに関する研究インターネット上の多目的な音声伝送システムに関する研究
インターネット上の多目的な 音声伝送システムに関する研究
Takashi Kishida
 

Similar to Icml読み会 deep speech2 (20)

Paper: seq2seq 20190320
Paper: seq2seq 20190320Paper: seq2seq 20190320
Paper: seq2seq 20190320
 
Learning Phrase Representations using RNN Encoder-Decoder for Statistical Mac...
Learning Phrase Representations using RNN Encoder-Decoder for Statistical Mac...Learning Phrase Representations using RNN Encoder-Decoder for Statistical Mac...
Learning Phrase Representations using RNN Encoder-Decoder for Statistical Mac...
 
インターネット上の高品質な 遠隔コラボレーションに関する研究
インターネット上の高品質な遠隔コラボレーションに関する研究インターネット上の高品質な遠隔コラボレーションに関する研究
インターネット上の高品質な 遠隔コラボレーションに関する研究
 
文献紹介:An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale
文献紹介:An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale文献紹介:An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale
文献紹介:An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale
 
再帰型ニューラルネット in 機械学習プロフェッショナルシリーズ輪読会
再帰型ニューラルネット in 機械学習プロフェッショナルシリーズ輪読会再帰型ニューラルネット in 機械学習プロフェッショナルシリーズ輪読会
再帰型ニューラルネット in 機械学習プロフェッショナルシリーズ輪読会
 
全力解説!Transformer
全力解説!Transformer全力解説!Transformer
全力解説!Transformer
 
ADVENTUREの他のモジュール・関連プロジェクトの紹介
ADVENTUREの他のモジュール・関連プロジェクトの紹介ADVENTUREの他のモジュール・関連プロジェクトの紹介
ADVENTUREの他のモジュール・関連プロジェクトの紹介
 
Learning Deep Architectures for AI (第 3 回 Deep Learning 勉強会資料; 松尾)
Learning Deep Architectures for AI (第 3 回 Deep Learning 勉強会資料; 松尾)Learning Deep Architectures for AI (第 3 回 Deep Learning 勉強会資料; 松尾)
Learning Deep Architectures for AI (第 3 回 Deep Learning 勉強会資料; 松尾)
 
[DL輪読会]Pervasive Attention: 2D Convolutional Neural Networks for Sequence-to-...
[DL輪読会]Pervasive Attention: 2D Convolutional Neural Networks for Sequence-to-...[DL輪読会]Pervasive Attention: 2D Convolutional Neural Networks for Sequence-to-...
[DL輪読会]Pervasive Attention: 2D Convolutional Neural Networks for Sequence-to-...
 
エヌビディアが加速するディープラーニング ~進化するニューラルネットワークとその開発方法について~
エヌビディアが加速するディープラーニング ~進化するニューラルネットワークとその開発方法について~エヌビディアが加速するディープラーニング ~進化するニューラルネットワークとその開発方法について~
エヌビディアが加速するディープラーニング ~進化するニューラルネットワークとその開発方法について~
 
プロトコル変換ゲートウェイPTGWの 実証実験と評価
プロトコル変換ゲートウェイPTGWの実証実験と評価プロトコル変換ゲートウェイPTGWの実証実験と評価
プロトコル変換ゲートウェイPTGWの 実証実験と評価
 
論文紹介:「End-to-end Sequence Labeling via Bi-directional LSTM-CNNs-CRF」
論文紹介:「End-to-end Sequence Labeling via Bi-directional LSTM-CNNs-CRF」論文紹介:「End-to-end Sequence Labeling via Bi-directional LSTM-CNNs-CRF」
論文紹介:「End-to-end Sequence Labeling via Bi-directional LSTM-CNNs-CRF」
 
押さえておきたい、PostgreSQL 13 の新機能!!(Open Source Conference 2021 Online/Hokkaido 発表資料)
押さえておきたい、PostgreSQL 13 の新機能!!(Open Source Conference 2021 Online/Hokkaido 発表資料)押さえておきたい、PostgreSQL 13 の新機能!!(Open Source Conference 2021 Online/Hokkaido 発表資料)
押さえておきたい、PostgreSQL 13 の新機能!!(Open Source Conference 2021 Online/Hokkaido 発表資料)
 
インターネット上の多目的な 音声伝送システムに関する研究
インターネット上の多目的な音声伝送システムに関する研究インターネット上の多目的な音声伝送システムに関する研究
インターネット上の多目的な 音声伝送システムに関する研究
 
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
 
Deep Learningについて(改訂版)
Deep Learningについて(改訂版)Deep Learningについて(改訂版)
Deep Learningについて(改訂版)
 
CluBERT: A Cluster-Based Approach for Learning Sense Distributions in Multipl...
CluBERT: A Cluster-Based Approach for Learning Sense Distributions in Multipl...CluBERT: A Cluster-Based Approach for Learning Sense Distributions in Multipl...
CluBERT: A Cluster-Based Approach for Learning Sense Distributions in Multipl...
 
End-to-End音声認識ためのMulti-Head Decoderネットワーク
End-to-End音声認識ためのMulti-Head DecoderネットワークEnd-to-End音声認識ためのMulti-Head Decoderネットワーク
End-to-End音声認識ためのMulti-Head Decoderネットワーク
 
ディープラーニングフレームワーク とChainerの実装
ディープラーニングフレームワーク とChainerの実装ディープラーニングフレームワーク とChainerの実装
ディープラーニングフレームワーク とChainerの実装
 
ACL2020
ACL2020ACL2020
ACL2020
 

More from Jiro Nishitoba

More from Jiro Nishitoba (12)

20190509 gnn public
20190509 gnn public20190509 gnn public
20190509 gnn public
 
Retrieva seminar jelinek_20180822
Retrieva seminar jelinek_20180822Retrieva seminar jelinek_20180822
Retrieva seminar jelinek_20180822
 
20180609 chainer meetup_es_pnet
20180609 chainer meetup_es_pnet20180609 chainer meetup_es_pnet
20180609 chainer meetup_es_pnet
 
全体セミナー20180124 final
全体セミナー20180124 final全体セミナー20180124 final
全体セミナー20180124 final
 
深層学習による自然言語処理勉強会2章前半
深層学習による自然言語処理勉強会2章前半深層学習による自然言語処理勉強会2章前半
深層学習による自然言語処理勉強会2章前半
 
深層学習による自然言語処理勉強会3章前半
深層学習による自然言語処理勉強会3章前半深層学習による自然言語処理勉強会3章前半
深層学習による自然言語処理勉強会3章前半
 
全体セミナー20170629
全体セミナー20170629全体セミナー20170629
全体セミナー20170629
 
Hessian free
Hessian freeHessian free
Hessian free
 
ChainerでDeep Learningを試す為に必要なこと
ChainerでDeep Learningを試す為に必要なことChainerでDeep Learningを試す為に必要なこと
ChainerでDeep Learningを試す為に必要なこと
 
全体セミナーWfst
全体セミナーWfst全体セミナーWfst
全体セミナーWfst
 
Emnlp読み会資料
Emnlp読み会資料Emnlp読み会資料
Emnlp読み会資料
 
Chainer meetup20151014
Chainer meetup20151014Chainer meetup20151014
Chainer meetup20151014
 

Recently uploaded

Recently uploaded (12)

論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
 
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
 
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
 
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
 
新人研修 後半 2024/04/26の勉強会で発表されたものです。
新人研修 後半        2024/04/26の勉強会で発表されたものです。新人研修 後半        2024/04/26の勉強会で発表されたものです。
新人研修 後半 2024/04/26の勉強会で発表されたものです。
 
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアルLoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
 
Utilizing Ballerina for Cloud Native Integrations
Utilizing Ballerina for Cloud Native IntegrationsUtilizing Ballerina for Cloud Native Integrations
Utilizing Ballerina for Cloud Native Integrations
 
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
 
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
 
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
LoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイスLoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイス
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
 
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
 
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
 

Icml読み会 deep speech2