SlideShare a Scribd company logo
1 of 17
Download to read offline
© MERL
MITSUBISHI ELECTRIC RESEARCH LABORATORIES
Cambridge, Massachusetts
◎Tomoki Hayashi (Nagoya Univ.)
Shinji Watanabe (MERL), Takaaki Hori (MERL)
Suyoun Kim (CMU)
形態素解析も辞書も⾔語モデルもいらないend-to-end⾳声認識
© MERL
MITSUBISHI ELECTRIC RESEARCH LABORATORIES
⾳声認識システム
• 系列から系列への変換問題
物理的な信号系列を⾔語的なシンボル系列へとマッピング
2016 2
“出資者は無理難題を”
© MERL
MITSUBISHI ELECTRIC RESEARCH LABORATORIES
従来の⽇本語⾳声認識システム
⾳声特徴量 テキスト : “出資者は無理難題を”
• ⾳響モデル (出⼒確率, GMM→DNN)
• ⾳響モデル (HMM)
– ⾳素からHMMの状態系列へ:
• 発⾳辞書
– 単語から⾳素系列へ:
• 形態素解析
– テキストから単語系列へ:
• ⾔語モデル
2016 3
“出資␣者␣は␣無理␣難題␣を”
“s y u q s i”
“s_1, s_2, s_3”
© MERL
MITSUBISHI ELECTRIC RESEARCH LABORATORIES
従来の⽇本語⾳声認識システムの問題点
• ⾔語的資源が必要
– 形態素解析 / 発⾳辞書
– 未知語を追加するなどのメンテナンスが必要
• ⼤量のモジュールで構成
– ⾮常に複雑
– 局所的に最適化
– それぞれのモジュール間の依存関係を考慮して調整するのが困難
2016 4
© MERL
MITSUBISHI ELECTRIC RESEARCH LABORATORIES
従来の⽇本語⾳声認識システム
⾳声特徴量 テキスト : “出資者は無理難題を”
• ⾳響モデル (出⼒確率, GMM→DNN)
• ⾳響モデル (HMM)
– ⾳素からHMMの状態系列へ:
• 発⾳辞書
– 単語から⾳素系列へ:
• 形態素解析
– テキストから単語系列へ:
• ⾔語モデル
2016 5
“出資␣者␣は␣無理␣難題␣を”
“s y u q s i”
“s_1, s_2, s_3”
© MERL
MITSUBISHI ELECTRIC RESEARCH LABORATORIES
従来の⽇本語⾳声認識システム
⾳声特徴量 テキスト : “出資者は無理難題を”
• ⾳響モデル (出⼒確率, GMM→DNN)
• ⾳響モデル (HMM)
– ⾳素からHMMの状態系列へ:
• 発⾳辞書
– 単語から⾳素系列へ:
• 形態素解析
– テキストから単語系列へ:
• ⾔語モデル
2016 6
“出資␣者␣は␣無理␣難題␣を”
“s y u q s i”
“s_1, s_2, s_3”
“出資␣者␣は␣無理␣難題␣を”
“s y u q s i”
“s_1, s_2, s_3”
Neural Network
© MERL
MITSUBISHI ELECTRIC RESEARCH LABORATORIES
Joint CTC/attention network
2016 7
© MERL
MITSUBISHI ELECTRIC RESEARCH LABORATORIES
Connectionist temporal classification (CTC)
[Graves+(2006), Graves+(2014), Miao+(2015)]
2016 8
• ⽂字系列:
• 冗⻑表現⽂字系列:
• : HMMと同様の形式, forward-backward algorithm
• 発⾳辞書は不要
• 条件付き独⽴の仮定を利⽤
– 1次マルコフ性を仮定, ⻑期の影響を明⽰的に考慮せず
and
aab, abb, a_b,
ab_, _ab
条件付き独⽴の仮定 2
条件付き独⽴の仮定 3
条件付き独⽴の仮定 1
© MERL
MITSUBISHI ELECTRIC RESEARCH LABORATORIES
Attention ASR [Chorowski+(2014), Chan+(2015)]
2016 9
連鎖律
• 条件付き独⽴性の仮定が不要
• 発⾳辞書が不要
• Attention & Encoder: ⾳響モデル
• Decoder: ⾔語モデル
⾳響モデルと⾔語モデルを単⼀の
ネットワークで表現!しかし…
© MERL
MITSUBISHI ELECTRIC RESEARCH LABORATORIES
Attentionによるアライメントの問題
• Attentionモデルはアライメントに
対して⾮常に柔軟
– Attentionは⼊⼒と出⼒の順番
(因果関係)を保証しない
– Attention Encoderの役割が
⾳響モデルの役割を超えている
(機械翻訳の場合はこれは有効)
⇒ Encoderの正則化の導⼊
2016 10
HMM or CTC case
© MERL
MITSUBISHI ELECTRIC RESEARCH LABORATORIES
Joint CTC/Attention network [Kim+(2017)]
2016 11
Multitask learning:
© MERL
MITSUBISHI ELECTRIC RESEARCH LABORATORIES
Joint CTC/Attention network [Kim+(2017)]
2016 12
Multitask learning:
ブラックボックスな
ネットワークに
⾳声認識の知識を組み込み
© MERL
MITSUBISHI ELECTRIC RESEARCH LABORATORIES
実験条件 ⽇本語話し⾔葉コーパス (CSJ)
• ベースラインハイブリッドシステム
– Kaldiレシピバージョン
• fMLLR features, DNN-sMBR, 3-gram LM
• ⾳響モデル:academic lectures (236 hours) で学習
• ⾔語モデル:all transcriptions (581 hours) で学習
– Syllable-based CTC
• fbank (24+Δ+ΔΔ), 5-layer BLSTM (#cell = 320), 4-gram LM
• 発⾳辞書を利⽤した263個の”かな”をCTCに利⽤
• End-to-endシステム
– Joint CTC-Attention
• fbank (24+Δ+ΔΔ), 4-layer BLSTM encoder (#cell = 320),
1 layer LSTM decoder (#cell = 320)
• 漢字/ひらがな/カタカナを含む3315⽂字
• 発⾳辞書なし / ⾔語モデルなし
• Chainerにより実装
2016 13
© MERL
MITSUBISHI ELECTRIC RESEARCH LABORATORIES
学習データ量の影響の調査
2016 14
• MTL (CTC-attention) はどの設定でも性能の向上に貢献
• データが増えれば増えるほど性能が向上
Model(train) CER (task1) CER (task2) CER (task3)
Attention
100k-train (147h) 20.1 14.0 32.7
MTL
100k-train (147h) 16.9 12.7 28.9
Attention
academic-train (236h) 17.2 12.4 25.4
MTL,
academic-train (236h) 13.9 10.2 22.2
Attention
full-train (581h) 11.5 7.9 9.0
MTL
full-train (581h) 10.9 7.8 8.3
© MERL
MITSUBISHI ELECTRIC RESEARCH LABORATORIES
従来⼿法との⽐較
2016 15
• GMM-HMM, DNN-HMM, CTC-syllableは単語単位の
認識結果からCERを計算
• MTL large model:
5-layer BLSTM encoder + 2-layer LSTM decoder
• ハイブリッドモデルに匹敵する性能を達成!
Model(train) CER (task1) CER (task2) CER (task3)
GMM-discr. (236h
for AM, 581h for LM) 11.2 9.2 12.1
DNN-hybrid (236h
for AM, 581h for LM) 9.0 7.2 9.6
CTC-syllable (581h)
9.4 7.3 7.5
MTL, large model
(581h) 9.5 7.0 7.8
© MERL
MITSUBISHI ELECTRIC RESEARCH LABORATORIES
End-to-end ⾳声認識の利点
• ⾔語的知識がほとんど不要
– 簡単に多⾔語ASRシステムを構築可能
• ⽂字レベルベースなら未知語の問題を回避
• ソースコードの総量を⼤幅に削減
16455 lines (Kaldiのメインソース抜き)
→ 2522 lines (Chianerのメインソース抜き)
• 学習時間
GMMの学習:多数のCPUを利⽤して2~3⽇
DNNの学習:多数のCPU+シングルGPUで3~4⽇
→ シングルGPU (Titan X) で7⽇
2016 16
© MERL
MITSUBISHI ELECTRIC RESEARCH LABORATORIES
まとめと今後の課題
2016 17
• Attentionを利⽤することで単⼀のネットワークで⾳響モデルと
⾔語モデルを表現
• マルチタスク学習によりAttention Encoderの役割を⾳響モデル
のみに絞る正則化
• ⾔語的資源なしに⽇本語⾳声認識を実現
現在の問題点
• 未だ⽂字レベルベースの⾳声認識システムであること
(⽇本語や中国語では問題ないが,アルファベットには不適当)
• ⼤量のテキストデータの活⽤⽅法

More Related Content

What's hot

深層学習を利用した音声強調
深層学習を利用した音声強調深層学習を利用した音声強調
深層学習を利用した音声強調Yuma Koizumi
 
論文紹介 Unsupervised training of neural mask-based beamforming
論文紹介 Unsupervised training of neural  mask-based beamforming論文紹介 Unsupervised training of neural  mask-based beamforming
論文紹介 Unsupervised training of neural mask-based beamformingShinnosuke Takamichi
 
ケプストラム正則化NTFによるステレオチャネル楽曲音源分離
ケプストラム正則化NTFによるステレオチャネル楽曲音源分離ケプストラム正則化NTFによるステレオチャネル楽曲音源分離
ケプストラム正則化NTFによるステレオチャネル楽曲音源分離NU_I_TODALAB
 
複数話者WaveNetボコーダに関する調査
複数話者WaveNetボコーダに関する調査複数話者WaveNetボコーダに関する調査
複数話者WaveNetボコーダに関する調査Tomoki Hayashi
 
信号の独立性に基づく多チャンネル音源分離
信号の独立性に基づく多チャンネル音源分離信号の独立性に基づく多チャンネル音源分離
信号の独立性に基づく多チャンネル音源分離NU_I_TODALAB
 
サブバンドフィルタリングに基づくリアルタイム広帯域DNN声質変換の実装と評価
サブバンドフィルタリングに基づくリアルタイム広帯域DNN声質変換の実装と評価サブバンドフィルタリングに基づくリアルタイム広帯域DNN声質変換の実装と評価
サブバンドフィルタリングに基づくリアルタイム広帯域DNN声質変換の実装と評価Shinnosuke Takamichi
 
統計的音声合成変換と近年の発展
統計的音声合成変換と近年の発展統計的音声合成変換と近年の発展
統計的音声合成変換と近年の発展Shinnosuke Takamichi
 
スペクトログラム無矛盾性に基づく独立低ランク行列分析
スペクトログラム無矛盾性に基づく独立低ランク行列分析スペクトログラム無矛盾性に基づく独立低ランク行列分析
スペクトログラム無矛盾性に基づく独立低ランク行列分析Kitamura Laboratory
 
音素事後確率を利用した表現学習に基づく発話感情認識
音素事後確率を利用した表現学習に基づく発話感情認識音素事後確率を利用した表現学習に基づく発話感情認識
音素事後確率を利用した表現学習に基づく発話感情認識NU_I_TODALAB
 
Interspeech2022 参加報告
Interspeech2022 参加報告Interspeech2022 参加報告
Interspeech2022 参加報告Yuki Saito
 
イベント継続長を明示的に制御したBLSTM-HSMMハイブリッドモデルによる多重音響イベント検出
イベント継続長を明示的に制御したBLSTM-HSMMハイブリッドモデルによる多重音響イベント検出イベント継続長を明示的に制御したBLSTM-HSMMハイブリッドモデルによる多重音響イベント検出
イベント継続長を明示的に制御したBLSTM-HSMMハイブリッドモデルによる多重音響イベント検出Tomoki Hayashi
 
統計的手法に基づく異常音検知の理論と応用
統計的手法に基づく異常音検知の理論と応用統計的手法に基づく異常音検知の理論と応用
統計的手法に基づく異常音検知の理論と応用Yuma Koizumi
 
音情報処理における特徴表現
音情報処理における特徴表現音情報処理における特徴表現
音情報処理における特徴表現NU_I_TODALAB
 
時間領域低ランクスペクトログラム近似法に基づくマスキング音声の欠損成分復元
時間領域低ランクスペクトログラム近似法に基づくマスキング音声の欠損成分復元時間領域低ランクスペクトログラム近似法に基づくマスキング音声の欠損成分復元
時間領域低ランクスペクトログラム近似法に基づくマスキング音声の欠損成分復元NU_I_TODALAB
 
工学系大学4年生のための論文の読み方
工学系大学4年生のための論文の読み方工学系大学4年生のための論文の読み方
工学系大学4年生のための論文の読み方ychtanaka
 
実環境音響信号処理における収音技術
実環境音響信号処理における収音技術実環境音響信号処理における収音技術
実環境音響信号処理における収音技術Yuma Koizumi
 
音声の声質を変換する技術とその応用
音声の声質を変換する技術とその応用音声の声質を変換する技術とその応用
音声の声質を変換する技術とその応用NU_I_TODALAB
 
音声合成のコーパスをつくろう
音声合成のコーパスをつくろう音声合成のコーパスをつくろう
音声合成のコーパスをつくろうShinnosuke Takamichi
 

What's hot (20)

深層学習を利用した音声強調
深層学習を利用した音声強調深層学習を利用した音声強調
深層学習を利用した音声強調
 
論文紹介 Unsupervised training of neural mask-based beamforming
論文紹介 Unsupervised training of neural  mask-based beamforming論文紹介 Unsupervised training of neural  mask-based beamforming
論文紹介 Unsupervised training of neural mask-based beamforming
 
ケプストラム正則化NTFによるステレオチャネル楽曲音源分離
ケプストラム正則化NTFによるステレオチャネル楽曲音源分離ケプストラム正則化NTFによるステレオチャネル楽曲音源分離
ケプストラム正則化NTFによるステレオチャネル楽曲音源分離
 
Slp201702
Slp201702Slp201702
Slp201702
 
複数話者WaveNetボコーダに関する調査
複数話者WaveNetボコーダに関する調査複数話者WaveNetボコーダに関する調査
複数話者WaveNetボコーダに関する調査
 
信号の独立性に基づく多チャンネル音源分離
信号の独立性に基づく多チャンネル音源分離信号の独立性に基づく多チャンネル音源分離
信号の独立性に基づく多チャンネル音源分離
 
サブバンドフィルタリングに基づくリアルタイム広帯域DNN声質変換の実装と評価
サブバンドフィルタリングに基づくリアルタイム広帯域DNN声質変換の実装と評価サブバンドフィルタリングに基づくリアルタイム広帯域DNN声質変換の実装と評価
サブバンドフィルタリングに基づくリアルタイム広帯域DNN声質変換の実装と評価
 
統計的音声合成変換と近年の発展
統計的音声合成変換と近年の発展統計的音声合成変換と近年の発展
統計的音声合成変換と近年の発展
 
スペクトログラム無矛盾性に基づく独立低ランク行列分析
スペクトログラム無矛盾性に基づく独立低ランク行列分析スペクトログラム無矛盾性に基づく独立低ランク行列分析
スペクトログラム無矛盾性に基づく独立低ランク行列分析
 
音素事後確率を利用した表現学習に基づく発話感情認識
音素事後確率を利用した表現学習に基づく発話感情認識音素事後確率を利用した表現学習に基づく発話感情認識
音素事後確率を利用した表現学習に基づく発話感情認識
 
音声認識と深層学習
音声認識と深層学習音声認識と深層学習
音声認識と深層学習
 
Interspeech2022 参加報告
Interspeech2022 参加報告Interspeech2022 参加報告
Interspeech2022 参加報告
 
イベント継続長を明示的に制御したBLSTM-HSMMハイブリッドモデルによる多重音響イベント検出
イベント継続長を明示的に制御したBLSTM-HSMMハイブリッドモデルによる多重音響イベント検出イベント継続長を明示的に制御したBLSTM-HSMMハイブリッドモデルによる多重音響イベント検出
イベント継続長を明示的に制御したBLSTM-HSMMハイブリッドモデルによる多重音響イベント検出
 
統計的手法に基づく異常音検知の理論と応用
統計的手法に基づく異常音検知の理論と応用統計的手法に基づく異常音検知の理論と応用
統計的手法に基づく異常音検知の理論と応用
 
音情報処理における特徴表現
音情報処理における特徴表現音情報処理における特徴表現
音情報処理における特徴表現
 
時間領域低ランクスペクトログラム近似法に基づくマスキング音声の欠損成分復元
時間領域低ランクスペクトログラム近似法に基づくマスキング音声の欠損成分復元時間領域低ランクスペクトログラム近似法に基づくマスキング音声の欠損成分復元
時間領域低ランクスペクトログラム近似法に基づくマスキング音声の欠損成分復元
 
工学系大学4年生のための論文の読み方
工学系大学4年生のための論文の読み方工学系大学4年生のための論文の読み方
工学系大学4年生のための論文の読み方
 
実環境音響信号処理における収音技術
実環境音響信号処理における収音技術実環境音響信号処理における収音技術
実環境音響信号処理における収音技術
 
音声の声質を変換する技術とその応用
音声の声質を変換する技術とその応用音声の声質を変換する技術とその応用
音声の声質を変換する技術とその応用
 
音声合成のコーパスをつくろう
音声合成のコーパスをつくろう音声合成のコーパスをつくろう
音声合成のコーパスをつくろう
 

Viewers also liked

ROS JAPAN Users Group Meetup 03
ROS JAPAN Users Group Meetup 03ROS JAPAN Users Group Meetup 03
ROS JAPAN Users Group Meetup 03Daiki Maekawa
 
【2017.01】cvpaper.challenge2017
【2017.01】cvpaper.challenge2017【2017.01】cvpaper.challenge2017
【2017.01】cvpaper.challenge2017cvpaper. challenge
 
画像キャプションの自動生成
画像キャプションの自動生成画像キャプションの自動生成
画像キャプションの自動生成Yoshitaka Ushiku
 
[DL輪読会]Wasserstein GAN/Towards Principled Methods for Training Generative Adv...
[DL輪読会]Wasserstein GAN/Towards Principled Methods for Training Generative Adv...[DL輪読会]Wasserstein GAN/Towards Principled Methods for Training Generative Adv...
[DL輪読会]Wasserstein GAN/Towards Principled Methods for Training Generative Adv...Deep Learning JP
 
ヤフー音声認識サービスでのディープラーニングとGPU利用事例
ヤフー音声認識サービスでのディープラーニングとGPU利用事例ヤフー音声認識サービスでのディープラーニングとGPU利用事例
ヤフー音声認識サービスでのディープラーニングとGPU利用事例Yahoo!デベロッパーネットワーク
 
俺のtensorが全然flowしないのでみんなchainer使おう by DEEPstation
俺のtensorが全然flowしないのでみんなchainer使おう by DEEPstation俺のtensorが全然flowしないのでみんなchainer使おう by DEEPstation
俺のtensorが全然flowしないのでみんなchainer使おう by DEEPstationYusuke HIDESHIMA
 
Introduction to Chainer
Introduction to ChainerIntroduction to Chainer
Introduction to ChainerShunta Saito
 

Viewers also liked (7)

ROS JAPAN Users Group Meetup 03
ROS JAPAN Users Group Meetup 03ROS JAPAN Users Group Meetup 03
ROS JAPAN Users Group Meetup 03
 
【2017.01】cvpaper.challenge2017
【2017.01】cvpaper.challenge2017【2017.01】cvpaper.challenge2017
【2017.01】cvpaper.challenge2017
 
画像キャプションの自動生成
画像キャプションの自動生成画像キャプションの自動生成
画像キャプションの自動生成
 
[DL輪読会]Wasserstein GAN/Towards Principled Methods for Training Generative Adv...
[DL輪読会]Wasserstein GAN/Towards Principled Methods for Training Generative Adv...[DL輪読会]Wasserstein GAN/Towards Principled Methods for Training Generative Adv...
[DL輪読会]Wasserstein GAN/Towards Principled Methods for Training Generative Adv...
 
ヤフー音声認識サービスでのディープラーニングとGPU利用事例
ヤフー音声認識サービスでのディープラーニングとGPU利用事例ヤフー音声認識サービスでのディープラーニングとGPU利用事例
ヤフー音声認識サービスでのディープラーニングとGPU利用事例
 
俺のtensorが全然flowしないのでみんなchainer使おう by DEEPstation
俺のtensorが全然flowしないのでみんなchainer使おう by DEEPstation俺のtensorが全然flowしないのでみんなchainer使おう by DEEPstation
俺のtensorが全然flowしないのでみんなchainer使おう by DEEPstation
 
Introduction to Chainer
Introduction to ChainerIntroduction to Chainer
Introduction to Chainer
 

Similar to 形態素解析も辞書も言語モデルもいらないend-to-end音声認識

イベント区間検出統合型 BLSTM-HMMハイブリッドモデルによる 多重音響イベント検出
イベント区間検出統合型 BLSTM-HMMハイブリッドモデルによる 多重音響イベント検出イベント区間検出統合型 BLSTM-HMMハイブリッドモデルによる 多重音響イベント検出
イベント区間検出統合型 BLSTM-HMMハイブリッドモデルによる 多重音響イベント検出Tomoki Hayashi
 
日本語テキスト音声合成のための句境界予測モデルの検討
日本語テキスト音声合成のための句境界予測モデルの検討日本語テキスト音声合成のための句境界予測モデルの検討
日本語テキスト音声合成のための句境界予測モデルの検討Kosuke Futamata
 
Deep learning for acoustic modeling in parametric speech generation
Deep learning for acoustic modeling in parametric speech generationDeep learning for acoustic modeling in parametric speech generation
Deep learning for acoustic modeling in parametric speech generationYuki Saito
 
ICASSP2017読み会(関東編)・AASP_L3(北村担当分)
ICASSP2017読み会(関東編)・AASP_L3(北村担当分)ICASSP2017読み会(関東編)・AASP_L3(北村担当分)
ICASSP2017読み会(関東編)・AASP_L3(北村担当分)Daichi Kitamura
 
[DL輪読会]QUASI-RECURRENT NEURAL NETWORKS
[DL輪読会]QUASI-RECURRENT NEURAL NETWORKS[DL輪読会]QUASI-RECURRENT NEURAL NETWORKS
[DL輪読会]QUASI-RECURRENT NEURAL NETWORKSDeep Learning JP
 
論文紹介 Star-Transformer (NAACL 2019)
論文紹介 Star-Transformer (NAACL 2019)論文紹介 Star-Transformer (NAACL 2019)
論文紹介 Star-Transformer (NAACL 2019)広樹 本間
 
Jubatusの特徴変換と線形分類器の仕組み
Jubatusの特徴変換と線形分類器の仕組みJubatusの特徴変換と線形分類器の仕組み
Jubatusの特徴変換と線形分類器の仕組みJubatusOfficial
 
(文献紹介)深層学習による動被写体ロバストなカメラの動き推定
(文献紹介)深層学習による動被写体ロバストなカメラの動き推定(文献紹介)深層学習による動被写体ロバストなカメラの動き推定
(文献紹介)深層学習による動被写体ロバストなカメラの動き推定Morpho, Inc.
 

Similar to 形態素解析も辞書も言語モデルもいらないend-to-end音声認識 (10)

イベント区間検出統合型 BLSTM-HMMハイブリッドモデルによる 多重音響イベント検出
イベント区間検出統合型 BLSTM-HMMハイブリッドモデルによる 多重音響イベント検出イベント区間検出統合型 BLSTM-HMMハイブリッドモデルによる 多重音響イベント検出
イベント区間検出統合型 BLSTM-HMMハイブリッドモデルによる 多重音響イベント検出
 
日本語テキスト音声合成のための句境界予測モデルの検討
日本語テキスト音声合成のための句境界予測モデルの検討日本語テキスト音声合成のための句境界予測モデルの検討
日本語テキスト音声合成のための句境界予測モデルの検討
 
Deep learning for acoustic modeling in parametric speech generation
Deep learning for acoustic modeling in parametric speech generationDeep learning for acoustic modeling in parametric speech generation
Deep learning for acoustic modeling in parametric speech generation
 
Paper: seq2seq 20190320
Paper: seq2seq 20190320Paper: seq2seq 20190320
Paper: seq2seq 20190320
 
ICASSP2017読み会(関東編)・AASP_L3(北村担当分)
ICASSP2017読み会(関東編)・AASP_L3(北村担当分)ICASSP2017読み会(関東編)・AASP_L3(北村担当分)
ICASSP2017読み会(関東編)・AASP_L3(北村担当分)
 
[DL輪読会]QUASI-RECURRENT NEURAL NETWORKS
[DL輪読会]QUASI-RECURRENT NEURAL NETWORKS[DL輪読会]QUASI-RECURRENT NEURAL NETWORKS
[DL輪読会]QUASI-RECURRENT NEURAL NETWORKS
 
論文紹介 Star-Transformer (NAACL 2019)
論文紹介 Star-Transformer (NAACL 2019)論文紹介 Star-Transformer (NAACL 2019)
論文紹介 Star-Transformer (NAACL 2019)
 
Ibisml vhmm
Ibisml vhmmIbisml vhmm
Ibisml vhmm
 
Jubatusの特徴変換と線形分類器の仕組み
Jubatusの特徴変換と線形分類器の仕組みJubatusの特徴変換と線形分類器の仕組み
Jubatusの特徴変換と線形分類器の仕組み
 
(文献紹介)深層学習による動被写体ロバストなカメラの動き推定
(文献紹介)深層学習による動被写体ロバストなカメラの動き推定(文献紹介)深層学習による動被写体ロバストなカメラの動き推定
(文献紹介)深層学習による動被写体ロバストなカメラの動き推定
 

形態素解析も辞書も言語モデルもいらないend-to-end音声認識

  • 1. © MERL MITSUBISHI ELECTRIC RESEARCH LABORATORIES Cambridge, Massachusetts ◎Tomoki Hayashi (Nagoya Univ.) Shinji Watanabe (MERL), Takaaki Hori (MERL) Suyoun Kim (CMU) 形態素解析も辞書も⾔語モデルもいらないend-to-end⾳声認識
  • 2. © MERL MITSUBISHI ELECTRIC RESEARCH LABORATORIES ⾳声認識システム • 系列から系列への変換問題 物理的な信号系列を⾔語的なシンボル系列へとマッピング 2016 2 “出資者は無理難題を”
  • 3. © MERL MITSUBISHI ELECTRIC RESEARCH LABORATORIES 従来の⽇本語⾳声認識システム ⾳声特徴量 テキスト : “出資者は無理難題を” • ⾳響モデル (出⼒確率, GMM→DNN) • ⾳響モデル (HMM) – ⾳素からHMMの状態系列へ: • 発⾳辞書 – 単語から⾳素系列へ: • 形態素解析 – テキストから単語系列へ: • ⾔語モデル 2016 3 “出資␣者␣は␣無理␣難題␣を” “s y u q s i” “s_1, s_2, s_3”
  • 4. © MERL MITSUBISHI ELECTRIC RESEARCH LABORATORIES 従来の⽇本語⾳声認識システムの問題点 • ⾔語的資源が必要 – 形態素解析 / 発⾳辞書 – 未知語を追加するなどのメンテナンスが必要 • ⼤量のモジュールで構成 – ⾮常に複雑 – 局所的に最適化 – それぞれのモジュール間の依存関係を考慮して調整するのが困難 2016 4
  • 5. © MERL MITSUBISHI ELECTRIC RESEARCH LABORATORIES 従来の⽇本語⾳声認識システム ⾳声特徴量 テキスト : “出資者は無理難題を” • ⾳響モデル (出⼒確率, GMM→DNN) • ⾳響モデル (HMM) – ⾳素からHMMの状態系列へ: • 発⾳辞書 – 単語から⾳素系列へ: • 形態素解析 – テキストから単語系列へ: • ⾔語モデル 2016 5 “出資␣者␣は␣無理␣難題␣を” “s y u q s i” “s_1, s_2, s_3”
  • 6. © MERL MITSUBISHI ELECTRIC RESEARCH LABORATORIES 従来の⽇本語⾳声認識システム ⾳声特徴量 テキスト : “出資者は無理難題を” • ⾳響モデル (出⼒確率, GMM→DNN) • ⾳響モデル (HMM) – ⾳素からHMMの状態系列へ: • 発⾳辞書 – 単語から⾳素系列へ: • 形態素解析 – テキストから単語系列へ: • ⾔語モデル 2016 6 “出資␣者␣は␣無理␣難題␣を” “s y u q s i” “s_1, s_2, s_3” “出資␣者␣は␣無理␣難題␣を” “s y u q s i” “s_1, s_2, s_3” Neural Network
  • 7. © MERL MITSUBISHI ELECTRIC RESEARCH LABORATORIES Joint CTC/attention network 2016 7
  • 8. © MERL MITSUBISHI ELECTRIC RESEARCH LABORATORIES Connectionist temporal classification (CTC) [Graves+(2006), Graves+(2014), Miao+(2015)] 2016 8 • ⽂字系列: • 冗⻑表現⽂字系列: • : HMMと同様の形式, forward-backward algorithm • 発⾳辞書は不要 • 条件付き独⽴の仮定を利⽤ – 1次マルコフ性を仮定, ⻑期の影響を明⽰的に考慮せず and aab, abb, a_b, ab_, _ab 条件付き独⽴の仮定 2 条件付き独⽴の仮定 3 条件付き独⽴の仮定 1
  • 9. © MERL MITSUBISHI ELECTRIC RESEARCH LABORATORIES Attention ASR [Chorowski+(2014), Chan+(2015)] 2016 9 連鎖律 • 条件付き独⽴性の仮定が不要 • 発⾳辞書が不要 • Attention & Encoder: ⾳響モデル • Decoder: ⾔語モデル ⾳響モデルと⾔語モデルを単⼀の ネットワークで表現!しかし…
  • 10. © MERL MITSUBISHI ELECTRIC RESEARCH LABORATORIES Attentionによるアライメントの問題 • Attentionモデルはアライメントに 対して⾮常に柔軟 – Attentionは⼊⼒と出⼒の順番 (因果関係)を保証しない – Attention Encoderの役割が ⾳響モデルの役割を超えている (機械翻訳の場合はこれは有効) ⇒ Encoderの正則化の導⼊ 2016 10 HMM or CTC case
  • 11. © MERL MITSUBISHI ELECTRIC RESEARCH LABORATORIES Joint CTC/Attention network [Kim+(2017)] 2016 11 Multitask learning:
  • 12. © MERL MITSUBISHI ELECTRIC RESEARCH LABORATORIES Joint CTC/Attention network [Kim+(2017)] 2016 12 Multitask learning: ブラックボックスな ネットワークに ⾳声認識の知識を組み込み
  • 13. © MERL MITSUBISHI ELECTRIC RESEARCH LABORATORIES 実験条件 ⽇本語話し⾔葉コーパス (CSJ) • ベースラインハイブリッドシステム – Kaldiレシピバージョン • fMLLR features, DNN-sMBR, 3-gram LM • ⾳響モデル:academic lectures (236 hours) で学習 • ⾔語モデル:all transcriptions (581 hours) で学習 – Syllable-based CTC • fbank (24+Δ+ΔΔ), 5-layer BLSTM (#cell = 320), 4-gram LM • 発⾳辞書を利⽤した263個の”かな”をCTCに利⽤ • End-to-endシステム – Joint CTC-Attention • fbank (24+Δ+ΔΔ), 4-layer BLSTM encoder (#cell = 320), 1 layer LSTM decoder (#cell = 320) • 漢字/ひらがな/カタカナを含む3315⽂字 • 発⾳辞書なし / ⾔語モデルなし • Chainerにより実装 2016 13
  • 14. © MERL MITSUBISHI ELECTRIC RESEARCH LABORATORIES 学習データ量の影響の調査 2016 14 • MTL (CTC-attention) はどの設定でも性能の向上に貢献 • データが増えれば増えるほど性能が向上 Model(train) CER (task1) CER (task2) CER (task3) Attention 100k-train (147h) 20.1 14.0 32.7 MTL 100k-train (147h) 16.9 12.7 28.9 Attention academic-train (236h) 17.2 12.4 25.4 MTL, academic-train (236h) 13.9 10.2 22.2 Attention full-train (581h) 11.5 7.9 9.0 MTL full-train (581h) 10.9 7.8 8.3
  • 15. © MERL MITSUBISHI ELECTRIC RESEARCH LABORATORIES 従来⼿法との⽐較 2016 15 • GMM-HMM, DNN-HMM, CTC-syllableは単語単位の 認識結果からCERを計算 • MTL large model: 5-layer BLSTM encoder + 2-layer LSTM decoder • ハイブリッドモデルに匹敵する性能を達成! Model(train) CER (task1) CER (task2) CER (task3) GMM-discr. (236h for AM, 581h for LM) 11.2 9.2 12.1 DNN-hybrid (236h for AM, 581h for LM) 9.0 7.2 9.6 CTC-syllable (581h) 9.4 7.3 7.5 MTL, large model (581h) 9.5 7.0 7.8
  • 16. © MERL MITSUBISHI ELECTRIC RESEARCH LABORATORIES End-to-end ⾳声認識の利点 • ⾔語的知識がほとんど不要 – 簡単に多⾔語ASRシステムを構築可能 • ⽂字レベルベースなら未知語の問題を回避 • ソースコードの総量を⼤幅に削減 16455 lines (Kaldiのメインソース抜き) → 2522 lines (Chianerのメインソース抜き) • 学習時間 GMMの学習:多数のCPUを利⽤して2~3⽇ DNNの学習:多数のCPU+シングルGPUで3~4⽇ → シングルGPU (Titan X) で7⽇ 2016 16
  • 17. © MERL MITSUBISHI ELECTRIC RESEARCH LABORATORIES まとめと今後の課題 2016 17 • Attentionを利⽤することで単⼀のネットワークで⾳響モデルと ⾔語モデルを表現 • マルチタスク学習によりAttention Encoderの役割を⾳響モデル のみに絞る正則化 • ⾔語的資源なしに⽇本語⾳声認識を実現 現在の問題点 • 未だ⽂字レベルベースの⾳声認識システムであること (⽇本語や中国語では問題ないが,アルファベットには不適当) • ⼤量のテキストデータの活⽤⽅法