Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

形態素解析も辞書も言語モデルもいらないend-to-end音声認識

5,328 views

Published on

2017年春季研究発表会の発表資料です.
邦題: 形態素解析も辞書も言語モデルもいらないend-to-end音声認識
英題: End-to-end Japanese ASR without using morphological analyzer, pronunciation dictionary and language model

Published in: Data & Analytics
  • Login to see the comments

形態素解析も辞書も言語モデルもいらないend-to-end音声認識

  1. 1. © MERL MITSUBISHI ELECTRIC RESEARCH LABORATORIES Cambridge, Massachusetts ◎Tomoki Hayashi (Nagoya Univ.) Shinji Watanabe (MERL), Takaaki Hori (MERL) Suyoun Kim (CMU) 形態素解析も辞書も⾔語モデルもいらないend-to-end⾳声認識
  2. 2. © MERL MITSUBISHI ELECTRIC RESEARCH LABORATORIES ⾳声認識システム • 系列から系列への変換問題 物理的な信号系列を⾔語的なシンボル系列へとマッピング 2016 2 “出資者は無理難題を”
  3. 3. © MERL MITSUBISHI ELECTRIC RESEARCH LABORATORIES 従来の⽇本語⾳声認識システム ⾳声特徴量 テキスト : “出資者は無理難題を” • ⾳響モデル (出⼒確率, GMM→DNN) • ⾳響モデル (HMM) – ⾳素からHMMの状態系列へ: • 発⾳辞書 – 単語から⾳素系列へ: • 形態素解析 – テキストから単語系列へ: • ⾔語モデル 2016 3 “出資␣者␣は␣無理␣難題␣を” “s y u q s i” “s_1, s_2, s_3”
  4. 4. © MERL MITSUBISHI ELECTRIC RESEARCH LABORATORIES 従来の⽇本語⾳声認識システムの問題点 • ⾔語的資源が必要 – 形態素解析 / 発⾳辞書 – 未知語を追加するなどのメンテナンスが必要 • ⼤量のモジュールで構成 – ⾮常に複雑 – 局所的に最適化 – それぞれのモジュール間の依存関係を考慮して調整するのが困難 2016 4
  5. 5. © MERL MITSUBISHI ELECTRIC RESEARCH LABORATORIES 従来の⽇本語⾳声認識システム ⾳声特徴量 テキスト : “出資者は無理難題を” • ⾳響モデル (出⼒確率, GMM→DNN) • ⾳響モデル (HMM) – ⾳素からHMMの状態系列へ: • 発⾳辞書 – 単語から⾳素系列へ: • 形態素解析 – テキストから単語系列へ: • ⾔語モデル 2016 5 “出資␣者␣は␣無理␣難題␣を” “s y u q s i” “s_1, s_2, s_3”
  6. 6. © MERL MITSUBISHI ELECTRIC RESEARCH LABORATORIES 従来の⽇本語⾳声認識システム ⾳声特徴量 テキスト : “出資者は無理難題を” • ⾳響モデル (出⼒確率, GMM→DNN) • ⾳響モデル (HMM) – ⾳素からHMMの状態系列へ: • 発⾳辞書 – 単語から⾳素系列へ: • 形態素解析 – テキストから単語系列へ: • ⾔語モデル 2016 6 “出資␣者␣は␣無理␣難題␣を” “s y u q s i” “s_1, s_2, s_3” “出資␣者␣は␣無理␣難題␣を” “s y u q s i” “s_1, s_2, s_3” Neural Network
  7. 7. © MERL MITSUBISHI ELECTRIC RESEARCH LABORATORIES Joint CTC/attention network 2016 7
  8. 8. © MERL MITSUBISHI ELECTRIC RESEARCH LABORATORIES Connectionist temporal classification (CTC) [Graves+(2006), Graves+(2014), Miao+(2015)] 2016 8 • ⽂字系列: • 冗⻑表現⽂字系列: • : HMMと同様の形式, forward-backward algorithm • 発⾳辞書は不要 • 条件付き独⽴の仮定を利⽤ – 1次マルコフ性を仮定, ⻑期の影響を明⽰的に考慮せず and aab, abb, a_b, ab_, _ab 条件付き独⽴の仮定 2 条件付き独⽴の仮定 3 条件付き独⽴の仮定 1
  9. 9. © MERL MITSUBISHI ELECTRIC RESEARCH LABORATORIES Attention ASR [Chorowski+(2014), Chan+(2015)] 2016 9 連鎖律 • 条件付き独⽴性の仮定が不要 • 発⾳辞書が不要 • Attention & Encoder: ⾳響モデル • Decoder: ⾔語モデル ⾳響モデルと⾔語モデルを単⼀の ネットワークで表現!しかし…
  10. 10. © MERL MITSUBISHI ELECTRIC RESEARCH LABORATORIES Attentionによるアライメントの問題 • Attentionモデルはアライメントに 対して⾮常に柔軟 – Attentionは⼊⼒と出⼒の順番 (因果関係)を保証しない – Attention Encoderの役割が ⾳響モデルの役割を超えている (機械翻訳の場合はこれは有効) ⇒ Encoderの正則化の導⼊ 2016 10 HMM or CTC case
  11. 11. © MERL MITSUBISHI ELECTRIC RESEARCH LABORATORIES Joint CTC/Attention network [Kim+(2017)] 2016 11 Multitask learning:
  12. 12. © MERL MITSUBISHI ELECTRIC RESEARCH LABORATORIES Joint CTC/Attention network [Kim+(2017)] 2016 12 Multitask learning: ブラックボックスな ネットワークに ⾳声認識の知識を組み込み
  13. 13. © MERL MITSUBISHI ELECTRIC RESEARCH LABORATORIES 実験条件 ⽇本語話し⾔葉コーパス (CSJ) • ベースラインハイブリッドシステム – Kaldiレシピバージョン • fMLLR features, DNN-sMBR, 3-gram LM • ⾳響モデル:academic lectures (236 hours) で学習 • ⾔語モデル:all transcriptions (581 hours) で学習 – Syllable-based CTC • fbank (24+Δ+ΔΔ), 5-layer BLSTM (#cell = 320), 4-gram LM • 発⾳辞書を利⽤した263個の”かな”をCTCに利⽤ • End-to-endシステム – Joint CTC-Attention • fbank (24+Δ+ΔΔ), 4-layer BLSTM encoder (#cell = 320), 1 layer LSTM decoder (#cell = 320) • 漢字/ひらがな/カタカナを含む3315⽂字 • 発⾳辞書なし / ⾔語モデルなし • Chainerにより実装 2016 13
  14. 14. © MERL MITSUBISHI ELECTRIC RESEARCH LABORATORIES 学習データ量の影響の調査 2016 14 • MTL (CTC-attention) はどの設定でも性能の向上に貢献 • データが増えれば増えるほど性能が向上 Model(train) CER (task1) CER (task2) CER (task3) Attention 100k-train (147h) 20.1 14.0 32.7 MTL 100k-train (147h) 16.9 12.7 28.9 Attention academic-train (236h) 17.2 12.4 25.4 MTL, academic-train (236h) 13.9 10.2 22.2 Attention full-train (581h) 11.5 7.9 9.0 MTL full-train (581h) 10.9 7.8 8.3
  15. 15. © MERL MITSUBISHI ELECTRIC RESEARCH LABORATORIES 従来⼿法との⽐較 2016 15 • GMM-HMM, DNN-HMM, CTC-syllableは単語単位の 認識結果からCERを計算 • MTL large model: 5-layer BLSTM encoder + 2-layer LSTM decoder • ハイブリッドモデルに匹敵する性能を達成! Model(train) CER (task1) CER (task2) CER (task3) GMM-discr. (236h for AM, 581h for LM) 11.2 9.2 12.1 DNN-hybrid (236h for AM, 581h for LM) 9.0 7.2 9.6 CTC-syllable (581h) 9.4 7.3 7.5 MTL, large model (581h) 9.5 7.0 7.8
  16. 16. © MERL MITSUBISHI ELECTRIC RESEARCH LABORATORIES End-to-end ⾳声認識の利点 • ⾔語的知識がほとんど不要 – 簡単に多⾔語ASRシステムを構築可能 • ⽂字レベルベースなら未知語の問題を回避 • ソースコードの総量を⼤幅に削減 16455 lines (Kaldiのメインソース抜き) → 2522 lines (Chianerのメインソース抜き) • 学習時間 GMMの学習:多数のCPUを利⽤して2~3⽇ DNNの学習:多数のCPU+シングルGPUで3~4⽇ → シングルGPU (Titan X) で7⽇ 2016 16
  17. 17. © MERL MITSUBISHI ELECTRIC RESEARCH LABORATORIES まとめと今後の課題 2016 17 • Attentionを利⽤することで単⼀のネットワークで⾳響モデルと ⾔語モデルを表現 • マルチタスク学習によりAttention Encoderの役割を⾳響モデル のみに絞る正則化 • ⾔語的資源なしに⽇本語⾳声認識を実現 現在の問題点 • 未だ⽂字レベルベースの⾳声認識システムであること (⽇本語や中国語では問題ないが,アルファベットには不適当) • ⼤量のテキストデータの活⽤⽅法

×