国際会議 interspeech 2020 報告

国際会議Interspeech2020報告

発表者
稲熊寛文（京都大）
音声認識
塩田さやか（都立大）
話者照合
柳田智也（奈良先端大）
音声合成
高道慎之介（東京大）
自己教師あり学習
公開版につき，顔写真を削除しました．

Interspeech2020
● ICASSP と並んで音声系トップカンファレンス
○ 本年度は2103件の投稿から1021件採択 (採択率：49％)
○
● 2020/10/25 ~ 29にかけてオンライン開催 (本来は上海)
○ 1.5分のハイライトビデオと3.5分の質疑応答
○
● 論文は全てオンラインで公開されている
○ https://www.isca-speech.org/iscaweb/index.php/online-archive
○ 以降のスライドで登場する論文の図表は，ここより引用

音声認識
稲熊寛文（京都大学）

所感
● トレンド
○ Transformerモデル
○ Self-training / Pseudo labeling
○ オンラインストリーミング音声認識
○ 非自己回帰end-to-end音声認識
● セッション重複のため，リアルタイムで全ての発表を追うのは難しい
● 会議前に話題になっていた論文の発表に注目が集まっていた印象
● 一学生として：短い発表の中で顔と名前を売るのは難しく感じた

Self-training
● 音声のみで事前学習するCPC [Van den Oord+ 2019] やWav2vec
[Schneider+ 2019] などとは異なり，対象のASRモデルで音声のみのデータ
に対して認識を行う
● 得られたラベルと音声を新たなペアデータとしてデータ拡張
「Improved Noisy Student Training for Automatic Speech Recognition」 (Google)
「Iterative Pseudo-Labeling for Speech Recognition」 (Facebook)
手法（以下2-3を複数回繰り返す）
1. ペアデータで最初のモデルを学習
2. 追加の音声データを言語モデルを使って現在のモデルパラ
メータで認識
3. これを擬似教師ラベルとして元のペアデータと合わせ
，SpecAugmentを使って学習

Self-training
Googleの工夫
● Beam searchのスコアと出力系列長でフィルタリング
● 学習データとトークンの分布が近くなるようにサンプリング
● SpecAugmentの時間方向のマスクサイズをだんだん大きくしていくとgood
ほぼ同様の手法
「Semi-supervised ASR by End-to-End Self-training」(Amazon)
「Semi-Supervised Learning with Data Augmentation for End-to-End ASR」(Nuance)
音声翻訳でも
「Self-Training for End-to-End Speech Translation」(Facebook)
dev-clean dev-other test-clean test-other
Google 1.6 3.4 1.7 3.4
Facebook 1.85 3.26 2.10 4.01

Conformer (Google)
TransformerエンコーダをCNNアーキテクチャで拡張（w/ LAS）
● Multi-head attention (MHA) の後にCNNモジュール追加
● Macaron-styleのFeed-forward layer（MHAをサンドイッチ）
● MHA->CNNの順番がよい
● Relative positional encoding
● 活性化関数をReLUからSwish
現在，多くのフォローアップ論文が登場し，
様々なタスクに応用されている
Gulati et al, “Conformer: Convolution-augmented Transformer for Speech Recognition”

ContextNet (Google)
Globalな情報を捉えるようCNNエンコーダを改良（w/ RNN-T）
● Squeeze-and-excitation (SE) layer
○ 入力全体を1つのベクトルに平均して非線形関数+sigmoidに通し，元の入
力に要素ごとにかける
● Depthwise separable convolutionによるCNNブロック
● パラメータ数 vs WERのトレードオフをチャネルサイズのスケールパラメータで
上手くコントロール可能
Han et al, “ContextNet: Improving Convolutional Neural Networks for Automatic Speech Recognition with Global Context”

Conformer vs ContextNet
精度はほとんど同じ（フォローアップ論文でも同様）
どちらもTransformerライクなlearning rate schedulingなので
，Transformerデコーダと親和性高い（LAS/RNN-Tにも使用可能）
どちらもストリーミング認識に拡張可能で同等の精度 [Yu+ 2020]

オンラインストリーミング音声認識
Two-pass model (Google)
● RNN-T -> Transformerリスコアリング (2nd pass)
● 全トークンを一度で入力できるため，LSTMより高速
ScoutNet (Microsoft)
● Triggered attention [Moritz+ 2019] をフレームレベルの
アライメント情報を用いて改善
● エンコーダで単語境界を推定するように学習
● 推論時，各境界より過去のコンテキストで認識
● トークン出力のレイテンシが抑えられる
Li et al, “Parallel Rescoring with Transformer for Streaming On-Device Speech
Recognition”
Wang et al, “Low Latency End-to-End Streaming Speech Recognition with a Scout
Network”

Diarization+ASR
Serialized output training (Microsoft)
● LASベースのpermutation invariant training (PIT) [Dong+ 2017]を使
わないsingle-channel multi-speaker ASR
● 任意の話者数に適用可能
● 話し始めた順番に話者ごとに認識（話者数をカウント可能）
手法
● 複数話者の仮説をspeaker changeラベル
<sc>でconcat
● 全体の系列の最後にのみ<eos>をつける
● Overlap speechの開始時刻情報を使うことで
のpermutationの計算量を定数に削減
● Attentionの後（separationの後）にさらに
LSTMをスタックすると良い
Kanda et al, “Serialized Output Training for End-to-End Overlapped Speech Recognition”

その他
● All-in-One Transformer (MERL)
○ ASR, audio tagging, acoustic event detectionを1つのTransformerで行
う
○ Audio taggingの精度が改善
Moritz et al, “All-in-One Transformer: Unifying Speech
Recognition, Audio Tagging, and Event Detection”

音声合成
柳田智也（NAIST）

所感
● 音響モデル（Text2melモデル）
○ 自己or非自己回帰Transformer TTSを使用した合成
○ 逐次音声合成(incremental/streaming TTS）の台頭 ←これの話が主
○
● ウェーブネットボコーダ
○ 課題：高速学習/推論・高品質
○ 音声生成モデルや、音響工学の知見を生かしたモデル提案
○ HiNet(位相と振幅をニューラルネットで予測し音声復元)
■ → HiNet + ニューラル残響モデルで収録音声の復元[Ai, et al.]
○ ソース・フィルタモデルの線形時不変フィルタを制御[Liu, et al.]
○
● その他の発表トピック
○ 歌唱合成、韻律モデリング、パラ言語生成、テキスト処理及び評価
○ 大規模多言語複数話者TTSの挑戦、50言語ID＋複数話者ID[Yang, et al.]
[Ai, et al.]Reverberation Modeling for Source-Filter-based Neural Vocoder, Interspeech 2020
[Liu, et al.]Neural Homomorphic Vocoder, Interspeech 2020
[Yang, et al.]Towards Universal Text-to-Speech, Interspeech 2020

[Ma, et al., 2020]テキスト入力中に音声出力
k系列の入力後、音響特徴生成開始
→ 最適な入出力長を決定不可
[Mohan, et al., 2020 Interspeech]入出力長制御に強化学習
→ 環境からの観測で行動を選択し、その行動で環境が変化するモデル
行動を繰り返し、最終的な報酬を最大化する行動を学習
Incremental Text to Speech for Neural Sequence-to-Sequence
Models using Reinforcement Learning
[Ma, et al., 2020]“Incremental Text-to-Speech Synthesis with Prefix-to-Prefix Framework”, (https://arxiv.org/abs/1911.02750)
[Mohan, et al., 2020 Interspeech] Incremental Text to Speech for Neural Sequence-to-Sequence Models using Reinforcement Learning, Interspeech 2020
処理の例
①3単語入力し、1単語目を生成開始
②argmax(注意スコア)が2単語目なら生成停止
③4単語目を入力、①から同様に繰り返す

報酬の設計
報酬は、遅延報酬と品質報酬の話
遅延報酬
① 複数回の連続READで報酬を減少
② 注意行列の平均面積と、基準値（０．５）との差分
→０が最大報酬で、基準値がREADとSPEAKの割合制御
→ 基準値＝1.0の場合、全入力READ後の音響特徴推定が最大報酬（＝０）
品質報酬、０が最大報酬
③ 予測と目標音響特徴とのMSE

アテンション分析
(a,b) 通常の音声合成、２step毎にREAD（READ、SPEAK、READ、SPEAK ...）
必要以上の入力を参照
→ 不必要なREAD有
→ 回避可能な遅延の存在
(c) 3 step毎にSPEAK
不必要なREADを削減
→ 入力の不足
→ 音声品質の低下
(d) 提案法
READ/ SPEAKの制御成功
※灰色部分は利用不可な入力

品質評価と遅延
自然性は、５段階MOS（１：とても悪い～５：とても良い）
明瞭性は、音声認識の単語誤り率（WER）
遅延は、アテンションの平均面積（通常のTTS＝１．０）
提案法は、品質と遅延の制御に成功、
LSTMのみのシンプルな構造、品質の改善余地

その他Interspeech2020 逐次音声合成の発表
[Stephenson, et al.] What the Future Brings: Investigating
the Impact of Lookahead for Incremental Neural TTS
　逐次音声合成の中間表現と、通常TTSとの類似性分析
　2単語の単語先読みで94%の類似性（英語）
[Ellinas, et al.] High Quality Streaming Speech Synthesis
with Low, Sentence-Length-Independent Latency
　CPU用End-to-End逐次音声合成の構築及び遅延評価

話者認識
塩田さやか（所属）

全般
一般セッション: 7
● Speaker recognition I, II
● Learning Techniques for Speaker Recognition I, II
● Speaker Embedding
● DNN Architectures for Speaker Recognition
● Speaker Recognition Challenges and Applications
スペシャルセッション: 3
● Large-Scale Evaluation of Short-Duration Speaker Verification
● The Interspeech 2020 Far Field Speaker Verification Challenge
● The Attacker’s Perspective on Automatic Speaker Verification

傾向
Speaker embedding
● x-vectorベースの手法でロスの変更、ネットワークの変更
● より省データ、より短い話者表現
Short utterance
Raw waveform の使用
Adversarial example への注目
● spoofingとは異なる

Wav2Spk: A Simple DNN Architecture for Learning
Speaker Embeddings from Waveforms
入力特徴量をwaveformに
　　MFCC, VAD, CMVN
→ stacked of stride convolutions (wav2vec),
temporal gating, instance normalization
　　フレーム長30ms, フレームシフト10msに相当
コサイン類似度

Investigating Robustness of Adversarial Samples
Detection for Automatic Speaker Veriﬁcation
敵対的攻撃
データ拡張としての使用が多かった
BIM（FGSMの拡張版）とJSMA 2種類の攻撃
敵対的攻撃検出
VGGベースのネットワーク+MFCC（conv層が必要）

自己教師あり学習
高道慎之介（東京大学）

自己教師あり学習と音声分野の潮流
● 自己教師あり学習
○ 教師のないデータを用いて，データ自らを教師とした表現を獲得
○ 音声音響分野では，これから数年注目を浴びそう
■ ICML2020 Workshop “Self-supervision in audio and speech”
■ Interspeech2020 Special session “New trends in self-supervised
speech processing” ←この発表のメイン
■
● Interspeech2020の発表を分類
○ 他分野の成功を受けて音声に輸入されたもの ←この発表のメイン
○ 音声工学に基づいて独自発展したもの

他分野の自己教師あり学習をそのまま輸入で
きるのか？ → できない．なぜ？
● 系列の分解能が高い (＝系列長が長い)
■ 波形： 16,000サンプル/秒〜．
■
● 各サンプルの値は連続値である
■ 量子化しても2^16 (65536) 段階〜
■
● 任意長の系列である
■ これは自然言語と同じ

Speech-BERT と BERT の
同時ファインチューニング [Siriwardhana20]
● Speech-BERT [Baevski19]
○ 10ms-stride のCNN … ダウンサンプリング
○ Gumbel-softmax … 量子化
○ 処理後は，100サンプル/秒の離散シンボル
■ 自然言語と同様にBERTを学習可能
■ (マスクされた入力を予測する)
■
● 音声情報・言語情報を使う音声感情認識モデルの学習
○ それぞれのCLS (classification) トークンを結合し，shallow fusion
S. Siriwardhana et al.
“Jointly Fine-Tuning “BERT-Like” Self Supervised Models to Improve Multimodal Speech Emotion Recognition,” Interspeech2020.
https://arxiv.org/pdf/1910.05453.pdf
C
L
S
Speech-BERT
C
L
S
BERT
Quantized speech BPE-tokenized text

Speech-XLNet [Song20]
● 前提：BERT から XLNet へ
○ マスクされたトークンの独立予測から自己回帰的予測へ
● Speech-XLNet
○ 基本的にはXLNet と同じだが，トークンは連続値のベクトル
○ Huber loss を採用 (L1/L2ロスはうまく動かなかった)
■ L1とL2ロスの切り替え
X. Song et al., “Speech-XLNet: Unsupervised Acoustic Model Pretraining for Self-Attention Networks,” Interspeech2020.
New York is a
BERT
city
New York is a city
BERTの損失関数 (“New” と “York” を独立に予測)
XLNetの損失関数 (自己回帰的に予測)

Audio Transformer [Liu20] [Yang20]
● Mockingjay [Liu20]：もう一つの音声版BERT
○ Speech BERT: 音声波形 -> 音声を離散化 -> 自然言語と同様に学習
○ Mockingjay: 音声波形 -> 連続値の特徴量に対してL1ロスでBERTを学習
○
● Mockingjay の multi-head attention は何を表している [Yang20]
○ 3つに分類されると報告
○ Global … 全体的な特徴(話者性など)
○ Vertical … 特定の音素の注視
○ Diagonal … 近傍の音素を考慮
S.-w. Yang et al., “Understanding Self-Attention of Self-Supervised Audio Transformers,” Interspeech2020.
A. T. Liu et al., “Mockingjay: Unsupervised speech representation learning with deep bidirectional transformer encoders,” ICASSP2020.

ありがとうございました

国際会議 interspeech 2020 報告

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Similar to 国際会議 interspeech 2020 報告

Similar to 国際会議 interspeech 2020 報告 (20)

More from Shinnosuke Takamichi

More from Shinnosuke Takamichi (20)

国際会議 interspeech 2020 報告