SlideShare a Scribd company logo
1 of 32
Download to read offline
国際会議Interspeech2020報告
発表者
稲熊 寛文 (京都大)
音声認識
塩田 さやか (都立大)
話者照合
柳田 智也 (奈良先端大)
音声合成
高道 慎之介 (東京大)
自己教師あり学習
公開版につき,顔写真を削除しました.
Interspeech2020
● ICASSP と並んで音声系トップカンファレンス
○ 本年度は2103件の投稿から1021件採択 (採択率:49%)
○
● 2020/10/25 ~ 29にかけてオンライン開催 (本来は上海)
○ 1.5分のハイライトビデオと3.5分の質疑応答
○
● 論文は全てオンラインで公開されている
○ https://www.isca-speech.org/iscaweb/index.php/online-archive
○ 以降のスライドで登場する論文の図表は,ここより引用
音声認識
稲熊寛文 (京都大学)
所感
● トレンド
○ Transformerモデル
○ Self-training / Pseudo labeling
○ オンラインストリーミング音声認識
○ 非自己回帰end-to-end音声認識
● セッション重複のため,リアルタイムで全ての発表を追うのは難しい
● 会議前に話題になっていた論文の発表に注目が集まっていた印象
● 一学生として:短い発表の中で顔と名前を売るのは難しく感じた
Self-training
● 音声のみで事前学習するCPC [Van den Oord+ 2019] やWav2vec
[Schneider+ 2019] などとは異なり,対象のASRモデルで音声のみのデータ
に対して認識を行う
● 得られたラベルと音声を新たなペアデータとしてデータ拡張
「Improved Noisy Student Training for Automatic Speech Recognition」 (Google)
「Iterative Pseudo-Labeling for Speech Recognition」 (Facebook)
手法(以下2-3を複数回繰り返す)
1. ペアデータで最初のモデルを学習
2. 追加の音声データを言語モデルを使って現在のモデルパラ
メータで認識
3. これを擬似教師ラベルとして元のペアデータと合わせ
,SpecAugmentを使って学習
Self-training
Googleの工夫
● Beam searchのスコアと出力系列長でフィルタリング
● 学習データとトークンの分布が近くなるようにサンプリング
● SpecAugmentの時間方向のマスクサイズをだんだん大きくしていくとgood
ほぼ同様の手法
「Semi-supervised ASR by End-to-End Self-training」(Amazon)
「Semi-Supervised Learning with Data Augmentation for End-to-End ASR」(Nuance)
音声翻訳でも
「Self-Training for End-to-End Speech Translation」(Facebook)
dev-clean dev-other test-clean test-other
Google 1.6 3.4 1.7 3.4
Facebook 1.85 3.26 2.10 4.01
Conformer (Google)
TransformerエンコーダをCNNアーキテクチャで拡張(w/ LAS)
● Multi-head attention (MHA) の後にCNNモジュール追加
● Macaron-styleのFeed-forward layer(MHAをサンドイッチ)
● MHA->CNNの順番がよい
● Relative positional encoding
● 活性化関数をReLUからSwish
現在,多くのフォローアップ論文が登場し,
様々なタスクに応用されている
Gulati et al, “Conformer: Convolution-augmented Transformer for Speech Recognition”
ContextNet (Google)
Globalな情報を捉えるようCNNエンコーダを改良(w/ RNN-T)
● Squeeze-and-excitation (SE) layer
○ 入力全体を1つのベクトルに平均して非線形関数+sigmoidに通し,元の入
力に要素ごとにかける
● Depthwise separable convolutionによるCNNブロック
● パラメータ数 vs WERのトレードオフをチャネルサイズのスケールパラメータで
上手くコントロール可能
Han et al, “ContextNet: Improving Convolutional Neural Networks for Automatic Speech Recognition with Global Context”
Conformer vs ContextNet
精度はほとんど同じ(フォローアップ論文でも同様)
どちらもTransformerライクなlearning rate schedulingなので
,Transformerデコーダと親和性高い(LAS/RNN-Tにも使用可能)
どちらもストリーミング認識に拡張可能で同等の精度 [Yu+ 2020]
オンラインストリーミング音声認識
Two-pass model (Google)
● RNN-T -> Transformerリスコアリング (2nd pass)
● 全トークンを一度で入力できるため,LSTMより高速
ScoutNet (Microsoft)
● Triggered attention [Moritz+ 2019] をフレームレベルの
アライメント情報を用いて改善
● エンコーダで単語境界を推定するように学習
● 推論時,各境界より過去のコンテキストで認識
● トークン出力のレイテンシが抑えられる
Li et al, “Parallel Rescoring with Transformer for Streaming On-Device Speech
Recognition”
Wang et al, “Low Latency End-to-End Streaming Speech Recognition with a Scout
Network”
Diarization+ASR
Serialized output training (Microsoft)
● LASベースのpermutation invariant training (PIT) [Dong+ 2017]を使
わないsingle-channel multi-speaker ASR
● 任意の話者数に適用可能
● 話し始めた順番に話者ごとに認識(話者数をカウント可能)
手法
● 複数話者の仮説をspeaker changeラベル
<sc>でconcat
● 全体の系列の最後にのみ<eos>をつける
● Overlap speechの開始時刻情報を使うことで
のpermutationの計算量を定数に削減
● Attentionの後(separationの後)にさらに
LSTMをスタックすると良い
Kanda et al, “Serialized Output Training for End-to-End Overlapped Speech Recognition”
その他
● All-in-One Transformer (MERL)
○ ASR, audio tagging, acoustic event detectionを1つのTransformerで行
う
○ Audio taggingの精度が改善
Moritz et al, “All-in-One Transformer: Unifying Speech
Recognition, Audio Tagging, and Event Detection”
音声合成
柳田智也(NAIST)
所感
● 音響モデル(Text2melモデル)
○ 自己or非自己 回帰Transformer TTSを使用した合成
○ 逐次音声合成(incremental/streaming TTS)の台頭 ←これの話が主
○
● ウェーブネットボコーダ
○ 課題:高速学習/推論・高品質
○ 音声生成モデルや、音響工学の知見を生かしたモデル提案
○ HiNet(位相と振幅をニューラルネットで予測し音声復元)
■ → HiNet + ニューラル残響モデルで収録音声の復元[Ai, et al.]
○ ソース・フィルタモデルの線形時不変フィルタを制御[Liu, et al.]
○
● その他の発表トピック
○ 歌唱合成、韻律モデリング、パラ言語生成、テキスト処理及び評価
○ 大規模多言語複数話者TTSの挑戦、50言語ID+複数話者ID[Yang, et al.]
[Ai, et al.]Reverberation Modeling for Source-Filter-based Neural Vocoder, Interspeech 2020
[Liu, et al.]Neural Homomorphic Vocoder, Interspeech 2020
[Yang, et al.]Towards Universal Text-to-Speech, Interspeech 2020
[Ma, et al., 2020]テキスト入力中に音声出力
k系列の入力後、音響特徴生成開始
→ 最適な入出力長を決定不可
[Mohan, et al., 2020 Interspeech]入出力長制御に強化学習
→ 環境からの観測で行動を選択し、その行動で環境が変化するモデル
行動を繰り返し、最終的な報酬を最大化する行動を学習
Incremental Text to Speech for Neural Sequence-to-Sequence
Models using Reinforcement Learning
[Ma, et al., 2020]“Incremental Text-to-Speech Synthesis with Prefix-to-Prefix Framework”, (https://arxiv.org/abs/1911.02750)
[Mohan, et al., 2020 Interspeech] Incremental Text to Speech for Neural Sequence-to-Sequence Models using Reinforcement Learning, Interspeech 2020
処理の例
①3単語入力し、1単語目を生成開始
②argmax(注意スコア)が2単語目なら生成停止
③4単語目を入力、①から同様に繰り返す
報酬の設計
報酬は、遅延報酬と品質報酬の話
遅延報酬
① 複数回の連続READで報酬を減少
② 注意行列の平均面積と、基準値(0.5)との差分
→0が最大報酬で、基準値がREADとSPEAKの割合制御
→ 基準値=1.0の場合、全入力READ後の音響特徴推定が最大報酬(=0)
品質報酬、 0が最大報酬
③ 予測と目標音響特徴とのMSE
アテンション分析
(a,b) 通常の音声合成、2step毎にREAD(READ、SPEAK、READ、SPEAK ...)
必要以上の入力を参照
→ 不必要なREAD有
→ 回避可能な遅延の存在
(c) 3 step毎にSPEAK
不必要なREADを削減
→ 入力の不足
→ 音声品質の低下
(d) 提案法
READ/ SPEAKの制御成功
※灰色部分は利用不可な入力
品質評価と遅延
自然性は、5段階MOS(1:とても悪い~5:とても良い)
明瞭性は、音声認識の単語誤り率(WER)
遅延は、アテンションの平均面積(通常のTTS=1.0)
提案法は、品質と遅延の制御に成功、
LSTMのみのシンプルな構造、品質の改善余地
その他Interspeech2020 逐次音声合成の発表
[Stephenson, et al.] What the Future Brings: Investigating
the Impact of Lookahead for Incremental Neural TTS
 逐次音声合成の中間表現と、通常TTSとの類似性分析
 2単語の単語先読みで94%の類似性(英語)
[Ellinas, et al.] High Quality Streaming Speech Synthesis
with Low, Sentence-Length-Independent Latency
 CPU用End-to-End逐次音声合成の構築及び遅延評価
 
話者認識
塩田さやか (所属)
全般
一般セッション: 7
● Speaker recognition I, II
● Learning Techniques for Speaker Recognition I, II
● Speaker Embedding
● DNN Architectures for Speaker Recognition
● Speaker Recognition Challenges and Applications
スペシャルセッション: 3
● Large-Scale Evaluation of Short-Duration Speaker Verification
● The Interspeech 2020 Far Field Speaker Verification Challenge
● The Attacker’s Perspective on Automatic Speaker Verification
傾向
Speaker embedding
● x-vectorベースの手法でロスの変更、ネットワークの変更
● より省データ、より短い話者表現
Short utterance
Raw waveform の使用
Adversarial example への注目
● spoofingとは異なる
Wav2Spk: A Simple DNN Architecture for Learning
Speaker Embeddings from Waveforms
入力特徴量をwaveformに
  MFCC, VAD, CMVN
→ stacked of stride convolutions (wav2vec),
temporal gating, instance normalization
   フレーム長30ms, フレームシフト10msに相当
コサイン類似度
Investigating Robustness of Adversarial Samples
Detection for Automatic Speaker Verification
敵対的攻撃
データ拡張としての使用が多かった
BIM(FGSMの拡張版)とJSMA 2種類の攻撃
敵対的攻撃検出
VGGベースのネットワーク+MFCC(conv層が必要)
自己教師あり学習
高道 慎之介 (東京大学)
自己教師あり学習と音声分野の潮流
● 自己教師あり学習
○ 教師のないデータを用いて,データ自らを教師とした表現を獲得
○ 音声音響分野では,これから数年注目を浴びそう
■ ICML2020 Workshop “Self-supervision in audio and speech”
■ Interspeech2020 Special session “New trends in self-supervised
speech processing” ←この発表のメイン
■
● Interspeech2020の発表を分類
○ 他分野の成功を受けて音声に輸入されたもの ←この発表のメイン
○ 音声工学に基づいて独自発展したもの
他分野の自己教師あり学習をそのまま輸入で
きるのか? → できない.なぜ?
● 系列の分解能が高い (= 系列長が長い)
■ 波形: 16,000サンプル/秒〜.
■
● 各サンプルの値は連続値である
■ 量子化しても2^16 (65536) 段階〜
■
● 任意長の系列である
■ これは自然言語と同じ
Speech-BERT と BERT の
同時ファインチューニング [Siriwardhana20]
● Speech-BERT [Baevski19]
○ 10ms-stride のCNN … ダウンサンプリング
○ Gumbel-softmax … 量子化
○ 処理後は,100サンプル/秒の離散シンボル
■ 自然言語と同様にBERTを学習可能
■ (マスクされた入力を予測する)
■
● 音声情報・言語情報を使う音声感情認識モデルの学習
○ それぞれのCLS (classification) トークンを結合し,shallow fusion
S. Siriwardhana et al.
“Jointly Fine-Tuning “BERT-Like” Self Supervised Models to Improve Multimodal Speech Emotion Recognition,” Interspeech2020.
https://arxiv.org/pdf/1910.05453.pdf
C
L
S
Speech-BERT
C
L
S
BERT
Quantized speech BPE-tokenized text
Speech-XLNet [Song20]
● 前提:BERT から XLNet へ
○ マスクされたトークンの独立予測から自己回帰的予測へ
● Speech-XLNet
○ 基本的にはXLNet と同じだが,トークンは連続値のベクトル
○ Huber loss を採用 (L1/L2ロスはうまく動かなかった)
■ L1とL2ロスの切り替え
X. Song et al., “Speech-XLNet: Unsupervised Acoustic Model Pretraining for Self-Attention Networks,” Interspeech2020.
New York is a
BERT
city
New York is a city
BERTの損失関数 (“New” と “York” を独立に予測)
XLNetの損失関数 (自己回帰的に予測)
Audio Transformer [Liu20] [Yang20]
● Mockingjay [Liu20]: もう一つの音声版BERT
○ Speech BERT: 音声波形 -> 音声を離散化 -> 自然言語と同様に学習
○ Mockingjay: 音声波形 -> 連続値の特徴量に対してL1ロスでBERTを学習
○
● Mockingjay の multi-head attention は何を表している [Yang20]
○ 3つに分類されると報告
○ Global … 全体的な特徴(話者性など)
○ Vertical … 特定の音素の注視
○ Diagonal … 近傍の音素を考慮
S.-w. Yang et al., “Understanding Self-Attention of Self-Supervised Audio Transformers,” Interspeech2020.
A. T. Liu et al., “Mockingjay: Unsupervised speech representation learning with deep bidirectional transformer encoders,” ICASSP2020.
ありがとうございました

More Related Content

What's hot

音情報処理における特徴表現
音情報処理における特徴表現音情報処理における特徴表現
音情報処理における特徴表現NU_I_TODALAB
 
SSII2021 [OS2-03] 自己教師あり学習における対照学習の基礎と応用
SSII2021 [OS2-03] 自己教師あり学習における対照学習の基礎と応用SSII2021 [OS2-03] 自己教師あり学習における対照学習の基礎と応用
SSII2021 [OS2-03] 自己教師あり学習における対照学習の基礎と応用SSII
 
最近のDeep Learning (NLP) 界隈におけるAttention事情
最近のDeep Learning (NLP) 界隈におけるAttention事情最近のDeep Learning (NLP) 界隈におけるAttention事情
最近のDeep Learning (NLP) 界隈におけるAttention事情Yuta Kikuchi
 
音源分離における音響モデリング(Acoustic modeling in audio source separation)
音源分離における音響モデリング(Acoustic modeling in audio source separation)音源分離における音響モデリング(Acoustic modeling in audio source separation)
音源分離における音響モデリング(Acoustic modeling in audio source separation)Daichi Kitamura
 
[DL輪読会]Diffusion-based Voice Conversion with Fast Maximum Likelihood Samplin...
[DL輪読会]Diffusion-based Voice Conversion with Fast  Maximum Likelihood Samplin...[DL輪読会]Diffusion-based Voice Conversion with Fast  Maximum Likelihood Samplin...
[DL輪読会]Diffusion-based Voice Conversion with Fast Maximum Likelihood Samplin...Deep Learning JP
 
信号の独立性に基づく多チャンネル音源分離
信号の独立性に基づく多チャンネル音源分離信号の独立性に基づく多チャンネル音源分離
信号の独立性に基づく多チャンネル音源分離NU_I_TODALAB
 
Deep-Learning-Based Environmental Sound Segmentation - Integration of Sound ...
Deep-Learning-Based  Environmental Sound Segmentation - Integration of Sound ...Deep-Learning-Based  Environmental Sound Segmentation - Integration of Sound ...
Deep-Learning-Based Environmental Sound Segmentation - Integration of Sound ...Yui Sudo
 
Transformer 動向調査 in 画像認識(修正版)
Transformer 動向調査 in 画像認識(修正版)Transformer 動向調査 in 画像認識(修正版)
Transformer 動向調査 in 画像認識(修正版)Kazuki Maeno
 
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
【DL輪読会】Efficiently Modeling Long Sequences with Structured State SpacesDeep Learning JP
 
Neural text-to-speech and voice conversion
Neural text-to-speech and voice conversionNeural text-to-speech and voice conversion
Neural text-to-speech and voice conversionYuki Saito
 
[DL輪読会]Wav2CLIP: Learning Robust Audio Representations From CLIP
[DL輪読会]Wav2CLIP: Learning Robust Audio Representations From CLIP[DL輪読会]Wav2CLIP: Learning Robust Audio Representations From CLIP
[DL輪読会]Wav2CLIP: Learning Robust Audio Representations From CLIPDeep Learning JP
 
テキスト音声合成技術と多様性への挑戦 (名古屋大学 知能システム特論)
テキスト音声合成技術と多様性への挑戦 (名古屋大学 知能システム特論)テキスト音声合成技術と多様性への挑戦 (名古屋大学 知能システム特論)
テキスト音声合成技術と多様性への挑戦 (名古屋大学 知能システム特論)Shinnosuke Takamichi
 
【チュートリアル】コンピュータビジョンによる動画認識 v2
【チュートリアル】コンピュータビジョンによる動画認識 v2【チュートリアル】コンピュータビジョンによる動画認識 v2
【チュートリアル】コンピュータビジョンによる動画認識 v2Hirokatsu Kataoka
 
深層学習と音響信号処理
深層学習と音響信号処理深層学習と音響信号処理
深層学習と音響信号処理Yuma Koizumi
 
[DL輪読会]GENESIS: Generative Scene Inference and Sampling with Object-Centric L...
[DL輪読会]GENESIS: Generative Scene Inference and Sampling with Object-Centric L...[DL輪読会]GENESIS: Generative Scene Inference and Sampling with Object-Centric L...
[DL輪読会]GENESIS: Generative Scene Inference and Sampling with Object-Centric L...Deep Learning JP
 
【DL輪読会】GPT-4Technical Report
【DL輪読会】GPT-4Technical Report【DL輪読会】GPT-4Technical Report
【DL輪読会】GPT-4Technical ReportDeep Learning JP
 
深層生成モデルに基づく音声合成技術
深層生成モデルに基づく音声合成技術深層生成モデルに基づく音声合成技術
深層生成モデルに基づく音声合成技術NU_I_TODALAB
 
SSII2021 [SS1] Transformer x Computer Visionの 実活用可能性と展望 〜 TransformerのCompute...
SSII2021 [SS1] Transformer x Computer Visionの 実活用可能性と展望 〜 TransformerのCompute...SSII2021 [SS1] Transformer x Computer Visionの 実活用可能性と展望 〜 TransformerのCompute...
SSII2021 [SS1] Transformer x Computer Visionの 実活用可能性と展望 〜 TransformerのCompute...SSII
 
AHC-Lab M1勉強会 論文の読み方・書き方
AHC-Lab M1勉強会 論文の読み方・書き方AHC-Lab M1勉強会 論文の読み方・書き方
AHC-Lab M1勉強会 論文の読み方・書き方Shinagawa Seitaro
 
研究室における研究・実装ノウハウの共有
研究室における研究・実装ノウハウの共有研究室における研究・実装ノウハウの共有
研究室における研究・実装ノウハウの共有Naoaki Okazaki
 

What's hot (20)

音情報処理における特徴表現
音情報処理における特徴表現音情報処理における特徴表現
音情報処理における特徴表現
 
SSII2021 [OS2-03] 自己教師あり学習における対照学習の基礎と応用
SSII2021 [OS2-03] 自己教師あり学習における対照学習の基礎と応用SSII2021 [OS2-03] 自己教師あり学習における対照学習の基礎と応用
SSII2021 [OS2-03] 自己教師あり学習における対照学習の基礎と応用
 
最近のDeep Learning (NLP) 界隈におけるAttention事情
最近のDeep Learning (NLP) 界隈におけるAttention事情最近のDeep Learning (NLP) 界隈におけるAttention事情
最近のDeep Learning (NLP) 界隈におけるAttention事情
 
音源分離における音響モデリング(Acoustic modeling in audio source separation)
音源分離における音響モデリング(Acoustic modeling in audio source separation)音源分離における音響モデリング(Acoustic modeling in audio source separation)
音源分離における音響モデリング(Acoustic modeling in audio source separation)
 
[DL輪読会]Diffusion-based Voice Conversion with Fast Maximum Likelihood Samplin...
[DL輪読会]Diffusion-based Voice Conversion with Fast  Maximum Likelihood Samplin...[DL輪読会]Diffusion-based Voice Conversion with Fast  Maximum Likelihood Samplin...
[DL輪読会]Diffusion-based Voice Conversion with Fast Maximum Likelihood Samplin...
 
信号の独立性に基づく多チャンネル音源分離
信号の独立性に基づく多チャンネル音源分離信号の独立性に基づく多チャンネル音源分離
信号の独立性に基づく多チャンネル音源分離
 
Deep-Learning-Based Environmental Sound Segmentation - Integration of Sound ...
Deep-Learning-Based  Environmental Sound Segmentation - Integration of Sound ...Deep-Learning-Based  Environmental Sound Segmentation - Integration of Sound ...
Deep-Learning-Based Environmental Sound Segmentation - Integration of Sound ...
 
Transformer 動向調査 in 画像認識(修正版)
Transformer 動向調査 in 画像認識(修正版)Transformer 動向調査 in 画像認識(修正版)
Transformer 動向調査 in 画像認識(修正版)
 
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
 
Neural text-to-speech and voice conversion
Neural text-to-speech and voice conversionNeural text-to-speech and voice conversion
Neural text-to-speech and voice conversion
 
[DL輪読会]Wav2CLIP: Learning Robust Audio Representations From CLIP
[DL輪読会]Wav2CLIP: Learning Robust Audio Representations From CLIP[DL輪読会]Wav2CLIP: Learning Robust Audio Representations From CLIP
[DL輪読会]Wav2CLIP: Learning Robust Audio Representations From CLIP
 
テキスト音声合成技術と多様性への挑戦 (名古屋大学 知能システム特論)
テキスト音声合成技術と多様性への挑戦 (名古屋大学 知能システム特論)テキスト音声合成技術と多様性への挑戦 (名古屋大学 知能システム特論)
テキスト音声合成技術と多様性への挑戦 (名古屋大学 知能システム特論)
 
【チュートリアル】コンピュータビジョンによる動画認識 v2
【チュートリアル】コンピュータビジョンによる動画認識 v2【チュートリアル】コンピュータビジョンによる動画認識 v2
【チュートリアル】コンピュータビジョンによる動画認識 v2
 
深層学習と音響信号処理
深層学習と音響信号処理深層学習と音響信号処理
深層学習と音響信号処理
 
[DL輪読会]GENESIS: Generative Scene Inference and Sampling with Object-Centric L...
[DL輪読会]GENESIS: Generative Scene Inference and Sampling with Object-Centric L...[DL輪読会]GENESIS: Generative Scene Inference and Sampling with Object-Centric L...
[DL輪読会]GENESIS: Generative Scene Inference and Sampling with Object-Centric L...
 
【DL輪読会】GPT-4Technical Report
【DL輪読会】GPT-4Technical Report【DL輪読会】GPT-4Technical Report
【DL輪読会】GPT-4Technical Report
 
深層生成モデルに基づく音声合成技術
深層生成モデルに基づく音声合成技術深層生成モデルに基づく音声合成技術
深層生成モデルに基づく音声合成技術
 
SSII2021 [SS1] Transformer x Computer Visionの 実活用可能性と展望 〜 TransformerのCompute...
SSII2021 [SS1] Transformer x Computer Visionの 実活用可能性と展望 〜 TransformerのCompute...SSII2021 [SS1] Transformer x Computer Visionの 実活用可能性と展望 〜 TransformerのCompute...
SSII2021 [SS1] Transformer x Computer Visionの 実活用可能性と展望 〜 TransformerのCompute...
 
AHC-Lab M1勉強会 論文の読み方・書き方
AHC-Lab M1勉強会 論文の読み方・書き方AHC-Lab M1勉強会 論文の読み方・書き方
AHC-Lab M1勉強会 論文の読み方・書き方
 
研究室における研究・実装ノウハウの共有
研究室における研究・実装ノウハウの共有研究室における研究・実装ノウハウの共有
研究室における研究・実装ノウハウの共有
 

Similar to 国際会議 interspeech 2020 報告

AnnoTone: 高周波音の映像収録時 埋め込みによる編集支援
AnnoTone: 高周波音の映像収録時埋め込みによる編集支援AnnoTone: 高周波音の映像収録時埋め込みによる編集支援
AnnoTone: 高周波音の映像収録時 埋め込みによる編集支援Ryohei Suzuki
 
ICASSP2019 音声&音響読み会 テーマ発表音声生成
ICASSP2019 音声&音響読み会 テーマ発表音声生成ICASSP2019 音声&音響読み会 テーマ発表音声生成
ICASSP2019 音声&音響読み会 テーマ発表音声生成Kentaro Tachibana
 
DNN音響モデルにおける特徴量抽出の諸相
DNN音響モデルにおける特徴量抽出の諸相DNN音響モデルにおける特徴量抽出の諸相
DNN音響モデルにおける特徴量抽出の諸相Takuya Yoshioka
 
アナログ回路の民主化とプロの役割
アナログ回路の民主化とプロの役割アナログ回路の民主化とプロの役割
アナログ回路の民主化とプロの役割Junichi Akita
 
分布あるいはモーメント間距離最小化に基づく統計的音声合成
分布あるいはモーメント間距離最小化に基づく統計的音声合成分布あるいはモーメント間距離最小化に基づく統計的音声合成
分布あるいはモーメント間距離最小化に基づく統計的音声合成Shinnosuke Takamichi
 
ICASSP 2019での音響信号処理分野の世界動向
ICASSP 2019での音響信号処理分野の世界動向ICASSP 2019での音響信号処理分野の世界動向
ICASSP 2019での音響信号処理分野の世界動向Yuma Koizumi
 
TEACHER-STUDENT DEEP CLUSTERING FOR LOW-DELAY SINGLE CHANNEL SPEECH SEPARATION
TEACHER-STUDENT DEEP CLUSTERING FOR LOW-DELAY SINGLE CHANNEL SPEECH SEPARATIONTEACHER-STUDENT DEEP CLUSTERING FOR LOW-DELAY SINGLE CHANNEL SPEECH SEPARATION
TEACHER-STUDENT DEEP CLUSTERING FOR LOW-DELAY SINGLE CHANNEL SPEECH SEPARATIONRyoAIHARA1
 
Deep Learningと画像認識   ~歴史・理論・実践~
Deep Learningと画像認識 ~歴史・理論・実践~Deep Learningと画像認識 ~歴史・理論・実践~
Deep Learningと画像認識   ~歴史・理論・実践~nlab_utokyo
 
Icassp2018 発表参加報告 FFTNet, Tactron2紹介
Icassp2018 発表参加報告 FFTNet, Tactron2紹介Icassp2018 発表参加報告 FFTNet, Tactron2紹介
Icassp2018 発表参加報告 FFTNet, Tactron2紹介Kentaro Tachibana
 
【メタサーベイ】基盤モデル / Foundation Models
【メタサーベイ】基盤モデル / Foundation Models【メタサーベイ】基盤モデル / Foundation Models
【メタサーベイ】基盤モデル / Foundation Modelscvpaper. challenge
 
B4学生の 深層学習への挑戦(未完)
B4学生の深層学習への挑戦(未完)B4学生の深層学習への挑戦(未完)
B4学生の 深層学習への挑戦(未完)良太 西村
 
音声の声質を変換する技術とその応用
音声の声質を変換する技術とその応用音声の声質を変換する技術とその応用
音声の声質を変換する技術とその応用NU_I_TODALAB
 
DTMでの音色検索を対象とした機械学習アルゴリズムの提案(for FIT2016)
DTMでの音色検索を対象とした機械学習アルゴリズムの提案(for FIT2016)DTMでの音色検索を対象とした機械学習アルゴリズムの提案(for FIT2016)
DTMでの音色検索を対象とした機械学習アルゴリズムの提案(for FIT2016)Hajime Saito
 
Vision-and-Language Navigation: Interpreting visually-grounded navigation ins...
Vision-and-Language Navigation: Interpreting visually-grounded navigation ins...Vision-and-Language Navigation: Interpreting visually-grounded navigation ins...
Vision-and-Language Navigation: Interpreting visually-grounded navigation ins...Yoshitaka Ushiku
 
Convolutional Neural Netwoks で自然言語処理をする
Convolutional Neural Netwoks で自然言語処理をするConvolutional Neural Netwoks で自然言語処理をする
Convolutional Neural Netwoks で自然言語処理をするDaiki Shimada
 
Generative moment matching net に基づく歌声のランダム変調ポストフィルタと double-tracking への応用
Generative moment matching net に基づく歌声のランダム変調ポストフィルタと double-tracking への応用Generative moment matching net に基づく歌声のランダム変調ポストフィルタと double-tracking への応用
Generative moment matching net に基づく歌声のランダム変調ポストフィルタと double-tracking への応用Shinnosuke Takamichi
 
Statistical Machine Translation Overview
Statistical Machine Translation OverviewStatistical Machine Translation Overview
Statistical Machine Translation OverviewHiroki Kawano
 
【FIT2016チュートリアル】ここから始める情報処理 ~音声編~ by 東工大・篠崎先生
【FIT2016チュートリアル】ここから始める情報処理 ~音声編~ by 東工大・篠崎先生【FIT2016チュートリアル】ここから始める情報処理 ~音声編~ by 東工大・篠崎先生
【FIT2016チュートリアル】ここから始める情報処理 ~音声編~ by 東工大・篠崎先生Toshihiko Yamasaki
 

Similar to 国際会議 interspeech 2020 報告 (20)

AnnoTone: 高周波音の映像収録時 埋め込みによる編集支援
AnnoTone: 高周波音の映像収録時埋め込みによる編集支援AnnoTone: 高周波音の映像収録時埋め込みによる編集支援
AnnoTone: 高周波音の映像収録時 埋め込みによる編集支援
 
ICASSP2019 音声&音響読み会 テーマ発表音声生成
ICASSP2019 音声&音響読み会 テーマ発表音声生成ICASSP2019 音声&音響読み会 テーマ発表音声生成
ICASSP2019 音声&音響読み会 テーマ発表音声生成
 
Kameoka2016 miru08
Kameoka2016 miru08Kameoka2016 miru08
Kameoka2016 miru08
 
DNN音響モデルにおける特徴量抽出の諸相
DNN音響モデルにおける特徴量抽出の諸相DNN音響モデルにおける特徴量抽出の諸相
DNN音響モデルにおける特徴量抽出の諸相
 
アナログ回路の民主化とプロの役割
アナログ回路の民主化とプロの役割アナログ回路の民主化とプロの役割
アナログ回路の民主化とプロの役割
 
分布あるいはモーメント間距離最小化に基づく統計的音声合成
分布あるいはモーメント間距離最小化に基づく統計的音声合成分布あるいはモーメント間距離最小化に基づく統計的音声合成
分布あるいはモーメント間距離最小化に基づく統計的音声合成
 
ICASSP 2019での音響信号処理分野の世界動向
ICASSP 2019での音響信号処理分野の世界動向ICASSP 2019での音響信号処理分野の世界動向
ICASSP 2019での音響信号処理分野の世界動向
 
TEACHER-STUDENT DEEP CLUSTERING FOR LOW-DELAY SINGLE CHANNEL SPEECH SEPARATION
TEACHER-STUDENT DEEP CLUSTERING FOR LOW-DELAY SINGLE CHANNEL SPEECH SEPARATIONTEACHER-STUDENT DEEP CLUSTERING FOR LOW-DELAY SINGLE CHANNEL SPEECH SEPARATION
TEACHER-STUDENT DEEP CLUSTERING FOR LOW-DELAY SINGLE CHANNEL SPEECH SEPARATION
 
Deep Learningと画像認識   ~歴史・理論・実践~
Deep Learningと画像認識 ~歴史・理論・実践~Deep Learningと画像認識 ~歴史・理論・実践~
Deep Learningと画像認識   ~歴史・理論・実践~
 
Icassp2018 発表参加報告 FFTNet, Tactron2紹介
Icassp2018 発表参加報告 FFTNet, Tactron2紹介Icassp2018 発表参加報告 FFTNet, Tactron2紹介
Icassp2018 発表参加報告 FFTNet, Tactron2紹介
 
【メタサーベイ】基盤モデル / Foundation Models
【メタサーベイ】基盤モデル / Foundation Models【メタサーベイ】基盤モデル / Foundation Models
【メタサーベイ】基盤モデル / Foundation Models
 
IAD Kyoto
IAD KyotoIAD Kyoto
IAD Kyoto
 
B4学生の 深層学習への挑戦(未完)
B4学生の深層学習への挑戦(未完)B4学生の深層学習への挑戦(未完)
B4学生の 深層学習への挑戦(未完)
 
音声の声質を変換する技術とその応用
音声の声質を変換する技術とその応用音声の声質を変換する技術とその応用
音声の声質を変換する技術とその応用
 
DTMでの音色検索を対象とした機械学習アルゴリズムの提案(for FIT2016)
DTMでの音色検索を対象とした機械学習アルゴリズムの提案(for FIT2016)DTMでの音色検索を対象とした機械学習アルゴリズムの提案(for FIT2016)
DTMでの音色検索を対象とした機械学習アルゴリズムの提案(for FIT2016)
 
Vision-and-Language Navigation: Interpreting visually-grounded navigation ins...
Vision-and-Language Navigation: Interpreting visually-grounded navigation ins...Vision-and-Language Navigation: Interpreting visually-grounded navigation ins...
Vision-and-Language Navigation: Interpreting visually-grounded navigation ins...
 
Convolutional Neural Netwoks で自然言語処理をする
Convolutional Neural Netwoks で自然言語処理をするConvolutional Neural Netwoks で自然言語処理をする
Convolutional Neural Netwoks で自然言語処理をする
 
Generative moment matching net に基づく歌声のランダム変調ポストフィルタと double-tracking への応用
Generative moment matching net に基づく歌声のランダム変調ポストフィルタと double-tracking への応用Generative moment matching net に基づく歌声のランダム変調ポストフィルタと double-tracking への応用
Generative moment matching net に基づく歌声のランダム変調ポストフィルタと double-tracking への応用
 
Statistical Machine Translation Overview
Statistical Machine Translation OverviewStatistical Machine Translation Overview
Statistical Machine Translation Overview
 
【FIT2016チュートリアル】ここから始める情報処理 ~音声編~ by 東工大・篠崎先生
【FIT2016チュートリアル】ここから始める情報処理 ~音声編~ by 東工大・篠崎先生【FIT2016チュートリアル】ここから始める情報処理 ~音声編~ by 東工大・篠崎先生
【FIT2016チュートリアル】ここから始める情報処理 ~音声編~ by 東工大・篠崎先生
 

More from Shinnosuke Takamichi

JTubeSpeech: 音声認識と話者照合のために YouTube から構築される日本語音声コーパス
JTubeSpeech:  音声認識と話者照合のために YouTube から構築される日本語音声コーパスJTubeSpeech:  音声認識と話者照合のために YouTube から構築される日本語音声コーパス
JTubeSpeech: 音声認識と話者照合のために YouTube から構築される日本語音声コーパスShinnosuke Takamichi
 
音声合成のコーパスをつくろう
音声合成のコーパスをつくろう音声合成のコーパスをつくろう
音声合成のコーパスをつくろうShinnosuke Takamichi
 
J-KAC:日本語オーディオブック・紙芝居朗読音声コーパス
J-KAC:日本語オーディオブック・紙芝居朗読音声コーパスJ-KAC:日本語オーディオブック・紙芝居朗読音声コーパス
J-KAC:日本語オーディオブック・紙芝居朗読音声コーパスShinnosuke Takamichi
 
短時間発話を用いた話者照合のための音声加工の効果に関する検討
短時間発話を用いた話者照合のための音声加工の効果に関する検討短時間発話を用いた話者照合のための音声加工の効果に関する検討
短時間発話を用いた話者照合のための音声加工の効果に関する検討Shinnosuke Takamichi
 
リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法
リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法
リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法Shinnosuke Takamichi
 
ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)
ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)
ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)Shinnosuke Takamichi
 
Interspeech 2020 読み会 "Incremental Text to Speech for Neural Sequence-to-Sequ...
Interspeech 2020 読み会 "Incremental Text to Speech for Neural  Sequence-to-Sequ...Interspeech 2020 読み会 "Incremental Text to Speech for Neural  Sequence-to-Sequ...
Interspeech 2020 読み会 "Incremental Text to Speech for Neural Sequence-to-Sequ...Shinnosuke Takamichi
 
サブバンドフィルタリングに基づくリアルタイム広帯域DNN声質変換の実装と評価
サブバンドフィルタリングに基づくリアルタイム広帯域DNN声質変換の実装と評価サブバンドフィルタリングに基づくリアルタイム広帯域DNN声質変換の実装と評価
サブバンドフィルタリングに基づくリアルタイム広帯域DNN声質変換の実装と評価Shinnosuke Takamichi
 
P J S: 音素バランスを考慮した日本語歌声コーパス
P J S: 音素バランスを考慮した日本語歌声コーパスP J S: 音素バランスを考慮した日本語歌声コーパス
P J S: 音素バランスを考慮した日本語歌声コーパスShinnosuke Takamichi
 
音響モデル尤度に基づくsubword分割の韻律推定精度における評価
音響モデル尤度に基づくsubword分割の韻律推定精度における評価音響モデル尤度に基づくsubword分割の韻律推定精度における評価
音響モデル尤度に基づくsubword分割の韻律推定精度における評価Shinnosuke Takamichi
 
音声合成研究を加速させるためのコーパスデザイン
音声合成研究を加速させるためのコーパスデザイン音声合成研究を加速させるためのコーパスデザイン
音声合成研究を加速させるためのコーパスデザインShinnosuke Takamichi
 
論文紹介 Unsupervised training of neural mask-based beamforming
論文紹介 Unsupervised training of neural  mask-based beamforming論文紹介 Unsupervised training of neural  mask-based beamforming
論文紹介 Unsupervised training of neural mask-based beamformingShinnosuke Takamichi
 
論文紹介 Building the Singapore English National Speech Corpus
論文紹介 Building the Singapore English National Speech Corpus論文紹介 Building the Singapore English National Speech Corpus
論文紹介 Building the Singapore English National Speech CorpusShinnosuke Takamichi
 
論文紹介 SANTLR: Speech Annotation Toolkit for Low Resource Languages
論文紹介 SANTLR: Speech Annotation Toolkit for Low Resource Languages論文紹介 SANTLR: Speech Annotation Toolkit for Low Resource Languages
論文紹介 SANTLR: Speech Annotation Toolkit for Low Resource LanguagesShinnosuke Takamichi
 
話者V2S攻撃: 話者認証から構築される 声質変換とその音声なりすまし可能性の評価
話者V2S攻撃: 話者認証から構築される 声質変換とその音声なりすまし可能性の評価話者V2S攻撃: 話者認証から構築される 声質変換とその音声なりすまし可能性の評価
話者V2S攻撃: 話者認証から構築される 声質変換とその音声なりすまし可能性の評価Shinnosuke Takamichi
 
JVS:フリーの日本語多数話者音声コーパス
JVS:フリーの日本語多数話者音声コーパス JVS:フリーの日本語多数話者音声コーパス
JVS:フリーの日本語多数話者音声コーパス Shinnosuke Takamichi
 
差分スペクトル法に基づく DNN 声質変換の計算量削減に向けたフィルタ推定
差分スペクトル法に基づく DNN 声質変換の計算量削減に向けたフィルタ推定差分スペクトル法に基づく DNN 声質変換の計算量削減に向けたフィルタ推定
差分スペクトル法に基づく DNN 声質変換の計算量削減に向けたフィルタ推定Shinnosuke Takamichi
 
音声合成・変換の国際コンペティションへの 参加を振り返って
音声合成・変換の国際コンペティションへの  参加を振り返って音声合成・変換の国際コンペティションへの  参加を振り返って
音声合成・変換の国際コンペティションへの 参加を振り返ってShinnosuke Takamichi
 
ユーザ歌唱のための generative moment matching network に基づく neural double-tracking
ユーザ歌唱のための generative moment matching network に基づく neural double-trackingユーザ歌唱のための generative moment matching network に基づく neural double-tracking
ユーザ歌唱のための generative moment matching network に基づく neural double-trackingShinnosuke Takamichi
 
End-to-end 韻律推定に向けた DNN 音響モデルに基づく subword 分割
End-to-end 韻律推定に向けた DNN 音響モデルに基づく subword 分割End-to-end 韻律推定に向けた DNN 音響モデルに基づく subword 分割
End-to-end 韻律推定に向けた DNN 音響モデルに基づく subword 分割Shinnosuke Takamichi
 

More from Shinnosuke Takamichi (20)

JTubeSpeech: 音声認識と話者照合のために YouTube から構築される日本語音声コーパス
JTubeSpeech:  音声認識と話者照合のために YouTube から構築される日本語音声コーパスJTubeSpeech:  音声認識と話者照合のために YouTube から構築される日本語音声コーパス
JTubeSpeech: 音声認識と話者照合のために YouTube から構築される日本語音声コーパス
 
音声合成のコーパスをつくろう
音声合成のコーパスをつくろう音声合成のコーパスをつくろう
音声合成のコーパスをつくろう
 
J-KAC:日本語オーディオブック・紙芝居朗読音声コーパス
J-KAC:日本語オーディオブック・紙芝居朗読音声コーパスJ-KAC:日本語オーディオブック・紙芝居朗読音声コーパス
J-KAC:日本語オーディオブック・紙芝居朗読音声コーパス
 
短時間発話を用いた話者照合のための音声加工の効果に関する検討
短時間発話を用いた話者照合のための音声加工の効果に関する検討短時間発話を用いた話者照合のための音声加工の効果に関する検討
短時間発話を用いた話者照合のための音声加工の効果に関する検討
 
リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法
リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法
リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法
 
ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)
ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)
ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)
 
Interspeech 2020 読み会 "Incremental Text to Speech for Neural Sequence-to-Sequ...
Interspeech 2020 読み会 "Incremental Text to Speech for Neural  Sequence-to-Sequ...Interspeech 2020 読み会 "Incremental Text to Speech for Neural  Sequence-to-Sequ...
Interspeech 2020 読み会 "Incremental Text to Speech for Neural Sequence-to-Sequ...
 
サブバンドフィルタリングに基づくリアルタイム広帯域DNN声質変換の実装と評価
サブバンドフィルタリングに基づくリアルタイム広帯域DNN声質変換の実装と評価サブバンドフィルタリングに基づくリアルタイム広帯域DNN声質変換の実装と評価
サブバンドフィルタリングに基づくリアルタイム広帯域DNN声質変換の実装と評価
 
P J S: 音素バランスを考慮した日本語歌声コーパス
P J S: 音素バランスを考慮した日本語歌声コーパスP J S: 音素バランスを考慮した日本語歌声コーパス
P J S: 音素バランスを考慮した日本語歌声コーパス
 
音響モデル尤度に基づくsubword分割の韻律推定精度における評価
音響モデル尤度に基づくsubword分割の韻律推定精度における評価音響モデル尤度に基づくsubword分割の韻律推定精度における評価
音響モデル尤度に基づくsubword分割の韻律推定精度における評価
 
音声合成研究を加速させるためのコーパスデザイン
音声合成研究を加速させるためのコーパスデザイン音声合成研究を加速させるためのコーパスデザイン
音声合成研究を加速させるためのコーパスデザイン
 
論文紹介 Unsupervised training of neural mask-based beamforming
論文紹介 Unsupervised training of neural  mask-based beamforming論文紹介 Unsupervised training of neural  mask-based beamforming
論文紹介 Unsupervised training of neural mask-based beamforming
 
論文紹介 Building the Singapore English National Speech Corpus
論文紹介 Building the Singapore English National Speech Corpus論文紹介 Building the Singapore English National Speech Corpus
論文紹介 Building the Singapore English National Speech Corpus
 
論文紹介 SANTLR: Speech Annotation Toolkit for Low Resource Languages
論文紹介 SANTLR: Speech Annotation Toolkit for Low Resource Languages論文紹介 SANTLR: Speech Annotation Toolkit for Low Resource Languages
論文紹介 SANTLR: Speech Annotation Toolkit for Low Resource Languages
 
話者V2S攻撃: 話者認証から構築される 声質変換とその音声なりすまし可能性の評価
話者V2S攻撃: 話者認証から構築される 声質変換とその音声なりすまし可能性の評価話者V2S攻撃: 話者認証から構築される 声質変換とその音声なりすまし可能性の評価
話者V2S攻撃: 話者認証から構築される 声質変換とその音声なりすまし可能性の評価
 
JVS:フリーの日本語多数話者音声コーパス
JVS:フリーの日本語多数話者音声コーパス JVS:フリーの日本語多数話者音声コーパス
JVS:フリーの日本語多数話者音声コーパス
 
差分スペクトル法に基づく DNN 声質変換の計算量削減に向けたフィルタ推定
差分スペクトル法に基づく DNN 声質変換の計算量削減に向けたフィルタ推定差分スペクトル法に基づく DNN 声質変換の計算量削減に向けたフィルタ推定
差分スペクトル法に基づく DNN 声質変換の計算量削減に向けたフィルタ推定
 
音声合成・変換の国際コンペティションへの 参加を振り返って
音声合成・変換の国際コンペティションへの  参加を振り返って音声合成・変換の国際コンペティションへの  参加を振り返って
音声合成・変換の国際コンペティションへの 参加を振り返って
 
ユーザ歌唱のための generative moment matching network に基づく neural double-tracking
ユーザ歌唱のための generative moment matching network に基づく neural double-trackingユーザ歌唱のための generative moment matching network に基づく neural double-tracking
ユーザ歌唱のための generative moment matching network に基づく neural double-tracking
 
End-to-end 韻律推定に向けた DNN 音響モデルに基づく subword 分割
End-to-end 韻律推定に向けた DNN 音響モデルに基づく subword 分割End-to-end 韻律推定に向けた DNN 音響モデルに基づく subword 分割
End-to-end 韻律推定に向けた DNN 音響モデルに基づく subword 分割
 

国際会議 interspeech 2020 報告

  • 2. 発表者 稲熊 寛文 (京都大) 音声認識 塩田 さやか (都立大) 話者照合 柳田 智也 (奈良先端大) 音声合成 高道 慎之介 (東京大) 自己教師あり学習 公開版につき,顔写真を削除しました.
  • 3. Interspeech2020 ● ICASSP と並んで音声系トップカンファレンス ○ 本年度は2103件の投稿から1021件採択 (採択率:49%) ○ ● 2020/10/25 ~ 29にかけてオンライン開催 (本来は上海) ○ 1.5分のハイライトビデオと3.5分の質疑応答 ○ ● 論文は全てオンラインで公開されている ○ https://www.isca-speech.org/iscaweb/index.php/online-archive ○ 以降のスライドで登場する論文の図表は,ここより引用
  • 5. 所感 ● トレンド ○ Transformerモデル ○ Self-training / Pseudo labeling ○ オンラインストリーミング音声認識 ○ 非自己回帰end-to-end音声認識 ● セッション重複のため,リアルタイムで全ての発表を追うのは難しい ● 会議前に話題になっていた論文の発表に注目が集まっていた印象 ● 一学生として:短い発表の中で顔と名前を売るのは難しく感じた
  • 6. Self-training ● 音声のみで事前学習するCPC [Van den Oord+ 2019] やWav2vec [Schneider+ 2019] などとは異なり,対象のASRモデルで音声のみのデータ に対して認識を行う ● 得られたラベルと音声を新たなペアデータとしてデータ拡張 「Improved Noisy Student Training for Automatic Speech Recognition」 (Google) 「Iterative Pseudo-Labeling for Speech Recognition」 (Facebook) 手法(以下2-3を複数回繰り返す) 1. ペアデータで最初のモデルを学習 2. 追加の音声データを言語モデルを使って現在のモデルパラ メータで認識 3. これを擬似教師ラベルとして元のペアデータと合わせ ,SpecAugmentを使って学習
  • 7. Self-training Googleの工夫 ● Beam searchのスコアと出力系列長でフィルタリング ● 学習データとトークンの分布が近くなるようにサンプリング ● SpecAugmentの時間方向のマスクサイズをだんだん大きくしていくとgood ほぼ同様の手法 「Semi-supervised ASR by End-to-End Self-training」(Amazon) 「Semi-Supervised Learning with Data Augmentation for End-to-End ASR」(Nuance) 音声翻訳でも 「Self-Training for End-to-End Speech Translation」(Facebook) dev-clean dev-other test-clean test-other Google 1.6 3.4 1.7 3.4 Facebook 1.85 3.26 2.10 4.01
  • 8. Conformer (Google) TransformerエンコーダをCNNアーキテクチャで拡張(w/ LAS) ● Multi-head attention (MHA) の後にCNNモジュール追加 ● Macaron-styleのFeed-forward layer(MHAをサンドイッチ) ● MHA->CNNの順番がよい ● Relative positional encoding ● 活性化関数をReLUからSwish 現在,多くのフォローアップ論文が登場し, 様々なタスクに応用されている Gulati et al, “Conformer: Convolution-augmented Transformer for Speech Recognition”
  • 9. ContextNet (Google) Globalな情報を捉えるようCNNエンコーダを改良(w/ RNN-T) ● Squeeze-and-excitation (SE) layer ○ 入力全体を1つのベクトルに平均して非線形関数+sigmoidに通し,元の入 力に要素ごとにかける ● Depthwise separable convolutionによるCNNブロック ● パラメータ数 vs WERのトレードオフをチャネルサイズのスケールパラメータで 上手くコントロール可能 Han et al, “ContextNet: Improving Convolutional Neural Networks for Automatic Speech Recognition with Global Context”
  • 10. Conformer vs ContextNet 精度はほとんど同じ(フォローアップ論文でも同様) どちらもTransformerライクなlearning rate schedulingなので ,Transformerデコーダと親和性高い(LAS/RNN-Tにも使用可能) どちらもストリーミング認識に拡張可能で同等の精度 [Yu+ 2020]
  • 11. オンラインストリーミング音声認識 Two-pass model (Google) ● RNN-T -> Transformerリスコアリング (2nd pass) ● 全トークンを一度で入力できるため,LSTMより高速 ScoutNet (Microsoft) ● Triggered attention [Moritz+ 2019] をフレームレベルの アライメント情報を用いて改善 ● エンコーダで単語境界を推定するように学習 ● 推論時,各境界より過去のコンテキストで認識 ● トークン出力のレイテンシが抑えられる Li et al, “Parallel Rescoring with Transformer for Streaming On-Device Speech Recognition” Wang et al, “Low Latency End-to-End Streaming Speech Recognition with a Scout Network”
  • 12. Diarization+ASR Serialized output training (Microsoft) ● LASベースのpermutation invariant training (PIT) [Dong+ 2017]を使 わないsingle-channel multi-speaker ASR ● 任意の話者数に適用可能 ● 話し始めた順番に話者ごとに認識(話者数をカウント可能) 手法 ● 複数話者の仮説をspeaker changeラベル <sc>でconcat ● 全体の系列の最後にのみ<eos>をつける ● Overlap speechの開始時刻情報を使うことで のpermutationの計算量を定数に削減 ● Attentionの後(separationの後)にさらに LSTMをスタックすると良い Kanda et al, “Serialized Output Training for End-to-End Overlapped Speech Recognition”
  • 13. その他 ● All-in-One Transformer (MERL) ○ ASR, audio tagging, acoustic event detectionを1つのTransformerで行 う ○ Audio taggingの精度が改善 Moritz et al, “All-in-One Transformer: Unifying Speech Recognition, Audio Tagging, and Event Detection”
  • 15. 所感 ● 音響モデル(Text2melモデル) ○ 自己or非自己 回帰Transformer TTSを使用した合成 ○ 逐次音声合成(incremental/streaming TTS)の台頭 ←これの話が主 ○ ● ウェーブネットボコーダ ○ 課題:高速学習/推論・高品質 ○ 音声生成モデルや、音響工学の知見を生かしたモデル提案 ○ HiNet(位相と振幅をニューラルネットで予測し音声復元) ■ → HiNet + ニューラル残響モデルで収録音声の復元[Ai, et al.] ○ ソース・フィルタモデルの線形時不変フィルタを制御[Liu, et al.] ○ ● その他の発表トピック ○ 歌唱合成、韻律モデリング、パラ言語生成、テキスト処理及び評価 ○ 大規模多言語複数話者TTSの挑戦、50言語ID+複数話者ID[Yang, et al.] [Ai, et al.]Reverberation Modeling for Source-Filter-based Neural Vocoder, Interspeech 2020 [Liu, et al.]Neural Homomorphic Vocoder, Interspeech 2020 [Yang, et al.]Towards Universal Text-to-Speech, Interspeech 2020
  • 16. [Ma, et al., 2020]テキスト入力中に音声出力 k系列の入力後、音響特徴生成開始 → 最適な入出力長を決定不可 [Mohan, et al., 2020 Interspeech]入出力長制御に強化学習 → 環境からの観測で行動を選択し、その行動で環境が変化するモデル 行動を繰り返し、最終的な報酬を最大化する行動を学習 Incremental Text to Speech for Neural Sequence-to-Sequence Models using Reinforcement Learning [Ma, et al., 2020]“Incremental Text-to-Speech Synthesis with Prefix-to-Prefix Framework”, (https://arxiv.org/abs/1911.02750) [Mohan, et al., 2020 Interspeech] Incremental Text to Speech for Neural Sequence-to-Sequence Models using Reinforcement Learning, Interspeech 2020 処理の例 ①3単語入力し、1単語目を生成開始 ②argmax(注意スコア)が2単語目なら生成停止 ③4単語目を入力、①から同様に繰り返す
  • 18. アテンション分析 (a,b) 通常の音声合成、2step毎にREAD(READ、SPEAK、READ、SPEAK ...) 必要以上の入力を参照 → 不必要なREAD有 → 回避可能な遅延の存在 (c) 3 step毎にSPEAK 不必要なREADを削減 → 入力の不足 → 音声品質の低下 (d) 提案法 READ/ SPEAKの制御成功 ※灰色部分は利用不可な入力
  • 20. その他Interspeech2020 逐次音声合成の発表 [Stephenson, et al.] What the Future Brings: Investigating the Impact of Lookahead for Incremental Neural TTS  逐次音声合成の中間表現と、通常TTSとの類似性分析  2単語の単語先読みで94%の類似性(英語) [Ellinas, et al.] High Quality Streaming Speech Synthesis with Low, Sentence-Length-Independent Latency  CPU用End-to-End逐次音声合成の構築及び遅延評価  
  • 22. 全般 一般セッション: 7 ● Speaker recognition I, II ● Learning Techniques for Speaker Recognition I, II ● Speaker Embedding ● DNN Architectures for Speaker Recognition ● Speaker Recognition Challenges and Applications スペシャルセッション: 3 ● Large-Scale Evaluation of Short-Duration Speaker Verification ● The Interspeech 2020 Far Field Speaker Verification Challenge ● The Attacker’s Perspective on Automatic Speaker Verification
  • 23. 傾向 Speaker embedding ● x-vectorベースの手法でロスの変更、ネットワークの変更 ● より省データ、より短い話者表現 Short utterance Raw waveform の使用 Adversarial example への注目 ● spoofingとは異なる
  • 24. Wav2Spk: A Simple DNN Architecture for Learning Speaker Embeddings from Waveforms 入力特徴量をwaveformに   MFCC, VAD, CMVN → stacked of stride convolutions (wav2vec), temporal gating, instance normalization    フレーム長30ms, フレームシフト10msに相当 コサイン類似度
  • 25. Investigating Robustness of Adversarial Samples Detection for Automatic Speaker Verification 敵対的攻撃 データ拡張としての使用が多かった BIM(FGSMの拡張版)とJSMA 2種類の攻撃 敵対的攻撃検出 VGGベースのネットワーク+MFCC(conv層が必要)
  • 27. 自己教師あり学習と音声分野の潮流 ● 自己教師あり学習 ○ 教師のないデータを用いて,データ自らを教師とした表現を獲得 ○ 音声音響分野では,これから数年注目を浴びそう ■ ICML2020 Workshop “Self-supervision in audio and speech” ■ Interspeech2020 Special session “New trends in self-supervised speech processing” ←この発表のメイン ■ ● Interspeech2020の発表を分類 ○ 他分野の成功を受けて音声に輸入されたもの ←この発表のメイン ○ 音声工学に基づいて独自発展したもの
  • 28. 他分野の自己教師あり学習をそのまま輸入で きるのか? → できない.なぜ? ● 系列の分解能が高い (= 系列長が長い) ■ 波形: 16,000サンプル/秒〜. ■ ● 各サンプルの値は連続値である ■ 量子化しても2^16 (65536) 段階〜 ■ ● 任意長の系列である ■ これは自然言語と同じ
  • 29. Speech-BERT と BERT の 同時ファインチューニング [Siriwardhana20] ● Speech-BERT [Baevski19] ○ 10ms-stride のCNN … ダウンサンプリング ○ Gumbel-softmax … 量子化 ○ 処理後は,100サンプル/秒の離散シンボル ■ 自然言語と同様にBERTを学習可能 ■ (マスクされた入力を予測する) ■ ● 音声情報・言語情報を使う音声感情認識モデルの学習 ○ それぞれのCLS (classification) トークンを結合し,shallow fusion S. Siriwardhana et al. “Jointly Fine-Tuning “BERT-Like” Self Supervised Models to Improve Multimodal Speech Emotion Recognition,” Interspeech2020. https://arxiv.org/pdf/1910.05453.pdf C L S Speech-BERT C L S BERT Quantized speech BPE-tokenized text
  • 30. Speech-XLNet [Song20] ● 前提:BERT から XLNet へ ○ マスクされたトークンの独立予測から自己回帰的予測へ ● Speech-XLNet ○ 基本的にはXLNet と同じだが,トークンは連続値のベクトル ○ Huber loss を採用 (L1/L2ロスはうまく動かなかった) ■ L1とL2ロスの切り替え X. Song et al., “Speech-XLNet: Unsupervised Acoustic Model Pretraining for Self-Attention Networks,” Interspeech2020. New York is a BERT city New York is a city BERTの損失関数 (“New” と “York” を独立に予測) XLNetの損失関数 (自己回帰的に予測)
  • 31. Audio Transformer [Liu20] [Yang20] ● Mockingjay [Liu20]: もう一つの音声版BERT ○ Speech BERT: 音声波形 -> 音声を離散化 -> 自然言語と同様に学習 ○ Mockingjay: 音声波形 -> 連続値の特徴量に対してL1ロスでBERTを学習 ○ ● Mockingjay の multi-head attention は何を表している [Yang20] ○ 3つに分類されると報告 ○ Global … 全体的な特徴(話者性など) ○ Vertical … 特定の音素の注視 ○ Diagonal … 近傍の音素を考慮 S.-w. Yang et al., “Understanding Self-Attention of Self-Supervised Audio Transformers,” Interspeech2020. A. T. Liu et al., “Mockingjay: Unsupervised speech representation learning with deep bidirectional transformer encoders,” ICASSP2020.