[DL輪読会]IMPROVING VOICE SEPARATION BY INCORPORATING END-TO-END SPEECH RECOGNITION
1. 1
DEEP LEARNING JP
[DL Papers]
http://deeplearning.jp/
IMPROVING VOICE SEPARATION BY INCORPORATING
END-TO-END SPEECH RECOGNITION
Hiroshi Sekiguchi, Morikawa Lab
2. 書誌情報
• “IMPROVING VOICE SEPARATION BY INCORPORATING END-
TO-END SPEECH RECOGNITION”,
Naoya Takahashi1,2, Mayank Kumar Singh3, Sakya Basak4, Parthasaarathy
Sudarsanam5, Sriram Ganapathy4, Yuki Mitsufuji1
1Sony Corporation, Japan, 2University of Tsukuba, Japan
3Indian Institute of Technology Bombay, India, 4Indian Institute of Science,
India
5Sony India Software Centre, India
ICASSP 2020 - 2020 IEEE International Conference on Acoustics, Speech and
Signal Processing (ICASSP), 2020, pp. 41-45, doi:
10.1109/ICASSP40776.2020.9053845.
IEEE/ACM TRANSACTIONS ON AUDIO, SPEECH, AND LANGUAGE
PROCESSING, VOL. 29, 2021
https://ieeexplore.ieee.org/document/9053845 2
10. • E2EASRのDeep Features出力を、音声分離部で活用する
– Domain Translation
• E2EASR出力と音声分離Encoder出力の
タイミングとformat整合
• 6 x 1-D Conv with 256 filters
音声分離への転移学習
• 音声分離は実績があるConv-TasNetを使用:
– Loss関数: Scaled Invariant SDR
10
c
c
Domain translation
Domain translation
音声分離(Conv-TasNet)
E2EASRを転移し
音声分離で活用
c : concatenate
11. 音声分離への転移学習
• 音声分離部の学習時:
① 学習済E2EASRにClean音声入力
② Clean音声のE2EASR特徴出力をオラクル出力とし、
音声分離部のDomain translationへ入力
③ 上記と同時に、ノイジーな音声データを音声分離部に
入力
④ 分離部出力と、clean音声のSDRをloss関数にして、
Backpropagationで分離部のNetwork係数を学習
• 音声分離のテスト時:
① Clean音声は無く、重畳音声のみが存在するので、重
畳音声を別の音声分離システムで分離し、暫定的な
clean音声を暫定予測する
② この時の別の音声分離システムとは、Conv-TasNet
分離ブロックのDomain translationの入力をゼロにし
たもので代用→もともとdeep featureはスパースなの
で、ゼロに設定しても、近似の誤差は少ない
③ 別の音声分離システムの出力をE2EASRに入力し、暫
定的に分離した音声に対応したdeep featuresを得る
④ 音声分離部の音声入力に重畳音声を入れて、分離後音
声を得る
11
⑤ E2EASRからの音韻言語特徴量(Deep
features)は、学習時はオラクルなcleanデー
タのものだが、テスト時は別の音声分離シス
テムで予測しただけの擬似cleanデータのも
のなので、分離音声の予測に誤りが含まれる
→このgapを埋めるために、E2EASRでの
Deep features抽出と音声分離を繰り返す
①
②
③
④
①
② ③
④
⑤
12. 声楽の歌声分離への転移
• 声楽の歌声分離はMulti-scale MDenseNetを使用
– Loss関数:MSE in Mel spectrogram
12
Domain translation
c
MDenseNet
E2EASRを転移し
声楽の歌声分離で活用 声楽の歌声分離(Multi-scale MDenseNet)
c
c
c : concatenate
Mel
spectrogram
Mel
spectrogram
• E2EASRのDeep Features出力を
声楽の歌声分離部で活用する
13. 評価方法
• 2つのタスクで評価
① 重畳音声(複数話者音声)+ノイズから目的の音声を分離: 激烈な背景ノイズ
② 声楽から歌声を分離:学習データが少量であるドメインへの転移学習
• データーセット
① 音声認識学習
◼ 音声データ:
◼ LibriSpeechデータセット:960時間の音声
◼ コントロール環境下での録音音声
② 重畳音声(複数話者音声)+ノイズから目的の音声を分離
◼ 音声データ
◼ AVSpeechデータセット:4700時間のYouTubeビデオ音声の一部を使用
◼ 非コントロール環境下での録音音声
◼ 学習データ: 100時間、テストデータ:15時間
◼ ノイズデータ
◼ AudioSetデータセット:YouTubeビデオの10秒のノイズクリップ
◼ 重畳音声生成+ノイズ付加:
◼ AVSpeechから複数話者音声をランダム選択して重畳+AudioSetノイズ(エネルギー比率3:1)
③ 声楽から歌声を分離
◼ 声楽データ
◼ MUSDBデータセット:学習 100曲(6.7時間:少量データ)、テスト 50曲
◼ 3つのデータ:声楽(楽曲+歌声)、楽曲のみ、歌声のみ、 13