Submit Search
Upload
論文紹介 Unsupervised training of neural mask-based beamforming
•
1 like
•
1,748 views
Shinnosuke Takamichi
Follow
https://connpass.com/event/152316/
Read less
Read more
Technology
Report
Share
Report
Share
1 of 26
Download now
Download to read offline
Recommended
時間領域低ランクスペクトログラム近似法に基づくマスキング音声の欠損成分復元
時間領域低ランクスペクトログラム近似法に基づくマスキング音声の欠損成分復元
NU_I_TODALAB
独立低ランク行列分析に基づく音源分離とその発展(Audio source separation based on independent low-rank...
独立低ランク行列分析に基づく音源分離とその発展(Audio source separation based on independent low-rank...
Daichi Kitamura
独立低ランク行列分析に基づくブラインド音源分離(Blind source separation based on independent low-rank...
独立低ランク行列分析に基づくブラインド音源分離(Blind source separation based on independent low-rank...
Daichi Kitamura
音声合成のコーパスをつくろう
音声合成のコーパスをつくろう
Shinnosuke Takamichi
音源分離における音響モデリング(Acoustic modeling in audio source separation)
音源分離における音響モデリング(Acoustic modeling in audio source separation)
Daichi Kitamura
深層学習を用いた音源定位、音源分離、クラス分類の統合~環境音セグメンテーション手法の紹介~
深層学習を用いた音源定位、音源分離、クラス分類の統合~環境音セグメンテーション手法の紹介~
Yui Sudo
独立性に基づくブラインド音源分離の発展と独立低ランク行列分析 History of independence-based blind source sep...
独立性に基づくブラインド音源分離の発展と独立低ランク行列分析 History of independence-based blind source sep...
Daichi Kitamura
やさしく音声分析法を学ぶ: ケプストラム分析とLPC分析
やさしく音声分析法を学ぶ: ケプストラム分析とLPC分析
Shinnosuke Takamichi
Recommended
時間領域低ランクスペクトログラム近似法に基づくマスキング音声の欠損成分復元
時間領域低ランクスペクトログラム近似法に基づくマスキング音声の欠損成分復元
NU_I_TODALAB
独立低ランク行列分析に基づく音源分離とその発展(Audio source separation based on independent low-rank...
独立低ランク行列分析に基づく音源分離とその発展(Audio source separation based on independent low-rank...
Daichi Kitamura
独立低ランク行列分析に基づくブラインド音源分離(Blind source separation based on independent low-rank...
独立低ランク行列分析に基づくブラインド音源分離(Blind source separation based on independent low-rank...
Daichi Kitamura
音声合成のコーパスをつくろう
音声合成のコーパスをつくろう
Shinnosuke Takamichi
音源分離における音響モデリング(Acoustic modeling in audio source separation)
音源分離における音響モデリング(Acoustic modeling in audio source separation)
Daichi Kitamura
深層学習を用いた音源定位、音源分離、クラス分類の統合~環境音セグメンテーション手法の紹介~
深層学習を用いた音源定位、音源分離、クラス分類の統合~環境音セグメンテーション手法の紹介~
Yui Sudo
独立性に基づくブラインド音源分離の発展と独立低ランク行列分析 History of independence-based blind source sep...
独立性に基づくブラインド音源分離の発展と独立低ランク行列分析 History of independence-based blind source sep...
Daichi Kitamura
やさしく音声分析法を学ぶ: ケプストラム分析とLPC分析
やさしく音声分析法を学ぶ: ケプストラム分析とLPC分析
Shinnosuke Takamichi
リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法
リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法
Shinnosuke Takamichi
ILRMA 20170227 danwakai
ILRMA 20170227 danwakai
SaruwatariLabUTokyo
ランク1空間近似を用いたBSSにおける音源及び空間モデルの考察 Study on Source and Spatial Models for BSS wi...
ランク1空間近似を用いたBSSにおける音源及び空間モデルの考察 Study on Source and Spatial Models for BSS wi...
Daichi Kitamura
非負値行列因子分解に基づくブラインド及び教師あり音楽音源分離の効果的最適化法
非負値行列因子分解に基づくブラインド及び教師あり音楽音源分離の効果的最適化法
Daichi Kitamura
深層生成モデルに基づく音声合成技術
深層生成モデルに基づく音声合成技術
NU_I_TODALAB
異常音検知に対する深層学習適用事例
異常音検知に対する深層学習適用事例
NU_I_TODALAB
調波打撃音分離の時間周波数マスクを用いた線形ブラインド音源分離
調波打撃音分離の時間周波数マスクを用いた線形ブラインド音源分離
Kitamura Laboratory
環境音の特徴を活用した音響イベント検出・シーン分類
環境音の特徴を活用した音響イベント検出・シーン分類
Keisuke Imoto
距離学習を導入した二値分類モデルによる異常音検知
距離学習を導入した二値分類モデルによる異常音検知
NU_I_TODALAB
深層学習と音響信号処理
深層学習と音響信号処理
Yuma Koizumi
音楽信号処理における基本周波数推定を応用した心拍信号解析
音楽信号処理における基本周波数推定を応用した心拍信号解析
Kitamura Laboratory
JVS:フリーの日本語多数話者音声コーパス
JVS:フリーの日本語多数話者音声コーパス
Shinnosuke Takamichi
Priorに基づく画像/テンソルの復元
Priorに基づく画像/テンソルの復元
Tatsuya Yokota
統計的ボイチェン研究事情
統計的ボイチェン研究事情
Shinnosuke Takamichi
ICASSP2017読み会(関東編)・AASP_L3(北村担当分)
ICASSP2017読み会(関東編)・AASP_L3(北村担当分)
Daichi Kitamura
論文紹介 wav2vec: Unsupervised Pre-training for Speech Recognition
論文紹介 wav2vec: Unsupervised Pre-training for Speech Recognition
YosukeKashiwagi1
Moment matching networkを用いた音声パラメータのランダム生成の検討
Moment matching networkを用いた音声パラメータのランダム生成の検討
Shinnosuke Takamichi
深層学習を利用した音声強調
深層学習を利用した音声強調
Yuma Koizumi
統計的独立性と低ランク行列分解理論に基づくブラインド音源分離 –独立低ランク行列分析– Blind source separation based on...
統計的独立性と低ランク行列分解理論に基づくブラインド音源分離 –独立低ランク行列分析– Blind source separation based on...
Daichi Kitamura
Neural text-to-speech and voice conversion
Neural text-to-speech and voice conversion
Yuki Saito
JTubeSpeech: 音声認識と話者照合のために YouTube から構築される日本語音声コーパス
JTubeSpeech: 音声認識と話者照合のために YouTube から構築される日本語音声コーパス
Shinnosuke Takamichi
J-KAC:日本語オーディオブック・紙芝居朗読音声コーパス
J-KAC:日本語オーディオブック・紙芝居朗読音声コーパス
Shinnosuke Takamichi
More Related Content
What's hot
リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法
リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法
Shinnosuke Takamichi
ILRMA 20170227 danwakai
ILRMA 20170227 danwakai
SaruwatariLabUTokyo
ランク1空間近似を用いたBSSにおける音源及び空間モデルの考察 Study on Source and Spatial Models for BSS wi...
ランク1空間近似を用いたBSSにおける音源及び空間モデルの考察 Study on Source and Spatial Models for BSS wi...
Daichi Kitamura
非負値行列因子分解に基づくブラインド及び教師あり音楽音源分離の効果的最適化法
非負値行列因子分解に基づくブラインド及び教師あり音楽音源分離の効果的最適化法
Daichi Kitamura
深層生成モデルに基づく音声合成技術
深層生成モデルに基づく音声合成技術
NU_I_TODALAB
異常音検知に対する深層学習適用事例
異常音検知に対する深層学習適用事例
NU_I_TODALAB
調波打撃音分離の時間周波数マスクを用いた線形ブラインド音源分離
調波打撃音分離の時間周波数マスクを用いた線形ブラインド音源分離
Kitamura Laboratory
環境音の特徴を活用した音響イベント検出・シーン分類
環境音の特徴を活用した音響イベント検出・シーン分類
Keisuke Imoto
距離学習を導入した二値分類モデルによる異常音検知
距離学習を導入した二値分類モデルによる異常音検知
NU_I_TODALAB
深層学習と音響信号処理
深層学習と音響信号処理
Yuma Koizumi
音楽信号処理における基本周波数推定を応用した心拍信号解析
音楽信号処理における基本周波数推定を応用した心拍信号解析
Kitamura Laboratory
JVS:フリーの日本語多数話者音声コーパス
JVS:フリーの日本語多数話者音声コーパス
Shinnosuke Takamichi
Priorに基づく画像/テンソルの復元
Priorに基づく画像/テンソルの復元
Tatsuya Yokota
統計的ボイチェン研究事情
統計的ボイチェン研究事情
Shinnosuke Takamichi
ICASSP2017読み会(関東編)・AASP_L3(北村担当分)
ICASSP2017読み会(関東編)・AASP_L3(北村担当分)
Daichi Kitamura
論文紹介 wav2vec: Unsupervised Pre-training for Speech Recognition
論文紹介 wav2vec: Unsupervised Pre-training for Speech Recognition
YosukeKashiwagi1
Moment matching networkを用いた音声パラメータのランダム生成の検討
Moment matching networkを用いた音声パラメータのランダム生成の検討
Shinnosuke Takamichi
深層学習を利用した音声強調
深層学習を利用した音声強調
Yuma Koizumi
統計的独立性と低ランク行列分解理論に基づくブラインド音源分離 –独立低ランク行列分析– Blind source separation based on...
統計的独立性と低ランク行列分解理論に基づくブラインド音源分離 –独立低ランク行列分析– Blind source separation based on...
Daichi Kitamura
Neural text-to-speech and voice conversion
Neural text-to-speech and voice conversion
Yuki Saito
What's hot
(20)
リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法
リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法
ILRMA 20170227 danwakai
ILRMA 20170227 danwakai
ランク1空間近似を用いたBSSにおける音源及び空間モデルの考察 Study on Source and Spatial Models for BSS wi...
ランク1空間近似を用いたBSSにおける音源及び空間モデルの考察 Study on Source and Spatial Models for BSS wi...
非負値行列因子分解に基づくブラインド及び教師あり音楽音源分離の効果的最適化法
非負値行列因子分解に基づくブラインド及び教師あり音楽音源分離の効果的最適化法
深層生成モデルに基づく音声合成技術
深層生成モデルに基づく音声合成技術
異常音検知に対する深層学習適用事例
異常音検知に対する深層学習適用事例
調波打撃音分離の時間周波数マスクを用いた線形ブラインド音源分離
調波打撃音分離の時間周波数マスクを用いた線形ブラインド音源分離
環境音の特徴を活用した音響イベント検出・シーン分類
環境音の特徴を活用した音響イベント検出・シーン分類
距離学習を導入した二値分類モデルによる異常音検知
距離学習を導入した二値分類モデルによる異常音検知
深層学習と音響信号処理
深層学習と音響信号処理
音楽信号処理における基本周波数推定を応用した心拍信号解析
音楽信号処理における基本周波数推定を応用した心拍信号解析
JVS:フリーの日本語多数話者音声コーパス
JVS:フリーの日本語多数話者音声コーパス
Priorに基づく画像/テンソルの復元
Priorに基づく画像/テンソルの復元
統計的ボイチェン研究事情
統計的ボイチェン研究事情
ICASSP2017読み会(関東編)・AASP_L3(北村担当分)
ICASSP2017読み会(関東編)・AASP_L3(北村担当分)
論文紹介 wav2vec: Unsupervised Pre-training for Speech Recognition
論文紹介 wav2vec: Unsupervised Pre-training for Speech Recognition
Moment matching networkを用いた音声パラメータのランダム生成の検討
Moment matching networkを用いた音声パラメータのランダム生成の検討
深層学習を利用した音声強調
深層学習を利用した音声強調
統計的独立性と低ランク行列分解理論に基づくブラインド音源分離 –独立低ランク行列分析– Blind source separation based on...
統計的独立性と低ランク行列分解理論に基づくブラインド音源分離 –独立低ランク行列分析– Blind source separation based on...
Neural text-to-speech and voice conversion
Neural text-to-speech and voice conversion
More from Shinnosuke Takamichi
JTubeSpeech: 音声認識と話者照合のために YouTube から構築される日本語音声コーパス
JTubeSpeech: 音声認識と話者照合のために YouTube から構築される日本語音声コーパス
Shinnosuke Takamichi
J-KAC:日本語オーディオブック・紙芝居朗読音声コーパス
J-KAC:日本語オーディオブック・紙芝居朗読音声コーパス
Shinnosuke Takamichi
短時間発話を用いた話者照合のための音声加工の効果に関する検討
短時間発話を用いた話者照合のための音声加工の効果に関する検討
Shinnosuke Takamichi
ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)
ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)
Shinnosuke Takamichi
国際会議 interspeech 2020 報告
国際会議 interspeech 2020 報告
Shinnosuke Takamichi
Interspeech 2020 読み会 "Incremental Text to Speech for Neural Sequence-to-Sequ...
Interspeech 2020 読み会 "Incremental Text to Speech for Neural Sequence-to-Sequ...
Shinnosuke Takamichi
サブバンドフィルタリングに基づくリアルタイム広帯域DNN声質変換の実装と評価
サブバンドフィルタリングに基づくリアルタイム広帯域DNN声質変換の実装と評価
Shinnosuke Takamichi
P J S: 音素バランスを考慮した日本語歌声コーパス
P J S: 音素バランスを考慮した日本語歌声コーパス
Shinnosuke Takamichi
音響モデル尤度に基づくsubword分割の韻律推定精度における評価
音響モデル尤度に基づくsubword分割の韻律推定精度における評価
Shinnosuke Takamichi
音声合成研究を加速させるためのコーパスデザイン
音声合成研究を加速させるためのコーパスデザイン
Shinnosuke Takamichi
論文紹介 Building the Singapore English National Speech Corpus
論文紹介 Building the Singapore English National Speech Corpus
Shinnosuke Takamichi
論文紹介 SANTLR: Speech Annotation Toolkit for Low Resource Languages
論文紹介 SANTLR: Speech Annotation Toolkit for Low Resource Languages
Shinnosuke Takamichi
話者V2S攻撃: 話者認証から構築される 声質変換とその音声なりすまし可能性の評価
話者V2S攻撃: 話者認証から構築される 声質変換とその音声なりすまし可能性の評価
Shinnosuke Takamichi
差分スペクトル法に基づく DNN 声質変換の計算量削減に向けたフィルタ推定
差分スペクトル法に基づく DNN 声質変換の計算量削減に向けたフィルタ推定
Shinnosuke Takamichi
音声合成・変換の国際コンペティションへの 参加を振り返って
音声合成・変換の国際コンペティションへの 参加を振り返って
Shinnosuke Takamichi
ユーザ歌唱のための generative moment matching network に基づく neural double-tracking
ユーザ歌唱のための generative moment matching network に基づく neural double-tracking
Shinnosuke Takamichi
End-to-end 韻律推定に向けた DNN 音響モデルに基づく subword 分割
End-to-end 韻律推定に向けた DNN 音響モデルに基づく subword 分割
Shinnosuke Takamichi
テキスト音声合成技術と多様性への挑戦 (名古屋大学 知能システム特論)
テキスト音声合成技術と多様性への挑戦 (名古屋大学 知能システム特論)
Shinnosuke Takamichi
統計的音声合成変換と近年の発展
統計的音声合成変換と近年の発展
Shinnosuke Takamichi
音声コーパス設計と次世代音声研究に向けた提言
音声コーパス設計と次世代音声研究に向けた提言
Shinnosuke Takamichi
More from Shinnosuke Takamichi
(20)
JTubeSpeech: 音声認識と話者照合のために YouTube から構築される日本語音声コーパス
JTubeSpeech: 音声認識と話者照合のために YouTube から構築される日本語音声コーパス
J-KAC:日本語オーディオブック・紙芝居朗読音声コーパス
J-KAC:日本語オーディオブック・紙芝居朗読音声コーパス
短時間発話を用いた話者照合のための音声加工の効果に関する検討
短時間発話を用いた話者照合のための音声加工の効果に関する検討
ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)
ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)
国際会議 interspeech 2020 報告
国際会議 interspeech 2020 報告
Interspeech 2020 読み会 "Incremental Text to Speech for Neural Sequence-to-Sequ...
Interspeech 2020 読み会 "Incremental Text to Speech for Neural Sequence-to-Sequ...
サブバンドフィルタリングに基づくリアルタイム広帯域DNN声質変換の実装と評価
サブバンドフィルタリングに基づくリアルタイム広帯域DNN声質変換の実装と評価
P J S: 音素バランスを考慮した日本語歌声コーパス
P J S: 音素バランスを考慮した日本語歌声コーパス
音響モデル尤度に基づくsubword分割の韻律推定精度における評価
音響モデル尤度に基づくsubword分割の韻律推定精度における評価
音声合成研究を加速させるためのコーパスデザイン
音声合成研究を加速させるためのコーパスデザイン
論文紹介 Building the Singapore English National Speech Corpus
論文紹介 Building the Singapore English National Speech Corpus
論文紹介 SANTLR: Speech Annotation Toolkit for Low Resource Languages
論文紹介 SANTLR: Speech Annotation Toolkit for Low Resource Languages
話者V2S攻撃: 話者認証から構築される 声質変換とその音声なりすまし可能性の評価
話者V2S攻撃: 話者認証から構築される 声質変換とその音声なりすまし可能性の評価
差分スペクトル法に基づく DNN 声質変換の計算量削減に向けたフィルタ推定
差分スペクトル法に基づく DNN 声質変換の計算量削減に向けたフィルタ推定
音声合成・変換の国際コンペティションへの 参加を振り返って
音声合成・変換の国際コンペティションへの 参加を振り返って
ユーザ歌唱のための generative moment matching network に基づく neural double-tracking
ユーザ歌唱のための generative moment matching network に基づく neural double-tracking
End-to-end 韻律推定に向けた DNN 音響モデルに基づく subword 分割
End-to-end 韻律推定に向けた DNN 音響モデルに基づく subword 分割
テキスト音声合成技術と多様性への挑戦 (名古屋大学 知能システム特論)
テキスト音声合成技術と多様性への挑戦 (名古屋大学 知能システム特論)
統計的音声合成変換と近年の発展
統計的音声合成変換と近年の発展
音声コーパス設計と次世代音声研究に向けた提言
音声コーパス設計と次世代音声研究に向けた提言
Recently uploaded
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Yuma Ohgami
Postman LT Fukuoka_Quick Prototype_By Daniel
Postman LT Fukuoka_Quick Prototype_By Daniel
danielhu54
TSAL operation mechanism and circuit diagram.pdf
TSAL operation mechanism and circuit diagram.pdf
taisei2219
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
Ryo Sasaki
スマートフォンを用いた新生児あやし動作の教示システム
スマートフォンを用いた新生児あやし動作の教示システム
sugiuralab
SOPを理解する 2024/04/19 の勉強会で発表されたものです
SOPを理解する 2024/04/19 の勉強会で発表されたものです
iPride Co., Ltd.
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
Toru Tamaki
論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNet
Toru Tamaki
論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A survey
Toru Tamaki
Recently uploaded
(9)
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Postman LT Fukuoka_Quick Prototype_By Daniel
Postman LT Fukuoka_Quick Prototype_By Daniel
TSAL operation mechanism and circuit diagram.pdf
TSAL operation mechanism and circuit diagram.pdf
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
スマートフォンを用いた新生児あやし動作の教示システム
スマートフォンを用いた新生児あやし動作の教示システム
SOPを理解する 2024/04/19 の勉強会で発表されたものです
SOPを理解する 2024/04/19 の勉強会で発表されたものです
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介 Unsupervised training of neural mask-based beamforming
1.
論文紹介 Unsupervised training of
neural mask-based beamforming 早稲田大学 升山義紀
2.
自己紹介 ◼ 升山 義紀
(Masuyama Yoshiki) ◼ 経歴 ◦ 2015.04-2019.03 早稲田大学 基幹理工学部 ◦ 2019.03-現在 同大学院 ◦ 2019.03-2019.09 アルバイト@LINE ◦ 2019.11-現在 RA@AIST ◼ 研究テーマ ◦ 位相を考慮した音響信号処理(位相復元,楽器音強調・分離) ◦ 多チャンネル音響信号処理(DNNを用いた音源分離)
3.
本スライドの内容は個人の解釈であり,誤りの可能性があります.
4.
Unsupervised training of
neural mask-based beamforming Lukas Drude, Jahn Heymann, Reinhold Haeb-Umbach (Paderborn University) Session: Far-field Speech Recognition
5.
音声認識のための多チャンネル音声強調 ◼ 目的音方向が未知の場合のビームフォーミング ◦ 目的音,妨害音の空間相関行列を推定 ◦
推定した空間相関行列からビームフォーマの設計 研究背景
6.
研究目的 音声強調のためのDNNの教師なし学習 ◼ 教師あり手法 ◦ クリーン音声とノイジーな音声のペアデータが必要 ◦
実(多チャンネル録音の)ペアデータの準備はコスト高 ◦ 多くの研究がシミュレーションデータを利用 • ロンバード効果などのシミュレーションは困難 • 拡散性の雑音のシミュレーションは困難 ◼ 提案手法 ◦ ノイジーな多チャンネル録音のみから学習が可能 ◦ 多チャンネル観測信号の確率モデルの尤度最大化で学習
7.
Mask-based Beamforming システム概要 ◼ 大きく分けて3-step ◦
時間周波数マスクを推定(e.g., DNN) ◦ 空間相関行列(SCM)の計算 ◦ ビームフォーミング(e.g., GEVビームフォーマ, …) マスク推定 SCM計算 ビーム フォーミング
8.
Mask-based Beamforming システム概要 ◼ 大きく分けて3-step ◦
時間周波数マスクを推定(e.g., DNN) ◦ 空間相関行列(SCM)の計算 ◦ ビームフォーミング(e.g., GEVビームフォーマ, …) マスク推定 SCM計算 ビーム フォーミング
9.
Mask-based Beamforming 各ブロックの実装 ◼ SCMの計算 ◼
ビームフォーマの設計 ◦ MVDRビームフォーマ: 目的音をひずみなく抽出するように設計 ◦ GEVビームフォーマ: SNRが最大になるように設計
10.
従来手法: 教師あり学習 NN based
spectral mask estimation [Heymann+ 2016] ◼ DNNを用いたmask-based beamformingの初期の論文 ◦ モノラルのクリーン音声と雑音を学習に利用 ◦ バイナリマスクをターゲットとしてDNNを学習
11.
End-to-end学習 BeamNet [Heymann+ 2017] ◼
ASRの結果にもとづいたend-to-end学習 ◦ 音声認識におけるcross-entropy最小化で2つのDNNを学習 • チャンネルごとに時間周波数マスク推定を行うDNN • 音響特徴量を推定するDNN ◦ 複素数の多チャンネル信号処理に関しても誤差逆伝搬を適用 マスク推定DNN 音響特徴量推定DNN
12.
疑似教師あり学習 Unsupervised Deep Clustering ◼
教師データを信号処理で作成 ◦ 多チャンネル混合音に従来のBSS手法の分離を適用し教師に利用 ◦ 推論時はモノラルの混合音のみから時間周波数マスク推定可能 ◦ ICASSP2019で乱立 • 位相差にもとづき教師作成 [Tzinis+ 2019], [Seetharaman+ 2019] • cACGMMにもとづき教師作成 [Drude+ 2019] 多チャンネル 信号処理 DNNによる 埋め込み DC Loss
13.
疑似教師あり学習 Unsupervised training of
DC ◼ 確率モデルにもとづいた信号処理結果を利用 ◦ cACGMM [Ito+ 2016]: チャンネル間の位相差・振幅差に注目 ◦ 空間的な性質にもとづいて時間周波数マスク推定 ◦ CGMM + ビームフォーマはCHiME3で高性能 [Higuchi+ 2016]
14.
疑似教師あり学習 Unsupervised training of
DC ◼ DNNの学習 ◦ Deep clustering [Hershey+ 2016]: 単チャネルの話者分離手法 ◦ 学習には理想バイナリマスクを利用 ⇒ cACGMMのクラス割り当ての事後確率で代用
15.
疑似教師あり学習 Unsupervised training of
DC ◼ DNNの学習 ◦ Deep clustering [Hershey+ 2016]: 単チャネルの話者分離手法 ◦ 学習には理想バイナリマスクを利用 ⇒ cACGMMのクラス割り当ての事後確率で代用 • 教師データ作成のためにEM アルゴリズムが必要 • 教師データがノイジー
16.
Unsupervised training of
neural mask-based beamforming
17.
Overview cACGMMの尤度を直接最大化 ◼ EMアルゴリズムの結果がよくなるようにDNNを学習 ◦ DNNで時間周波数マスク(以下文献に合わせ𝛾𝑡,𝑓 [𝑘] )を推定 ◦
cACGMMのEMアルゴリズムのM(+E)ステップを一回計算 ◦ 尤度にもとづいて学習 チャンネルごとマスク推定 (学習するのはこの部分)
18.
Overview cACGMMの尤度を直接最大化 ◼ EMアルゴリズムの結果がよくなるようにDNNを学習 ◦ DNNで時間周波数マスク(以下文献に合わせ𝛾𝑡,𝑓 [𝑘] )を推定 ◦
cACGMMのEMアルゴリズムのM(+E)ステップを一回計算 ◦ 尤度にもとづいて学習 cACGMMの EMアルゴリズム
19.
Overview cACGMMの尤度を直接最大化 ◼ EMアルゴリズムの結果がよくなるようにDNNを学習 ◦ DNNで時間周波数マスク(以下文献に合わせ𝛾𝑡,𝑓 [𝑘] )を推定 ◦
cACGMMのEMアルゴリズムのM(+E)ステップを一回計算 ◦ 尤度にもとづいて学習 尤度を上昇させる ように勾配計算
20.
cACGMMにもとづいたロス関数 尤度最大化によるDNNの学習 ◼ cACGMMのパラメータ(𝜋 𝑓 [𝑘] ,
𝐁 𝑓 [𝑘] )をマスクから計算 ◦ 𝐁 𝑓 [𝑘] の計算には反復が必要だが,1回で代用 ◦ EMアルゴリズムのMステップに対応
21.
cACGMMにもとづいたロス関数 尤度最大化によるDNNの学習 ◼ 具体的な目的関数() ◦ 対数尤度 ◦
クラス割り当ての事前確率を等確率にしたもの ◦ Q関数に対応するもの
22.
cACGMMにもとづいたロス関数 尤度最大化によるDNNの学習 ◼ 具体的な目的関数() ◦ 対数尤度 ◦
クラス割り当ての事前確率を等確率にしたもの ◦ Q関数に対応するもの 文献式(14)にはなし
23.
実験: 多チャンネル音声認識 実験条件 ◼ データセット:
CHiME 4 ◼ DNN ◦ Mask estimator: BiLSTM + Dense×3 ◦ Acoustic model: Wideband bi-directional residual network ◼ 提案手法 ◦ ロス3種類, 𝛾𝑡,𝑓 [𝑘] の再推定あり/なし,EMアップデート(1回) サンプリング周波数 16 kHz 窓長 32 ms シフト長 25 ms FFTサイズ 10 ms
24.
実験: 多チャンネル音声認識 実験結果1: ロス関数の比較 ◦
クラス割り当ての事前確率が等しいという仮定が最高性能 ◦ 追加のEMアルゴリズムで性能改善
25.
実験: 多チャンネル音声認識 実験結果2: 他手法との比較 ◦
教師ありと遜色ない性能を教師なしで実現 ◦ 追加のEMアルゴリズムは提案手法と相性がいい
26.
まとめ ◼ 目的 ◦ 多チャンネルの音声認識のためのビームフォーマ ◦
マスク推定DNNの教師なし学習 ◼ ポイント ◦ BSSで使われてきたcACGMMを利用 ◦ 確率モデルの尤度最大化で直接DNNを学習 ◼ 結果 ◦ 追加のEMステップ適用で教師ありと同程度の性能を獲得 ◼ 課題 ◦ 学習時にDNNの出力マスクに周波数方向のパーミュテーション 問題が発生 ◼ 発展手法 ◦ 時間周波数マスクに加え音源方向もDNNで推定 [Bando+ 2019] ⇒ 周波数方向のパーミュテーション問題が発生しない
Download now