Submit Search
Upload
サブバンドフィルタリングに基づくリアルタイム広帯域DNN声質変換の実装と評価
•
0 likes
•
1,408 views
Shinnosuke Takamichi
Follow
サブバンドフィルタリングに基づくリアルタイム広帯域DNN声質変換の実装と評価(日本音響学会2020年 秋季講演発表会)
Read less
Read more
Technology
Slideshow view
Report
Share
Slideshow view
Report
Share
1 of 16
Download now
Download to read offline
Recommended
リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法
リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法
Shinnosuke Takamichi
統計的音声合成変換と近年の発展
統計的音声合成変換と近年の発展
Shinnosuke Takamichi
音声の声質を変換する技術とその応用
音声の声質を変換する技術とその応用
NU_I_TODALAB
音源分離 ~DNN音源分離の基礎から最新技術まで~ Tokyo bishbash #3
音源分離 ~DNN音源分離の基礎から最新技術まで~ Tokyo bishbash #3
Naoya Takahashi
深層生成モデルに基づく音声合成技術
深層生成モデルに基づく音声合成技術
NU_I_TODALAB
WaveNetが音声合成研究に与える影響
WaveNetが音声合成研究に与える影響
NU_I_TODALAB
時間領域低ランクスペクトログラム近似法に基づくマスキング音声の欠損成分復元
時間領域低ランクスペクトログラム近似法に基づくマスキング音声の欠損成分復元
NU_I_TODALAB
Saito20asj_autumn
Saito20asj_autumn
Yuki Saito
Recommended
リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法
リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法
Shinnosuke Takamichi
統計的音声合成変換と近年の発展
統計的音声合成変換と近年の発展
Shinnosuke Takamichi
音声の声質を変換する技術とその応用
音声の声質を変換する技術とその応用
NU_I_TODALAB
音源分離 ~DNN音源分離の基礎から最新技術まで~ Tokyo bishbash #3
音源分離 ~DNN音源分離の基礎から最新技術まで~ Tokyo bishbash #3
Naoya Takahashi
深層生成モデルに基づく音声合成技術
深層生成モデルに基づく音声合成技術
NU_I_TODALAB
WaveNetが音声合成研究に与える影響
WaveNetが音声合成研究に与える影響
NU_I_TODALAB
時間領域低ランクスペクトログラム近似法に基づくマスキング音声の欠損成分復元
時間領域低ランクスペクトログラム近似法に基づくマスキング音声の欠損成分復元
NU_I_TODALAB
Saito20asj_autumn
Saito20asj_autumn
Yuki Saito
JVS:フリーの日本語多数話者音声コーパス
JVS:フリーの日本語多数話者音声コーパス
Shinnosuke Takamichi
雑音環境下音声を用いた音声合成のための雑音生成モデルの敵対的学習
雑音環境下音声を用いた音声合成のための雑音生成モデルの敵対的学習
Shinnosuke Takamichi
論文紹介 Unsupervised training of neural mask-based beamforming
論文紹介 Unsupervised training of neural mask-based beamforming
Shinnosuke Takamichi
距離学習を導入した二値分類モデルによる異常音検知
距離学習を導入した二値分類モデルによる異常音検知
NU_I_TODALAB
音情報処理における特徴表現
音情報処理における特徴表現
NU_I_TODALAB
差分スペクトル法に基づく DNN 声質変換の計算量削減に向けたフィルタ推定
差分スペクトル法に基づく DNN 声質変換の計算量削減に向けたフィルタ推定
Shinnosuke Takamichi
実環境音響信号処理における収音技術
実環境音響信号処理における収音技術
Yuma Koizumi
Nakai22sp03 presentation
Nakai22sp03 presentation
Yuki Saito
ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)
ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)
Shinnosuke Takamichi
z変換をやさしく教えて下さい (音響学入門ペディア)
z変換をやさしく教えて下さい (音響学入門ペディア)
Shinnosuke Takamichi
ICASSP 2019での音響信号処理分野の世界動向
ICASSP 2019での音響信号処理分野の世界動向
Yuma Koizumi
高効率音声符号化―MP3詳解―
高効率音声符号化―MP3詳解―
Akinori Ito
日本音響学会2017秋 ”Moment-matching networkに基づく一期一会音声合成における発話間変動の評価”
日本音響学会2017秋 ”Moment-matching networkに基づく一期一会音声合成における発話間変動の評価”
Shinnosuke Takamichi
音源分離における音響モデリング(Acoustic modeling in audio source separation)
音源分離における音響モデリング(Acoustic modeling in audio source separation)
Daichi Kitamura
深層学習に基づく音響特徴量からの振幅スペクトログラム予測
深層学習に基づく音響特徴量からの振幅スペクトログラム予測
Kitamura Laboratory
深層学習を利用した音声強調
深層学習を利用した音声強調
Yuma Koizumi
GAN-based statistical speech synthesis (in Japanese)
GAN-based statistical speech synthesis (in Japanese)
Yuki Saito
深層学習と音響信号処理
深層学習と音響信号処理
Yuma Koizumi
音声感情認識の分野動向と実用化に向けたNTTの取り組み
音声感情認識の分野動向と実用化に向けたNTTの取り組み
Atsushi_Ando
[DL輪読会]Discriminative Learning for Monaural Speech Separation Using Deep Embe...
[DL輪読会]Discriminative Learning for Monaural Speech Separation Using Deep Embe...
Deep Learning JP
多目的な音声伝送システムMRATの開発
多目的な音声伝送システムMRATの開発
Takashi Kishida
ICASSP2019音声&音響論文読み会 論文紹介(認識系)
ICASSP2019音声&音響論文読み会 論文紹介(認識系)
貴史 益子
More Related Content
What's hot
JVS:フリーの日本語多数話者音声コーパス
JVS:フリーの日本語多数話者音声コーパス
Shinnosuke Takamichi
雑音環境下音声を用いた音声合成のための雑音生成モデルの敵対的学習
雑音環境下音声を用いた音声合成のための雑音生成モデルの敵対的学習
Shinnosuke Takamichi
論文紹介 Unsupervised training of neural mask-based beamforming
論文紹介 Unsupervised training of neural mask-based beamforming
Shinnosuke Takamichi
距離学習を導入した二値分類モデルによる異常音検知
距離学習を導入した二値分類モデルによる異常音検知
NU_I_TODALAB
音情報処理における特徴表現
音情報処理における特徴表現
NU_I_TODALAB
差分スペクトル法に基づく DNN 声質変換の計算量削減に向けたフィルタ推定
差分スペクトル法に基づく DNN 声質変換の計算量削減に向けたフィルタ推定
Shinnosuke Takamichi
実環境音響信号処理における収音技術
実環境音響信号処理における収音技術
Yuma Koizumi
Nakai22sp03 presentation
Nakai22sp03 presentation
Yuki Saito
ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)
ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)
Shinnosuke Takamichi
z変換をやさしく教えて下さい (音響学入門ペディア)
z変換をやさしく教えて下さい (音響学入門ペディア)
Shinnosuke Takamichi
ICASSP 2019での音響信号処理分野の世界動向
ICASSP 2019での音響信号処理分野の世界動向
Yuma Koizumi
高効率音声符号化―MP3詳解―
高効率音声符号化―MP3詳解―
Akinori Ito
日本音響学会2017秋 ”Moment-matching networkに基づく一期一会音声合成における発話間変動の評価”
日本音響学会2017秋 ”Moment-matching networkに基づく一期一会音声合成における発話間変動の評価”
Shinnosuke Takamichi
音源分離における音響モデリング(Acoustic modeling in audio source separation)
音源分離における音響モデリング(Acoustic modeling in audio source separation)
Daichi Kitamura
深層学習に基づく音響特徴量からの振幅スペクトログラム予測
深層学習に基づく音響特徴量からの振幅スペクトログラム予測
Kitamura Laboratory
深層学習を利用した音声強調
深層学習を利用した音声強調
Yuma Koizumi
GAN-based statistical speech synthesis (in Japanese)
GAN-based statistical speech synthesis (in Japanese)
Yuki Saito
深層学習と音響信号処理
深層学習と音響信号処理
Yuma Koizumi
音声感情認識の分野動向と実用化に向けたNTTの取り組み
音声感情認識の分野動向と実用化に向けたNTTの取り組み
Atsushi_Ando
[DL輪読会]Discriminative Learning for Monaural Speech Separation Using Deep Embe...
[DL輪読会]Discriminative Learning for Monaural Speech Separation Using Deep Embe...
Deep Learning JP
What's hot
(20)
JVS:フリーの日本語多数話者音声コーパス
JVS:フリーの日本語多数話者音声コーパス
雑音環境下音声を用いた音声合成のための雑音生成モデルの敵対的学習
雑音環境下音声を用いた音声合成のための雑音生成モデルの敵対的学習
論文紹介 Unsupervised training of neural mask-based beamforming
論文紹介 Unsupervised training of neural mask-based beamforming
距離学習を導入した二値分類モデルによる異常音検知
距離学習を導入した二値分類モデルによる異常音検知
音情報処理における特徴表現
音情報処理における特徴表現
差分スペクトル法に基づく DNN 声質変換の計算量削減に向けたフィルタ推定
差分スペクトル法に基づく DNN 声質変換の計算量削減に向けたフィルタ推定
実環境音響信号処理における収音技術
実環境音響信号処理における収音技術
Nakai22sp03 presentation
Nakai22sp03 presentation
ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)
ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)
z変換をやさしく教えて下さい (音響学入門ペディア)
z変換をやさしく教えて下さい (音響学入門ペディア)
ICASSP 2019での音響信号処理分野の世界動向
ICASSP 2019での音響信号処理分野の世界動向
高効率音声符号化―MP3詳解―
高効率音声符号化―MP3詳解―
日本音響学会2017秋 ”Moment-matching networkに基づく一期一会音声合成における発話間変動の評価”
日本音響学会2017秋 ”Moment-matching networkに基づく一期一会音声合成における発話間変動の評価”
音源分離における音響モデリング(Acoustic modeling in audio source separation)
音源分離における音響モデリング(Acoustic modeling in audio source separation)
深層学習に基づく音響特徴量からの振幅スペクトログラム予測
深層学習に基づく音響特徴量からの振幅スペクトログラム予測
深層学習を利用した音声強調
深層学習を利用した音声強調
GAN-based statistical speech synthesis (in Japanese)
GAN-based statistical speech synthesis (in Japanese)
深層学習と音響信号処理
深層学習と音響信号処理
音声感情認識の分野動向と実用化に向けたNTTの取り組み
音声感情認識の分野動向と実用化に向けたNTTの取り組み
[DL輪読会]Discriminative Learning for Monaural Speech Separation Using Deep Embe...
[DL輪読会]Discriminative Learning for Monaural Speech Separation Using Deep Embe...
Similar to サブバンドフィルタリングに基づくリアルタイム広帯域DNN声質変換の実装と評価
多目的な音声伝送システムMRATの開発
多目的な音声伝送システムMRATの開発
Takashi Kishida
ICASSP2019音声&音響論文読み会 論文紹介(認識系)
ICASSP2019音声&音響論文読み会 論文紹介(認識系)
貴史 益子
Icassp2018 発表参加報告 FFTNet, Tactron2紹介
Icassp2018 発表参加報告 FFTNet, Tactron2紹介
Kentaro Tachibana
MPSoCのPLの性能について
MPSoCのPLの性能について
marsee101
深層ガウス過程音声合成におけるsequence-to-sequence学習の初期検討
深層ガウス過程音声合成におけるsequence-to-sequence学習の初期検討
TaikiNakamura
M1 gpプレゼン
M1 gpプレゼン
heyheyhayashiii
AnnoTone: 高周波音の映像収録時埋め込みによる編集支援
AnnoTone: 高周波音の映像収録時埋め込みによる編集支援
Ryohei Suzuki
Agreement for rnn
Agreement for rnn
Aizhan Imankulova
インターネット上の多目的な音声伝送システムに関する研究
インターネット上の多目的な音声伝送システムに関する研究
Takashi Kishida
A convolutional encoder model for neural machine translation
A convolutional encoder model for neural machine translation
Satoru Katsumata
NSG フローログを支える技術 - NVF Advanced Flow Logging
NSG フローログを支える技術 - NVF Advanced Flow Logging
順也 山口
差分スペクトル法に基づくDNN声質変換のためのリフタ学習およびサブバンド処理
差分スペクトル法に基づくDNN声質変換のためのリフタ学習およびサブバンド処理
Takaaki Saeki
Similar to サブバンドフィルタリングに基づくリアルタイム広帯域DNN声質変換の実装と評価
(12)
多目的な音声伝送システムMRATの開発
多目的な音声伝送システムMRATの開発
ICASSP2019音声&音響論文読み会 論文紹介(認識系)
ICASSP2019音声&音響論文読み会 論文紹介(認識系)
Icassp2018 発表参加報告 FFTNet, Tactron2紹介
Icassp2018 発表参加報告 FFTNet, Tactron2紹介
MPSoCのPLの性能について
MPSoCのPLの性能について
深層ガウス過程音声合成におけるsequence-to-sequence学習の初期検討
深層ガウス過程音声合成におけるsequence-to-sequence学習の初期検討
M1 gpプレゼン
M1 gpプレゼン
AnnoTone: 高周波音の映像収録時埋め込みによる編集支援
AnnoTone: 高周波音の映像収録時埋め込みによる編集支援
Agreement for rnn
Agreement for rnn
インターネット上の多目的な音声伝送システムに関する研究
インターネット上の多目的な音声伝送システムに関する研究
A convolutional encoder model for neural machine translation
A convolutional encoder model for neural machine translation
NSG フローログを支える技術 - NVF Advanced Flow Logging
NSG フローログを支える技術 - NVF Advanced Flow Logging
差分スペクトル法に基づくDNN声質変換のためのリフタ学習およびサブバンド処理
差分スペクトル法に基づくDNN声質変換のためのリフタ学習およびサブバンド処理
More from Shinnosuke Takamichi
JTubeSpeech: 音声認識と話者照合のために YouTube から構築される日本語音声コーパス
JTubeSpeech: 音声認識と話者照合のために YouTube から構築される日本語音声コーパス
Shinnosuke Takamichi
音声合成のコーパスをつくろう
音声合成のコーパスをつくろう
Shinnosuke Takamichi
J-KAC:日本語オーディオブック・紙芝居朗読音声コーパス
J-KAC:日本語オーディオブック・紙芝居朗読音声コーパス
Shinnosuke Takamichi
短時間発話を用いた話者照合のための音声加工の効果に関する検討
短時間発話を用いた話者照合のための音声加工の効果に関する検討
Shinnosuke Takamichi
国際会議 interspeech 2020 報告
国際会議 interspeech 2020 報告
Shinnosuke Takamichi
Interspeech 2020 読み会 "Incremental Text to Speech for Neural Sequence-to-Sequ...
Interspeech 2020 読み会 "Incremental Text to Speech for Neural Sequence-to-Sequ...
Shinnosuke Takamichi
P J S: 音素バランスを考慮した日本語歌声コーパス
P J S: 音素バランスを考慮した日本語歌声コーパス
Shinnosuke Takamichi
音響モデル尤度に基づくsubword分割の韻律推定精度における評価
音響モデル尤度に基づくsubword分割の韻律推定精度における評価
Shinnosuke Takamichi
音声合成研究を加速させるためのコーパスデザイン
音声合成研究を加速させるためのコーパスデザイン
Shinnosuke Takamichi
論文紹介 Building the Singapore English National Speech Corpus
論文紹介 Building the Singapore English National Speech Corpus
Shinnosuke Takamichi
論文紹介 SANTLR: Speech Annotation Toolkit for Low Resource Languages
論文紹介 SANTLR: Speech Annotation Toolkit for Low Resource Languages
Shinnosuke Takamichi
話者V2S攻撃: 話者認証から構築される 声質変換とその音声なりすまし可能性の評価
話者V2S攻撃: 話者認証から構築される 声質変換とその音声なりすまし可能性の評価
Shinnosuke Takamichi
音声合成・変換の国際コンペティションへの 参加を振り返って
音声合成・変換の国際コンペティションへの 参加を振り返って
Shinnosuke Takamichi
ユーザ歌唱のための generative moment matching network に基づく neural double-tracking
ユーザ歌唱のための generative moment matching network に基づく neural double-tracking
Shinnosuke Takamichi
End-to-end 韻律推定に向けた DNN 音響モデルに基づく subword 分割
End-to-end 韻律推定に向けた DNN 音響モデルに基づく subword 分割
Shinnosuke Takamichi
統計的ボイチェン研究事情
統計的ボイチェン研究事情
Shinnosuke Takamichi
テキスト音声合成技術と多様性への挑戦 (名古屋大学 知能システム特論)
テキスト音声合成技術と多様性への挑戦 (名古屋大学 知能システム特論)
Shinnosuke Takamichi
音声コーパス設計と次世代音声研究に向けた提言
音声コーパス設計と次世代音声研究に向けた提言
Shinnosuke Takamichi
多様なカートシスを持つ雑音に対応した低ミュージカルノイズ DNN 音声強調
多様なカートシスを持つ雑音に対応した低ミュージカルノイズ DNN 音声強調
Shinnosuke Takamichi
End-to-end 韻律推定に向けた subword lattice 構造を考慮した DNN 音響モデル学習
End-to-end 韻律推定に向けた subword lattice 構造を考慮した DNN 音響モデル学習
Shinnosuke Takamichi
More from Shinnosuke Takamichi
(20)
JTubeSpeech: 音声認識と話者照合のために YouTube から構築される日本語音声コーパス
JTubeSpeech: 音声認識と話者照合のために YouTube から構築される日本語音声コーパス
音声合成のコーパスをつくろう
音声合成のコーパスをつくろう
J-KAC:日本語オーディオブック・紙芝居朗読音声コーパス
J-KAC:日本語オーディオブック・紙芝居朗読音声コーパス
短時間発話を用いた話者照合のための音声加工の効果に関する検討
短時間発話を用いた話者照合のための音声加工の効果に関する検討
国際会議 interspeech 2020 報告
国際会議 interspeech 2020 報告
Interspeech 2020 読み会 "Incremental Text to Speech for Neural Sequence-to-Sequ...
Interspeech 2020 読み会 "Incremental Text to Speech for Neural Sequence-to-Sequ...
P J S: 音素バランスを考慮した日本語歌声コーパス
P J S: 音素バランスを考慮した日本語歌声コーパス
音響モデル尤度に基づくsubword分割の韻律推定精度における評価
音響モデル尤度に基づくsubword分割の韻律推定精度における評価
音声合成研究を加速させるためのコーパスデザイン
音声合成研究を加速させるためのコーパスデザイン
論文紹介 Building the Singapore English National Speech Corpus
論文紹介 Building the Singapore English National Speech Corpus
論文紹介 SANTLR: Speech Annotation Toolkit for Low Resource Languages
論文紹介 SANTLR: Speech Annotation Toolkit for Low Resource Languages
話者V2S攻撃: 話者認証から構築される 声質変換とその音声なりすまし可能性の評価
話者V2S攻撃: 話者認証から構築される 声質変換とその音声なりすまし可能性の評価
音声合成・変換の国際コンペティションへの 参加を振り返って
音声合成・変換の国際コンペティションへの 参加を振り返って
ユーザ歌唱のための generative moment matching network に基づく neural double-tracking
ユーザ歌唱のための generative moment matching network に基づく neural double-tracking
End-to-end 韻律推定に向けた DNN 音響モデルに基づく subword 分割
End-to-end 韻律推定に向けた DNN 音響モデルに基づく subword 分割
統計的ボイチェン研究事情
統計的ボイチェン研究事情
テキスト音声合成技術と多様性への挑戦 (名古屋大学 知能システム特論)
テキスト音声合成技術と多様性への挑戦 (名古屋大学 知能システム特論)
音声コーパス設計と次世代音声研究に向けた提言
音声コーパス設計と次世代音声研究に向けた提言
多様なカートシスを持つ雑音に対応した低ミュージカルノイズ DNN 音声強調
多様なカートシスを持つ雑音に対応した低ミュージカルノイズ DNN 音声強調
End-to-end 韻律推定に向けた subword lattice 構造を考慮した DNN 音響モデル学習
End-to-end 韻律推定に向けた subword lattice 構造を考慮した DNN 音響モデル学習
Recently uploaded
Postman LT Fukuoka_Quick Prototype_By Daniel
Postman LT Fukuoka_Quick Prototype_By Daniel
danielhu54
TSAL operation mechanism and circuit diagram.pdf
TSAL operation mechanism and circuit diagram.pdf
taisei2219
SOPを理解する 2024/04/19 の勉強会で発表されたものです
SOPを理解する 2024/04/19 の勉強会で発表されたものです
iPride Co., Ltd.
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
Hiroki Ichikura
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
Ryo Sasaki
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Yuma Ohgami
論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A survey
Toru Tamaki
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
Toru Tamaki
論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNet
Toru Tamaki
スマートフォンを用いた新生児あやし動作の教示システム
スマートフォンを用いた新生児あやし動作の教示システム
sugiuralab
Recently uploaded
(10)
Postman LT Fukuoka_Quick Prototype_By Daniel
Postman LT Fukuoka_Quick Prototype_By Daniel
TSAL operation mechanism and circuit diagram.pdf
TSAL operation mechanism and circuit diagram.pdf
SOPを理解する 2024/04/19 の勉強会で発表されたものです
SOPを理解する 2024/04/19 の勉強会で発表されたものです
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNet
スマートフォンを用いた新生児あやし動作の教示システム
スマートフォンを用いた新生児あやし動作の教示システム
サブバンドフィルタリングに基づくリアルタイム広帯域DNN声質変換の実装と評価
1.
サブバンドフィルタリングに基づく リアルタイム広帯域DNN声質変換の実装と評価 ☆佐伯高明,齋藤佑樹,高道慎之介,猿渡洋 (東大院・情報理工) SLP研究会 2020/02/13 日本音響学会2020年 秋季講演発表会
1-2-11
2.
/16本発表の概要 ❑ 背景 ▪ 声質変換では,話者再現度だけでなくリアルタイム性・音質が重要 ▪
従来のリアルタイム声質変換では,狭帯域 (16 kHz) 音声のみ変換可能 ▪ 高音質なフルバンド (48 kHz) リアルタイム声質変換の実現が目的 ❑ 手法 ▪ サブバンド処理により低域 (0-8 kHz) のみをモデル化・変換 [佐伯20] ▪ 低域変換の際にフィルタ打ち切りを行うことで計算量削減 [Saeki20] ▪ リアルタイム・オンライン処理のための実装 & F0変換機構 ❑ 評価結果 ▪ 計算効率の評価の結果,1CPUでのリアルタイム動作を確認 ▪ 変換音声の品質評価の結果,Benchmark手法より有意に高い自然性 2
3.
/16既存のリアルタイム声質変換の課題 ❑ 従来のリアルタイム声質変換 [Toda12][Arakawa19] ▪
変換された音響特徴量から信号処理に基づくボコーダで波形生成 ▪ 狭帯域 (16 kHz) 音声を遅延50 ms程度で変換可能 ▪ 信号処理に基づくボコーダによるアーティファクト ▪ 変換可能な帯域幅が狭く,変換音声が低音質 3 ConversionAnalysis Synthesis Source feature Converted feature Narrow-band source speech Narrow-band converted speech
4.
/16本研究でのアプローチ ❑ 差分スペクトル法に基づく声質変換 [Kobayashi18] ▪
ボコーダを用いず,波形領域でのフィルタリングにより変換 ▪ 帯域拡張すると品質・計算量面で問題 ➢ サブバンドフィルタリングによる解決法を提案 [Saeki20] 4 ⊗ Full-band source speech Full-band converted speech DNN Convolution Analysis 𝐶(𝑋) 𝐶(𝐷) 𝑓(𝐷) Real cepstrum of source speech Real cepstrum of Differential filter Differential filter in time domain
5.
/16サブバンドフィルタリングによる広帯域声質変換 [佐伯20] ❑ サブバンド処理により,0-8
kHzのみをモデル化・変換 [佐伯20] ▪ 変動の大きい高域をそのまま使うことで,変換音声の音質を向上 ▪ フィルタをかける波形のサンプル数が減り,計算量を削減 ❑ フィルタのタップ長を短く打ち切ることで,さらに計算量削減 [Saeki20] 5 Pass through ⊗ 0-8 kHz 8-24 kHz DNN Short-tap truncated filter Convolution 0-24 kHz 0-24 kHz 𝑪(𝑿) 𝑪(𝐷) 𝒇(𝑙)
6.
/16リアルタイム・オンライン広帯域声質変換 6 Offline変換 (発話ごとに処理)
[佐伯20] Online変換 (フレームごとに処理) ❑ サブバンドフィルタリングによる声質変換はオフライン変換を想定 ❑ リアルタイムフルバンド声質変換のためのオンライン実装 Sub-band analysis Conversion 0 -8 kHz 8 -2 4 kHz Pass throug h Sub-band synthesis Sub-band analysis Pass throug hConversion 0 -8 kHz 8 -2 4 kHz Sub-band synthesis
7.
/16提案するシステムの主要部 7 ❑ 分析部:
変換元話者の音声をサブバンド処理し,低域から特徴量抽出 ❑ 変換部: DNNでケプストラム変換し,差分フィルタを推定 ❑ 合成部: 変換先話者の音声波形を得る � ( ) � ( ) 0 -8 kHz 8 -2 4 kHz Processing each fram e within 5 m s DNN Pass throug h ⊗ � ( ) Filtering wind ow shift
8.
/16その他の部分 8 ❑ F0変換:
入力波形を一定F0比だけPICOLA [森田1986] でピッチシフト ❑ 特徴量分析時にプリエンファシスを適用 � ( ) � ( ) 0 -8 kHz 8 -2 4 kHz Processing each fram e within 5 m s DNN Pass throug h ⊗ � ( ) Filtering window shift F0 transform ation. Pre-em p hasis De-em p hasis
9.
実験的評価
10.
/16評価の概要 10 Evaluation cases
male-to-male (m2m), female-to-female (f2f) female-to-male (f2m), male-to-female (m2f) Dataset f2f: JSUTcorpus [Sonobe17] Voice Actress corpus [y_benjo17] m2m, f2m, m2f: JVS corpus [Takamichi19] Train / Valid / Test 80 sentences / 10 sentences / 10 sentences DFT length Proposed: 512 samples Benchmark: 2048 samples DNN architecture Multi layer perceptron with 2 hidden layers CPU Intel (R) core (TM) i7-6850K CPU @ 3.60 GHz ❑ Proposed methodとBenchmarkを比較 ▪ Benchmark: 差分スペクトル法を広帯域音声に帯域分割なしで適用 ❑ 評価内容 ▪ 計算効率: FLOPSによる計算量概算 & Real-time factor (RTF) 計測 ▪ 変換音声品質: 主観評価実験
11.
/16計算量の評価 11 ❑ FLOPS:
1秒間に浮動小数点演算が何回行えるかという指標 ❑ 1秒間のフルバンド音声を処理するのにかかる計算量をFLOPS単位で概算 ❑ 理論上はモバイル端末でもリアルタイム変換が可能 ➢ Iphone6 single CPU: 2.8 GFLOPS (理論値) ➢ Intel core i7-6850K single CPU: 14.4 GFLOPS (理論値) Analysis Conversion Synthesis Other Total Benchmark 0.21 3.04 16.80 0.30 20.4 Proposed 0.74 0.37 1.05 0.30 2.5 単位はGFLOPS 350 % 12 % 6% 12 %
12.
/16処理時間の計測 12 1CPUでRTF <
1 を達成し,リアルタイム動作を確認 ❑ RTFによる評価 ▪ 1フレームごとの処理時間を算出し,波形の長さ (5 ms) で除算 ▪ 全フレームでのRTFの平均値を算出 Analysis Conversion Synthesis Other Total Benchmark 0.02 0.33 2.82 0.06 3.23 Proposed 0.16 0.14 0.22 0.06 0.58 800 % 42 % 8% 18 %
13.
/16オンライン・オフラインの品質比較 13 Online Score
Offline [佐伯20] m2m 0.493 0.507 m2m f2f 0.487 0.513 f2f Online Score Offline [佐伯20] m2m 0.483 0.517 m2m f2f 0.510 0.490 f2f Speaker similarity Speech quality ❑ Online実装とOffline実装 [佐伯20]の品質を主観評価実験により比較 ▪ 各ケース30人の評価者 • 話者性についてのXABテスト,音質についてのABテスト オンライン変換 vs. オフライン変換に有意差なく,変換音声の品質は同等
14.
/16変換音声品質の絶対評価 14 ❑ 自然性をmean
opinion score (MOS) により評価 ▪ 同性間・異性間変換の各ケースにつき40人の聴取者が評価 提案するreal-time VCのMOSはbenchmarkより有意に高く,3.5程度 Error bar: 95 % confidence interval
15.
/16デモ 15 Source Target Narrow band Benchmark
Proposed Intra-gender (f2f) Cross-gender (m2f)
16.
/16まとめ 16 ❑ 研究目的 ▪
高音質なリアルタイム広帯域DNN声質変換の実現 ❑ 手法 ▪ サブバンド処理により低域 (0-8 kHz) のみをモデル化・変換 [佐伯20] ▪ 低域変換の際にフィルタ打ち切りを行うことで計算量削減 [Saeki20] ▪ リアルタイム・オンライン処理のための実装 & F0変換機構 ❑ 評価結果 ▪ 計算量の概算の結果,2.5 GFLOPS程度で広帯域音声を変換可能 ▪ RTF計測の結果,1CPUでのリアルタイム動作を確認 ▪ Online変換でも,offline変換 [佐伯20]と同等品質の変換音声を出力可能 ▪ そのまま帯域拡張したケース (Benchmark) より有意に高い自然性 ❑ 今後の課題 ▪ 実環境での頑健性の検討 ▪ さらなる変換音声品質の改善
Download now