Submit Search
Upload
ユーザ歌唱のための generative moment matching network に基づく neural double-tracking
•
1 like
•
438 views
Shinnosuke Takamichi
Follow
日本音響学会秋季研究発表会 (2019/9/4) 1-4-3
Read less
Read more
Technology
Report
Share
Report
Share
1 of 15
Download now
Download to read offline
Recommended
モーメントマッチングに基づくDNN 合成歌声のランダム変調ポストフィルタとニューラルダブルトラッキングへの応用
モーメントマッチングに基づくDNN 合成歌声のランダム変調ポストフィルタとニューラルダブルトラッキングへの応用
Shinnosuke Takamichi
Moment matching networkを用いた音声パラメータのランダム生成の検討
Moment matching networkを用いた音声パラメータのランダム生成の検討
Shinnosuke Takamichi
Saito18sp03
Saito18sp03
Yuki Saito
saito2017asj_vc
saito2017asj_vc
Yuki Saito
DNN音声合成のための Anti-spoofing を考慮した学習アルゴリズム
DNN音声合成のための Anti-spoofing を考慮した学習アルゴリズム
Yuki Saito
高効率音声符号化―MP3詳解―
高効率音声符号化―MP3詳解―
Akinori Ito
時間領域低ランクスペクトログラム近似法に基づくマスキング音声の欠損成分復元
時間領域低ランクスペクトログラム近似法に基づくマスキング音声の欠損成分復元
NU_I_TODALAB
saito2017asj_tts
saito2017asj_tts
Yuki Saito
Recommended
モーメントマッチングに基づくDNN 合成歌声のランダム変調ポストフィルタとニューラルダブルトラッキングへの応用
モーメントマッチングに基づくDNN 合成歌声のランダム変調ポストフィルタとニューラルダブルトラッキングへの応用
Shinnosuke Takamichi
Moment matching networkを用いた音声パラメータのランダム生成の検討
Moment matching networkを用いた音声パラメータのランダム生成の検討
Shinnosuke Takamichi
Saito18sp03
Saito18sp03
Yuki Saito
saito2017asj_vc
saito2017asj_vc
Yuki Saito
DNN音声合成のための Anti-spoofing を考慮した学習アルゴリズム
DNN音声合成のための Anti-spoofing を考慮した学習アルゴリズム
Yuki Saito
高効率音声符号化―MP3詳解―
高効率音声符号化―MP3詳解―
Akinori Ito
時間領域低ランクスペクトログラム近似法に基づくマスキング音声の欠損成分復元
時間領域低ランクスペクトログラム近似法に基づくマスキング音声の欠損成分復元
NU_I_TODALAB
saito2017asj_tts
saito2017asj_tts
Yuki Saito
JTubeSpeech: 音声認識と話者照合のために YouTube から構築される日本語音声コーパス
JTubeSpeech: 音声認識と話者照合のために YouTube から構築される日本語音声コーパス
Shinnosuke Takamichi
音声合成のコーパスをつくろう
音声合成のコーパスをつくろう
Shinnosuke Takamichi
J-KAC:日本語オーディオブック・紙芝居朗読音声コーパス
J-KAC:日本語オーディオブック・紙芝居朗読音声コーパス
Shinnosuke Takamichi
短時間発話を用いた話者照合のための音声加工の効果に関する検討
短時間発話を用いた話者照合のための音声加工の効果に関する検討
Shinnosuke Takamichi
リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法
リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法
Shinnosuke Takamichi
ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)
ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)
Shinnosuke Takamichi
国際会議 interspeech 2020 報告
国際会議 interspeech 2020 報告
Shinnosuke Takamichi
Interspeech 2020 読み会 "Incremental Text to Speech for Neural Sequence-to-Sequ...
Interspeech 2020 読み会 "Incremental Text to Speech for Neural Sequence-to-Sequ...
Shinnosuke Takamichi
サブバンドフィルタリングに基づくリアルタイム広帯域DNN声質変換の実装と評価
サブバンドフィルタリングに基づくリアルタイム広帯域DNN声質変換の実装と評価
Shinnosuke Takamichi
P J S: 音素バランスを考慮した日本語歌声コーパス
P J S: 音素バランスを考慮した日本語歌声コーパス
Shinnosuke Takamichi
音響モデル尤度に基づくsubword分割の韻律推定精度における評価
音響モデル尤度に基づくsubword分割の韻律推定精度における評価
Shinnosuke Takamichi
音声合成研究を加速させるためのコーパスデザイン
音声合成研究を加速させるためのコーパスデザイン
Shinnosuke Takamichi
論文紹介 Unsupervised training of neural mask-based beamforming
論文紹介 Unsupervised training of neural mask-based beamforming
Shinnosuke Takamichi
論文紹介 Building the Singapore English National Speech Corpus
論文紹介 Building the Singapore English National Speech Corpus
Shinnosuke Takamichi
論文紹介 SANTLR: Speech Annotation Toolkit for Low Resource Languages
論文紹介 SANTLR: Speech Annotation Toolkit for Low Resource Languages
Shinnosuke Takamichi
話者V2S攻撃: 話者認証から構築される 声質変換とその音声なりすまし可能性の評価
話者V2S攻撃: 話者認証から構築される 声質変換とその音声なりすまし可能性の評価
Shinnosuke Takamichi
JVS:フリーの日本語多数話者音声コーパス
JVS:フリーの日本語多数話者音声コーパス
Shinnosuke Takamichi
差分スペクトル法に基づく DNN 声質変換の計算量削減に向けたフィルタ推定
差分スペクトル法に基づく DNN 声質変換の計算量削減に向けたフィルタ推定
Shinnosuke Takamichi
音声合成・変換の国際コンペティションへの 参加を振り返って
音声合成・変換の国際コンペティションへの 参加を振り返って
Shinnosuke Takamichi
End-to-end 韻律推定に向けた DNN 音響モデルに基づく subword 分割
End-to-end 韻律推定に向けた DNN 音響モデルに基づく subword 分割
Shinnosuke Takamichi
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
CRI Japan, Inc.
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
Toru Tamaki
More Related Content
More from Shinnosuke Takamichi
JTubeSpeech: 音声認識と話者照合のために YouTube から構築される日本語音声コーパス
JTubeSpeech: 音声認識と話者照合のために YouTube から構築される日本語音声コーパス
Shinnosuke Takamichi
音声合成のコーパスをつくろう
音声合成のコーパスをつくろう
Shinnosuke Takamichi
J-KAC:日本語オーディオブック・紙芝居朗読音声コーパス
J-KAC:日本語オーディオブック・紙芝居朗読音声コーパス
Shinnosuke Takamichi
短時間発話を用いた話者照合のための音声加工の効果に関する検討
短時間発話を用いた話者照合のための音声加工の効果に関する検討
Shinnosuke Takamichi
リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法
リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法
Shinnosuke Takamichi
ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)
ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)
Shinnosuke Takamichi
国際会議 interspeech 2020 報告
国際会議 interspeech 2020 報告
Shinnosuke Takamichi
Interspeech 2020 読み会 "Incremental Text to Speech for Neural Sequence-to-Sequ...
Interspeech 2020 読み会 "Incremental Text to Speech for Neural Sequence-to-Sequ...
Shinnosuke Takamichi
サブバンドフィルタリングに基づくリアルタイム広帯域DNN声質変換の実装と評価
サブバンドフィルタリングに基づくリアルタイム広帯域DNN声質変換の実装と評価
Shinnosuke Takamichi
P J S: 音素バランスを考慮した日本語歌声コーパス
P J S: 音素バランスを考慮した日本語歌声コーパス
Shinnosuke Takamichi
音響モデル尤度に基づくsubword分割の韻律推定精度における評価
音響モデル尤度に基づくsubword分割の韻律推定精度における評価
Shinnosuke Takamichi
音声合成研究を加速させるためのコーパスデザイン
音声合成研究を加速させるためのコーパスデザイン
Shinnosuke Takamichi
論文紹介 Unsupervised training of neural mask-based beamforming
論文紹介 Unsupervised training of neural mask-based beamforming
Shinnosuke Takamichi
論文紹介 Building the Singapore English National Speech Corpus
論文紹介 Building the Singapore English National Speech Corpus
Shinnosuke Takamichi
論文紹介 SANTLR: Speech Annotation Toolkit for Low Resource Languages
論文紹介 SANTLR: Speech Annotation Toolkit for Low Resource Languages
Shinnosuke Takamichi
話者V2S攻撃: 話者認証から構築される 声質変換とその音声なりすまし可能性の評価
話者V2S攻撃: 話者認証から構築される 声質変換とその音声なりすまし可能性の評価
Shinnosuke Takamichi
JVS:フリーの日本語多数話者音声コーパス
JVS:フリーの日本語多数話者音声コーパス
Shinnosuke Takamichi
差分スペクトル法に基づく DNN 声質変換の計算量削減に向けたフィルタ推定
差分スペクトル法に基づく DNN 声質変換の計算量削減に向けたフィルタ推定
Shinnosuke Takamichi
音声合成・変換の国際コンペティションへの 参加を振り返って
音声合成・変換の国際コンペティションへの 参加を振り返って
Shinnosuke Takamichi
End-to-end 韻律推定に向けた DNN 音響モデルに基づく subword 分割
End-to-end 韻律推定に向けた DNN 音響モデルに基づく subword 分割
Shinnosuke Takamichi
More from Shinnosuke Takamichi
(20)
JTubeSpeech: 音声認識と話者照合のために YouTube から構築される日本語音声コーパス
JTubeSpeech: 音声認識と話者照合のために YouTube から構築される日本語音声コーパス
音声合成のコーパスをつくろう
音声合成のコーパスをつくろう
J-KAC:日本語オーディオブック・紙芝居朗読音声コーパス
J-KAC:日本語オーディオブック・紙芝居朗読音声コーパス
短時間発話を用いた話者照合のための音声加工の効果に関する検討
短時間発話を用いた話者照合のための音声加工の効果に関する検討
リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法
リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法
ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)
ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)
国際会議 interspeech 2020 報告
国際会議 interspeech 2020 報告
Interspeech 2020 読み会 "Incremental Text to Speech for Neural Sequence-to-Sequ...
Interspeech 2020 読み会 "Incremental Text to Speech for Neural Sequence-to-Sequ...
サブバンドフィルタリングに基づくリアルタイム広帯域DNN声質変換の実装と評価
サブバンドフィルタリングに基づくリアルタイム広帯域DNN声質変換の実装と評価
P J S: 音素バランスを考慮した日本語歌声コーパス
P J S: 音素バランスを考慮した日本語歌声コーパス
音響モデル尤度に基づくsubword分割の韻律推定精度における評価
音響モデル尤度に基づくsubword分割の韻律推定精度における評価
音声合成研究を加速させるためのコーパスデザイン
音声合成研究を加速させるためのコーパスデザイン
論文紹介 Unsupervised training of neural mask-based beamforming
論文紹介 Unsupervised training of neural mask-based beamforming
論文紹介 Building the Singapore English National Speech Corpus
論文紹介 Building the Singapore English National Speech Corpus
論文紹介 SANTLR: Speech Annotation Toolkit for Low Resource Languages
論文紹介 SANTLR: Speech Annotation Toolkit for Low Resource Languages
話者V2S攻撃: 話者認証から構築される 声質変換とその音声なりすまし可能性の評価
話者V2S攻撃: 話者認証から構築される 声質変換とその音声なりすまし可能性の評価
JVS:フリーの日本語多数話者音声コーパス
JVS:フリーの日本語多数話者音声コーパス
差分スペクトル法に基づく DNN 声質変換の計算量削減に向けたフィルタ推定
差分スペクトル法に基づく DNN 声質変換の計算量削減に向けたフィルタ推定
音声合成・変換の国際コンペティションへの 参加を振り返って
音声合成・変換の国際コンペティションへの 参加を振り返って
End-to-end 韻律推定に向けた DNN 音響モデルに基づく subword 分割
End-to-end 韻律推定に向けた DNN 音響モデルに基づく subword 分割
Recently uploaded
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
CRI Japan, Inc.
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
Toru Tamaki
新人研修 後半 2024/04/26の勉強会で発表されたものです。
新人研修 後半 2024/04/26の勉強会で発表されたものです。
iPride Co., Ltd.
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
iPride Co., Ltd.
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
Toru Tamaki
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
atsushi061452
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
sn679259
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
CRI Japan, Inc.
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
iPride Co., Ltd.
Utilizing Ballerina for Cloud Native Integrations
Utilizing Ballerina for Cloud Native Integrations
WSO2
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
Hiroshi Tomioka
Recently uploaded
(11)
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
新人研修 後半 2024/04/26の勉強会で発表されたものです。
新人研修 後半 2024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Utilizing Ballerina for Cloud Native Integrations
Utilizing Ballerina for Cloud Native Integrations
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
ユーザ歌唱のための generative moment matching network に基づく neural double-tracking
1.
09/04/2019©Hiroki Tamaru, The University
of Tokyo ユーザ歌唱のための generative moment matching network に基づく neural double-tracking 田丸 浩気,齋藤 佑樹,高道 慎之介,郡山 知樹,猿渡 洋 (東京大学) 日本音響学会秋季研究発表会 (2019/9/4) 1-4-3
2.
/14 背景: Double-tracking Double-tracking
(DT) – 同一フレーズを複数回歌唱してミックスし,歌声に厚みを持たせる – 2回,節回しや音の継続長を揃えて歌うのが難しい Artificial double-tracking (ADT) – 歌声を信号処理的に変調して原音にミックスする代替法 – 厚みは出るが,不自然な聴覚的印象になってしまう 2自然な重ね録り感を人工的に再現したい Double-tracking (DT) Artificial double- tracking (ADT) Neural double- tracking (proposed) Sing twice Sing once Signal processing Sing once GMMN post-filter Mix Mix Mix
3.
/14 発表概要 従来法: artificial
double-tracking (ADT) – ピッチ系列を信号処理的に変調して原音にミックス 提案法: neural double-tracking (NDT) – ピッチ系列を機械学習的に変調して原音にミックス – generative moment matching network (GMMN) [Ren+, 2016] でラン ダム性を学習 – 合成歌声のための手法 [Tamaru+, 2019] をユーザ歌唱のために適用 – そのために新たに繰り返し歌唱データベースを作成 主観評価結果 – NDT は ADT より高い重ね録り感を付与 3
4.
/14 Artificial double-tracking (ADT)
原音と変調音をミックスして,厚みを持たせる – 原音のピッチ系列 + 正弦波 = 変調ピッチ系列 4 Pitch(1が半音) *変調を明瞭に表示するため,正弦波の振幅は実際の値より大きく設定している Time [s] 位相の似た2音のミックスに起因する,artifact が生じる 原音 変調音 [Izhaki+, 2017]
5.
/18 提案法 GMMN ポストフィルタに基づく neural double-tracking
(NDT) 5
6.
/14 GMMN に基づくポストフィルタ 6 ピッチ系列のランダム性を統計的にモデル化 –
時系列の構造情報を F0 包絡でモデル化 [Takamichi+, 2016] – F0 包絡の条件付き分布を GMMN でモデル化 STFT GMMN F0 包絡 位相 ISTFT ポストフィルタ ランダムノイズ 歌声 ピッチ系列 新しいピッチ系列 *STFT: Short Time Fourier Transform, ISTFT: Inverse Short Time Fourier Transform [Tamaru+, ICASSP 2019]
7.
/14 条件付き GMMN
[Ren+, 2016] – ノイズ分布 (既知・単純) を出力分布 (未知・複雑) に変換 – 出力とターゲットの条件付き分布のモーメントを揃えるよう学習 – 生成時: ターゲット分布に基づき,値をランダムサンプリング GMMN に基づくパラメータサンプリング 7 𝑈[−𝟏, 𝟏) ランダムノイズ モーメントを 揃える ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ 条件 出力 ターゲット
8.
/14 GMMN ポストフィルタ 8 ⋯ 入力ピッチ系列 ターゲットピッチ系列 STFT位相
STFT 𝒚 𝑡𝑔𝑡 ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ 𝑈[−𝟏, 𝟏) ⋯ ⋯ ⋯ 𝑺𝑖𝑛 ⋯ ランダムノイズ ISTFT 𝑺 𝑡𝑔𝑡𝑺 𝑜𝑢𝑡 変動ピッチ系列 𝒔𝑖𝑛(1) 𝒔𝑖𝑛(𝑇′)𝒔 𝑜𝑢𝑡(1) 𝒔 𝑜𝑢𝑡(𝑇′) 𝒚𝑖𝑛 入力 F0 包絡 変動 F0 包絡 ターゲット F0 包絡 モーメントを 揃える [Tamaru+, ICASSP 2019]
9.
/14 繰り返し歌唱データベースを用いた学習 合成歌声に対するポストフィルタリング [Tamaru+,
2019] – 入力: 合成歌声,ターゲット: 自然歌声 ユーザ歌唱に対するポストフィルタリング (本発表) – 上の手法は使えない → 繰り返し歌唱データベースが必要 – 入力: ある録音,ターゲット: 別の録音 – すべての (入力,ターゲット) の組み合わせを用いる 9
10.
/14 ADT における信号処理の替わりに,GMMN
ポストフィルタを使用 Neural double-tracking (NDT) 10 スペクトル 有声/無声 F0 F0’ 学習された自然なランダム性を用いて原音を変調し 自然な重ね録り感を得る ポストフィルタ vocoder 分析 vocoder 合成 NDT 音原音 変調音 ランダムノイズ [Tamaru+, ICASSP 2019]
11.
/14 実験条件 11 繰り返し歌唱データベース HTS の童謡から
17 曲を男性 4 名が 5 回ずつ メトロノーム・見本に合わせて歌唱 学習データ/テストデータ 14 曲 (12 分 6 秒) / 3 曲 (1 分 24 秒) サンプリング周波数 16 kHz 音声特徴量抽出・波形合成 WORLD [Morise+, 2016] (F0 抽出以外), STRAIGHT [Kawahara+, 2001] (F0 抽出) 音声特徴量 スペクトル包絡,band-aperiodicity, 有声/無声 F0 包絡成分 1次の変調スペクトル (MS) [Takamichi+, 2016] MS 計算時の STFT ハニング窓 480 ms,セグメントシフト 240 ms ノイズ 10次元,一様分布 GMMN Feed-Forward (詳細は論文参照)
12.
/14 実験条件 (cont’d) 評価する手法
評価方法 – クラウドソーシングサービス上で,100 人を対象 – 重ね録り感 (2 回歌って多重録音したような感じであるか) を 5 段階 mean opinion score (MOS) で評価 提示サンプル – フレーズ的にキリの良い位置で,サンプルを手動分割 – 短い (平均 4.9 s) サンプルの結果を示す (長いサンプルは論文参照) 12 ADT ピッチ系列を正弦波変調してミックス NDT (SD) 提案手法 (歌唱者依存) 1 人の歌唱者で学習・テスト NDT (SI) 提案手法 (不特定歌唱者) 複数の歌唱者で学習・オープンな歌唱者でテスト DT 2 個の録音をミックス
13.
/14 重ね録り感の評価スコア 13 𝑝 値 0.566
14.
/14 まとめと今後の予定 背景 – DT
は難しく,ADT は不自然 – ADT よりも自然な重ね録り感を付与する人工的手法を作りたい 提案法 – GMMN に基づくランダム変調ポストフィルタと,繰り返し歌唱 データベースを用いた NDT – ランダム性を学習することで,自然な重ね録り感を付与 評価結果 – NDT は従来の ADT より自然な重ね録り感を付与 – SI モデルも頑健に動作 今後の予定 – スペクトルや歌唱タイミング・音符を伸ばす長さの変動に拡張 14
15.
/1415
Download now