SlideShare a Scribd company logo
1 of 15
Download to read offline
09/04/2019©Hiroki Tamaru,
The University of Tokyo
ユーザ歌唱のための
generative moment matching network に基づく
neural double-tracking
田丸 浩気,齋藤 佑樹,高道 慎之介,郡山 知樹,猿渡 洋
(東京大学)
日本音響学会秋季研究発表会 (2019/9/4) 1-4-3
/14
背景: Double-tracking
 Double-tracking (DT)
– 同一フレーズを複数回歌唱してミックスし,歌声に厚みを持たせる
– 2回,節回しや音の継続長を揃えて歌うのが難しい
 Artificial double-tracking (ADT)
– 歌声を信号処理的に変調して原音にミックスする代替法
– 厚みは出るが,不自然な聴覚的印象になってしまう
2自然な重ね録り感を人工的に再現したい
Double-tracking
(DT)
Artificial double-
tracking (ADT)
Neural double-
tracking (proposed)
Sing
twice
Sing
once
Signal
processing
Sing
once
GMMN
post-filter
Mix Mix Mix
/14
発表概要
 従来法: artificial double-tracking (ADT)
– ピッチ系列を信号処理的に変調して原音にミックス
 提案法: neural double-tracking (NDT)
– ピッチ系列を機械学習的に変調して原音にミックス
– generative moment matching network (GMMN) [Ren+, 2016] でラン
ダム性を学習
– 合成歌声のための手法 [Tamaru+, 2019] をユーザ歌唱のために適用
– そのために新たに繰り返し歌唱データベースを作成
 主観評価結果
– NDT は ADT より高い重ね録り感を付与
3
/14
Artificial double-tracking (ADT)
 原音と変調音をミックスして,厚みを持たせる
– 原音のピッチ系列 + 正弦波 = 変調ピッチ系列
4
Pitch(1が半音)
*変調を明瞭に表示するため,正弦波の振幅は実際の値より大きく設定している
Time [s]
位相の似た2音のミックスに起因する,artifact が生じる
原音
変調音
[Izhaki+, 2017]
/18
提案法
GMMN ポストフィルタに基づく
neural double-tracking (NDT)
5
/14
GMMN に基づくポストフィルタ
6
 ピッチ系列のランダム性を統計的にモデル化
– 時系列の構造情報を F0 包絡でモデル化 [Takamichi+, 2016]
– F0 包絡の条件付き分布を GMMN でモデル化
STFT
GMMN
F0 包絡
位相
ISTFT
ポストフィルタ
ランダムノイズ
歌声 ピッチ系列 新しいピッチ系列
*STFT: Short Time Fourier Transform, ISTFT: Inverse Short Time Fourier Transform
[Tamaru+, ICASSP 2019]
/14
 条件付き GMMN [Ren+, 2016]
– ノイズ分布 (既知・単純) を出力分布 (未知・複雑) に変換
– 出力とターゲットの条件付き分布のモーメントを揃えるよう学習
– 生成時: ターゲット分布に基づき,値をランダムサンプリング
GMMN に基づくパラメータサンプリング
7
𝑈[−𝟏, 𝟏)
ランダムノイズ
モーメントを
揃える
⋯
⋯
⋯
⋯
⋯
⋯
⋯
⋯
⋯
⋯
⋯
⋯
条件
出力 ターゲット
/14
GMMN ポストフィルタ
8
⋯
入力ピッチ系列 ターゲットピッチ系列
STFT位相 STFT
𝒚 𝑡𝑔𝑡
⋯
⋯
⋯
⋯
⋯
⋯
⋯
𝑈[−𝟏, 𝟏)
⋯
⋯
⋯ 𝑺𝑖𝑛
⋯
ランダムノイズ
ISTFT
𝑺 𝑡𝑔𝑡𝑺 𝑜𝑢𝑡
変動ピッチ系列
𝒔𝑖𝑛(1) 𝒔𝑖𝑛(𝑇′)𝒔 𝑜𝑢𝑡(1) 𝒔 𝑜𝑢𝑡(𝑇′)
𝒚𝑖𝑛
入力
F0 包絡
変動
F0 包絡
ターゲット
F0 包絡
モーメントを
揃える
[Tamaru+, ICASSP 2019]
/14
繰り返し歌唱データベースを用いた学習
 合成歌声に対するポストフィルタリング [Tamaru+, 2019]
– 入力: 合成歌声,ターゲット: 自然歌声
 ユーザ歌唱に対するポストフィルタリング (本発表)
– 上の手法は使えない → 繰り返し歌唱データベースが必要
– 入力: ある録音,ターゲット: 別の録音
– すべての (入力,ターゲット) の組み合わせを用いる
9
/14
 ADT における信号処理の替わりに,GMMN ポストフィルタを使用
Neural double-tracking (NDT)
10
スペクトル
有声/無声
F0 F0’
学習された自然なランダム性を用いて原音を変調し
自然な重ね録り感を得る
ポストフィルタ
vocoder
分析
vocoder
合成
NDT 音原音 変調音
ランダムノイズ
[Tamaru+, ICASSP 2019]
/14
実験条件
11
繰り返し歌唱データベース HTS の童謡から 17 曲を男性 4 名が 5 回ずつ
メトロノーム・見本に合わせて歌唱
学習データ/テストデータ 14 曲 (12 分 6 秒) / 3 曲 (1 分 24 秒)
サンプリング周波数 16 kHz
音声特徴量抽出・波形合成 WORLD [Morise+, 2016] (F0 抽出以外),
STRAIGHT [Kawahara+, 2001] (F0 抽出)
音声特徴量 スペクトル包絡,band-aperiodicity, 有声/無声
F0 包絡成分 1次の変調スペクトル (MS) [Takamichi+, 2016]
MS 計算時の STFT ハニング窓 480 ms,セグメントシフト 240 ms
ノイズ 10次元,一様分布
GMMN Feed-Forward (詳細は論文参照)
/14
実験条件 (cont’d)
 評価する手法
 評価方法
– クラウドソーシングサービス上で,100 人を対象
– 重ね録り感 (2 回歌って多重録音したような感じであるか) を 5 段階
mean opinion score (MOS) で評価
 提示サンプル
– フレーズ的にキリの良い位置で,サンプルを手動分割
– 短い (平均 4.9 s) サンプルの結果を示す (長いサンプルは論文参照)
12
ADT ピッチ系列を正弦波変調してミックス
NDT (SD) 提案手法 (歌唱者依存)
1 人の歌唱者で学習・テスト
NDT (SI) 提案手法 (不特定歌唱者)
複数の歌唱者で学習・オープンな歌唱者でテスト
DT 2 個の録音をミックス
/14
重ね録り感の評価スコア
13
𝑝 値
0.566
/14
まとめと今後の予定
 背景
– DT は難しく,ADT は不自然
– ADT よりも自然な重ね録り感を付与する人工的手法を作りたい
 提案法
– GMMN に基づくランダム変調ポストフィルタと,繰り返し歌唱
データベースを用いた NDT
– ランダム性を学習することで,自然な重ね録り感を付与
 評価結果
– NDT は従来の ADT より自然な重ね録り感を付与
– SI モデルも頑健に動作
 今後の予定
– スペクトルや歌唱タイミング・音符を伸ばす長さの変動に拡張 14
/1415

More Related Content

More from Shinnosuke Takamichi

JTubeSpeech: 音声認識と話者照合のために YouTube から構築される日本語音声コーパス
JTubeSpeech:  音声認識と話者照合のために YouTube から構築される日本語音声コーパスJTubeSpeech:  音声認識と話者照合のために YouTube から構築される日本語音声コーパス
JTubeSpeech: 音声認識と話者照合のために YouTube から構築される日本語音声コーパスShinnosuke Takamichi
 
音声合成のコーパスをつくろう
音声合成のコーパスをつくろう音声合成のコーパスをつくろう
音声合成のコーパスをつくろうShinnosuke Takamichi
 
J-KAC:日本語オーディオブック・紙芝居朗読音声コーパス
J-KAC:日本語オーディオブック・紙芝居朗読音声コーパスJ-KAC:日本語オーディオブック・紙芝居朗読音声コーパス
J-KAC:日本語オーディオブック・紙芝居朗読音声コーパスShinnosuke Takamichi
 
短時間発話を用いた話者照合のための音声加工の効果に関する検討
短時間発話を用いた話者照合のための音声加工の効果に関する検討短時間発話を用いた話者照合のための音声加工の効果に関する検討
短時間発話を用いた話者照合のための音声加工の効果に関する検討Shinnosuke Takamichi
 
リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法
リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法
リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法Shinnosuke Takamichi
 
ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)
ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)
ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)Shinnosuke Takamichi
 
国際会議 interspeech 2020 報告
国際会議 interspeech 2020 報告国際会議 interspeech 2020 報告
国際会議 interspeech 2020 報告Shinnosuke Takamichi
 
Interspeech 2020 読み会 "Incremental Text to Speech for Neural Sequence-to-Sequ...
Interspeech 2020 読み会 "Incremental Text to Speech for Neural  Sequence-to-Sequ...Interspeech 2020 読み会 "Incremental Text to Speech for Neural  Sequence-to-Sequ...
Interspeech 2020 読み会 "Incremental Text to Speech for Neural Sequence-to-Sequ...Shinnosuke Takamichi
 
サブバンドフィルタリングに基づくリアルタイム広帯域DNN声質変換の実装と評価
サブバンドフィルタリングに基づくリアルタイム広帯域DNN声質変換の実装と評価サブバンドフィルタリングに基づくリアルタイム広帯域DNN声質変換の実装と評価
サブバンドフィルタリングに基づくリアルタイム広帯域DNN声質変換の実装と評価Shinnosuke Takamichi
 
P J S: 音素バランスを考慮した日本語歌声コーパス
P J S: 音素バランスを考慮した日本語歌声コーパスP J S: 音素バランスを考慮した日本語歌声コーパス
P J S: 音素バランスを考慮した日本語歌声コーパスShinnosuke Takamichi
 
音響モデル尤度に基づくsubword分割の韻律推定精度における評価
音響モデル尤度に基づくsubword分割の韻律推定精度における評価音響モデル尤度に基づくsubword分割の韻律推定精度における評価
音響モデル尤度に基づくsubword分割の韻律推定精度における評価Shinnosuke Takamichi
 
音声合成研究を加速させるためのコーパスデザイン
音声合成研究を加速させるためのコーパスデザイン音声合成研究を加速させるためのコーパスデザイン
音声合成研究を加速させるためのコーパスデザインShinnosuke Takamichi
 
論文紹介 Unsupervised training of neural mask-based beamforming
論文紹介 Unsupervised training of neural  mask-based beamforming論文紹介 Unsupervised training of neural  mask-based beamforming
論文紹介 Unsupervised training of neural mask-based beamformingShinnosuke Takamichi
 
論文紹介 Building the Singapore English National Speech Corpus
論文紹介 Building the Singapore English National Speech Corpus論文紹介 Building the Singapore English National Speech Corpus
論文紹介 Building the Singapore English National Speech CorpusShinnosuke Takamichi
 
論文紹介 SANTLR: Speech Annotation Toolkit for Low Resource Languages
論文紹介 SANTLR: Speech Annotation Toolkit for Low Resource Languages論文紹介 SANTLR: Speech Annotation Toolkit for Low Resource Languages
論文紹介 SANTLR: Speech Annotation Toolkit for Low Resource LanguagesShinnosuke Takamichi
 
話者V2S攻撃: 話者認証から構築される 声質変換とその音声なりすまし可能性の評価
話者V2S攻撃: 話者認証から構築される 声質変換とその音声なりすまし可能性の評価話者V2S攻撃: 話者認証から構築される 声質変換とその音声なりすまし可能性の評価
話者V2S攻撃: 話者認証から構築される 声質変換とその音声なりすまし可能性の評価Shinnosuke Takamichi
 
JVS:フリーの日本語多数話者音声コーパス
JVS:フリーの日本語多数話者音声コーパス JVS:フリーの日本語多数話者音声コーパス
JVS:フリーの日本語多数話者音声コーパス Shinnosuke Takamichi
 
差分スペクトル法に基づく DNN 声質変換の計算量削減に向けたフィルタ推定
差分スペクトル法に基づく DNN 声質変換の計算量削減に向けたフィルタ推定差分スペクトル法に基づく DNN 声質変換の計算量削減に向けたフィルタ推定
差分スペクトル法に基づく DNN 声質変換の計算量削減に向けたフィルタ推定Shinnosuke Takamichi
 
音声合成・変換の国際コンペティションへの 参加を振り返って
音声合成・変換の国際コンペティションへの  参加を振り返って音声合成・変換の国際コンペティションへの  参加を振り返って
音声合成・変換の国際コンペティションへの 参加を振り返ってShinnosuke Takamichi
 
End-to-end 韻律推定に向けた DNN 音響モデルに基づく subword 分割
End-to-end 韻律推定に向けた DNN 音響モデルに基づく subword 分割End-to-end 韻律推定に向けた DNN 音響モデルに基づく subword 分割
End-to-end 韻律推定に向けた DNN 音響モデルに基づく subword 分割Shinnosuke Takamichi
 

More from Shinnosuke Takamichi (20)

JTubeSpeech: 音声認識と話者照合のために YouTube から構築される日本語音声コーパス
JTubeSpeech:  音声認識と話者照合のために YouTube から構築される日本語音声コーパスJTubeSpeech:  音声認識と話者照合のために YouTube から構築される日本語音声コーパス
JTubeSpeech: 音声認識と話者照合のために YouTube から構築される日本語音声コーパス
 
音声合成のコーパスをつくろう
音声合成のコーパスをつくろう音声合成のコーパスをつくろう
音声合成のコーパスをつくろう
 
J-KAC:日本語オーディオブック・紙芝居朗読音声コーパス
J-KAC:日本語オーディオブック・紙芝居朗読音声コーパスJ-KAC:日本語オーディオブック・紙芝居朗読音声コーパス
J-KAC:日本語オーディオブック・紙芝居朗読音声コーパス
 
短時間発話を用いた話者照合のための音声加工の効果に関する検討
短時間発話を用いた話者照合のための音声加工の効果に関する検討短時間発話を用いた話者照合のための音声加工の効果に関する検討
短時間発話を用いた話者照合のための音声加工の効果に関する検討
 
リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法
リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法
リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法
 
ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)
ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)
ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)
 
国際会議 interspeech 2020 報告
国際会議 interspeech 2020 報告国際会議 interspeech 2020 報告
国際会議 interspeech 2020 報告
 
Interspeech 2020 読み会 "Incremental Text to Speech for Neural Sequence-to-Sequ...
Interspeech 2020 読み会 "Incremental Text to Speech for Neural  Sequence-to-Sequ...Interspeech 2020 読み会 "Incremental Text to Speech for Neural  Sequence-to-Sequ...
Interspeech 2020 読み会 "Incremental Text to Speech for Neural Sequence-to-Sequ...
 
サブバンドフィルタリングに基づくリアルタイム広帯域DNN声質変換の実装と評価
サブバンドフィルタリングに基づくリアルタイム広帯域DNN声質変換の実装と評価サブバンドフィルタリングに基づくリアルタイム広帯域DNN声質変換の実装と評価
サブバンドフィルタリングに基づくリアルタイム広帯域DNN声質変換の実装と評価
 
P J S: 音素バランスを考慮した日本語歌声コーパス
P J S: 音素バランスを考慮した日本語歌声コーパスP J S: 音素バランスを考慮した日本語歌声コーパス
P J S: 音素バランスを考慮した日本語歌声コーパス
 
音響モデル尤度に基づくsubword分割の韻律推定精度における評価
音響モデル尤度に基づくsubword分割の韻律推定精度における評価音響モデル尤度に基づくsubword分割の韻律推定精度における評価
音響モデル尤度に基づくsubword分割の韻律推定精度における評価
 
音声合成研究を加速させるためのコーパスデザイン
音声合成研究を加速させるためのコーパスデザイン音声合成研究を加速させるためのコーパスデザイン
音声合成研究を加速させるためのコーパスデザイン
 
論文紹介 Unsupervised training of neural mask-based beamforming
論文紹介 Unsupervised training of neural  mask-based beamforming論文紹介 Unsupervised training of neural  mask-based beamforming
論文紹介 Unsupervised training of neural mask-based beamforming
 
論文紹介 Building the Singapore English National Speech Corpus
論文紹介 Building the Singapore English National Speech Corpus論文紹介 Building the Singapore English National Speech Corpus
論文紹介 Building the Singapore English National Speech Corpus
 
論文紹介 SANTLR: Speech Annotation Toolkit for Low Resource Languages
論文紹介 SANTLR: Speech Annotation Toolkit for Low Resource Languages論文紹介 SANTLR: Speech Annotation Toolkit for Low Resource Languages
論文紹介 SANTLR: Speech Annotation Toolkit for Low Resource Languages
 
話者V2S攻撃: 話者認証から構築される 声質変換とその音声なりすまし可能性の評価
話者V2S攻撃: 話者認証から構築される 声質変換とその音声なりすまし可能性の評価話者V2S攻撃: 話者認証から構築される 声質変換とその音声なりすまし可能性の評価
話者V2S攻撃: 話者認証から構築される 声質変換とその音声なりすまし可能性の評価
 
JVS:フリーの日本語多数話者音声コーパス
JVS:フリーの日本語多数話者音声コーパス JVS:フリーの日本語多数話者音声コーパス
JVS:フリーの日本語多数話者音声コーパス
 
差分スペクトル法に基づく DNN 声質変換の計算量削減に向けたフィルタ推定
差分スペクトル法に基づく DNN 声質変換の計算量削減に向けたフィルタ推定差分スペクトル法に基づく DNN 声質変換の計算量削減に向けたフィルタ推定
差分スペクトル法に基づく DNN 声質変換の計算量削減に向けたフィルタ推定
 
音声合成・変換の国際コンペティションへの 参加を振り返って
音声合成・変換の国際コンペティションへの  参加を振り返って音声合成・変換の国際コンペティションへの  参加を振り返って
音声合成・変換の国際コンペティションへの 参加を振り返って
 
End-to-end 韻律推定に向けた DNN 音響モデルに基づく subword 分割
End-to-end 韻律推定に向けた DNN 音響モデルに基づく subword 分割End-to-end 韻律推定に向けた DNN 音響モデルに基づく subword 分割
End-to-end 韻律推定に向けた DNN 音響モデルに基づく subword 分割
 

Recently uploaded

LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
LoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイスLoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイス
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイスCRI Japan, Inc.
 
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video UnderstandingToru Tamaki
 
新人研修 後半 2024/04/26の勉強会で発表されたものです。
新人研修 後半        2024/04/26の勉強会で発表されたものです。新人研修 後半        2024/04/26の勉強会で発表されたものです。
新人研修 後半 2024/04/26の勉強会で発表されたものです。iPride Co., Ltd.
 
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。iPride Co., Ltd.
 
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...Toru Tamaki
 
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Gamesatsushi061452
 
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptxsn679259
 
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアルLoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアルCRI Japan, Inc.
 
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。iPride Co., Ltd.
 
Utilizing Ballerina for Cloud Native Integrations
Utilizing Ballerina for Cloud Native IntegrationsUtilizing Ballerina for Cloud Native Integrations
Utilizing Ballerina for Cloud Native IntegrationsWSO2
 
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)Hiroshi Tomioka
 

Recently uploaded (11)

LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
LoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイスLoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイス
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
 
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
 
新人研修 後半 2024/04/26の勉強会で発表されたものです。
新人研修 後半        2024/04/26の勉強会で発表されたものです。新人研修 後半        2024/04/26の勉強会で発表されたものです。
新人研修 後半 2024/04/26の勉強会で発表されたものです。
 
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
 
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
 
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
 
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
 
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアルLoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
 
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
 
Utilizing Ballerina for Cloud Native Integrations
Utilizing Ballerina for Cloud Native IntegrationsUtilizing Ballerina for Cloud Native Integrations
Utilizing Ballerina for Cloud Native Integrations
 
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
 

ユーザ歌唱のための generative moment matching network に基づく neural double-tracking

  • 1. 09/04/2019©Hiroki Tamaru, The University of Tokyo ユーザ歌唱のための generative moment matching network に基づく neural double-tracking 田丸 浩気,齋藤 佑樹,高道 慎之介,郡山 知樹,猿渡 洋 (東京大学) 日本音響学会秋季研究発表会 (2019/9/4) 1-4-3
  • 2. /14 背景: Double-tracking  Double-tracking (DT) – 同一フレーズを複数回歌唱してミックスし,歌声に厚みを持たせる – 2回,節回しや音の継続長を揃えて歌うのが難しい  Artificial double-tracking (ADT) – 歌声を信号処理的に変調して原音にミックスする代替法 – 厚みは出るが,不自然な聴覚的印象になってしまう 2自然な重ね録り感を人工的に再現したい Double-tracking (DT) Artificial double- tracking (ADT) Neural double- tracking (proposed) Sing twice Sing once Signal processing Sing once GMMN post-filter Mix Mix Mix
  • 3. /14 発表概要  従来法: artificial double-tracking (ADT) – ピッチ系列を信号処理的に変調して原音にミックス  提案法: neural double-tracking (NDT) – ピッチ系列を機械学習的に変調して原音にミックス – generative moment matching network (GMMN) [Ren+, 2016] でラン ダム性を学習 – 合成歌声のための手法 [Tamaru+, 2019] をユーザ歌唱のために適用 – そのために新たに繰り返し歌唱データベースを作成  主観評価結果 – NDT は ADT より高い重ね録り感を付与 3
  • 4. /14 Artificial double-tracking (ADT)  原音と変調音をミックスして,厚みを持たせる – 原音のピッチ系列 + 正弦波 = 変調ピッチ系列 4 Pitch(1が半音) *変調を明瞭に表示するため,正弦波の振幅は実際の値より大きく設定している Time [s] 位相の似た2音のミックスに起因する,artifact が生じる 原音 変調音 [Izhaki+, 2017]
  • 6. /14 GMMN に基づくポストフィルタ 6  ピッチ系列のランダム性を統計的にモデル化 – 時系列の構造情報を F0 包絡でモデル化 [Takamichi+, 2016] – F0 包絡の条件付き分布を GMMN でモデル化 STFT GMMN F0 包絡 位相 ISTFT ポストフィルタ ランダムノイズ 歌声 ピッチ系列 新しいピッチ系列 *STFT: Short Time Fourier Transform, ISTFT: Inverse Short Time Fourier Transform [Tamaru+, ICASSP 2019]
  • 7. /14  条件付き GMMN [Ren+, 2016] – ノイズ分布 (既知・単純) を出力分布 (未知・複雑) に変換 – 出力とターゲットの条件付き分布のモーメントを揃えるよう学習 – 生成時: ターゲット分布に基づき,値をランダムサンプリング GMMN に基づくパラメータサンプリング 7 𝑈[−𝟏, 𝟏) ランダムノイズ モーメントを 揃える ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ 条件 出力 ターゲット
  • 8. /14 GMMN ポストフィルタ 8 ⋯ 入力ピッチ系列 ターゲットピッチ系列 STFT位相 STFT 𝒚 𝑡𝑔𝑡 ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ 𝑈[−𝟏, 𝟏) ⋯ ⋯ ⋯ 𝑺𝑖𝑛 ⋯ ランダムノイズ ISTFT 𝑺 𝑡𝑔𝑡𝑺 𝑜𝑢𝑡 変動ピッチ系列 𝒔𝑖𝑛(1) 𝒔𝑖𝑛(𝑇′)𝒔 𝑜𝑢𝑡(1) 𝒔 𝑜𝑢𝑡(𝑇′) 𝒚𝑖𝑛 入力 F0 包絡 変動 F0 包絡 ターゲット F0 包絡 モーメントを 揃える [Tamaru+, ICASSP 2019]
  • 9. /14 繰り返し歌唱データベースを用いた学習  合成歌声に対するポストフィルタリング [Tamaru+, 2019] – 入力: 合成歌声,ターゲット: 自然歌声  ユーザ歌唱に対するポストフィルタリング (本発表) – 上の手法は使えない → 繰り返し歌唱データベースが必要 – 入力: ある録音,ターゲット: 別の録音 – すべての (入力,ターゲット) の組み合わせを用いる 9
  • 10. /14  ADT における信号処理の替わりに,GMMN ポストフィルタを使用 Neural double-tracking (NDT) 10 スペクトル 有声/無声 F0 F0’ 学習された自然なランダム性を用いて原音を変調し 自然な重ね録り感を得る ポストフィルタ vocoder 分析 vocoder 合成 NDT 音原音 変調音 ランダムノイズ [Tamaru+, ICASSP 2019]
  • 11. /14 実験条件 11 繰り返し歌唱データベース HTS の童謡から 17 曲を男性 4 名が 5 回ずつ メトロノーム・見本に合わせて歌唱 学習データ/テストデータ 14 曲 (12 分 6 秒) / 3 曲 (1 分 24 秒) サンプリング周波数 16 kHz 音声特徴量抽出・波形合成 WORLD [Morise+, 2016] (F0 抽出以外), STRAIGHT [Kawahara+, 2001] (F0 抽出) 音声特徴量 スペクトル包絡,band-aperiodicity, 有声/無声 F0 包絡成分 1次の変調スペクトル (MS) [Takamichi+, 2016] MS 計算時の STFT ハニング窓 480 ms,セグメントシフト 240 ms ノイズ 10次元,一様分布 GMMN Feed-Forward (詳細は論文参照)
  • 12. /14 実験条件 (cont’d)  評価する手法  評価方法 – クラウドソーシングサービス上で,100 人を対象 – 重ね録り感 (2 回歌って多重録音したような感じであるか) を 5 段階 mean opinion score (MOS) で評価  提示サンプル – フレーズ的にキリの良い位置で,サンプルを手動分割 – 短い (平均 4.9 s) サンプルの結果を示す (長いサンプルは論文参照) 12 ADT ピッチ系列を正弦波変調してミックス NDT (SD) 提案手法 (歌唱者依存) 1 人の歌唱者で学習・テスト NDT (SI) 提案手法 (不特定歌唱者) 複数の歌唱者で学習・オープンな歌唱者でテスト DT 2 個の録音をミックス
  • 14. /14 まとめと今後の予定  背景 – DT は難しく,ADT は不自然 – ADT よりも自然な重ね録り感を付与する人工的手法を作りたい  提案法 – GMMN に基づくランダム変調ポストフィルタと,繰り返し歌唱 データベースを用いた NDT – ランダム性を学習することで,自然な重ね録り感を付与  評価結果 – NDT は従来の ADT より自然な重ね録り感を付与 – SI モデルも頑健に動作  今後の予定 – スペクトルや歌唱タイミング・音符を伸ばす長さの変動に拡張 14
  • 15. /1415