ユーザ歌唱のための generative moment matching network に基づく neural double-tracking

09/04/2019©Hiroki Tamaru,
The University of Tokyo
ユーザ歌唱のための
generative moment matching network に基づく
neural double-tracking
田丸浩気，齋藤佑樹，高道慎之介，郡山知樹，猿渡洋
(東京大学)
日本音響学会秋季研究発表会 (2019/9/4) 1-4-3

/14
背景: Double-tracking
 Double-tracking (DT)
– 同一フレーズを複数回歌唱してミックスし，歌声に厚みを持たせる
– 2回，節回しや音の継続長を揃えて歌うのが難しい
 Artificial double-tracking (ADT)
– 歌声を信号処理的に変調して原音にミックスする代替法
– 厚みは出るが，不自然な聴覚的印象になってしまう
2自然な重ね録り感を人工的に再現したい
Double-tracking
(DT)
Artificial double-
tracking (ADT)
Neural double-
tracking (proposed)
Sing
twice
Sing
once
Signal
processing
Sing
once
GMMN
post-filter
Mix Mix Mix

/14
発表概要
 従来法: artificial double-tracking (ADT)
– ピッチ系列を信号処理的に変調して原音にミックス
 提案法: neural double-tracking (NDT)
– ピッチ系列を機械学習的に変調して原音にミックス
– generative moment matching network (GMMN) [Ren+, 2016] でラン
ダム性を学習
– 合成歌声のための手法 [Tamaru+, 2019] をユーザ歌唱のために適用
– そのために新たに繰り返し歌唱データベースを作成
 主観評価結果
– NDT は ADT より高い重ね録り感を付与
3

/14
Artificial double-tracking (ADT)
 原音と変調音をミックスして，厚みを持たせる
– 原音のピッチ系列＋正弦波＝変調ピッチ系列
4
Pitch(1が半音)
＊変調を明瞭に表示するため，正弦波の振幅は実際の値より大きく設定している
Time [s]
位相の似た2音のミックスに起因する，artifact が生じる
原音
変調音
[Izhaki+, 2017]

/18
提案法
GMMN ポストフィルタに基づく
neural double-tracking (NDT)
5

/14
GMMN に基づくポストフィルタ
6
 ピッチ系列のランダム性を統計的にモデル化
– 時系列の構造情報を F0 包絡でモデル化 [Takamichi+, 2016]
– F0 包絡の条件付き分布を GMMN でモデル化
STFT
GMMN
F0 包絡
位相
ISTFT
ポストフィルタ
ランダムノイズ
歌声ピッチ系列新しいピッチ系列
*STFT: Short Time Fourier Transform, ISTFT: Inverse Short Time Fourier Transform
[Tamaru+, ICASSP 2019]

/14
 条件付き GMMN [Ren+, 2016]
– ノイズ分布 (既知・単純) を出力分布 (未知・複雑) に変換
– 出力とターゲットの条件付き分布のモーメントを揃えるよう学習
– 生成時: ターゲット分布に基づき，値をランダムサンプリング
GMMN に基づくパラメータサンプリング
7
𝑈[−𝟏, 𝟏)
モーメントを
揃える
⋯
⋯
⋯
⋯
⋯
⋯
⋯
⋯
⋯
⋯
⋯
⋯
条件
出力ターゲット

/14
GMMN ポストフィルタ
8
⋯
入力ピッチ系列ターゲットピッチ系列
STFT位相 STFT
𝒚 𝑡𝑔𝑡
⋯
⋯
⋯
⋯
⋯
⋯
⋯
𝑈[−𝟏, 𝟏)
⋯
⋯
⋯ 𝑺𝑖𝑛
⋯
ISTFT
𝑺 𝑡𝑔𝑡𝑺 𝑜𝑢𝑡
変動ピッチ系列
𝒔𝑖𝑛(1) 𝒔𝑖𝑛(𝑇′)𝒔 𝑜𝑢𝑡(1) 𝒔 𝑜𝑢𝑡(𝑇′)
𝒚𝑖𝑛
入力
F0 包絡
変動
F0 包絡
ターゲット
F0 包絡
モーメントを
揃える

/14
繰り返し歌唱データベースを用いた学習
 合成歌声に対するポストフィルタリング [Tamaru+, 2019]
– 入力: 合成歌声，ターゲット: 自然歌声
 ユーザ歌唱に対するポストフィルタリング (本発表)
– 上の手法は使えない → 繰り返し歌唱データベースが必要
– 入力: ある録音，ターゲット: 別の録音
– すべての (入力，ターゲット) の組み合わせを用いる
9

/14
 ADT における信号処理の替わりに，GMMN ポストフィルタを使用
Neural double-tracking (NDT)
10
スペクトル
有声／無声
F0 F0’
学習された自然なランダム性を用いて原音を変調し
自然な重ね録り感を得る
ポストフィルタ
vocoder
分析
vocoder
合成
NDT 音原音変調音

/14
実験条件
11
繰り返し歌唱データベース HTS の童謡から 17 曲を男性 4 名が 5 回ずつ
メトロノーム・見本に合わせて歌唱
学習データ/テストデータ 14 曲 (12 分 6 秒) / 3 曲 (1 分 24 秒)
サンプリング周波数 16 kHz
音声特徴量抽出・波形合成 WORLD [Morise+, 2016] (F0 抽出以外)，
STRAIGHT [Kawahara+, 2001] (F0 抽出)
音声特徴量スペクトル包絡，band-aperiodicity, 有声/無声
F0 包絡成分 1次の変調スペクトル (MS) [Takamichi+, 2016]
MS 計算時の STFT ハニング窓 480 ms，セグメントシフト 240 ms
ノイズ 10次元，一様分布
GMMN Feed-Forward (詳細は論文参照)

/14
実験条件 (cont’d)
 評価する手法
 評価方法
– クラウドソーシングサービス上で，100 人を対象
– 重ね録り感 (2 回歌って多重録音したような感じであるか) を 5 段階
mean opinion score (MOS) で評価
 提示サンプル
– フレーズ的にキリの良い位置で，サンプルを手動分割
– 短い (平均 4.9 s) サンプルの結果を示す (長いサンプルは論文参照)
12
ADT ピッチ系列を正弦波変調してミックス
NDT (SD) 提案手法 (歌唱者依存)
1 人の歌唱者で学習・テスト
NDT (SI) 提案手法 (不特定歌唱者)
複数の歌唱者で学習・オープンな歌唱者でテスト
DT 2 個の録音をミックス

/14
重ね録り感の評価スコア
13
𝑝 値
0.566

/14
まとめと今後の予定
 背景
– DT は難しく，ADT は不自然
– ADT よりも自然な重ね録り感を付与する人工的手法を作りたい
 提案法
– GMMN に基づくランダム変調ポストフィルタと，繰り返し歌唱
データベースを用いた NDT
– ランダム性を学習することで，自然な重ね録り感を付与
 評価結果
– NDT は従来の ADT より自然な重ね録り感を付与
– SI モデルも頑健に動作
 今後の予定
– スペクトルや歌唱タイミング・音符を伸ばす長さの変動に拡張 14

ユーザ歌唱のための generative moment matching network に基づく neural double-tracking

Recommended

Recommended

More Related Content

More from Shinnosuke Takamichi

More from Shinnosuke Takamichi (20)

Recently uploaded

Recently uploaded (11)

ユーザ歌唱のための generative moment matching network に基づく neural double-tracking