統計的音声合成変換と近年の発展

06/20/2019©Shinnosuke Takamichi,
The University of Tokyo
統計的音声合成変換と近年の発展
高道慎之介
(東京大学大学院情報理工学系研究科)
首都大学東京トーク

/46
自己紹介
 名前
– 高道慎之介 (たかみちしんのすけ)
 経歴
– 2009年熊本電波高専電子工学科卒業 … 半導体など
– 2011年長岡技科大工学部卒業 … 立体音響など
– 2016年奈良先端大博士課程修了 … 音声合成など
– 2016年～東京大学猿渡・小山研助教 (2018年まで特任助教)
 専門
– 統計的音声合成・変換など
2

/46
猿渡・小山研究室
3
 猿渡洋(教授)

専門分野
音メディアシステム
教師無し最適化
統計・機械学習論的
信号処理
協力教員郡山知樹先生
特任研究員高宗さん
秘書丹治さん
専門分野
音響信号処理
音場再生・伝送
（音響ホログラフ）
スパース信号処理
小山翔一(講師) 高道慎之介(助教)
専門分野
音声信号処理
統計的音声合成
声質変換
深層学習（DNN）
北村大地(客員研究員)
専門分野
音メディア信号処理
統計・機械学習論的
信号処理
音楽信号処理
博士課程学生4名
修士課程学生6＋7名
柏野研学生1名
香川高専

/46
私の研究グループの目標
4
音声変換
音声合成
全ての人間・計算機が
身体・文化・時間を超えて
音声でコミュニケーション
できる社会を目指して

/46
High-quality voice conversion
5
http://voicetext.jp/voiceactor/
SAYAKA HIKARI
Conversion
(Conven-
tional)

/46
DNN-based real-time voice conversion
6
http://www.ytv.co.jp/conan
/item/tai.html
https://www.youtube.com/watch?v=P9rGqoYnfCg
[Arakawa19]

/46
Neural double-tracking
7
[Tamaru19]
NDT
Random pitch modulation
based on deep generative models
深層生成モデルを用いて「人間の音声はこう間違う」を学習

/46
本日の内容
8
音楽・歌声
音声知覚
言語教育
音声信号処理
音声コーパス

一期一会音声・歌声合成
9
音楽・歌声

/46
Neural double-tracking
10
[Tamaru19]
NDT
Random pitch modulation
based on deep generative models
これをどうやって実現しているのかを話します！

/46
一期一会音声合成
11
「正しく喋る」から「正しく間違えて喋る」音声合成へ
Human
Noise
Current TTS
Noise
Our approach
[Takamichi17]

/46
観測できる音声
畳み込むと…
Time
音声の生成過程
12
声帯を開閉させて
空気を振動させる！
音高の生成
音色の付与
口や舌を動かして
音色をつける！

/46
深層生成モデル：
Generative Adversarial Network (GAN)
 Generative adversarial network
– 分布間の近似 Jensen-Shannon divergence を最小化
– 生成モデルと，学習／生成データを識別する識別モデルを敵対
– 音声合成に適用されだしたのは2016年 (我々のグループ)
13
𝒚
1: natural
0: synthesized
Discriminator
Natural
[Goodfellow14]
Generator
Input

/46
別の生成モデル：
Generative moment-matching network
 Generative moment-matching network
– 分布のモーメント (平均，分散，…) 間の二乗距離を最小化
• モーメントは音声処理との相性が良い
– 実装上は，グラム行列のノルムの差を最小化
14
𝒚
Natural
Generator
Input
[Li15]

/46
Neural double-tracking の手順
1515
波形
合成
スペクトル
有声／無声
F0
スペクトル
有声／無声
F0
条件付きGMMN
(条件：F0包絡)
遅延
人間の
DT歌声から
学習
[Tamaru19]

/46
変調したF0系列の例
16
うさ
ぎ
う
さ
ぎ
Pitch(1が半音)
Time [s]
Non-filtered
Post-filtered (4 lines)
童謡「うさぎ」の一節
72
71
70
69
68
67
66
65
64
63
62
0.0 0.5 1.0 1.5 2.0 2.5
[Tamaru19]

自由に使える日本語音声コーパス
17
音声コーパス

/46
人文学 & 工学研究のための
オープンな日本語音声コーパス
18
大学研究所企業・非研究者
人文学系
工学系
人文学系
工学系工学系
ここは有ったここが無かった
 人文学研究のための音声コーパスは豊富
– 国語研を中心に整備 [IEICE会誌 vol.102, no.6 の小特集を参照]
 工学研究 (特に音声合成の研究) のための音声コーパスは？
– 2015年頃から，専門知識不要の音声合成方式が加速
– 音声合成のコモディティ化が進み，研究分野・身分・国を超えた
技術・製品開発が加速すると予想
→ 2016年時点で，それに適切な日本語音声コーパスが無かった

/46
JSUTコーパス
19
[Sonobe17]
 スペック
– 単一話者読み上げ音声，10時間 (約7,600発話)，48 kHzサンプリング
– 日本語常用漢字の音読み・訓読みを全てカバー
• Wikipedia やクラウドソーシング作文を利用
• 日本語end-to-end音声合成をサポートするため
– 身分などに依らず非商用なら無償利用可 (商用転換も可能)
 成果
– 2017/10に公開して60か国以上からダウンロード (約75%は国内)
– End-to-end 音声合成でも使用されるように [Ueno18]
– 商用利用への転換の実績も有り
日本語End-to-end音声合成のサンプル音声は，京都大学河原先生・上乃さまに提供して頂いた

/46
JSUT コレクション：テキスト・歌・環境音を
音声でつなげるコーパス
20
JSUT
JSUT-songJSUT-vi
Singing voice (0.5 hrs)Vocal imitation (0.4 hrs)
Reading-style speech (10 hrs)
Single Japanese speaker’s voice
[new!] JSUT-book
Audiobook
[Future release]
[Takamichi18]
音声による抽象化・具体化を利用した多元的情報の融合へ

/46
Mozilla Common Voice：
パブリックデータとしての音声
21
https://voice.mozilla.org/en

主観的類似度を考慮した話者埋め込み
22
音声知覚

/46
話者埋め込み (speaker embedding)
 話者埋め込み … 発話者を何らかの数値で表現すること
– 声色制御への応用 … ユーザの所望する声色で話す音声合成
– 言語横断への応用 … 言語を超えて同じ人の声で話す音声合成
 従来法 … 客観値（音声特徴量間の距離）に基づく embedding
– 識別器 (d-vector) や auto-encoder の中間層の値で潜在空間を張る
– 話者性は「客観的に似ている＝主観的に似ている」ではない
– 張られた潜在空間は，人間の知覚と対応しておらず，解釈しにくい
23
1
0
0
0
0
⋯
Speaker
codes
Speech
params.
⋯
Softmax
cross-entropy
𝐿SCE 𝒄, 𝒄
𝑑-vector
𝒄 𝒄

/4624
クラウドソーシングを用いた
話者間類似度の大規模主観スコアリング
 話者対の音声を提示し, その主観的な類似度を評価
– JNAS [Itou et al., 1999] の女性話者153名を利用
• 話者毎に異なる発話 (テキスト非依存の話者間類似度を評価)
– 4,060名のワーカーが, 全話者対からランダム抽出された34対を評価
• 評価スコア: －3 (似ていない) ～＋3 (似ている) の整数
• 1つの話者対を異なる10名以上が評価
提示話者対サンプル
[Saito19]

/4625
類似度スコアに基づく話者グラフを用いた
話者間類似度の可視化
話者の配置は類似度スコアを用いた多次元尺度構成法で決定
F051
F146B
F048
特定の話者に
類似した話者
多数の話者に
類似した話者F093
F127
[Saito19]

/46
DNNを用いた話者埋め込みへの応用
26
Spk.
1
𝒅1
Spk.
𝑁s
𝒅 𝑁𝐬
⋯
𝐃⊤ 𝐃
⋯
Gram matrix
𝐊 𝐃
Calc.
kernel
𝑘 ⋅
𝐿SIM
mat
⋅
𝑁s
𝑁s
1
1
⋯
⋯
𝑁s1
⋯1
𝑁s
𝑘 𝒅1, 𝒅 𝑵s
𝑠1,𝑁s𝐒
Sim. score
matrix
𝐿SIM
(mat)
𝐃, 𝐒 = 𝐊 𝐃 − 𝐒 𝐹
2
 音声特徴量 (客観値) から話者類似度 (主観値) へのマッピング
– DNNを用いた行列ノルム最小化で実現
– 話者性のユニークさも表現可能
[Saito19]

/4627
話者埋め込みと話者間類似度スコアの
散布図・相関
(1) Conv. (2) Prop. (vec) (3) Prop. (mat) (4) Prop. (mat-re)
0.0 1.0−1.0
1.0
0.0
−1.0
Value of kernel 𝑘 𝒅𝑖, 𝒅𝑗
Similarityscore𝑠𝑖,𝑗
(a)Closed-Closed(b)Closed-Open
提案法により, 主観的類似度と高い相関を持つ話者埋め込みが学習可能
[Saito19]

ノンネイティブ音声合成
28
言語教育

/46
外国語スピーキング学習への挑戦
 外国語学習の目的
– 対象の外国語 (例：英語) を用いた円滑な音声コミュニケーション
 スピーキング学習では何を目標にすべきか？
– 母語話者 (例：英語話者) を目指すべき？ → No.
– 外国語話者はある程度の発音逸脱を許容しているため，その許容
範囲に収まる発音であれば，訛った外国語でもOKなのでは？
 ノンネイティブ音声合成
– 学習者の訛りを生かしつつ，外国語話者に伝わる音声を生成
29

/46
日本人英語音声合成
30
従来法で生成
提案法で生成
学習に使用した音声 (ERJデータベースに含まれる
男子大学生のうち，評定スコアが最低）
“I can see that knife now.”
[Oshima16]

/46
日本人英語の音声合成のための韻律補正
 韻律の違い
– 日本語：モーラ等時性・ピッチアクセント
– 英語：ストレス等時性・ストレスアクセント
 韻律補正法
– 英語母語話者の韻律を利用
– 同じ枠組みは別言語でも可能
31
[Oshima16]
英語母語話者の
音響モデル
英語母語話者の
英語音声
日本語母語話者の
英語音声
韻律を補正した
日本語母語話者の
音響モデル
スペクトル
音源
パワー
継続長
スペクトル
音源
パワー
継続長
モデル
適応
パワーと継続長を
補正すればよい！

/46
中国人日本語の音声合成のための韻律補正
32
Conventional
Ours
Chinese-accented Japanese
uttered by a Chinese student
“私のテストの成績の悪さに，
母がカンカンに怒っています”
Text Text-to-speech
Voice building
Make the voice fluent.
[Sekizawa19]

方向統計DNNを用いた
位相モデリング
33
音声信号処理

/46
周期変数とは
34
𝑥
𝑦
𝑦 =
𝜋
2
+ 2𝜋𝑁
𝑦 = 𝜋 + 2𝜋𝑁
𝑦 =
3
2
𝜋 + 2𝜋𝑁
𝑦 = 2𝜋𝑁
𝑁 は任意の整数
音声信号処理では極座標を使う (例：フーリエ変換の振幅・位相) 一方で，
振幅 𝑥 のみが処理対象となる場合が多かった．
振幅 𝑥 から位相 𝑦を予測（復元）できるか？

/46
DNNを用いた位相推定
 位相：2𝜋の周期をもつ周期変数
– 2𝜋の周期性を持つ周期変数 𝒚 𝑡 = 𝑦𝑡,0, ⋯ , 𝑦𝑡,𝑓, ⋯ , 𝑦𝑡,𝐹
⊤
– 𝑦𝑡,𝑓 と 𝑦𝑡,𝑓 + 2𝜋𝑁 は等価(𝑁は整数)
 DNN学習に通常の二乗誤差最小化規範 (MSE) を使えない
– 二乗誤差最小化規範は等方性ガウス分布の尤度最大化に対応
– ガウス分布は変数の周期性に対応できない
35
argmax 𝑁 𝒚 𝑡; 𝒚 𝑡, 𝜎2
𝑰 → argmin 𝒚 𝑡 − 𝒚 𝑡
⊤
𝒚 𝑡 − 𝒚 𝑡
DNN
MSE
𝒚 𝑡
ならば，周期変数に対応する確率分布を導入すれば良い！
振幅 𝒙 𝑡 位相 𝒚 𝑡

/46
von Mises 分布
 von Mises 分布 … 周期変数のための確率分布
– 2次元の等方性ガウス分布から導出される対称周期分布
36
[Mardia99]
𝑃(vm) 𝑦; 𝜇, 𝜅 =
exp 𝜅 cos 𝑦 − 𝜇
2𝜋𝐼0 𝜅
𝑦
𝜋 2𝜋
𝜇
𝜅
0
𝑃(vm)𝑦;𝜇,𝜅

/46
von Mises 分布 DNN を用いた
位相モデリング
37
 von Mises 分布 DNN … 周期変数のための深層生成モデル
– 集中度パラメータ固定の von Mises 分布を条件付き確率分布に持つ
 von Mises 分布 DNN は，データ分布の対称性を暗に仮定
– ↓のような分布のモデル化精度は悪い．どうする？
𝜽 = argmin 𝐿(vm) 𝒚 𝑡, 𝜽 = argmin −cos 𝑦𝑡,𝑓 − 𝜇 𝑡,𝑓
𝑓
DNN 𝜽
振幅 𝒙 𝑡 𝐿 vm ⋅ 位相 𝒚 𝑡
平均 𝝁 𝑡
𝑦
0 𝜋 2𝜋
Count
[Takamichi18]

/46
正弦関数摂動 von Mises 分布
 von Mises 分布𝑃 vm 𝑦, 𝜇, 𝜅 に摂動項をかけた非対称周期分布
38
[Abe11]
𝑃 ssvm 𝑦, 𝜇, 𝜅, 𝜆 = 𝑃 vm 𝑦, 𝜇, 𝜅 ⋅ 1 + 𝜆 sin 𝑦 − 𝜇
𝑦
0 𝜋 2𝜋
𝑃ssvm
𝑦,𝜇,𝜅,𝜆
摂動パラメータ

/46
正弦関数摂動 von Mises分布DNNによる
位相推定 (正確には群遅延推定)
39
0
1
𝐹
𝑦𝑡,∗
𝐿 vm ⋅
𝜎 ⋅
× 𝛼 𝜅
(const.)
0
𝐹
𝜇 𝑡,∗
𝜅 𝑡,∗
tanh ⋅
× 𝛼 𝜆
(const.)
𝜆 𝑡,∗
𝐿 ss ⋅Mean
Concentration
Skew
Freq. index
𝑥 𝑡,∗
DNN学習時の損失関数は 𝐿 vm ⋅ と 𝐿 ss ⋅ の和
(von Mises由来) (正弦関数摂動由来)
摂動項の
対数
[Takamichi18]

/46
負の対数尤度の box plot
40
0.80
0.85
0.90
0.95
1.00
1.05
1.10
Negativeloglikelihood
Min
Max
Median
正弦関数摂動の導入により尤度が改善
[Takamichi18]

次世代の音声合成に向けて
41

/46
総務省SCOPE：知覚モデルに基づくストレス
フリーなリアルタイム広帯域音声変換
42
通常の遠隔コミュニケーション
リアルタイム音声変換を介した遠隔コミュニケーション
言語情報 (音韻など)
パラ言語情報 (感情など)
非言語情報 (話者性など)
自己聴取音による情報確認
言語
パラ言語
非言語
言語
パラ言語
非言語
音
声
変
換
意図しない情報変換が行われる恐れ
エラーを含む音声のフィードバックでユーザに負荷
https://sites.google.com/site/shinnosuketakamichi/research-topics/scope2019

/46
東大GAPプロジェクト：音声合成技術の研究開発・
商用利用を加速させる音声コーパスの設計・構築
43
https://sites.google.com/site/shinnosuketakamichi/research-topics/gap2019
読み上げ音声
歌声
感情音声
多言語音声
ノンネイティブ
多数話者音声
方言音声
成果物
研究なら無償
商用なら有償提供
企業
音声関連企業
研究開発部門を
持つ企業
音声プラット
フォームを
持つ企業
無償提供
ゆらぎ音声合成 (セコム)
方言音声合成 (若手研究)
~2018年度
音声翻訳 (基盤S)
省データ音声変換 (基盤A)
リアルタイム変換 (SCOPE)
取引先候補
迅速なコーパス整備による
基盤研究の加速
大学
学習済みモデルを
含めた技術提供
コーパスを頒布
構築技術提供で
社内の音声から
新コーパスを作成
コーパス構築技術
その他の音声その他の競争的資金
災害支援 (セコム一般)

/46
2019/07 SP/SLP研究会招待講演
44
https://sites.google.com/site/shinnosuketakamichi/tutorial/slp201907
概要
2019年1月施行の著作権法30条の4等の改正により，研究における著作物の
利用が拡大された．そこで，改正著作権法でどこまでが許されているのかに
ついて明らかにすべく，弁護士による講演会を開く．
講演者
竹内亮先生 (鳥飼総合法律事務所)
http://www.torikai.gr.jp/author/takeuchi

/46
まとめ
 我々の既発表研究を紹介
– 音楽・歌声
– 音声コーパス
– 音声知覚
– 言語教育
– 音声信号処理
 現在進行中のプロジェクトを紹介
– ストレスフリー音声変換
– 研究開発・商用利用を加速させる音声コーパスの設計・構築
– 著作物をコーパスとして使用するための講演会
46

統計的音声合成変換と近年の発展

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Similar to 統計的音声合成変換と近年の発展

Similar to 統計的音声合成変換と近年の発展 (20)

More from Shinnosuke Takamichi

More from Shinnosuke Takamichi (20)

統計的音声合成変換と近年の発展