More Related Content
Similar to 統計的音声合成変換と近年の発展
Similar to 統計的音声合成変換と近年の発展 (20)
More from Shinnosuke Takamichi
More from Shinnosuke Takamichi (20)
統計的音声合成変換と近年の発展
- 2. /46
自己紹介
名前
– 高道 慎之介 (たかみち しんのすけ)
経歴
– 2009年 熊本電波高専 電子工学科 卒業 … 半導体など
– 2011年 長岡技科大 工学部 卒業 … 立体音響など
– 2016年 奈良先端大 博士課程 修了 … 音声合成など
– 2016年~ 東京大学 猿渡・小山研 助教 (2018年まで特任助教)
専門
– 統計的音声合成・変換など
2
- 13. /46
深層生成モデル:
Generative Adversarial Network (GAN)
Generative adversarial network
– 分布間の近似 Jensen-Shannon divergence を最小化
– 生成モデルと,学習/生成データを識別する識別モデルを敵対
– 音声合成に適用されだしたのは2016年 (我々のグループ)
13
𝒚
1: natural
0: synthesized
Discriminator
Natural
[Goodfellow14]
Generator
Input
- 18. /46
人文学 & 工学研究のための
オープンな日本語音声コーパス
18
大学 研究所企業・非研究者
人文学系
工学系
人文学系
工学系工学系
ここは有ったここが無かった
人文学研究のための音声コーパスは豊富
– 国語研を中心に整備 [IEICE会誌 vol.102, no.6 の小特集を参照]
工学研究 (特に音声合成の研究) のための音声コーパスは?
– 2015年頃から,専門知識不要の音声合成方式が加速
– 音声合成のコモディティ化が進み,研究分野・身分・国を超えた
技術・製品開発が加速すると予想
→ 2016年時点で,それに適切な日本語音声コーパスが無かった
- 19. /46
JSUTコーパス
19
[Sonobe17]
スペック
– 単一話者読み上げ音声,10時間 (約7,600発話),48 kHzサンプリング
– 日本語常用漢字の音読み・訓読みを全てカバー
• Wikipedia やクラウドソーシング作文を利用
• 日本語end-to-end音声合成をサポートするため
– 身分などに依らず非商用なら無償利用可 (商用転換も可能)
成果
– 2017/10に公開して60か国以上からダウンロード (約75%は国内)
– End-to-end 音声合成でも使用されるように [Ueno18]
– 商用利用への転換の実績も有り
日本語End-to-end音声合成のサンプル音声は,京都大学 河原先生・上乃さまに提供して頂いた
- 23. /46
話者埋め込み (speaker embedding)
話者埋め込み … 発話者を何らかの数値で表現すること
– 声色制御への応用 … ユーザの所望する声色で話す音声合成
– 言語横断への応用 … 言語を超えて同じ人の声で話す音声合成
従来法 … 客観値(音声特徴量間の距離)に基づく embedding
– 識別器 (d-vector) や auto-encoder の中間層の値で潜在空間を張る
– 話者性は「客観的に似ている = 主観的に似ている」ではない
– 張られた潜在空間は,人間の知覚と対応しておらず,解釈しにくい
23
1
0
0
0
0
⋯
Speaker
codes
Speech
params.
⋯
Softmax
cross-entropy
𝐿SCE 𝒄, 𝒄
𝑑-vector
𝒄 𝒄
- 27. /4627
話者埋め込みと話者間類似度スコアの
散布図・相関
(1) Conv. (2) Prop. (vec) (3) Prop. (mat) (4) Prop. (mat-re)
0.0 1.0−1.0
1.0
0.0
−1.0
Value of kernel 𝑘 𝒅𝑖, 𝒅𝑗
Similarityscore𝑠𝑖,𝑗
(a)Closed-Closed(b)Closed-Open
提案法により, 主観的類似度と高い相関を持つ話者埋め込みが学習可能
[Saito19]
- 29. /46
外国語スピーキング学習への挑戦
外国語学習の目的
– 対象の外国語 (例:英語) を用いた円滑な音声コミュニケーション
スピーキング学習では何を目標にすべきか?
– 母語話者 (例:英語話者) を目指すべき? → No.
– 外国語話者はある程度の発音逸脱を許容しているため,その許容
範囲に収まる発音であれば,訛った外国語でもOKなのでは?
ノンネイティブ音声合成
– 学習者の訛りを生かしつつ,外国語話者に伝わる音声を生成
29
- 34. /46
周期変数とは
34
𝑥
𝑦
𝑦 =
𝜋
2
+ 2𝜋𝑁
𝑦 = 𝜋 + 2𝜋𝑁
𝑦 =
3
2
𝜋 + 2𝜋𝑁
𝑦 = 2𝜋𝑁
𝑁 は任意の整数
音声信号処理では極座標を使う (例:フーリエ変換の振幅・位相) 一方で,
振幅 𝑥 のみが処理対象となる場合が多かった.
振幅 𝑥 から位相 𝑦を予測(復元)できるか?
- 35. /46
DNNを用いた位相推定
位相:2𝜋の周期をもつ周期変数
– 2𝜋の周期性を持つ周期変数 𝒚 𝑡 = 𝑦𝑡,0, ⋯ , 𝑦𝑡,𝑓, ⋯ , 𝑦𝑡,𝐹
⊤
– 𝑦𝑡,𝑓 と 𝑦𝑡,𝑓 + 2𝜋𝑁 は等価(𝑁は整数)
DNN学習に通常の二乗誤差最小化規範 (MSE) を使えない
– 二乗誤差最小化規範は等方性ガウス分布の尤度最大化に対応
– ガウス分布は変数の周期性に対応できない
35
argmax 𝑁 𝒚 𝑡; 𝒚 𝑡, 𝜎2
𝑰 → argmin 𝒚 𝑡 − 𝒚 𝑡
⊤
𝒚 𝑡 − 𝒚 𝑡
DNN
MSE
𝒚 𝑡
ならば,周期変数に対応する確率分布を導入すれば良い!
振幅 𝒙 𝑡 位相 𝒚 𝑡
- 36. /46
von Mises 分布
von Mises 分布 … 周期変数のための確率分布
– 2次元の等方性ガウス分布から導出される対称周期分布
36
[Mardia99]
𝑃(vm) 𝑦; 𝜇, 𝜅 =
exp 𝜅 cos 𝑦 − 𝜇
2𝜋𝐼0 𝜅
𝑦
𝜋 2𝜋
𝜇
𝜅
0
𝑃(vm)𝑦;𝜇,𝜅
- 37. /46
von Mises 分布 DNN を用いた
位相モデリング
37
von Mises 分布 DNN … 周期変数のための深層生成モデル
– 集中度パラメータ固定の von Mises 分布を条件付き確率分布に持つ
von Mises 分布 DNN は,データ分布の対称性を暗に仮定
– ↓のような分布のモデル化精度は悪い.どうする?
𝜽 = argmin 𝐿(vm) 𝒚 𝑡, 𝜽 = argmin −cos 𝑦𝑡,𝑓 − 𝜇 𝑡,𝑓
𝑓
DNN 𝜽
振幅 𝒙 𝑡 𝐿 vm ⋅ 位相 𝒚 𝑡
平均 𝝁 𝑡
𝑦
0 𝜋 2𝜋
Count
[Takamichi18]
- 38. /46
正弦関数摂動 von Mises 分布
von Mises 分布𝑃 vm 𝑦, 𝜇, 𝜅 に摂動項をかけた非対称周期分布
38
[Abe11]
𝑃 ssvm 𝑦, 𝜇, 𝜅, 𝜆 = 𝑃 vm 𝑦, 𝜇, 𝜅 ⋅ 1 + 𝜆 sin 𝑦 − 𝜇
𝑦
0 𝜋 2𝜋
𝑃ssvm
𝑦,𝜇,𝜅,𝜆
摂動パラメータ
- 39. /46
正弦関数摂動 von Mises分布DNNによる
位相推定 (正確には群遅延推定)
39
0
1
𝐹
𝑦𝑡,∗
𝐿 vm ⋅
𝜎 ⋅
× 𝛼 𝜅
(const.)
0
𝐹
𝜇 𝑡,∗
𝜅 𝑡,∗
tanh ⋅
× 𝛼 𝜆
(const.)
𝜆 𝑡,∗
𝐿 ss ⋅Mean
Concentration
Skew
Freq. index
𝑥 𝑡,∗
DNN学習時の損失関数は 𝐿 vm ⋅ と 𝐿 ss ⋅ の和
(von Mises由来) (正弦関数摂動由来)
摂動項の
対数
[Takamichi18]