音声合成の基礎

1
音声合成
Speech Synthesis

2
音声の合成
録音合成
編集合成
パラメータ合成
テキスト音声合成 (Text-to-Speech)
– 物理シミュレーション
– フォルマント合成
– 波形接続合成
– HMM合成
文を全部録音
単語単位で録音
実際の声を元に合成⇒携帯電話

3
テキスト音声合成 (TTS)
文字列を音声に変換する技術
文字列形態素解析音素列
単語列
構文解析
単語アクセン
ト
韻律句韻律合成ピッチ系
列
音声合成
エンジン
音声

4
形態素解析
文を単語に分割
– 犬が歩く　→　犬/が/歩く
読み・品詞の推定
– 犬　犬　イヌ　名詞-一般
– が　が　ガ　助詞-格助詞
– 歩く　歩く　アルク　動詞-五段

5
単語アクセント
音の強さ vs. 音の高さ
– 音の強さ(stress): 英語など
– 音の高さ(pitch): 日本語など
アクセントの単位
– 音節 vs. モーラ

6
日本語（標準語）のアクセン
ト
モーラごとの音の高さによる
高音から低音に移るモーラ（アクセン
ト核）による分類
– 0型：LHHH.. （端　おすすめ　希望　谷
底）
– 1型：HLLL...　（箸　漢方　シュール）
– 2型：LHLL...　（橋　ビタミン　坂道）
– 3型：LHHLL..　（宝物　細雪　ハンバー
グ）
– ４型：LHHHL..　（美しい　恐ろしい）

7
単語の接続とアクセント
アクセント型による助詞のアクセント変
化
– 端を駆ける　　はしをかける
– 箸を書ける　　はしをかける
– 橋を架ける　　はしをかける
複合語のアクセント
– ビーフ(1)+ハンバーグ(3)=ビーフハンバーグ
(6)
– 漢方(1)+処方(0)=漢方処方(5)

8
韻律の推定
アクセント句(Intonational phrase)
– 単一のアクセント核を持つ1つ以上の文節
の連接単位
• つめたいこうちゃ　（0型）
• ひとりだけのこる　（7型）
– 元の単語のアクセント型によって決まるが
，
規則は複雑

9
アクセントからピッチへ
60
80
100
120
140
160
おやゆずりのむてぽでこどものときからそんばかりし
ている
フレーズ成
分
アクセント成分藤崎モデル

10
音素列から波形へ
ロボットによる発声
物理シミュレーション
– 声帯・声道の振動伝播を計算機で再現
フォルマント合成
– 声道をフィルタでモデル化
波形（素片）接続合成
HMM合成

11
ロボットによる発声
(Talking Head)
ロボットによって人間
の発声器官を模倣する
– 写真は早稲田大学高西
研究室の Waseda
Talker 7RII
– デモビデオあり

12
物理シミュレーション
(Articulatory Synthesis)
声帯の振動，声道の物理的特性をシ
ミュレーション
i
i
i
k
Q
m
=
21
3 2
( ) ( )
g
g
g g
c Uc
Z
A t A t
= +
2
2
1 1
a
b
c
z R j L j
A A
z
Aj C j
c
ω ρ
ω ω
ω ω
ρ
= + = +
= =
iA
gA
( )p t

13
(Formant Synthesis)
声帯から出る波と、声道による音色の
変化をマネすることによって音を出す
音の高さ
音の強さ音の強さ
音の高さ
× ＝
音の高さ
音の強さ

14
音源
フォルマント
フィルタ
formant
DB
各音素
F1～F4の周波数と
そのバンド幅

15
デモをどうぞ
利点
– 母音（ a, i, u, e, o等）については、どんな
声でも原理的に作れる
欠点
– 自然な声を出すのが難しい
– 子音（p, s, d などの音）の品質が良くない

16
波形（素片）接続合成
(Concatenative Synthesis)
本物の声をたくさん記録しておき、そ
の中から適宜取り出してきてつなぐ
– 編集合成の高度なやつ
– 利点
• （もとが本物なので）自然な声が作りやすい
– 欠点
• 大量の元音声が必要
• 任意の声は作れない

17
波形素片の接続
接続方法
1. 合成するための音素系列・継続時間系列・
ピッチ系列を用意
2.音素系列に対応する素片を選ぶ
3.素片の長さとピッチを調整して接続
基本的な問題点
– 接続点が多いほど不自然
– 素片の変更量（長さ，ピッチ）が多いほど
不自然

18
波形素片
各音素の波形を接続
各音節の波形を接続
o sh k a e
波形素片
o sh i k a k e
i k a k

19
波形素片
2音素の組み合わせ(diphone, CV-VC)
母音の途中で波形を接続(VCV)
o sh-i ei-k k-a a-k k-eo-sh
o eo-sh-i i-k-a a-k-e

20
コーパスベース合成
大量に録音した音声の中から，できる
だけ長い音声を切り出してつなぐ
o-sh-i-k-a a-k-e
音声
コーパス

21
声の高さや長さを変える技術
波形をそのまま利用する方法
– TD-PSOLA法
音声分析合成に基づく方法
– フェーズボコーダ
– STRAIGHT法

22
TD-PSOLA
(Time-Domain Pitch-Synchronous Overlap Add)
基本周期に同期して波形を切り出し，
それを再び重ね合わせる

23
TD-PSOLA
波形を何度も重ね合わせると音を伸ば
すことができる

24
TD-PSOLA
重ね合わせの周期を変えるとピッチ変
換が実現できる

25
HMM音声合成
HMMはもともと生成モデル→それを合
成に使う
文に対応するHMM系列
特徴量系列
メルケプストラム・
Δ・ΔΔ
MLSA
フィルタ
音声系列

音声合成の基礎

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

More from Akinori Ito

More from Akinori Ito (9)

音声合成の基礎