SlideShare a Scribd company logo
1 of 25
1
音声合成
Speech Synthesis
2
音声の合成
録音合成
編集合成
パラメータ合成
テキスト音声合成 (Text-to-Speech)
– 物理シミュレーション
– フォルマント合成
– 波形接続合成
– HMM合成
文を全部録音
単語単位で録音
実際の声を元に合成⇒携帯電話
3
テキスト音声合成 (TTS)
文字列を音声に変換する技術
文字列 形態素解析 音素列
単語列
構文解析
単語アクセン
ト
韻律句 韻律合成 ピッチ系
列
音声合成
エンジン
音声
4
形態素解析
文を単語に分割
– 犬が歩く → 犬/が/歩く
読み・品詞の推定
– 犬 犬 イヌ 名詞-一般
– が が ガ 助詞-格助詞
– 歩く 歩く アルク 動詞-五段
5
単語アクセント
音の強さ vs. 音の高さ
– 音の強さ(stress): 英語など
– 音の高さ(pitch): 日本語など
アクセントの単位
– 音節 vs. モーラ
6
日本語(標準語)のアクセン
ト
モーラごとの音の高さによる
高音から低音に移るモーラ(アクセン
ト核)による分類
– 0型:LHHH.. (端 おすすめ 希望 谷
底)
– 1型:HLLL... (箸 漢方 シュール)
– 2型:LHLL... (橋 ビタミン 坂道)
– 3型:LHHLL.. (宝物 細雪 ハンバー
グ)
– 4型:LHHHL.. (美しい 恐ろしい)
7
単語の接続とアクセント
アクセント型による助詞のアクセント変
化
– 端を駆ける  はしをかける
– 箸を書ける  はしをかける
– 橋を架ける  はしをかける
複合語のアクセント
– ビーフ(1)+ハンバーグ(3)=ビーフハンバーグ
(6)
– 漢方(1)+処方(0)=漢方処方(5)
8
韻律の推定
アクセント句(Intonational phrase)
– 単一のアクセント核を持つ1つ以上の文節
の連接単位
• つめたいこうちゃ (0型)
• ひとりだけのこる (7型)
– 元の単語のアクセント型によって決まるが
,
規則は複雑
9
アクセントからピッチへ
60
80
100
120
140
160
おやゆず り の む て ぽ で こどもの と き から そんばかりし
ている
フレーズ成
分
アクセント成分藤崎モデル
10
音素列から波形へ
ロボットによる発声
物理シミュレーション
– 声帯・声道の振動伝播を計算機で再現
フォルマント合成
– 声道をフィルタでモデル化
波形(素片)接続合成
HMM合成
11
ロボットによる発声
(Talking Head)
ロボットによって人間
の発声器官を模倣する
– 写真は早稲田大学高西
研究室の Waseda
Talker 7RII
– デモビデオあり
12
物理シミュレーション
(Articulatory Synthesis)
声帯の振動,声道の物理的特性をシ
ミュレーション
i
i
i
k
Q
m
=
21
3 2
( ) ( )
g
g
g g
c Uc
Z
A t A t
= +
2
2
1 1
a
b
c
z R j L j
A A
z
Aj C j
c
ω ρ
ω ω
ω ω
ρ
= + = +
= =
iA
gA
( )p t
13
フォルマント合成
(Formant Synthesis)
声帯から出る波と、声道による音色の
変化をマネすることによって音を出す
音の高さ
音の強さ 音の強さ
音の高さ
× =
音の高さ
音の強さ
14
フォルマント合成
音源
フォルマント
フィルタ
formant
DB
各音素
F1~F4の周波数と
そのバンド幅
15
フォルマント合成
デモをどうぞ
利点
– 母音( a, i, u, e, o等)については、どんな
声でも原理的に作れる
欠点
– 自然な声を出すのが難しい
– 子音(p, s, d などの音)の品質が良くない
16
波形(素片)接続合成
(Concatenative Synthesis)
本物の声をたくさん記録しておき、そ
の中から適宜取り出してきてつなぐ
– 編集合成の高度なやつ
– 利点
• (もとが本物なので)自然な声が作りやすい
– 欠点
• 大量の元音声が必要
• 任意の声は作れない
17
波形素片の接続
接続方法
1. 合成するための音素系列・継続時間系列・
ピッチ系列を用意
2.音素系列に対応する素片を選ぶ
3.素片の長さとピッチを調整して接続
基本的な問題点
– 接続点が多いほど不自然
– 素片の変更量(長さ,ピッチ)が多いほど
不自然
18
波形素片
各音素の波形を接続
各音節の波形を接続
o sh k a e
波形素片
o sh i k a k e
i k a k
19
波形素片
2音素の組み合わせ(diphone, CV-VC)
母音の途中で波形を接続(VCV)
o sh-i ei-k k-a a-k k-eo-sh
o eo-sh-i i-k-a a-k-e
20
コーパスベース合成
大量に録音した音声の中から,できる
だけ長い音声を切り出してつなぐ
o-sh-i-k-a a-k-e
音声
コーパス
21
声の高さや長さを変える技術
波形をそのまま利用する方法
– TD-PSOLA法
音声分析合成に基づく方法
– フェーズボコーダ
– STRAIGHT法
22
TD-PSOLA
(Time-Domain Pitch-Synchronous Overlap Add)
基本周期に同期して波形を切り出し,
それを再び重ね合わせる
23
TD-PSOLA
(Time-Domain Pitch-Synchronous Overlap Add)
波形を何度も重ね合わせると音を伸ば
すことができる
24
TD-PSOLA
(Time-Domain Pitch-Synchronous Overlap Add)
重ね合わせの周期を変えるとピッチ変
換が実現できる
25
HMM音声合成
HMMはもともと生成モデル→それを合
成に使う
文に対応するHMM系列
特徴量系列
メルケプストラム・
Δ・ΔΔ
MLSA
フィルタ
音声系列

More Related Content

What's hot

論文紹介 wav2vec: Unsupervised Pre-training for Speech Recognition
論文紹介  wav2vec: Unsupervised Pre-training for Speech Recognition論文紹介  wav2vec: Unsupervised Pre-training for Speech Recognition
論文紹介 wav2vec: Unsupervised Pre-training for Speech RecognitionYosukeKashiwagi1
 
複数話者WaveNetボコーダに関する調査
複数話者WaveNetボコーダに関する調査複数話者WaveNetボコーダに関する調査
複数話者WaveNetボコーダに関する調査Tomoki Hayashi
 
音源分離 ~DNN音源分離の基礎から最新技術まで~ Tokyo bishbash #3
音源分離 ~DNN音源分離の基礎から最新技術まで~ Tokyo bishbash #3音源分離 ~DNN音源分離の基礎から最新技術まで~ Tokyo bishbash #3
音源分離 ~DNN音源分離の基礎から最新技術まで~ Tokyo bishbash #3Naoya Takahashi
 
深層学習と音響信号処理
深層学習と音響信号処理深層学習と音響信号処理
深層学習と音響信号処理Yuma Koizumi
 
CTCに基づく音響イベントからの擬音語表現への変換
CTCに基づく音響イベントからの擬音語表現への変換CTCに基づく音響イベントからの擬音語表現への変換
CTCに基づく音響イベントからの擬音語表現への変換NU_I_TODALAB
 
実環境音響信号処理における収音技術
実環境音響信号処理における収音技術実環境音響信号処理における収音技術
実環境音響信号処理における収音技術Yuma Koizumi
 
JVS:フリーの日本語多数話者音声コーパス
JVS:フリーの日本語多数話者音声コーパス JVS:フリーの日本語多数話者音声コーパス
JVS:フリーの日本語多数話者音声コーパス Shinnosuke Takamichi
 
非負値行列因子分解に基づくブラインド及び教師あり音楽音源分離の効果的最適化法
非負値行列因子分解に基づくブラインド及び教師あり音楽音源分離の効果的最適化法非負値行列因子分解に基づくブラインド及び教師あり音楽音源分離の効果的最適化法
非負値行列因子分解に基づくブラインド及び教師あり音楽音源分離の効果的最適化法Daichi Kitamura
 
統計的ボイチェン研究事情
統計的ボイチェン研究事情統計的ボイチェン研究事情
統計的ボイチェン研究事情Shinnosuke Takamichi
 
音源分離における音響モデリング(Acoustic modeling in audio source separation)
音源分離における音響モデリング(Acoustic modeling in audio source separation)音源分離における音響モデリング(Acoustic modeling in audio source separation)
音源分離における音響モデリング(Acoustic modeling in audio source separation)Daichi Kitamura
 
ランク1空間近似を用いたBSSにおける音源及び空間モデルの考察 Study on Source and Spatial Models for BSS wi...
ランク1空間近似を用いたBSSにおける音源及び空間モデルの考察 Study on Source and Spatial Models for BSS wi...ランク1空間近似を用いたBSSにおける音源及び空間モデルの考察 Study on Source and Spatial Models for BSS wi...
ランク1空間近似を用いたBSSにおける音源及び空間モデルの考察 Study on Source and Spatial Models for BSS wi...Daichi Kitamura
 
音声合成の今昔と深層学習を用いた音声合成
音声合成の今昔と深層学習を用いた音声合成音声合成の今昔と深層学習を用いた音声合成
音声合成の今昔と深層学習を用いた音声合成Genki Ishibashi
 
Moment matching networkを用いた音声パラメータのランダム生成の検討
Moment matching networkを用いた音声パラメータのランダム生成の検討Moment matching networkを用いた音声パラメータのランダム生成の検討
Moment matching networkを用いた音声パラメータのランダム生成の検討Shinnosuke Takamichi
 
DNN音響モデルにおける特徴量抽出の諸相
DNN音響モデルにおける特徴量抽出の諸相DNN音響モデルにおける特徴量抽出の諸相
DNN音響モデルにおける特徴量抽出の諸相Takuya Yoshioka
 
深層学習を用いた音源定位、音源分離、クラス分類の統合~環境音セグメンテーション手法の紹介~
深層学習を用いた音源定位、音源分離、クラス分類の統合~環境音セグメンテーション手法の紹介~深層学習を用いた音源定位、音源分離、クラス分類の統合~環境音セグメンテーション手法の紹介~
深層学習を用いた音源定位、音源分離、クラス分類の統合~環境音セグメンテーション手法の紹介~Yui Sudo
 
人間と機械と音のコミュニケーション
人間と機械と音のコミュニケーション人間と機械と音のコミュニケーション
人間と機械と音のコミュニケーションAkinori Ito
 
Icml読み会 deep speech2
Icml読み会 deep speech2Icml読み会 deep speech2
Icml読み会 deep speech2Jiro Nishitoba
 
信号の独立性に基づく多チャンネル音源分離
信号の独立性に基づく多チャンネル音源分離信号の独立性に基づく多チャンネル音源分離
信号の独立性に基づく多チャンネル音源分離NU_I_TODALAB
 

What's hot (20)

論文紹介 wav2vec: Unsupervised Pre-training for Speech Recognition
論文紹介  wav2vec: Unsupervised Pre-training for Speech Recognition論文紹介  wav2vec: Unsupervised Pre-training for Speech Recognition
論文紹介 wav2vec: Unsupervised Pre-training for Speech Recognition
 
複数話者WaveNetボコーダに関する調査
複数話者WaveNetボコーダに関する調査複数話者WaveNetボコーダに関する調査
複数話者WaveNetボコーダに関する調査
 
ILRMA 20170227 danwakai
ILRMA 20170227 danwakaiILRMA 20170227 danwakai
ILRMA 20170227 danwakai
 
音源分離 ~DNN音源分離の基礎から最新技術まで~ Tokyo bishbash #3
音源分離 ~DNN音源分離の基礎から最新技術まで~ Tokyo bishbash #3音源分離 ~DNN音源分離の基礎から最新技術まで~ Tokyo bishbash #3
音源分離 ~DNN音源分離の基礎から最新技術まで~ Tokyo bishbash #3
 
深層学習と音響信号処理
深層学習と音響信号処理深層学習と音響信号処理
深層学習と音響信号処理
 
CTCに基づく音響イベントからの擬音語表現への変換
CTCに基づく音響イベントからの擬音語表現への変換CTCに基づく音響イベントからの擬音語表現への変換
CTCに基づく音響イベントからの擬音語表現への変換
 
実環境音響信号処理における収音技術
実環境音響信号処理における収音技術実環境音響信号処理における収音技術
実環境音響信号処理における収音技術
 
JVS:フリーの日本語多数話者音声コーパス
JVS:フリーの日本語多数話者音声コーパス JVS:フリーの日本語多数話者音声コーパス
JVS:フリーの日本語多数話者音声コーパス
 
非負値行列因子分解に基づくブラインド及び教師あり音楽音源分離の効果的最適化法
非負値行列因子分解に基づくブラインド及び教師あり音楽音源分離の効果的最適化法非負値行列因子分解に基づくブラインド及び教師あり音楽音源分離の効果的最適化法
非負値行列因子分解に基づくブラインド及び教師あり音楽音源分離の効果的最適化法
 
統計的ボイチェン研究事情
統計的ボイチェン研究事情統計的ボイチェン研究事情
統計的ボイチェン研究事情
 
音源分離における音響モデリング(Acoustic modeling in audio source separation)
音源分離における音響モデリング(Acoustic modeling in audio source separation)音源分離における音響モデリング(Acoustic modeling in audio source separation)
音源分離における音響モデリング(Acoustic modeling in audio source separation)
 
ランク1空間近似を用いたBSSにおける音源及び空間モデルの考察 Study on Source and Spatial Models for BSS wi...
ランク1空間近似を用いたBSSにおける音源及び空間モデルの考察 Study on Source and Spatial Models for BSS wi...ランク1空間近似を用いたBSSにおける音源及び空間モデルの考察 Study on Source and Spatial Models for BSS wi...
ランク1空間近似を用いたBSSにおける音源及び空間モデルの考察 Study on Source and Spatial Models for BSS wi...
 
音声合成の今昔と深層学習を用いた音声合成
音声合成の今昔と深層学習を用いた音声合成音声合成の今昔と深層学習を用いた音声合成
音声合成の今昔と深層学習を用いた音声合成
 
Moment matching networkを用いた音声パラメータのランダム生成の検討
Moment matching networkを用いた音声パラメータのランダム生成の検討Moment matching networkを用いた音声パラメータのランダム生成の検討
Moment matching networkを用いた音声パラメータのランダム生成の検討
 
DNN音響モデルにおける特徴量抽出の諸相
DNN音響モデルにおける特徴量抽出の諸相DNN音響モデルにおける特徴量抽出の諸相
DNN音響モデルにおける特徴量抽出の諸相
 
深層学習を用いた音源定位、音源分離、クラス分類の統合~環境音セグメンテーション手法の紹介~
深層学習を用いた音源定位、音源分離、クラス分類の統合~環境音セグメンテーション手法の紹介~深層学習を用いた音源定位、音源分離、クラス分類の統合~環境音セグメンテーション手法の紹介~
深層学習を用いた音源定位、音源分離、クラス分類の統合~環境音セグメンテーション手法の紹介~
 
人間と機械と音のコミュニケーション
人間と機械と音のコミュニケーション人間と機械と音のコミュニケーション
人間と機械と音のコミュニケーション
 
Icml読み会 deep speech2
Icml読み会 deep speech2Icml読み会 deep speech2
Icml読み会 deep speech2
 
Kameoka2017 ieice03
Kameoka2017 ieice03Kameoka2017 ieice03
Kameoka2017 ieice03
 
信号の独立性に基づく多チャンネル音源分離
信号の独立性に基づく多チャンネル音源分離信号の独立性に基づく多チャンネル音源分離
信号の独立性に基づく多チャンネル音源分離
 

More from Akinori Ito

いろいろなプログラミング言語による互除法
いろいろなプログラミング言語による互除法いろいろなプログラミング言語による互除法
いろいろなプログラミング言語による互除法Akinori Ito
 
マルチメディア情報ハイディング
マルチメディア情報ハイディングマルチメディア情報ハイディング
マルチメディア情報ハイディングAkinori Ito
 
音声と音楽による人間・機械間メタコミュニケーション
音声と音楽による人間・機械間メタコミュニケーション音声と音楽による人間・機械間メタコミュニケーション
音声と音楽による人間・機械間メタコミュニケーションAkinori Ito
 
研究発表のやり方
研究発表のやり方研究発表のやり方
研究発表のやり方Akinori Ito
 
高効率音声符号化―MP3詳解―
高効率音声符号化―MP3詳解―高効率音声符号化―MP3詳解―
高効率音声符号化―MP3詳解―Akinori Ito
 
歌声分析のエンタテイメント応用
歌声分析のエンタテイメント応用歌声分析のエンタテイメント応用
歌声分析のエンタテイメント応用Akinori Ito
 
科学論文執筆・投稿にまつわる基礎知識
科学論文執筆・投稿にまつわる基礎知識科学論文執筆・投稿にまつわる基礎知識
科学論文執筆・投稿にまつわる基礎知識Akinori Ito
 
音楽の情報処理
音楽の情報処理音楽の情報処理
音楽の情報処理Akinori Ito
 
音声の生成と符号化
音声の生成と符号化音声の生成と符号化
音声の生成と符号化Akinori Ito
 

More from Akinori Ito (9)

いろいろなプログラミング言語による互除法
いろいろなプログラミング言語による互除法いろいろなプログラミング言語による互除法
いろいろなプログラミング言語による互除法
 
マルチメディア情報ハイディング
マルチメディア情報ハイディングマルチメディア情報ハイディング
マルチメディア情報ハイディング
 
音声と音楽による人間・機械間メタコミュニケーション
音声と音楽による人間・機械間メタコミュニケーション音声と音楽による人間・機械間メタコミュニケーション
音声と音楽による人間・機械間メタコミュニケーション
 
研究発表のやり方
研究発表のやり方研究発表のやり方
研究発表のやり方
 
高効率音声符号化―MP3詳解―
高効率音声符号化―MP3詳解―高効率音声符号化―MP3詳解―
高効率音声符号化―MP3詳解―
 
歌声分析のエンタテイメント応用
歌声分析のエンタテイメント応用歌声分析のエンタテイメント応用
歌声分析のエンタテイメント応用
 
科学論文執筆・投稿にまつわる基礎知識
科学論文執筆・投稿にまつわる基礎知識科学論文執筆・投稿にまつわる基礎知識
科学論文執筆・投稿にまつわる基礎知識
 
音楽の情報処理
音楽の情報処理音楽の情報処理
音楽の情報処理
 
音声の生成と符号化
音声の生成と符号化音声の生成と符号化
音声の生成と符号化
 

音声合成の基礎