SlideShare a Scribd company logo
1 of 45
1
音声認識・合成
2
音声の認識
入力された音声を文字列に変換する
(Speech-to-Text)
概要
– 特徴抽出(MFCC)
– 音響モデル(HMM)
– 言語モデル(FSG, N-gram)
– デコーダ
3
音声認識の基本的な考え方
発音ごとに特有のパターンがある
⇒このパターンを捕らえれば認識が可能
a i u e o
4
音声認識のブロック図
特徴
抽出
MFCC
等
認識エンジン
(デコーダ)
音響
モデル
辞書
言語
モデル
文字列
X
W
5
確率的音声認識の原理
事後確率最大となる確率的推定問題
W = arg max
W
PW∣X 
= arg max
W
p X∣W  PW 
p X 
= arg max
W
p X∣W  PW 
6
特徴量の抽出
スペクトルの概形を表すパラメータを
使う
– スペクトルの概形⇔声道伝達関数⇔音韻
– スペクトルの微細構造(⇔ピッチ)は使わな
い
概形自体は冗長⇒よりコンパクトな特徴
– ケプストラム
時間構造の利用
– Δケプストラム,ΔΔケプストラム
7
特徴量抽出の枠組み
分析窓
(フレー
ム)
窓関数
周波数分析
窓関数
特徴量計算 特徴量
フレームシフト
ハミング窓な
ど
8
スペクトルとケプストラム
FFTケプストラム:対数パワースペク
トルのフーリエ変換
– 低次のケプストラム係数が対数スペクトル
の概形に対応→音声認識に利用
– 高次のケプストラムのピークが基本周波数
に対応→ピッチ抽出に利用
C =F [log∣X ∣
2
]
9
FFTケプストラム計算例
スペクトルおよび平滑化ス
ペクトル
(FFTケプストラム法,20次)
ケプストラム(低
次)
スペクト
ル
概形
F0
10
ケプストラムの仲間たち(1)
FFTケプストラム
– 音声→パワースペクトル→対数パワースペ
クトル→ケプストラム
LPCケプストラム
– 音声→線形予測係数→LPCスペクトル→対数
LPCスペクトル→ケプストラム
11
LPCケプストラム計算例
LPCスペクトル(20次)
最初から概形だけになってい
る
LPCケプストラム(低次)
高次の成分はほとんど0
12
ケプストラムの仲間たち(2)
メル周波数軸上のケプストラム
– LPCメルケプストラム
• LPCケプストラム係数を変換
– メルLPCケプストラム
• 音声波形をフィルタでメル周波数変換してLPC分
析
– MFCC (Mel Frequency Cepstral Coefficients)
• メル周波数間隔のバンドパスフィルタ出力のコサ
イン変換
13
MFCCの計算
計算手順
バンドパスフィルタ
– メル周波数上で等間隔
音声
振幅
スペクトル
対数BPF
出力
BPF
出力
MFCCFFT logBPF DCT
14
音響モデル
記号(音素,単語など) W が特徴量系列
X に対応する確率 p(X|W)を計算する
– どうやって確率をつけるか?
– XもWも可変長⇒どう対応付けるか?
隠れマルコフモデル(HMM)によるモデ
ル化
– 特徴量系列を,特定の確率分布に従う系列
の連続としてモデル化
15
HMM:隠れマルコフモデル
HMMは特徴量系列を生成するモデル
– 非決定性有限状態オートマトン
– 「現在の状態」が確率的に変わりながら,
確率的に特徴ベクトルを生成する
状態iからjへの遷移
確率
状態iでの特徴ベク
トルxの出力確率密
度
状態iの初期確率 i
ai j
bi x
多次元混合正規分布がよく用い
られる
16
HMMの特徴
生成モデルである (vs. 識別モデル)
– 音声の特徴量系列が出力される「確率密度」を計算する
ことができる
任意の長さの系列が生成できる
– 伸び縮みする系列を扱うのに適している
– 系列と状態を対応付ける方法が確率している(ビタビアル
ゴリズム)
学習によってパラメータが推定できる
– サンプルを与えることで,そのサンプルを生成する確率
が高いHMMを推定することができる (Baum-Welch のア
ルゴリズム)
17
HMMの学習
各シンボル(音素など)のデータを大量に
与えることでHMMが学習できる
/a/
/i/
/o/
/a/のサンプ
ル
/i/のサンプル
/o/のサンプ
ル
18
HMMによる認識(1)
入力系列XがHMM ηで生成される確率
密度 p(X|η)を計算する
/a/
/i/
/o/
X
p X∣/ a /
p X∣/ i /
p X∣/ o /
19
HMMによる認識(2)
辞書を利用した単語の確率計算
/a/ /a//k/
/o/ /i//k/
X
赤 ⇒ /a/ /k/ /a/
沖 ⇒ /o/ /k/ /i/
p X∣赤
p X∣沖
確率最大の単語を探せば
単語認識ができる
20
言語モデル
文を構成する単語の並びの制約を表現するモ
デル
ある文の並びを「評価」する
– 1/0の評価:文法 (受理可能/不可能)
• 有限状態文法(有限状態オートマトン)
• 文脈自由文法(CFG)
– 並びの「良さ」を確率的に評価: 統計的言語
モデル
• N-gram
• その他の確率的言語モデル
21
有限状態文法
「ありうる単語の並び」をネットワー
クで表現する
紅茶
コーヒー
水
を
も
ひとつ
ふたつ
みっつ
一杯
二杯
三杯 持って
こい
きなさい
きて
ください
ちょうだい
ください
ちょうだい
22
統計的言語モデル
もっと大規模な文を認識するには?
– 文章の音声入力など
ある単語が並ぶ確率(並びやすさ)を
使う
これを直接求めるのは難しい
→近似によって求める
Pw1 w2wN =∏i
Pwi∣w1wi−1
23
N-gram言語モデル
ある単語の生起確率が直前のn-1単語に
のみ依存すると仮定
– n=2の場合
Pw1wN =∏i
Pwi∣wi−1
n=1: unigram
n=2: bigram
n=3: trigram
24
一番良い文を探そう
20000種類の単語を知っている音声認識
…システムでは
– 7個の単語からなる文は
200007
=1.28×1030
通り
– 文1個の計算に1/10000秒かかったとする
– 全部調べるには400京年(400億年の1億
倍)かかる
25
デコーダによる探索
見込みのありそうな文だけ探す
– 途中までスコアを計算しながら、可能性の
ありそうな文だけを残し、残りは調べない
今日 は 良い 天気
でした
今日
で
言葉のつながりが悪い
音が似ていない
コンピュータチェスなどと同じ手法
26
音声の合成
録音合成
編集合成
パラメータ合成
テキスト音声合成 (Text-to-Speech)
– 物理シミュレーション
– フォルマント合成
– 波形接続合成
– HMM合成
文を全部録音
単語単位で録音
実際の声を元に合成⇒携帯電話
27
テキスト音声合成 (TTS)
文字列を音声に変換する技術
文字列 形態素解析 音素列
単語列
構文解析
単語アクセン
ト
韻律句 韻律合成 ピッチ系
列
音声合成
エンジン
音声
28
フォルマント合成
声帯から出る波と、声道による音色の
変化をマネすることによって音を出す
音の高さ
音の強さ 音の強さ
音の高さ
× =
音の高さ
音の強さ
29
フォルマント合成
音源
フォルマント
フィルタ
formant
DB
各音素
F1~F4の周波数と
そのバンド幅
30
フォルマント合成
デモをどうぞ
利点
– 母音( a, i, u, e, o等)については、どんな
声でも原理的に作れる
欠点
– 自然な声を出すのが難しい
– 子音(p, s, d などの音)の品質が良くない
31
波形接続合成
本物の声をたくさん記録しておき、そ
の中から適宜取り出してきてつなぐ
– 編集合成の高度なやつ
– 利点
• (もとが本物なので)自然な声が作りやすい
– 欠点
• 大量の元音声が必要
• 任意の声は作れない
32
波形接続合成
各音節の波形を接続
母音の途中で波形を接続(VCV接続)
o sh i i k a a k eo
o sh i
e
k a k e
これを実現するためには,各音声素片の長さ
や高さを調整する必要がある
音声素片
33
声の高さや長さを変える技術
波形をそのまま利用する方法
– TD-PSOLA法
音声分析合成に基づく方法
– フェーズボコーダ
– STRAIGHT法
34
TD-PSOLA
(Time-Domain Pitch-Synchronous Overlap Add)
基本周期に同期して波形を切り出し,
それを再び重ね合わせる
35
TD-PSOLA
(Time-Domain Pitch-Synchronous Overlap Add)
波形を何度も重ね合わせると音を伸ば
すことができる
36
TD-PSOLA
(Time-Domain Pitch-Synchronous Overlap Add)
重ね合わせの周期を変えるとピッチ変
換が実現できる
37
HMM音声合成
HMMはもともと生成モデル→それを合
成に使う
文に対応するHMM系列
特徴量系列
メルケプストラム・
Δ・ΔΔ
MLSA
フィルタ
音声系列
38
対話をするために
音声認識と合成だけでは対話にならな
い
– 対話の目的
– 認識した内容の理解
– 目的達成のための聞き返し、確認紅茶を
下さい
緑茶ですか?
違う、紅茶
わかりました
紅茶ですね
39
音声の理解
機械が「理解」するとは?
– 対話の目的:人間から情報を得ること
– 対話の目標:埋めるべき項目の一覧
– 対話の理解:項目が全部埋まること
動作:持ってくる
対象:紅茶
個数:1
紅茶を1杯ください。
40
どうする音声の理解
紅茶
コーヒー
水
を
も
ひとつ
ふたつ
みっつ
一杯
二杯
三杯 持って
こい
きなさい
きて
ください
ちょうだい
ください
ちょうだい
対象
個数
水
を
一杯
ください
対象=水 個数=1
41
もっと難しい理解
複数の目標がある
– 旅行会社の対話(目的地、ホテル、交通手
…段 )
対話の進行によって目標が変わる
– 観光案内
目標が良くわからない
– 雑談
42
あなたは誰?
人間が考える「対話」には相手がある
。
機械との「対話」の相手は誰だ。
ロボット?
実際のロボット
画面上のキャラク
ター
 (アバター)
擬人化
43
対話のキャラクタの デザイ
ン
何がよいのか良くわかっていない
– 芸術の領域
– 人間の対話行動の模倣
• うなずき、あいづち、表情の変化
人間は「自然性」に敏感
– 人間にわかる「自然性」の正体は?
44
…現在の技術では
音声認識
– 「日本語のできる外国人」レベル
• 雑音に弱い
• 話題の変化に弱い
音声合成
– 「日本語のできる外国人」レベル
• 何を言っているのかはわかる
• アクセントが変
45
…現在の技術では
音声理解
– きわめて限定的
– 「なにをもって理解とするか」が難しい
対話能力
– きわめて限定的
– 複雑な対話は難しい
– 理解を伴う雑談は無理
• 理解を伴わない雑談なら可能(人工無能)

More Related Content

What's hot

WaveNetが音声合成研究に与える影響
WaveNetが音声合成研究に与える影響WaveNetが音声合成研究に与える影響
WaveNetが音声合成研究に与える影響NU_I_TODALAB
 
音源分離 ~DNN音源分離の基礎から最新技術まで~ Tokyo bishbash #3
音源分離 ~DNN音源分離の基礎から最新技術まで~ Tokyo bishbash #3音源分離 ~DNN音源分離の基礎から最新技術まで~ Tokyo bishbash #3
音源分離 ~DNN音源分離の基礎から最新技術まで~ Tokyo bishbash #3Naoya Takahashi
 
音情報処理における特徴表現
音情報処理における特徴表現音情報処理における特徴表現
音情報処理における特徴表現NU_I_TODALAB
 
短時間発話を用いた話者照合のための音声加工の効果に関する検討
短時間発話を用いた話者照合のための音声加工の効果に関する検討短時間発話を用いた話者照合のための音声加工の効果に関する検討
短時間発話を用いた話者照合のための音声加工の効果に関する検討Shinnosuke Takamichi
 
Interspeech2022 参加報告
Interspeech2022 参加報告Interspeech2022 参加報告
Interspeech2022 参加報告Yuki Saito
 
音源分離における音響モデリング(Acoustic modeling in audio source separation)
音源分離における音響モデリング(Acoustic modeling in audio source separation)音源分離における音響モデリング(Acoustic modeling in audio source separation)
音源分離における音響モデリング(Acoustic modeling in audio source separation)Daichi Kitamura
 
深層学習を利用した音声強調
深層学習を利用した音声強調深層学習を利用した音声強調
深層学習を利用した音声強調Yuma Koizumi
 
音声合成の今昔と深層学習を用いた音声合成
音声合成の今昔と深層学習を用いた音声合成音声合成の今昔と深層学習を用いた音声合成
音声合成の今昔と深層学習を用いた音声合成Genki Ishibashi
 
音声の声質を変換する技術とその応用
音声の声質を変換する技術とその応用音声の声質を変換する技術とその応用
音声の声質を変換する技術とその応用NU_I_TODALAB
 
多次元信号処理の基礎と画像処理のための二次元変換技術
多次元信号処理の基礎と画像処理のための二次元変換技術多次元信号処理の基礎と画像処理のための二次元変換技術
多次元信号処理の基礎と画像処理のための二次元変換技術Shogo Muramatsu
 
実践 Amazon Mechanical Turk ※下記の注意点をご覧ください(回答の質の悪化・報酬額の相場の変化・仕様変更)
実践 Amazon Mechanical Turk ※下記の注意点をご覧ください(回答の質の悪化・報酬額の相場の変化・仕様変更)実践 Amazon Mechanical Turk ※下記の注意点をご覧ください(回答の質の悪化・報酬額の相場の変化・仕様変更)
実践 Amazon Mechanical Turk ※下記の注意点をご覧ください(回答の質の悪化・報酬額の相場の変化・仕様変更)Ayako_Hasegawa
 
統計的音声合成変換と近年の発展
統計的音声合成変換と近年の発展統計的音声合成変換と近年の発展
統計的音声合成変換と近年の発展Shinnosuke Takamichi
 
DNN音響モデルにおける特徴量抽出の諸相
DNN音響モデルにおける特徴量抽出の諸相DNN音響モデルにおける特徴量抽出の諸相
DNN音響モデルにおける特徴量抽出の諸相Takuya Yoshioka
 
ICASSP 2019での音響信号処理分野の世界動向
ICASSP 2019での音響信号処理分野の世界動向ICASSP 2019での音響信号処理分野の世界動向
ICASSP 2019での音響信号処理分野の世界動向Yuma Koizumi
 
統計的手法に基づく異常音検知の理論と応用
統計的手法に基づく異常音検知の理論と応用統計的手法に基づく異常音検知の理論と応用
統計的手法に基づく異常音検知の理論と応用Yuma Koizumi
 
ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)
ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)
ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)Shinnosuke Takamichi
 
音声合成のコーパスをつくろう
音声合成のコーパスをつくろう音声合成のコーパスをつくろう
音声合成のコーパスをつくろうShinnosuke Takamichi
 
JVS:フリーの日本語多数話者音声コーパス
JVS:フリーの日本語多数話者音声コーパス JVS:フリーの日本語多数話者音声コーパス
JVS:フリーの日本語多数話者音声コーパス Shinnosuke Takamichi
 
論文紹介 wav2vec: Unsupervised Pre-training for Speech Recognition
論文紹介  wav2vec: Unsupervised Pre-training for Speech Recognition論文紹介  wav2vec: Unsupervised Pre-training for Speech Recognition
論文紹介 wav2vec: Unsupervised Pre-training for Speech RecognitionYosukeKashiwagi1
 
深層生成モデルに基づく音声合成技術
深層生成モデルに基づく音声合成技術深層生成モデルに基づく音声合成技術
深層生成モデルに基づく音声合成技術NU_I_TODALAB
 

What's hot (20)

WaveNetが音声合成研究に与える影響
WaveNetが音声合成研究に与える影響WaveNetが音声合成研究に与える影響
WaveNetが音声合成研究に与える影響
 
音源分離 ~DNN音源分離の基礎から最新技術まで~ Tokyo bishbash #3
音源分離 ~DNN音源分離の基礎から最新技術まで~ Tokyo bishbash #3音源分離 ~DNN音源分離の基礎から最新技術まで~ Tokyo bishbash #3
音源分離 ~DNN音源分離の基礎から最新技術まで~ Tokyo bishbash #3
 
音情報処理における特徴表現
音情報処理における特徴表現音情報処理における特徴表現
音情報処理における特徴表現
 
短時間発話を用いた話者照合のための音声加工の効果に関する検討
短時間発話を用いた話者照合のための音声加工の効果に関する検討短時間発話を用いた話者照合のための音声加工の効果に関する検討
短時間発話を用いた話者照合のための音声加工の効果に関する検討
 
Interspeech2022 参加報告
Interspeech2022 参加報告Interspeech2022 参加報告
Interspeech2022 参加報告
 
音源分離における音響モデリング(Acoustic modeling in audio source separation)
音源分離における音響モデリング(Acoustic modeling in audio source separation)音源分離における音響モデリング(Acoustic modeling in audio source separation)
音源分離における音響モデリング(Acoustic modeling in audio source separation)
 
深層学習を利用した音声強調
深層学習を利用した音声強調深層学習を利用した音声強調
深層学習を利用した音声強調
 
音声合成の今昔と深層学習を用いた音声合成
音声合成の今昔と深層学習を用いた音声合成音声合成の今昔と深層学習を用いた音声合成
音声合成の今昔と深層学習を用いた音声合成
 
音声の声質を変換する技術とその応用
音声の声質を変換する技術とその応用音声の声質を変換する技術とその応用
音声の声質を変換する技術とその応用
 
多次元信号処理の基礎と画像処理のための二次元変換技術
多次元信号処理の基礎と画像処理のための二次元変換技術多次元信号処理の基礎と画像処理のための二次元変換技術
多次元信号処理の基礎と画像処理のための二次元変換技術
 
実践 Amazon Mechanical Turk ※下記の注意点をご覧ください(回答の質の悪化・報酬額の相場の変化・仕様変更)
実践 Amazon Mechanical Turk ※下記の注意点をご覧ください(回答の質の悪化・報酬額の相場の変化・仕様変更)実践 Amazon Mechanical Turk ※下記の注意点をご覧ください(回答の質の悪化・報酬額の相場の変化・仕様変更)
実践 Amazon Mechanical Turk ※下記の注意点をご覧ください(回答の質の悪化・報酬額の相場の変化・仕様変更)
 
統計的音声合成変換と近年の発展
統計的音声合成変換と近年の発展統計的音声合成変換と近年の発展
統計的音声合成変換と近年の発展
 
DNN音響モデルにおける特徴量抽出の諸相
DNN音響モデルにおける特徴量抽出の諸相DNN音響モデルにおける特徴量抽出の諸相
DNN音響モデルにおける特徴量抽出の諸相
 
ICASSP 2019での音響信号処理分野の世界動向
ICASSP 2019での音響信号処理分野の世界動向ICASSP 2019での音響信号処理分野の世界動向
ICASSP 2019での音響信号処理分野の世界動向
 
統計的手法に基づく異常音検知の理論と応用
統計的手法に基づく異常音検知の理論と応用統計的手法に基づく異常音検知の理論と応用
統計的手法に基づく異常音検知の理論と応用
 
ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)
ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)
ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)
 
音声合成のコーパスをつくろう
音声合成のコーパスをつくろう音声合成のコーパスをつくろう
音声合成のコーパスをつくろう
 
JVS:フリーの日本語多数話者音声コーパス
JVS:フリーの日本語多数話者音声コーパス JVS:フリーの日本語多数話者音声コーパス
JVS:フリーの日本語多数話者音声コーパス
 
論文紹介 wav2vec: Unsupervised Pre-training for Speech Recognition
論文紹介  wav2vec: Unsupervised Pre-training for Speech Recognition論文紹介  wav2vec: Unsupervised Pre-training for Speech Recognition
論文紹介 wav2vec: Unsupervised Pre-training for Speech Recognition
 
深層生成モデルに基づく音声合成技術
深層生成モデルに基づく音声合成技術深層生成モデルに基づく音声合成技術
深層生成モデルに基づく音声合成技術
 

More from Akinori Ito

いろいろなプログラミング言語による互除法
いろいろなプログラミング言語による互除法いろいろなプログラミング言語による互除法
いろいろなプログラミング言語による互除法Akinori Ito
 
人間と機械と音のコミュニケーション
人間と機械と音のコミュニケーション人間と機械と音のコミュニケーション
人間と機械と音のコミュニケーションAkinori Ito
 
マルチメディア情報ハイディング
マルチメディア情報ハイディングマルチメディア情報ハイディング
マルチメディア情報ハイディングAkinori Ito
 
音声と音楽による人間・機械間メタコミュニケーション
音声と音楽による人間・機械間メタコミュニケーション音声と音楽による人間・機械間メタコミュニケーション
音声と音楽による人間・機械間メタコミュニケーションAkinori Ito
 
研究発表のやり方
研究発表のやり方研究発表のやり方
研究発表のやり方Akinori Ito
 
歌声分析のエンタテイメント応用
歌声分析のエンタテイメント応用歌声分析のエンタテイメント応用
歌声分析のエンタテイメント応用Akinori Ito
 
科学論文執筆・投稿にまつわる基礎知識
科学論文執筆・投稿にまつわる基礎知識科学論文執筆・投稿にまつわる基礎知識
科学論文執筆・投稿にまつわる基礎知識Akinori Ito
 
音楽の情報処理
音楽の情報処理音楽の情報処理
音楽の情報処理Akinori Ito
 
音声の生成と符号化
音声の生成と符号化音声の生成と符号化
音声の生成と符号化Akinori Ito
 

More from Akinori Ito (9)

いろいろなプログラミング言語による互除法
いろいろなプログラミング言語による互除法いろいろなプログラミング言語による互除法
いろいろなプログラミング言語による互除法
 
人間と機械と音のコミュニケーション
人間と機械と音のコミュニケーション人間と機械と音のコミュニケーション
人間と機械と音のコミュニケーション
 
マルチメディア情報ハイディング
マルチメディア情報ハイディングマルチメディア情報ハイディング
マルチメディア情報ハイディング
 
音声と音楽による人間・機械間メタコミュニケーション
音声と音楽による人間・機械間メタコミュニケーション音声と音楽による人間・機械間メタコミュニケーション
音声と音楽による人間・機械間メタコミュニケーション
 
研究発表のやり方
研究発表のやり方研究発表のやり方
研究発表のやり方
 
歌声分析のエンタテイメント応用
歌声分析のエンタテイメント応用歌声分析のエンタテイメント応用
歌声分析のエンタテイメント応用
 
科学論文執筆・投稿にまつわる基礎知識
科学論文執筆・投稿にまつわる基礎知識科学論文執筆・投稿にまつわる基礎知識
科学論文執筆・投稿にまつわる基礎知識
 
音楽の情報処理
音楽の情報処理音楽の情報処理
音楽の情報処理
 
音声の生成と符号化
音声の生成と符号化音声の生成と符号化
音声の生成と符号化
 

音声の認識と合成