Interspeech 2020 読み会 "Incremental Text to Speech for Neural Sequence-to-Sequence Models using Reinforcement Learning"

Incremental Text to Speech for Neural
Sequence-to-Sequence Models using
Reinforcement Learning
NAIST D3
YANAGIT TOMOYA
1©TOMOYA YANAGITA, NAIST, AHC-LAB, 2020

自己紹介
名前
柳田智也
所属
奈良先端科学技術大学院大学知能コミュニケーション研究室 D3
専門
逐次合成音声
動機
Interspeechで逐次合成関係論文が3本ほど採録（段々とレッドオーシャン化）
逐次音声合成を広めて発展させたい！！！
強化学習について概要を知りたい
レッドオーシャンに引きずり込んで道ずれを増加

背景：Incremental TTSの概要
音声合成: Text-to-speech（上図）
1.と2.はニューラルネットが主流
1.テキスト解析（表層文字から音素）
2.入力系列（音素）から音響特徴生成
3.音響特徴から音声生成
Incremental TTS（下図）
1.から3.の流れは同様
文より短い単位で逐次生成
リアルタイムなアプリへ応用
→同時通訳等

逐次音声合成の問題
音声：連続性を持つ(調音結合等)
逐次音声合成：一部の入力から音響特徴を生成
→ 後続音声の変化を考慮できない
→ 入力長と出力長の制御（どこまで入力し、どこまで出力するか）
Tacotron
Tacotron2
Wavenet

今回の論文
Incremental Text to Speech for Neural Sequence-to-Sequence Models
using Reinforcement Learning
三行まとめ
①End-to-end TTSによる逐次音声合成
②入出力長制御に強化学習を適応
③入出力長と音声品質の制御を可能に

End-to-End iTTSの関連研究
End-to-endに基づくIncremental TTS
後続を待たずに合成、出力制御はstop flag [Yanagita, et al., 2019]
k単語を待ち合成、出力制御はstop flagとアテンション [Ma, et al., 2020]
逐次音声合成：一部の入力から音響特徴を生成
→ 後続音声の変化を考慮できない

関連研究(1/3)
Incremental Text-to-Speech Synthesis
with Prefix-to-Prefix Framework
通常のEnd-to-End音声合成をIncremental TTSに適用
①テキストから音響特徴生成 (Encoder-decoder with attention)
②音響特徴から音声生成 (wavenet vocoder)
二つの方針
① 音響特徴推定時、必ず1単語待つ(wait-1-policy)
② k単語分の情報を先読みする戦略 (lookahead-k-policy)
[Ma, et al., 2020]

関連研究(2/3)
音響特徴生成の制御：アテンションとstop flagを使用
例：look-ahead1=1, sequence: [ [t,h,i,s,i,s,a,e,x,s,a,m,p,l,e] ]
encoder_hidden=Encode(first_seq. + look-ahead);
k=0
for True:
attn._wirhgt = attention(encoder_hidden)
if Softmax (attn._weight[k-win:k+win+1]) < k+lookahead :
encoder_hidden=Encode(k inputs)
k=k+1
continue
else:
out=Decode(enc_hidden, attn_weigth, context)
if stop_flag:
break
i
Encoding
step
Decoding step
t
音声生成時(look-ahead2)方針
例： look-ahead2=1
±15*look-ahead2フレームを使用して合成
t
h
ss
i
t
h
t
h h
i
h
i
h
k=2
win=1

関連研究(3/3)
Tacotron2の音響モデル+parallel wavegan
①入力系列（音素・表層文字）から音響特徴生成
→ アテンション付きEncoder-decoder
→ メルスペクトログラムの生成
※convlution層とbi-lstm層について言及無し
②音響特徴から音声生成
→ parallel wavegan

先行研究で未解決の問題
単語単位の合成
入出力長を制御不可
例：1,2単語目が長い場合、遅延増加
言語によりパラメータkを設計する必用
-> k phonemes, k characters, k words
解決方法
入出力長の制御へ強化学習を導入
→逐次機械翻訳で使われている方法の応用[Gu, et al., 2016]
i
Encoding
step
Decoding step
t t
h
ss
i
t
h
t
h h
i
h
i
h
k=2
win=1

強化学習
環境から観測した状態により、エージェントが最適な行動決定をする機械学習
状態（観測）集合：𝑆 = {𝑠1, 𝑠2, 𝑠3 , … , 𝑠𝐽}
エージェントの行動集合：A(s) = {𝑎1, 𝑎2, 𝑎3 , … , 𝑎 𝑀}
状態遷移確立(マルコフ決定過程)：𝑃(𝑠 𝑗+1|, 𝑠 𝑗, 𝑎 𝑗)
報酬：𝑟 𝑗+1 = 𝑟(𝑠 𝑗, 𝑎 𝑗, 𝑠 𝑗+1)
方策：𝑎 𝑗 = π 𝑎 𝑚|𝑠 𝑗
→ 論文では、確率的方策を使用
状態価値関数：𝐸π
𝑟 𝑗+1
+ γ𝑟 𝑗+2
+ γ2
𝑟 𝑗+3
… , 0 < γ ≤ 1
強化学習の目標：状態価値関数を最大化（現在の状態・現在および次の行動から、最終的に得られる報酬を最大化）する方策決定
→ 論文では、最適な方策π 𝑎 𝑚|𝑠 𝑗 を直接学習
→ policy gradient：学習可能なパラメータを方策に使用し、
期待収益（状態価値関数より算出）を確率勾配法で最大化
https://qiita.com/dcm_hisao_katsumi/items/b25646a1cdbb1667e44f
将棋の例
状態：盤面と持ち駒
行動：指す手
報酬：勝敗や、指しての良しあし
目標：最終的に勝利するため方策
決定
https://qiita.com/shionhonda/items/ec05aade07b5bea78081
[Gu, et al., 2016] 4.3節

逐次音声合成用強化学習の設定(1/2)
環境：学習済みTacotron2（修正有り）
・Encoder
・Decoder/attention Conv. Layerを削除
Bi-directional LSTM を Uni-directional LSTMへ変更
Remove Post-processing net (5 conv. layer)を削除
・アライメントのためTeacher forcing使用
エージェントの行動
・READ：次入力を入力し、アテンション計算
・WRITE：メルスペクトログラム生成
観測
・入力系列の全コンテキストベクタ
・k近傍のアテンション重み
・最近傍のメルフレーム
環境観測
エージェント
GRU+Relu
×3
READ or WRITE
報酬
行動
選択

逐次音声合成用強化学習の設定(2/2)
遅延 𝑟𝑗
𝐷
≔ 𝑟𝑗
𝐶𝑅
+𝑟J
𝐴𝑃
rj
CR
≔ ω ∗ (sgn(cj − c∗
)+1)
cj: READ動作が連続回数, c∗
:READ動作の連続許容回数, sgn():符号関数, ω: 重みパラメータ(<0)
𝑟J
𝐴𝑃
≔ β ∗ ‫ہ‬ ‫ۂ‬𝑑 𝑇 − 𝑑∗
+
𝑑 𝑇: アテンションの平均面積, 𝑑∗ : 𝑑 𝑇の基準値, ‫ہ‬ ‫ۂ‬+: 天井関数, β: 重みパラメータ(<0)
𝑑 𝑇=1は全てREADし合成(SPEAK)、𝑑 𝑇 = 0は合成(SPEAK)してから全てREAD
品質 𝑟𝑗
𝑄
𝑟𝑗
𝑄
≔ λ ∗ 𝑀𝑆𝐸 𝑦 𝑆 𝑗 , ො𝑦 𝑆 𝑗
𝑦 𝑆 𝑗 : メルスペクトログラム, ො𝑦 𝑆 𝑗 ：予測メルスペクトログラム, λ: 重みパラメータ(<0)
音響特徴のMSE損失（jステップ時の行動がREADの場合0）
報酬：品質と遅延を制御するよう設計 (ここで,jは各ステップを表す)
𝑟𝑗 ≔ 𝑟𝑗
𝐷
+ 𝑟𝑗
𝑄
推論終了時に得られる全体報酬
連続READを防ぐ報酬、各推論時取得
READが許容回数以上連続で報酬が下がる
𝑑 𝑇=(1+3+4....)/(16*20)
16 char.
20 frame.
[Mohan, et al., 2020]

実験条件
比較用の合成方針
① Wait-Until-End (WUE): 文全体を使用。通常のTTS
② Wait-k-Steps (WkS): READをk毎に実行、
READ時以外は生成 (SPEAK)
k=2の場合、READ,SPEAK,READ,SPEAK, ....
Dataset
LJ speech dataset（英語）, 12000 train and 1,100 test/valisataion
デモではフランス語も提示
報酬のパラメータ
c∗= 4, d∗ = 0.5, ω = −1, β = −10, λ = −100
エージェント
2層のRelu付GRU、報酬を最大化するように方策を学習
モデル
修正したTacotron2 + waveRNN[Kalchbrenner, et al., 2018]へ変更

アテンション分析
※灰色部分は利用不可な入力
(a)及び(b)の場合
デコーディングのため、必要以上の文字を参照
不必要なREADアクション有
回避可能な遅延が存在
(c)の場合
不必要なREADアクションを削減
デコーダに十分な入力情報が不足
音声品質の低下
(d)提案法の場合
READ/ SPEAKが必要な場合の
アクション選択を学習成功
デモ音源：https://research.papercup.com/samples/incremental-text-to-speech

品質評価方法
自然性の評価
5段階MOS評価（１：とても悪い～５：とても良い）
時々、非常にノイズの多い音声生成
明瞭性の評価
音声認識による単語誤り率（WER）で評価
遅延評価
ポリシーに基づく面積の割合を使用
実遅延に関して解釈しくにい
→MTでは代替の平均遅延が提案
TTSでは困難
→TTSのソースとターゲットの長さの偏り

評価結果
品質と遅延の制御に成功
明瞭性：W3S<提案法<W2S<WUE(通常のTTS)
自然性： W3S<提案法<W2S<WUE(通常のTTS)
遅延：W3S<提案法<<<W2S<WUE

まとめ
End-to-End逐次音声合成の問題点
入出力長を動的に制御不可
解決方法
強化学習の導入
結果
ある程度制御に成功
個人的所見
実遅延の評価が行われていない
CNNは不使用、どうCNNを適用するのか？
音声生成側(vocoder)側の入出力制御は行っていない、人間の知覚への影響は？
別言語への適用は可能？
逐次MT・ASRの後追い、逐次TTS特有の問題はあるか？

参考文献（今回の発表、アーカイブ）
[Yanagita, 2019]
https://www.isca-speech.org/archive/SSW_2019/abstracts/SSW10_P_2-9.html
[Ma, 2020]
https://arxiv.org/abs/1911.02750
[Gu, et al., 2016]
https://arxiv.org/abs/1610.00388
[Kalchbrenner, et al., 2018]
https://arxiv.org/abs/1802.08435v1

End-to-endのiTTS論文（Interspeech）
End-to-End逐次音声合成時の隠れ状態と、通常時との類似性分析[Stephenson, et al.]
https://www.isca-speech.org/archive/Interspeech_2020/abstracts/2103.html
CPU用End-to-End逐次音声合成の提案及び評価[Ellinas, et al.]
https://www.isca-speech.org/archive/Interspeech_2020/abstracts/2464.html

Interspeech 2020 読み会 "Incremental Text to Speech for Neural Sequence-to-Sequence Models using Reinforcement Learning"

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Similar to Interspeech 2020 読み会 "Incremental Text to Speech for Neural Sequence-to-Sequence Models using Reinforcement Learning"

Similar to Interspeech 2020 読み会 "Incremental Text to Speech for Neural Sequence-to-Sequence Models using Reinforcement Learning" (12)

More from Shinnosuke Takamichi

More from Shinnosuke Takamichi (20)

Interspeech 2020 読み会 "Incremental Text to Speech for Neural Sequence-to-Sequence Models using Reinforcement Learning"