短時間発話を用いた話者照合のための音声加工の効果に関する検討

短時間発話を用いた話者照合のための
音声加工の効果に関する検討
宋裕進 †1, 塩田さやか †2,†3, 高道慎之介 †1,
村上大輔 †3, 松井知子 †3, 猿渡洋 †1
第136回音声言語情報処理研究会 (29)
（†1 : 東京大 , †2 : 都立大, †3 : 統数研）
1

本発表の流れ
• 背景
• 話者照合の概要
• 最先端の話者照合技術
• 最先端技術の問題点と本研究の概要
• 最先端の話者照合技術の詳細
• 本研究
• 概要
• 手法の詳細
• 実験結果，考察
2

背景：話者照合 (1 / 2)
• 話者照合：生体情報に音声を用いた生体認証
登録者か判定
（照合）
音声を登録
システム
システム
4
登録発話
（システムに登録された発話）
照合用発話
（照合時に入力される発話）

背景：話者照合 (2 / 2)
• 同一人物かのみ判定（発話内容には依存しない）
→話者に固有の情報を抽出することが重要
5
？
話者固有の
情報
発話

背景：最先端の話者照合技術
• 最先端の話者照合技術 [Snyder et al., 2018.]
• 発話の音響特徴量からDNNにより話者固有の表現 (x-vector) を抽出
• x-vectorの類似度に基づき照合
DNN DNN
類似度で照合
照合用発話登録発話
6
x-vector x-vector

背景：問題点
• 問題点：登録発話や照合用発話の長さが非常に短い場合
• x-vectorの話者情報が不十分 → 照合性能が低下
7
DNN DNN
話者情報が不十分
x-vector x-vector

背景：本研究
• 本研究：登録発話や照合用発話の音声加工による性能向上を検討
8
DNN
x-vector
話者情報を頑健に
音声加工音声加工
DNN
x-vector

x-vectorに基づく
話者照合技術の詳細
9

x-vectorに基づく話者照合の詳細 (1 / 3)
• 全体の流れ
① x-vectorを抽出するためのDNNを学習
② DNNを用い，登録発話・照合用発話からx-vectorを抽出
③ x-vectorの類似度に基づき同一人物か判定
10

① x-vectorを抽出するためのDNNを学習
学
習
用
発
話
学
習
発
話
の
話
者
識
別
x-vector
DNN：1000人以上の話者を識別可能
11
t=1
t=T
フレームごとの
情報をプーリング
中間層
（埋め込み層）

② x-vectorを抽出 ③同一人物か判定
登録発話照合用発話
学習済DNN
本人判定
x-vector
12
x-vector

x-vectorに基づく話者照合の問題点
• 登録発話や照合用発話の長さが非常に短い場合
• x-vectorの話者情報が不十分 → 照合性能が低下
• 関連研究：データ拡張で照合の頑健性を向上
• DNN の学習用発話にノイズを重畳 [Snyder et al., 2018.]
• x-vector自体を生成モデルによりデータ拡張
[Yang et al., 2018.] [Wu et al., 2019.] [Shiota et al., 2018.]
13

本研究の概要
• 発話長が照合性能に与える影響を定量評価
• 短い登録発話・照合用発話を音声加工 → 性能向上を検討
15
登録発話照合用発話
学習済DNN
本人判定
x-vector
x-vector
音声加工音声加工

想定する状況
本研究では，
①過去の照合用発話が複数蓄積されている状況
②過去の照合用発話の蓄積がない状況
に分けて手法を検討した．
16
照合用発話

照合用発話の蓄積とは？
・同一話者 p が過去の照合に用いた照合用発話を保存
→ 照合用データベース Dp を作成
データベースから複数の発話を選択し，照合用発話として用いることが可能
p
発話A 発話B 発話C
照合用データベース Dp
17

照合用データベースが
ある場合の手法
18

手法１：照合用データベースを利用した手法
• 連結
• 照合用データベースの発話を複数個選択
• 選択した発話を連結したものを新たな照合用発話に
• 重ね合わせ
• 照合用データベースの発話を複数個選択
• 選択した発話の波形を重ね合わせたものを新たな照合用発話に
19
p
照合用データベース Dp

照合用データベースが
ない場合の手法
20

手法２：登録発話から一部切り出す手法 (1 / 2)
• 照合用データベースが用意できない場合 → 1回の照合で照合用発話は1つ
• 登録発話から長さ d の区間を切除し，照合用発話に連結・重ね合わせ
• 登録発話が照合用発話と比べ十分長いと想定 → 登録発話が切除される
影響は小さい
切除
（長さ d ）
21

手法２：登録発話から一部切り出す手法 (2 / 2)
• 登録発話と照合用発話が同じ話者の場合
• 照合用発話の頑健性が向上
• 登録発話と照合用発話が異なる話者の場合
• 異なる話者の音声が混ざる→照合用発話の頑健性が低下
22
照合用発話
切除

手法３：信号処理的手法 (1 / 2)
• データベースが用意できない場合 → 1回の照合で照合用発話は1つ
• 照合用発話に信号処理を施し，音声の波形を伸長
長さの伸びた
新たな照合用発話
信号処理そのまま
用いる
23

手法３：信号処理的手法 (2 / 2)
• リサンプリングによる波形伸長：スペクトルが低周波数方向に縮退
• 音色が変化し話者性が変わってしまう
• 音声波形を部分区間に分け再配置 → 周波数スペクトルを保ち伸長
• Waveform Similarity OverLap-Add (WSOLA)
：隣り合う音声波形の相互相関を最大化
• Phase vocoder：隣り合う音声波形の位相を連続的に繋げる
24

実験条件：コーパス
• DNN / PLDAの学習データ
• 音声コーパス VoxCeleb 1 & 2 [Nagrani et al,. 2017.]
• 7,245話者の1,245,525発話を収録
• 登録発話・照合用発話
• 音声コーパス RedDots Part4 [Lee et al,. 2015.]
• 数字や短いフレーズなど，話者照合に適した発話を収録
• 62話者の15,343発話を収録, 平均発話長3.359s
• 話者ごとに複数の登録発話が存在
26

実験の概要
• 登録発話の長さが性能に与える影響
• 照合用データベースが利用できる場合
• 照合用データベースが利用できない場合
• 登録発話から切り出す手法
• 信号処理的手法
27

実験：登録発話長が与える影響(1 / 2)
• 各話者の登録発話を全て連結したものを登録発話として照合
連結
照合
28
照合用発話
登録発話n
登録発話1

実験：登録発話長が与える影響(2 / 2)
• 各話者の登録発話ひとつひとつと照合
照合
照合
29
照合用発話
照合用発話
登録発話1
登録発話n

実験結果：登録発話長が与える影響
• 照合性能はEqual error rate (EER) で評価
• 本人受入率=他人棄却率となる時の照合誤り率
• 登録発話を全て連結
• EER : 3.258%
• 登録発話を連結しない
• EER : 8.452%
• 以下の実験では，登録発話を全て連結したものをベースラインとする
• ベースラインでは，照合用発話を加工していない
30
登録発話の長さが照合性能に大きな影響

手法１：照合用発話データベースの利用
• 照合用データベースの複数発話を連結して照合した場合の照合性能の挙動
• 登録発話は平均33.88秒
✔照合用発話の発話長が増えるほど照合性能は向上
✔連結数が一定以上に増えると，照合性能は収束
ベース
ライン
31

実験評価１：複数の照合用発話の重ね合わせ
• 照合用データベースの複数発話を重ね合わせた場合の照合性能の挙動
✔2〜3個の照合用発話の重ね合わせにより照合性能は向上
✔重ね合わせ数が一定以上に増えると照合性能は低下
ベースライン1
32

手法２：登録発話から一部を切り出す手法
• 登録発話の長さ d の区間をあらかじめランダムに切除
• 連結：切除した区間を照合用発話に連結
• 重ね合わせ：切除した区間を照合用発話と重ね合わせ
• 切除区間の振幅を r 倍にして混合
33
登録発話
切除
（長さ d ）

実験評価２：登録発話から一部を切り出す手法
• 連結・重ね合わせを行った結果
• ベースライン (EER:3.258%) から照合性能が大きく低下
• 異なる話者の発話混合による話者情報の曖昧化が，同一話者の発話混
合による話者情報の頑健化よりも大きい
34

実験評価３：信号処理的手法
• WSOLA, Phase vocoderにより照合用発話の音声波形を r 倍に伸長
• ベースライン (EER:3.258%) よりも照合性能が低下
• 波形伸長による音声の品質低下
• 波形伸長による話者性の不明瞭化
35

実験評価の総括と展望
• 照合用データベースを用いた場合，ベースラインよりも照合性能が向上
• 連結と重ね合わせどちらも一定の精度で打ち止め
• 照合用データベースがない条件下 → ベースラインよりも照合性能が低下
• 今後の展望：
• 照合用発話が限られている条件下での性能向上
• 発話長と照合性能の関係のより定量的な評価
36

照合用発話サンプル
37
無加工
複数連結（手法1）
複数重ね合わせ（手法1）
登録発話を連結（手法2）
登録発話を重ね合わせ（手法2）
信号処理（手法3）
WSOLA
Phase Vocoder
1.125x 1.25x 1.5x
2発話 3発話 4発話

短時間発話を用いた話者照合のための音声加工の効果に関する検討

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Similar to 短時間発話を用いた話者照合のための音声加工の効果に関する検討

Similar to 短時間発話を用いた話者照合のための音声加工の効果に関する検討 (9)

More from Shinnosuke Takamichi

More from Shinnosuke Takamichi (20)

Recently uploaded

Recently uploaded (12)

短時間発話を用いた話者照合のための音声加工の効果に関する検討