More Related Content
More from Shinnosuke Takamichi (20)
話者V2S攻撃: 話者認証から構築される 声質変換とその音声なりすまし可能性の評価
- 2. /15
研究背景:音声による個人認証システムと
システムへの攻撃
話者認証:音声により登録済みユーザを特定する生体認証 [Dehak11]
– ユーザ負担が小さく,スマートスピーカなどで利用 [Prabhavalkar15]
– 更なる普及を見据え,音声なりすまし攻撃に利用される可能性あり
話者V2S攻撃:話者認証を用いた音声なりすまし攻撃
– 認証システムが攻撃者により暴露された場合に,登録済みユーザの
音声を人工的に復元する攻撃 (すなわち Verification-to-Synthesis)
– 本稿では,声質変換技術を用いた攻撃法を議論
声質変換 (音声変換):データドリブンのボイスチェンジャ [Toda07]
– 事前収録音声を用いて,音声の声色を特定の他者の声色に変換
– 近年では,深層学習 (DNN) に基づく変換技術も登場 (次ページ)
2
- 11. /15
考察
従来の音声なりすまし研究との比較
– 従来:話者認証を騙す人工音声の合成が目的 [Wu13]
– 本研究:話者認証を騙すことによる個人性復元が目的
敵対的攻撃 (adversarial attack) [Goodfellow14] との目的の違い
– 敵対的攻撃:認識モデルを誤認識させるデータを生成
– 本研究:認識モデルから攻撃対象の属性 (本稿では話者性) を復元
より現実的な設定に向けた要素
– 本稿で無視した伝達経路(波形生成・空間伝達・音声分析)の考慮
– ブラックボックス話者認証への攻撃手段
11
- 13. /15
実験条件
13
条件 値・設定
攻撃者 男性1名
攻撃対象話者 男2名・女2名.本発表では男性の結果のみ表示.
DNN構造 声質変換・話者認識・話者認証ともに
Feed-forward DNN (詳細は原稿参照)
登録済みユーザ数 260 (攻撃対象話者4名を含む)
比較手法 ①通常の声質変換 (パラレル5, 10, 30発話で学習)
②通常の声質変換 (ノンパラレル25発話で学習)
③話者V2S (200発話で学習)
各手法で生成される音声の自然性と話者再現度
(攻撃対象話者の話者らしさをどの程度再現できるか) を主観的に評価