SlideShare a Scribd company logo
1 of 25
Download to read offline
任意話者間声質変換の
研究開発
開発本部 データテクノロジーグループ
石原達馬
自己紹介
- 経歴
- -2014/03 大学院で音声の研究
- 2014/04-2017/12 電機メーカーで信号処理・音声認識関連の研究開発
- Distant ASR
- 2018/01- GREE データエンジニアリンググループ
- 業務内容
- データエンジニアリング
- 声質変換に関する研究開発
- 転声こえうらない
- その他
- リモートワーク導入後は 1日の99%を
リクライニングベッドの上で過ごす
国際学会に投稿した
声質変換の研究の話
背景 / アバター化社会
- アバター社会の到来
- 自分の見た目を自由に定義できる時代
- 自分の声も選べるようになるべき
背景 / ボイスチェンジャー
- 声を別の人間の声に変換する技術
- 個人性が何で決まるかは難しい問題
- 高さと音色を個別に操作
- クラシカルな様式
- そうでないものもたくさんある 特に最近のEnd2Endとか
- シンプルな方式ではルールベースで変換
- こえうらない
- 複雑な変換をデータから学習
- 統計的声質変換
- 90年代あたりから存在
動機 / データ不足な状況下での統計的声質変換
- データを集める……どんなデータ?
- 典型例: パラレルコーパス50文ほど
- パラレルコーパス: 同じ文章を2人が読み上げた音声データセット
- 日本でよく知られている例として ○ ○ ○ ○ ○。○がある
- 典型例2: ノンパラレルコーパス数百文
- 少ないデータでも学習できるようにしたい
- なりたい声はひとそれぞれ
- いつでも十分な音声が集められるわけではない
- なるべく少ないデータで動くようにしたい
- One-shot 声質変換
- 1発話のみから学習
動作イメージ
- 入力1 変換したい音声
- 入力2 変換先の話者の音声 (参照音声)
- 出力 変換された音声
変換システム
こんにちは
おはよう
こんにちは
同じ話者
同じコンテンツ
入力2
入力1
出力
今回やりたいこと
話者の情報が含まれている
データはこれだけ
ここからなんとか話者情報を取
り出したい
こんにちは
おはよう
今回やりたいこと
k o N n i ch i w a
o h a y o- 同じ音素があればそこを参考にする
今回やりたいこと
k o N n i ch i w a
o h a y o- なくてもなるべく近い音素を探して参考にする
今回やりたいこと
k o N n i ch i w a
o h a y o- こういうことができるモデルを作る
k o N n i ch i w a
o h a y o-
注意機構
k o N n i ch i w a
o h a y o-
k o N n i ch i w a
o h a y o-
- コンテンツに依存して情報を選択的に伝達したい
- 注意機構 (Attention)
注意機構
k o N n i ch i w a
o h a y o-
k o N n i ch i w a
o h a y o-
- コンテンツに依存して情報を選択的に伝達したい
- 注意機構 (Attention)
k o N n i ch i w a
o h a y o-
Query
Key, Value
QueryとKeyが近い座標の
Valueをとってくる
≒Key-Value Store
注意機構
k o N n i ch i w a
o h a y o-
k o N n i ch i w a
o h a y o-
- コンテンツに依存して情報を選択的に伝達したい
- 注意機構 (Attention)
k o N n i ch i w a
ohayo-
k o N n i ch i w a
o h a y o-
Query
Key, Value
QueryとKeyが近い座標の
Valueをとってくる
≒Key-Value Store
Query
Key
注意機構
k o N n i ch i w a
o h a y o-
k o N n i ch i w a
o h a y o-
- コンテンツに依存して情報を選択的に伝達したい
- 注意機構 (Attention)
k o N n i ch i w a
ohayo-
k o N n i ch i w a
o h a y o-
Query
Key, Value
QueryとKeyが近い座標の
Valueをとってくる
≒Key-Value Store
注意機構
k o N n i ch i w a
o h a y o-
k o N n i ch i w a
o h a y o-
- コンテンツに依存して情報を選択的に伝達したい
- 注意機構 (Attention)
k o N n i ch i w a
ohayo-
k o N n i ch i w a
o h a y o-
Query
Key, Value
QueryとKeyが近い座標の
Valueをとってくる
≒Key-Value Store
注意機構
k o N n i ch i w a
o h a y o-
k o N n i ch i w a
o h a y o-
- コンテンツに依存して情報を選択的に伝達したい
- 注意機構 (Attention)
k o N n i ch i w a
ohayo-
k o N n i ch i w a
o h a y o-
Query
Key, Value
QueryとKeyが近い座標の
Valueをとってくる
≒Key-Value Store
情報の混ぜ合わせ
- 入力からQueryの他にコンテンツ情報を取り出す
- 話者情報と混ぜ合わせて出力する
- Encoder-Decoderフレームワークで実装
k o N n i ch i w a
o h a y o-
Content
Query
Key, Value
Encoder
Encoder Attention
Decoder こんにちは
情報の混ぜ合わせ
- 入力からQueryの他にコンテンツ情報を取り出す
- 話者情報と混ぜ合わせて出力する
- Encoder-Decoderフレームワークで実装
k o N n i ch i w a
o h a y o-
Content
Query
Key, Value
Encoder
Encoder Attention
Decoder こんにちは
このモデルを大量のデータで訓練して
この操作を学習させる
学習時の入出力関係
- 1発話から学習する→1発話から学習できるようなモデルを学習する
- メタラーニング的発想
- データのある話者ペアで学習しておいてデータのない組み合わせでも変換できるように
- 学習データ
- 入力1 変換元音声
- 入力2 参照音声
- 変換後の正解データ
- これをいろいろな話者の組み合わせで学習させる
- 期待される学習結果
- 未知の参照音声でも変換できる
変換システム入力音声
参照音声
出力音声
正解音声
入力, 参照, 出力音声の組
学習結果
- 明示的に音素の情報を与えなくても
近い音素に注意を向けるネットワークが自動的に学習された
- 誤差関数を最適化するにはそのほうが有利だったから
デコーダーの構成 / マルチ解像度処理
- 効率よく音声情報を扱うための構成
- UNet型の設計
- 解像度ごとにスキップ接続を入れる
評価 / まとめ / 今後の展望
- 評価
- 客観評価ではっきり優勢
- 提案手法のほうが正解に近い出力
- 主観評価でも音質の改善に効果ありという結果
- まとめ
- 注意機構を使って話者情報を伝達
- パラレルコーパスで色々な話者の組み合わせの変換を学習
- 近い音素から情報をとってくる注意機構がラベル無しで学習できた
- 今後の展望
- E2E方式への適用
- デコーダーの学習基準をかえて音質を上げたい
投稿した国際学会
- INTERSPEECH 2020
- 名前の通り音声系の国際学会
- 音声系ではICASSPと並びトップ会議とされる
- 無事採択
- “Attention-Based Speaker Embeddings for One-Shot Voice Conversion”
Tatsuma Ishihara and Daisuke Saito, INTERSPEECH2020 to appear
- オンライン開催になったので移動の手間が省けた
謝辞 / 投稿までに利用できたリソース
- p2.xlarge 2台
- 業務時間の8割*半年くらい
- その他資源
- PyTorch
- JVS Corpus
- パラレルコーパスが 100人分
- クラウドソーシング (主観評価)
- 技術顧問 (東京大学 齋藤先生)
- 月1のミーティングでの議論
- 論文指導
- 偶発的な議論数回
- VR Lab 白井
- 明治大学 森勢先生

More Related Content

More from gree_tech

More from gree_tech (20)

SINoALICE -シノアリス- Google Cloud Firestoreを用いた観戦機能の実現について
SINoALICE -シノアリス- Google Cloud Firestoreを用いた観戦機能の実現についてSINoALICE -シノアリス- Google Cloud Firestoreを用いた観戦機能の実現について
SINoALICE -シノアリス- Google Cloud Firestoreを用いた観戦機能の実現について
 
海外展開と負荷試験
海外展開と負荷試験海外展開と負荷試験
海外展開と負荷試験
 
翻訳QAでのテスト自動化の取り組み
翻訳QAでのテスト自動化の取り組み翻訳QAでのテスト自動化の取り組み
翻訳QAでのテスト自動化の取り組み
 
組み込み開発のテストとゲーム開発のテストの違い
組み込み開発のテストとゲーム開発のテストの違い組み込み開発のテストとゲーム開発のテストの違い
組み込み開発のテストとゲーム開発のテストの違い
 
サーバーフレームワークに潜んでる脆弱性検知ツール紹介
サーバーフレームワークに潜んでる脆弱性検知ツール紹介サーバーフレームワークに潜んでる脆弱性検知ツール紹介
サーバーフレームワークに潜んでる脆弱性検知ツール紹介
 
データエンジニアとアナリストチーム兼務になった件について
データエンジニアとアナリストチーム兼務になった件についてデータエンジニアとアナリストチーム兼務になった件について
データエンジニアとアナリストチーム兼務になった件について
 
シェアドサービスとしてのデータテクノロジー
シェアドサービスとしてのデータテクノロジーシェアドサービスとしてのデータテクノロジー
シェアドサービスとしてのデータテクノロジー
 
「ドキュメント見つからない問題」をなんとかしたい - 横断検索エンジン導入の取り組みについて-
「ドキュメント見つからない問題」をなんとかしたい - 横断検索エンジン導入の取り組みについて-「ドキュメント見つからない問題」をなんとかしたい - 横断検索エンジン導入の取り組みについて-
「ドキュメント見つからない問題」をなんとかしたい - 横断検索エンジン導入の取り組みについて-
 
「Atomic Design × Nuxt.js」コンポーネント毎に責務の範囲を明確にしたら幸せになった話
「Atomic Design × Nuxt.js」コンポーネント毎に責務の範囲を明確にしたら幸せになった話「Atomic Design × Nuxt.js」コンポーネント毎に責務の範囲を明確にしたら幸せになった話
「Atomic Design × Nuxt.js」コンポーネント毎に責務の範囲を明確にしたら幸せになった話
 
比較サイトの検索改善(SPA から SSR に変換)
比較サイトの検索改善(SPA から SSR に変換)比較サイトの検索改善(SPA から SSR に変換)
比較サイトの検索改善(SPA から SSR に変換)
 
コードの自動修正によって実現する、機能開発を止めないフレームワーク移行
コードの自動修正によって実現する、機能開発を止めないフレームワーク移行コードの自動修正によって実現する、機能開発を止めないフレームワーク移行
コードの自動修正によって実現する、機能開発を止めないフレームワーク移行
 
「やんちゃ、足りてる?」〜ヤンマガWebで挑戦を続ける新入りエンジニア〜
「やんちゃ、足りてる?」〜ヤンマガWebで挑戦を続ける新入りエンジニア〜「やんちゃ、足りてる?」〜ヤンマガWebで挑戦を続ける新入りエンジニア〜
「やんちゃ、足りてる?」〜ヤンマガWebで挑戦を続ける新入りエンジニア〜
 
法人向けメタバースプラットフォームの開発の裏側をのぞいてみた(仮)
法人向けメタバースプラットフォームの開発の裏側をのぞいてみた(仮)法人向けメタバースプラットフォームの開発の裏側をのぞいてみた(仮)
法人向けメタバースプラットフォームの開発の裏側をのぞいてみた(仮)
 
基調講演 -グリーが目指すエンジニアのあり方、チームのあり方-
基調講演 -グリーが目指すエンジニアのあり方、チームのあり方-基調講演 -グリーが目指すエンジニアのあり方、チームのあり方-
基調講演 -グリーが目指すエンジニアのあり方、チームのあり方-
 
REALITY iOSアプリを支える開発効率化
REALITY iOSアプリを支える開発効率化REALITY iOSアプリを支える開発効率化
REALITY iOSアプリを支える開発効率化
 
WFSエンジニア組織のデザイン〜コンテンツ開発に集中するために〜
WFSエンジニア組織のデザイン〜コンテンツ開発に集中するために〜WFSエンジニア組織のデザイン〜コンテンツ開発に集中するために〜
WFSエンジニア組織のデザイン〜コンテンツ開発に集中するために〜
 
Lua文化の伝承!? WFSにおけるイベントスクリプト活用術〜すべてはより良いコンテンツ制作のために〜
Lua文化の伝承!? WFSにおけるイベントスクリプト活用術〜すべてはより良いコンテンツ制作のために〜Lua文化の伝承!? WFSにおけるイベントスクリプト活用術〜すべてはより良いコンテンツ制作のために〜
Lua文化の伝承!? WFSにおけるイベントスクリプト活用術〜すべてはより良いコンテンツ制作のために〜
 
バーチャルライブ配信アプリREALITYの3Dアバターシステムの全容について
バーチャルライブ配信アプリREALITYの3Dアバターシステムの全容についてバーチャルライブ配信アプリREALITYの3Dアバターシステムの全容について
バーチャルライブ配信アプリREALITYの3Dアバターシステムの全容について
 
REALITY低遅延モード配信を支えるリアルタイムサーバとデータパイプライン
REALITY低遅延モード配信を支えるリアルタイムサーバとデータパイプラインREALITY低遅延モード配信を支えるリアルタイムサーバとデータパイプライン
REALITY低遅延モード配信を支えるリアルタイムサーバとデータパイプライン
 
さまざまなキャプチャーデータを合成して再分配するシステム「REALITY Studio Motion Engine」について
さまざまなキャプチャーデータを合成して再分配するシステム「REALITY Studio Motion Engine」についてさまざまなキャプチャーデータを合成して再分配するシステム「REALITY Studio Motion Engine」について
さまざまなキャプチャーデータを合成して再分配するシステム「REALITY Studio Motion Engine」について
 

任意話者間声質変換の研究開発