Submit Search
Upload
短時間発話を用いた話者照合のための音声加工の効果に関する検討
•
0 likes
•
1,071 views
Shinnosuke Takamichi
Follow
短時間発話を用いた話者照合のための音声加工の効果に関する検討 (SLP研究会 2021/03)
Read less
Read more
Technology
Report
Share
Report
Share
1 of 37
Download now
Download to read offline
Recommended
深層生成モデルに基づく音声合成技術
深層生成モデルに基づく音声合成技術
NU_I_TODALAB
【DL輪読会】“Gestalt Principles Emerge When Learning Universal Sound Source Separa...
【DL輪読会】“Gestalt Principles Emerge When Learning Universal Sound Source Separa...
Deep Learning JP
実環境音響信号処理における収音技術
実環境音響信号処理における収音技術
Yuma Koizumi
音声合成のコーパスをつくろう
音声合成のコーパスをつくろう
Shinnosuke Takamichi
環境音の特徴を活用した音響イベント検出・シーン分類
環境音の特徴を活用した音響イベント検出・シーン分類
Keisuke Imoto
[DL輪読会]Diffusion-based Voice Conversion with Fast Maximum Likelihood Samplin...
[DL輪読会]Diffusion-based Voice Conversion with Fast Maximum Likelihood Samplin...
Deep Learning JP
WaveNetが音声合成研究に与える影響
WaveNetが音声合成研究に与える影響
NU_I_TODALAB
JTubeSpeech: 音声認識と話者照合のために YouTube から構築される日本語音声コーパス
JTubeSpeech: 音声認識と話者照合のために YouTube から構築される日本語音声コーパス
Shinnosuke Takamichi
Recommended
深層生成モデルに基づく音声合成技術
深層生成モデルに基づく音声合成技術
NU_I_TODALAB
【DL輪読会】“Gestalt Principles Emerge When Learning Universal Sound Source Separa...
【DL輪読会】“Gestalt Principles Emerge When Learning Universal Sound Source Separa...
Deep Learning JP
実環境音響信号処理における収音技術
実環境音響信号処理における収音技術
Yuma Koizumi
音声合成のコーパスをつくろう
音声合成のコーパスをつくろう
Shinnosuke Takamichi
環境音の特徴を活用した音響イベント検出・シーン分類
環境音の特徴を活用した音響イベント検出・シーン分類
Keisuke Imoto
[DL輪読会]Diffusion-based Voice Conversion with Fast Maximum Likelihood Samplin...
[DL輪読会]Diffusion-based Voice Conversion with Fast Maximum Likelihood Samplin...
Deep Learning JP
WaveNetが音声合成研究に与える影響
WaveNetが音声合成研究に与える影響
NU_I_TODALAB
JTubeSpeech: 音声認識と話者照合のために YouTube から構築される日本語音声コーパス
JTubeSpeech: 音声認識と話者照合のために YouTube から構築される日本語音声コーパス
Shinnosuke Takamichi
独立深層学習行列分析に基づく多チャネル音源分離の実験的評価(Experimental evaluation of multichannel audio s...
独立深層学習行列分析に基づく多チャネル音源分離の実験的評価(Experimental evaluation of multichannel audio s...
Daichi Kitamura
JVS:フリーの日本語多数話者音声コーパス
JVS:フリーの日本語多数話者音声コーパス
Shinnosuke Takamichi
音声感情認識の分野動向と実用化に向けたNTTの取り組み
音声感情認識の分野動向と実用化に向けたNTTの取り組み
Atsushi_Ando
論文紹介 wav2vec: Unsupervised Pre-training for Speech Recognition
論文紹介 wav2vec: Unsupervised Pre-training for Speech Recognition
YosukeKashiwagi1
距離学習を導入した二値分類モデルによる異常音検知
距離学習を導入した二値分類モデルによる異常音検知
NU_I_TODALAB
音情報処理における特徴表現
音情報処理における特徴表現
NU_I_TODALAB
ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)
ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)
Shinnosuke Takamichi
やさしく音声分析法を学ぶ: ケプストラム分析とLPC分析
やさしく音声分析法を学ぶ: ケプストラム分析とLPC分析
Shinnosuke Takamichi
z変換をやさしく教えて下さい (音響学入門ペディア)
z変換をやさしく教えて下さい (音響学入門ペディア)
Shinnosuke Takamichi
多様なカートシスを持つ雑音に対応した低ミュージカルノイズ DNN 音声強調
多様なカートシスを持つ雑音に対応した低ミュージカルノイズ DNN 音声強調
Shinnosuke Takamichi
Onoma-to-wave: オノマトペを利用した環境音合成手法の提案
Onoma-to-wave: オノマトペを利用した環境音合成手法の提案
Keisuke Imoto
深層学習を利用した音声強調
深層学習を利用した音声強調
Yuma Koizumi
Neural text-to-speech and voice conversion
Neural text-to-speech and voice conversion
Yuki Saito
深層パーミュテーション解決法の基礎的検討
深層パーミュテーション解決法の基礎的検討
Kitamura Laboratory
[DL輪読会]Wavenet a generative model for raw audio
[DL輪読会]Wavenet a generative model for raw audio
Deep Learning JP
異常音検知に対する深層学習適用事例
異常音検知に対する深層学習適用事例
NU_I_TODALAB
深層学習と音響信号処理
深層学習と音響信号処理
Yuma Koizumi
敵対的学習による統合型ソースフィルタネットワーク
敵対的学習による統合型ソースフィルタネットワーク
NU_I_TODALAB
【DL輪読会】Domain Generalization by Learning and Removing Domainspecific Features
【DL輪読会】Domain Generalization by Learning and Removing Domainspecific Features
Deep Learning JP
[DL輪読会]Wav2CLIP: Learning Robust Audio Representations From CLIP
[DL輪読会]Wav2CLIP: Learning Robust Audio Representations From CLIP
Deep Learning JP
[DL輪読会]VOICEFILTER: Targeted Voice Separation by Speaker-Conditioned Spectrog...
[DL輪読会]VOICEFILTER: Targeted Voice Separation by Speaker-Conditioned Spectrog...
Deep Learning JP
Nakai22sp03 presentation
Nakai22sp03 presentation
Yuki Saito
More Related Content
What's hot
独立深層学習行列分析に基づく多チャネル音源分離の実験的評価(Experimental evaluation of multichannel audio s...
独立深層学習行列分析に基づく多チャネル音源分離の実験的評価(Experimental evaluation of multichannel audio s...
Daichi Kitamura
JVS:フリーの日本語多数話者音声コーパス
JVS:フリーの日本語多数話者音声コーパス
Shinnosuke Takamichi
音声感情認識の分野動向と実用化に向けたNTTの取り組み
音声感情認識の分野動向と実用化に向けたNTTの取り組み
Atsushi_Ando
論文紹介 wav2vec: Unsupervised Pre-training for Speech Recognition
論文紹介 wav2vec: Unsupervised Pre-training for Speech Recognition
YosukeKashiwagi1
距離学習を導入した二値分類モデルによる異常音検知
距離学習を導入した二値分類モデルによる異常音検知
NU_I_TODALAB
音情報処理における特徴表現
音情報処理における特徴表現
NU_I_TODALAB
ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)
ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)
Shinnosuke Takamichi
やさしく音声分析法を学ぶ: ケプストラム分析とLPC分析
やさしく音声分析法を学ぶ: ケプストラム分析とLPC分析
Shinnosuke Takamichi
z変換をやさしく教えて下さい (音響学入門ペディア)
z変換をやさしく教えて下さい (音響学入門ペディア)
Shinnosuke Takamichi
多様なカートシスを持つ雑音に対応した低ミュージカルノイズ DNN 音声強調
多様なカートシスを持つ雑音に対応した低ミュージカルノイズ DNN 音声強調
Shinnosuke Takamichi
Onoma-to-wave: オノマトペを利用した環境音合成手法の提案
Onoma-to-wave: オノマトペを利用した環境音合成手法の提案
Keisuke Imoto
深層学習を利用した音声強調
深層学習を利用した音声強調
Yuma Koizumi
Neural text-to-speech and voice conversion
Neural text-to-speech and voice conversion
Yuki Saito
深層パーミュテーション解決法の基礎的検討
深層パーミュテーション解決法の基礎的検討
Kitamura Laboratory
[DL輪読会]Wavenet a generative model for raw audio
[DL輪読会]Wavenet a generative model for raw audio
Deep Learning JP
異常音検知に対する深層学習適用事例
異常音検知に対する深層学習適用事例
NU_I_TODALAB
深層学習と音響信号処理
深層学習と音響信号処理
Yuma Koizumi
敵対的学習による統合型ソースフィルタネットワーク
敵対的学習による統合型ソースフィルタネットワーク
NU_I_TODALAB
【DL輪読会】Domain Generalization by Learning and Removing Domainspecific Features
【DL輪読会】Domain Generalization by Learning and Removing Domainspecific Features
Deep Learning JP
[DL輪読会]Wav2CLIP: Learning Robust Audio Representations From CLIP
[DL輪読会]Wav2CLIP: Learning Robust Audio Representations From CLIP
Deep Learning JP
What's hot
(20)
独立深層学習行列分析に基づく多チャネル音源分離の実験的評価(Experimental evaluation of multichannel audio s...
独立深層学習行列分析に基づく多チャネル音源分離の実験的評価(Experimental evaluation of multichannel audio s...
JVS:フリーの日本語多数話者音声コーパス
JVS:フリーの日本語多数話者音声コーパス
音声感情認識の分野動向と実用化に向けたNTTの取り組み
音声感情認識の分野動向と実用化に向けたNTTの取り組み
論文紹介 wav2vec: Unsupervised Pre-training for Speech Recognition
論文紹介 wav2vec: Unsupervised Pre-training for Speech Recognition
距離学習を導入した二値分類モデルによる異常音検知
距離学習を導入した二値分類モデルによる異常音検知
音情報処理における特徴表現
音情報処理における特徴表現
ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)
ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)
やさしく音声分析法を学ぶ: ケプストラム分析とLPC分析
やさしく音声分析法を学ぶ: ケプストラム分析とLPC分析
z変換をやさしく教えて下さい (音響学入門ペディア)
z変換をやさしく教えて下さい (音響学入門ペディア)
多様なカートシスを持つ雑音に対応した低ミュージカルノイズ DNN 音声強調
多様なカートシスを持つ雑音に対応した低ミュージカルノイズ DNN 音声強調
Onoma-to-wave: オノマトペを利用した環境音合成手法の提案
Onoma-to-wave: オノマトペを利用した環境音合成手法の提案
深層学習を利用した音声強調
深層学習を利用した音声強調
Neural text-to-speech and voice conversion
Neural text-to-speech and voice conversion
深層パーミュテーション解決法の基礎的検討
深層パーミュテーション解決法の基礎的検討
[DL輪読会]Wavenet a generative model for raw audio
[DL輪読会]Wavenet a generative model for raw audio
異常音検知に対する深層学習適用事例
異常音検知に対する深層学習適用事例
深層学習と音響信号処理
深層学習と音響信号処理
敵対的学習による統合型ソースフィルタネットワーク
敵対的学習による統合型ソースフィルタネットワーク
【DL輪読会】Domain Generalization by Learning and Removing Domainspecific Features
【DL輪読会】Domain Generalization by Learning and Removing Domainspecific Features
[DL輪読会]Wav2CLIP: Learning Robust Audio Representations From CLIP
[DL輪読会]Wav2CLIP: Learning Robust Audio Representations From CLIP
Similar to 短時間発話を用いた話者照合のための音声加工の効果に関する検討
[DL輪読会]VOICEFILTER: Targeted Voice Separation by Speaker-Conditioned Spectrog...
[DL輪読会]VOICEFILTER: Targeted Voice Separation by Speaker-Conditioned Spectrog...
Deep Learning JP
Nakai22sp03 presentation
Nakai22sp03 presentation
Yuki Saito
CTCに基づく音響イベントからの擬音語表現への変換
CTCに基づく音響イベントからの擬音語表現への変換
NU_I_TODALAB
差分スペクトル法に基づくDNN声質変換のためのリフタ学習およびサブバンド処理
差分スペクトル法に基づくDNN声質変換のためのリフタ学習およびサブバンド処理
Takaaki Saeki
加齢による聴覚特性の劣化が摩擦音・破擦音の識別に及ぼす影響
加齢による聴覚特性の劣化が摩擦音・破擦音の識別に及ぼす影響
Keiichi Yasu
Interspeech2022 参加報告
Interspeech2022 参加報告
Yuki Saito
Sig kst 34th-1_20180802_ota
Sig kst 34th-1_20180802_ota
博三 太田
HP用スライド
HP用スライド
Syouma Kuroda
論文紹介Morphing-hui.pptx
論文紹介Morphing-hui.pptx
Natsumi KOBAYASHI
Similar to 短時間発話を用いた話者照合のための音声加工の効果に関する検討
(9)
[DL輪読会]VOICEFILTER: Targeted Voice Separation by Speaker-Conditioned Spectrog...
[DL輪読会]VOICEFILTER: Targeted Voice Separation by Speaker-Conditioned Spectrog...
Nakai22sp03 presentation
Nakai22sp03 presentation
CTCに基づく音響イベントからの擬音語表現への変換
CTCに基づく音響イベントからの擬音語表現への変換
差分スペクトル法に基づくDNN声質変換のためのリフタ学習およびサブバンド処理
差分スペクトル法に基づくDNN声質変換のためのリフタ学習およびサブバンド処理
加齢による聴覚特性の劣化が摩擦音・破擦音の識別に及ぼす影響
加齢による聴覚特性の劣化が摩擦音・破擦音の識別に及ぼす影響
Interspeech2022 参加報告
Interspeech2022 参加報告
Sig kst 34th-1_20180802_ota
Sig kst 34th-1_20180802_ota
HP用スライド
HP用スライド
論文紹介Morphing-hui.pptx
論文紹介Morphing-hui.pptx
More from Shinnosuke Takamichi
J-KAC:日本語オーディオブック・紙芝居朗読音声コーパス
J-KAC:日本語オーディオブック・紙芝居朗読音声コーパス
Shinnosuke Takamichi
リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法
リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法
Shinnosuke Takamichi
国際会議 interspeech 2020 報告
国際会議 interspeech 2020 報告
Shinnosuke Takamichi
Interspeech 2020 読み会 "Incremental Text to Speech for Neural Sequence-to-Sequ...
Interspeech 2020 読み会 "Incremental Text to Speech for Neural Sequence-to-Sequ...
Shinnosuke Takamichi
サブバンドフィルタリングに基づくリアルタイム広帯域DNN声質変換の実装と評価
サブバンドフィルタリングに基づくリアルタイム広帯域DNN声質変換の実装と評価
Shinnosuke Takamichi
P J S: 音素バランスを考慮した日本語歌声コーパス
P J S: 音素バランスを考慮した日本語歌声コーパス
Shinnosuke Takamichi
音響モデル尤度に基づくsubword分割の韻律推定精度における評価
音響モデル尤度に基づくsubword分割の韻律推定精度における評価
Shinnosuke Takamichi
音声合成研究を加速させるためのコーパスデザイン
音声合成研究を加速させるためのコーパスデザイン
Shinnosuke Takamichi
論文紹介 Unsupervised training of neural mask-based beamforming
論文紹介 Unsupervised training of neural mask-based beamforming
Shinnosuke Takamichi
論文紹介 Building the Singapore English National Speech Corpus
論文紹介 Building the Singapore English National Speech Corpus
Shinnosuke Takamichi
論文紹介 SANTLR: Speech Annotation Toolkit for Low Resource Languages
論文紹介 SANTLR: Speech Annotation Toolkit for Low Resource Languages
Shinnosuke Takamichi
話者V2S攻撃: 話者認証から構築される 声質変換とその音声なりすまし可能性の評価
話者V2S攻撃: 話者認証から構築される 声質変換とその音声なりすまし可能性の評価
Shinnosuke Takamichi
差分スペクトル法に基づく DNN 声質変換の計算量削減に向けたフィルタ推定
差分スペクトル法に基づく DNN 声質変換の計算量削減に向けたフィルタ推定
Shinnosuke Takamichi
音声合成・変換の国際コンペティションへの 参加を振り返って
音声合成・変換の国際コンペティションへの 参加を振り返って
Shinnosuke Takamichi
ユーザ歌唱のための generative moment matching network に基づく neural double-tracking
ユーザ歌唱のための generative moment matching network に基づく neural double-tracking
Shinnosuke Takamichi
End-to-end 韻律推定に向けた DNN 音響モデルに基づく subword 分割
End-to-end 韻律推定に向けた DNN 音響モデルに基づく subword 分割
Shinnosuke Takamichi
統計的ボイチェン研究事情
統計的ボイチェン研究事情
Shinnosuke Takamichi
テキスト音声合成技術と多様性への挑戦 (名古屋大学 知能システム特論)
テキスト音声合成技術と多様性への挑戦 (名古屋大学 知能システム特論)
Shinnosuke Takamichi
統計的音声合成変換と近年の発展
統計的音声合成変換と近年の発展
Shinnosuke Takamichi
音声コーパス設計と次世代音声研究に向けた提言
音声コーパス設計と次世代音声研究に向けた提言
Shinnosuke Takamichi
More from Shinnosuke Takamichi
(20)
J-KAC:日本語オーディオブック・紙芝居朗読音声コーパス
J-KAC:日本語オーディオブック・紙芝居朗読音声コーパス
リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法
リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法
国際会議 interspeech 2020 報告
国際会議 interspeech 2020 報告
Interspeech 2020 読み会 "Incremental Text to Speech for Neural Sequence-to-Sequ...
Interspeech 2020 読み会 "Incremental Text to Speech for Neural Sequence-to-Sequ...
サブバンドフィルタリングに基づくリアルタイム広帯域DNN声質変換の実装と評価
サブバンドフィルタリングに基づくリアルタイム広帯域DNN声質変換の実装と評価
P J S: 音素バランスを考慮した日本語歌声コーパス
P J S: 音素バランスを考慮した日本語歌声コーパス
音響モデル尤度に基づくsubword分割の韻律推定精度における評価
音響モデル尤度に基づくsubword分割の韻律推定精度における評価
音声合成研究を加速させるためのコーパスデザイン
音声合成研究を加速させるためのコーパスデザイン
論文紹介 Unsupervised training of neural mask-based beamforming
論文紹介 Unsupervised training of neural mask-based beamforming
論文紹介 Building the Singapore English National Speech Corpus
論文紹介 Building the Singapore English National Speech Corpus
論文紹介 SANTLR: Speech Annotation Toolkit for Low Resource Languages
論文紹介 SANTLR: Speech Annotation Toolkit for Low Resource Languages
話者V2S攻撃: 話者認証から構築される 声質変換とその音声なりすまし可能性の評価
話者V2S攻撃: 話者認証から構築される 声質変換とその音声なりすまし可能性の評価
差分スペクトル法に基づく DNN 声質変換の計算量削減に向けたフィルタ推定
差分スペクトル法に基づく DNN 声質変換の計算量削減に向けたフィルタ推定
音声合成・変換の国際コンペティションへの 参加を振り返って
音声合成・変換の国際コンペティションへの 参加を振り返って
ユーザ歌唱のための generative moment matching network に基づく neural double-tracking
ユーザ歌唱のための generative moment matching network に基づく neural double-tracking
End-to-end 韻律推定に向けた DNN 音響モデルに基づく subword 分割
End-to-end 韻律推定に向けた DNN 音響モデルに基づく subword 分割
統計的ボイチェン研究事情
統計的ボイチェン研究事情
テキスト音声合成技術と多様性への挑戦 (名古屋大学 知能システム特論)
テキスト音声合成技術と多様性への挑戦 (名古屋大学 知能システム特論)
統計的音声合成変換と近年の発展
統計的音声合成変換と近年の発展
音声コーパス設計と次世代音声研究に向けた提言
音声コーパス設計と次世代音声研究に向けた提言
Recently uploaded
Utilizing Ballerina for Cloud Native Integrations
Utilizing Ballerina for Cloud Native Integrations
WSO2
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
iPride Co., Ltd.
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
CRI Japan, Inc.
新人研修 後半 2024/04/26の勉強会で発表されたものです。
新人研修 後半 2024/04/26の勉強会で発表されたものです。
iPride Co., Ltd.
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
sn679259
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
iPride Co., Ltd.
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
atsushi061452
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
Toru Tamaki
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NTT DATA Technology & Innovation
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
Hiroshi Tomioka
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
Toru Tamaki
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
CRI Japan, Inc.
Recently uploaded
(12)
Utilizing Ballerina for Cloud Native Integrations
Utilizing Ballerina for Cloud Native Integrations
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
新人研修 後半 2024/04/26の勉強会で発表されたものです。
新人研修 後半 2024/04/26の勉強会で発表されたものです。
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
短時間発話を用いた話者照合のための音声加工の効果に関する検討
1.
短時間発話を用いた話者照合のための 音声加工の効果に関する検討 宋 裕進 †1,
塩田 さやか †2,†3, 高道 慎之介 †1, 村上 大輔 †3, 松井 知子 †3, 猿渡 洋 †1 第136回 音声言語情報処理研究会 (29) (†1 : 東京大 , †2 : 都立大, †3 : 統数研) 1
2.
本発表の流れ • 背景 • 話者照合の概要 •
最先端の話者照合技術 • 最先端技術の問題点と本研究の概要 • 最先端の話者照合技術の詳細 • 本研究 • 概要 • 手法の詳細 • 実験結果,考察 2
3.
背景:話者照合 3
4.
背景:話者照合 (1 /
2) • 話者照合:生体情報に音声を用いた生体認証 登録者か判定 (照合) 音声を登録 システム システム 4 登録発話 (システムに登録された発話) 照合用発話 (照合時に入力される発話)
5.
背景:話者照合 (2 /
2) • 同一人物かのみ判定(発話内容には依存しない) →話者に固有の情報を抽出することが重要 5 ? 話者固有の 情報 発話
6.
背景:最先端の話者照合技術 • 最先端の話者照合技術 [Snyder
et al., 2018.] • 発話の音響特徴量からDNNにより話者固有の表現 (x-vector) を抽出 • x-vectorの類似度に基づき照合 DNN DNN 類似度で照合 照合用発話 登録発話 6 x-vector x-vector
7.
背景:問題点 • 問題点:登録発話や照合用発話の長さが非常に短い場合 • x-vectorの話者情報が不十分
→ 照合性能が低下 7 DNN DNN 話者情報が不十分 照合用発話 登録発話 x-vector x-vector
8.
背景:本研究 • 本研究:登録発話や照合用発話の音声加工による性能向上を検討 8 DNN x-vector 話者情報を頑健に 音声加工 音声加工 照合用発話
登録発話 DNN x-vector
9.
x-vectorに基づく 話者照合技術の詳細 9
10.
x-vectorに基づく話者照合の詳細 (1 /
3) • 全体の流れ ① x-vectorを抽出するためのDNNを学習 ② DNNを用い,登録発話・照合用発話からx-vectorを抽出 ③ x-vectorの類似度に基づき同一人物か判定 10
11.
x-vectorに基づく話者照合の詳細 (2 /
3) ① x-vectorを抽出するためのDNNを学習 学 習 用 発 話 学 習 発 話 の 話 者 識 別 x-vector DNN:1000人以上の話者を識別可能 11 t=1 t=T フレームごとの 情報をプーリング 中間層 (埋め込み層)
12.
x-vectorに基づく話者照合の詳細 (3 /
3) ② x-vectorを抽出 ③同一人物か判定 登録発話 照合用発話 学習済DNN 本人判定 x-vector 12 x-vector
13.
x-vectorに基づく話者照合の問題点 • 登録発話や照合用発話の長さが非常に短い場合 • x-vectorの話者情報が不十分
→ 照合性能が低下 • 関連研究:データ拡張で照合の頑健性を向上 • DNN の学習用発話にノイズを重畳 [Snyder et al., 2018.] • x-vector自体を生成モデルによりデータ拡張 [Yang et al., 2018.] [Wu et al., 2019.] [Shiota et al., 2018.] 13
14.
本研究の概要 14
15.
本研究の概要 • 発話長が照合性能に与える影響を定量評価 • 短い登録発話・照合用発話を音声加工
→ 性能向上を検討 15 登録発話 照合用発話 学習済DNN 本人判定 x-vector x-vector 音声加工 音声加工
16.
想定する状況 本研究では, ①過去の照合用発話が複数蓄積されている状況 ②過去の照合用発話の蓄積がない状況 に分けて手法を検討した. 16 照合用発話
17.
照合用発話の蓄積とは? ・同一話者 p が過去の照合に用いた照合用発話を保存 →
照合用データベース Dp を作成 データベースから複数の発話を選択し,照合用発話として用いることが可能 p 発話A 発話B 発話C 照合用データベース Dp 17
18.
照合用データベースが ある場合の手法 18
19.
手法1:照合用データベースを利用した手法 • 連結 • 照合用データベースの発話を複数個選択 •
選択した発話を連結したものを新たな照合用発話に • 重ね合わせ • 照合用データベースの発話を複数個選択 • 選択した発話の波形を重ね合わせたものを新たな照合用発話に 19 p 照合用データベース Dp
20.
照合用データベースが ない場合の手法 20
21.
手法2:登録発話から一部切り出す手法 (1 /
2) • 照合用データベースが用意できない場合 → 1回の照合で照合用発話は1つ • 登録発話から長さ d の区間を切除し,照合用発話に連結・重ね合わせ • 登録発話が照合用発話と比べ十分長いと想定 → 登録発話が切除される 影響は小さい 照合用発話 登録発話 切除 (長さ d ) 21
22.
手法2:登録発話から一部切り出す手法 (2 /
2) • 登録発話と照合用発話が同じ話者の場合 • 照合用発話の頑健性が向上 • 登録発話と照合用発話が異なる話者の場合 • 異なる話者の音声が混ざる→照合用発話の頑健性が低下 22 照合用発話 切除
23.
手法3:信号処理的手法 (1 /
2) • データベースが用意できない場合 → 1回の照合で照合用発話は1つ • 照合用発話に信号処理を施し,音声の波形を伸長 長さの伸びた 新たな照合用発話 信号処理 そのまま 用いる 23 照合用発話 登録発話
24.
手法3:信号処理的手法 (2 /
2) • リサンプリングによる波形伸長:スペクトルが低周波数方向に縮退 • 音色が変化し話者性が変わってしまう • 音声波形を部分区間に分け再配置 → 周波数スペクトルを保ち伸長 • Waveform Similarity OverLap-Add (WSOLA) :隣り合う音声波形の相互相関を最大化 • Phase vocoder:隣り合う音声波形の位相を連続的に繋げる 24
25.
実験 25
26.
実験条件:コーパス • DNN /
PLDAの学習データ • 音声コーパス VoxCeleb 1 & 2 [Nagrani et al,. 2017.] • 7,245話者の1,245,525発話を収録 • 登録発話・照合用発話 • 音声コーパス RedDots Part4 [Lee et al,. 2015.] • 数字や短いフレーズなど,話者照合に適した発話を収録 • 62話者の15,343発話を収録, 平均発話長3.359s • 話者ごとに複数の登録発話が存在 26
27.
実験の概要 • 登録発話の長さが性能に与える影響 • 照合用データベースが利用できる場合 •
照合用データベースが利用できない場合 • 登録発話から切り出す手法 • 信号処理的手法 27
28.
実験:登録発話長が与える影響(1 / 2) •
各話者の登録発話を全て連結したものを登録発話として照合 連結 照合 28 照合用発話 登録発話n 登録発話1
29.
実験:登録発話長が与える影響(2 / 2) •
各話者の登録発話ひとつひとつと照合 照合 照合 29 照合用発話 照合用発話 登録発話1 登録発話n
30.
実験結果:登録発話長が与える影響 • 照合性能はEqual error
rate (EER) で評価 • 本人受入率=他人棄却率 となる時の照合誤り率 • 登録発話を全て連結 • EER : 3.258% • 登録発話を連結しない • EER : 8.452% • 以下の実験では,登録発話を全て連結したものをベースラインとする • ベースラインでは,照合用発話を加工していない 30 登録発話の長さが照合性能に大きな影響
31.
手法1:照合用発話データベースの利用 • 照合用データベースの複数発話を連結して照合した場合の照合性能の挙動 • 登録発話は平均33.88秒 ✔照合用発話の発話長が増えるほど照合性能は向上 ✔連結数が一定以上に増えると,照合性能は収束 ベース ライン 31
32.
実験評価1:複数の照合用発話の重ね合わせ • 照合用データベースの複数発話を重ね合わせた場合の照合性能の挙動 ✔2〜3個の照合用発話の重ね合わせにより照合性能は向上 ✔重ね合わせ数が一定以上に増えると照合性能は低下 ベースライン1 32
33.
手法2:登録発話から一部を切り出す手法 • 登録発話の長さ d
の区間をあらかじめランダムに切除 • 連結:切除した区間を照合用発話に連結 • 重ね合わせ:切除した区間を照合用発話と重ね合わせ • 切除区間の振幅を r 倍にして混合 33 登録発話 切除 (長さ d )
34.
実験評価2:登録発話から一部を切り出す手法 • 連結・重ね合わせを行った結果 • ベースライン
(EER:3.258%) から照合性能が大きく低下 • 異なる話者の発話混合による話者情報の曖昧化が,同一話者の発話混 合による話者情報の頑健化よりも大きい 34
35.
実験評価3:信号処理的手法 • WSOLA, Phase
vocoderにより照合用発話の音声波形を r 倍に伸長 • ベースライン (EER:3.258%) よりも照合性能が低下 • 波形伸長による音声の品質低下 • 波形伸長による話者性の不明瞭化 35
36.
実験評価の総括と展望 • 照合用データベースを用いた場合,ベースラインよりも照合性能が向上 • 連結と重ね合わせどちらも一定の精度で打ち止め •
照合用データベースがない条件下 → ベースラインよりも照合性能が低下 • 今後の展望: • 照合用発話が限られている条件下での性能向上 • 発話長と照合性能の関係のより定量的な評価 36
37.
照合用発話サンプル 37 無加工 複数連結(手法1) 複数重ね合わせ(手法1) 登録発話を連結(手法2) 登録発話を重ね合わせ(手法2) 信号処理(手法3) WSOLA Phase Vocoder 1.125x 1.25x
1.5x 2発話 3発話 4発話
Download now