SlideShare a Scribd company logo
1 of 16
Download to read offline
サブバンドフィルタリングに基づく
リアルタイム広帯域DNN声質変換の実装と評価
☆佐伯高明,齋藤佑樹,高道慎之介,猿渡洋
(東大院・情報理工)
SLP研究会 2020/02/13
日本音響学会2020年 秋季講演発表会 1-2-11
/16本発表の概要
❑ 背景
▪ 声質変換では,話者再現度だけでなくリアルタイム性・音質が重要
▪ 従来のリアルタイム声質変換では,狭帯域 (16 kHz) 音声のみ変換可能
▪ 高音質なフルバンド (48 kHz) リアルタイム声質変換の実現が目的
❑ 手法
▪ サブバンド処理により低域 (0-8 kHz) のみをモデル化・変換 [佐伯20]
▪ 低域変換の際にフィルタ打ち切りを行うことで計算量削減 [Saeki20]
▪ リアルタイム・オンライン処理のための実装 & F0変換機構
❑ 評価結果
▪ 計算効率の評価の結果,1CPUでのリアルタイム動作を確認
▪ 変換音声の品質評価の結果,Benchmark手法より有意に高い自然性
2
/16既存のリアルタイム声質変換の課題
❑ 従来のリアルタイム声質変換 [Toda12][Arakawa19]
▪ 変換された音響特徴量から信号処理に基づくボコーダで波形生成
▪ 狭帯域 (16 kHz) 音声を遅延50 ms程度で変換可能
▪ 信号処理に基づくボコーダによるアーティファクト
▪ 変換可能な帯域幅が狭く,変換音声が低音質
3
ConversionAnalysis Synthesis
Source feature Converted feature
Narrow-band
source speech
Narrow-band
converted speech
/16本研究でのアプローチ
❑ 差分スペクトル法に基づく声質変換 [Kobayashi18]
▪ ボコーダを用いず,波形領域でのフィルタリングにより変換
▪ 帯域拡張すると品質・計算量面で問題
➢ サブバンドフィルタリングによる解決法を提案 [Saeki20]
4
⊗
Full-band
source speech
Full-band converted
speech
DNN
Convolution
Analysis
𝐶(𝑋)
𝐶(𝐷) 𝑓(𝐷)
Real cepstrum of
source speech
Real cepstrum of
Differential filter
Differential filter in
time domain
/16サブバンドフィルタリングによる広帯域声質変換 [佐伯20]
❑ サブバンド処理により,0-8 kHzのみをモデル化・変換 [佐伯20]
▪ 変動の大きい高域をそのまま使うことで,変換音声の音質を向上
▪ フィルタをかける波形のサンプル数が減り,計算量を削減
❑ フィルタのタップ長を短く打ち切ることで,さらに計算量削減 [Saeki20]
5
Pass through
⊗
0-8 kHz
8-24 kHz
DNN
Short-tap
truncated filter
Convolution
0-24 kHz 0-24 kHz
𝑪(𝑿)
𝑪(𝐷) 𝒇(𝑙)
/16リアルタイム・オンライン広帯域声質変換 6
Offline変換 (発話ごとに処理) [佐伯20] Online変換 (フレームごとに処理)
❑ サブバンドフィルタリングによる声質変換はオフライン変換を想定
❑ リアルタイムフルバンド声質変換のためのオンライン実装
Sub-band analysis
Conversion
0 -8 kHz 8 -2 4 kHz
Pass throug h
Sub-band synthesis
Sub-band analysis
Pass throug hConversion
0 -8 kHz 8 -2 4 kHz
Sub-band synthesis
/16提案するシステムの主要部 7
❑ 分析部: 変換元話者の音声をサブバンド処理し,低域から特徴量抽出
❑ 変換部: DNNでケプストラム変換し,差分フィルタを推定
❑ 合成部: 変換先話者の音声波形を得る
� ( ) � ( )
0 -8 kHz
8 -2 4 kHz
Processing each fram e within 5 m s
DNN
Pass throug h
⊗
� ( )
Filtering
wind ow
shift
/16その他の部分 8
❑ F0変換: 入力波形を一定F0比だけPICOLA [森田1986] でピッチシフト
❑ 特徴量分析時にプリエンファシスを適用
� ( )
� ( )
0 -8 kHz
8 -2 4 kHz
Processing each fram e within 5 m s
DNN
Pass throug h
⊗
� ( )
Filtering
window
shift
F0 transform ation.
Pre-em p hasis De-em p hasis
実験的評価
/16評価の概要 10
Evaluation cases male-to-male (m2m), female-to-female (f2f)
female-to-male (f2m), male-to-female (m2f)
Dataset f2f: JSUTcorpus [Sonobe17]
Voice Actress corpus [y_benjo17]
m2m, f2m, m2f: JVS corpus [Takamichi19]
Train / Valid / Test 80 sentences / 10 sentences / 10 sentences
DFT length Proposed: 512 samples
Benchmark: 2048 samples
DNN architecture Multi layer perceptron with 2 hidden layers
CPU Intel (R) core (TM) i7-6850K CPU @ 3.60 GHz
❑ Proposed methodとBenchmarkを比較
▪ Benchmark: 差分スペクトル法を広帯域音声に帯域分割なしで適用
❑ 評価内容
▪ 計算効率: FLOPSによる計算量概算 & Real-time factor (RTF) 計測
▪ 変換音声品質: 主観評価実験
/16計算量の評価 11
❑ FLOPS: 1秒間に浮動小数点演算が何回行えるかという指標
❑ 1秒間のフルバンド音声を処理するのにかかる計算量をFLOPS単位で概算
❑ 理論上はモバイル端末でもリアルタイム変換が可能
➢ Iphone6 single CPU: 2.8 GFLOPS (理論値)
➢ Intel core i7-6850K single CPU: 14.4 GFLOPS (理論値)
Analysis Conversion Synthesis Other Total
Benchmark 0.21 3.04 16.80 0.30 20.4
Proposed 0.74 0.37 1.05 0.30 2.5
単位はGFLOPS
350 % 12 % 6% 12 %
/16処理時間の計測 12
1CPUでRTF < 1 を達成し,リアルタイム動作を確認
❑ RTFによる評価
▪ 1フレームごとの処理時間を算出し,波形の長さ (5 ms) で除算
▪ 全フレームでのRTFの平均値を算出
Analysis Conversion Synthesis Other Total
Benchmark 0.02 0.33 2.82 0.06 3.23
Proposed 0.16 0.14 0.22 0.06 0.58
800 % 42 % 8% 18 %
/16オンライン・オフラインの品質比較 13
Online Score Offline [佐伯20]
m2m 0.493 0.507 m2m
f2f 0.487 0.513 f2f
Online Score Offline [佐伯20]
m2m 0.483 0.517 m2m
f2f 0.510 0.490 f2f
Speaker similarity
Speech quality
❑ Online実装とOffline実装 [佐伯20]の品質を主観評価実験により比較
▪ 各ケース30人の評価者
• 話者性についてのXABテスト,音質についてのABテスト
オンライン変換 vs. オフライン変換に有意差なく,変換音声の品質は同等
/16変換音声品質の絶対評価 14
❑ 自然性をmean opinion score (MOS) により評価
▪ 同性間・異性間変換の各ケースにつき40人の聴取者が評価
提案するreal-time VCのMOSはbenchmarkより有意に高く,3.5程度
Error bar: 95 % confidence interval
/16デモ 15
Source Target
Narrow
band
Benchmark Proposed
Intra-gender
(f2f)
Cross-gender
(m2f)
/16まとめ 16
❑ 研究目的
▪ 高音質なリアルタイム広帯域DNN声質変換の実現
❑ 手法
▪ サブバンド処理により低域 (0-8 kHz) のみをモデル化・変換 [佐伯20]
▪ 低域変換の際にフィルタ打ち切りを行うことで計算量削減 [Saeki20]
▪ リアルタイム・オンライン処理のための実装 & F0変換機構
❑ 評価結果
▪ 計算量の概算の結果,2.5 GFLOPS程度で広帯域音声を変換可能
▪ RTF計測の結果,1CPUでのリアルタイム動作を確認
▪ Online変換でも,offline変換 [佐伯20]と同等品質の変換音声を出力可能
▪ そのまま帯域拡張したケース (Benchmark) より有意に高い自然性
❑ 今後の課題
▪ 実環境での頑健性の検討
▪ さらなる変換音声品質の改善

More Related Content

What's hot

JVS:フリーの日本語多数話者音声コーパス
JVS:フリーの日本語多数話者音声コーパス JVS:フリーの日本語多数話者音声コーパス
JVS:フリーの日本語多数話者音声コーパス Shinnosuke Takamichi
 
雑音環境下音声を用いた音声合成のための雑音生成モデルの敵対的学習
雑音環境下音声を用いた音声合成のための雑音生成モデルの敵対的学習雑音環境下音声を用いた音声合成のための雑音生成モデルの敵対的学習
雑音環境下音声を用いた音声合成のための雑音生成モデルの敵対的学習Shinnosuke Takamichi
 
論文紹介 Unsupervised training of neural mask-based beamforming
論文紹介 Unsupervised training of neural  mask-based beamforming論文紹介 Unsupervised training of neural  mask-based beamforming
論文紹介 Unsupervised training of neural mask-based beamformingShinnosuke Takamichi
 
距離学習を導入した二値分類モデルによる異常音検知
距離学習を導入した二値分類モデルによる異常音検知距離学習を導入した二値分類モデルによる異常音検知
距離学習を導入した二値分類モデルによる異常音検知NU_I_TODALAB
 
音情報処理における特徴表現
音情報処理における特徴表現音情報処理における特徴表現
音情報処理における特徴表現NU_I_TODALAB
 
差分スペクトル法に基づく DNN 声質変換の計算量削減に向けたフィルタ推定
差分スペクトル法に基づく DNN 声質変換の計算量削減に向けたフィルタ推定差分スペクトル法に基づく DNN 声質変換の計算量削減に向けたフィルタ推定
差分スペクトル法に基づく DNN 声質変換の計算量削減に向けたフィルタ推定Shinnosuke Takamichi
 
実環境音響信号処理における収音技術
実環境音響信号処理における収音技術実環境音響信号処理における収音技術
実環境音響信号処理における収音技術Yuma Koizumi
 
Nakai22sp03 presentation
Nakai22sp03 presentationNakai22sp03 presentation
Nakai22sp03 presentationYuki Saito
 
ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)
ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)
ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)Shinnosuke Takamichi
 
z変換をやさしく教えて下さい (音響学入門ペディア)
z変換をやさしく教えて下さい (音響学入門ペディア)z変換をやさしく教えて下さい (音響学入門ペディア)
z変換をやさしく教えて下さい (音響学入門ペディア)Shinnosuke Takamichi
 
ICASSP 2019での音響信号処理分野の世界動向
ICASSP 2019での音響信号処理分野の世界動向ICASSP 2019での音響信号処理分野の世界動向
ICASSP 2019での音響信号処理分野の世界動向Yuma Koizumi
 
高効率音声符号化―MP3詳解―
高効率音声符号化―MP3詳解―高効率音声符号化―MP3詳解―
高効率音声符号化―MP3詳解―Akinori Ito
 
日本音響学会2017秋 ”Moment-matching networkに基づく一期一会音声合成における発話間変動の評価”
日本音響学会2017秋 ”Moment-matching networkに基づく一期一会音声合成における発話間変動の評価”日本音響学会2017秋 ”Moment-matching networkに基づく一期一会音声合成における発話間変動の評価”
日本音響学会2017秋 ”Moment-matching networkに基づく一期一会音声合成における発話間変動の評価”Shinnosuke Takamichi
 
音源分離における音響モデリング(Acoustic modeling in audio source separation)
音源分離における音響モデリング(Acoustic modeling in audio source separation)音源分離における音響モデリング(Acoustic modeling in audio source separation)
音源分離における音響モデリング(Acoustic modeling in audio source separation)Daichi Kitamura
 
深層学習に基づく音響特徴量からの振幅スペクトログラム予測
深層学習に基づく音響特徴量からの振幅スペクトログラム予測深層学習に基づく音響特徴量からの振幅スペクトログラム予測
深層学習に基づく音響特徴量からの振幅スペクトログラム予測Kitamura Laboratory
 
深層学習を利用した音声強調
深層学習を利用した音声強調深層学習を利用した音声強調
深層学習を利用した音声強調Yuma Koizumi
 
GAN-based statistical speech synthesis (in Japanese)
GAN-based statistical speech synthesis (in Japanese)GAN-based statistical speech synthesis (in Japanese)
GAN-based statistical speech synthesis (in Japanese)Yuki Saito
 
深層学習と音響信号処理
深層学習と音響信号処理深層学習と音響信号処理
深層学習と音響信号処理Yuma Koizumi
 
音声感情認識の分野動向と実用化に向けたNTTの取り組み
音声感情認識の分野動向と実用化に向けたNTTの取り組み音声感情認識の分野動向と実用化に向けたNTTの取り組み
音声感情認識の分野動向と実用化に向けたNTTの取り組みAtsushi_Ando
 
[DL輪読会]Discriminative Learning for Monaural Speech Separation Using Deep Embe...
[DL輪読会]Discriminative Learning for Monaural Speech Separation Using Deep Embe...[DL輪読会]Discriminative Learning for Monaural Speech Separation Using Deep Embe...
[DL輪読会]Discriminative Learning for Monaural Speech Separation Using Deep Embe...Deep Learning JP
 

What's hot (20)

JVS:フリーの日本語多数話者音声コーパス
JVS:フリーの日本語多数話者音声コーパス JVS:フリーの日本語多数話者音声コーパス
JVS:フリーの日本語多数話者音声コーパス
 
雑音環境下音声を用いた音声合成のための雑音生成モデルの敵対的学習
雑音環境下音声を用いた音声合成のための雑音生成モデルの敵対的学習雑音環境下音声を用いた音声合成のための雑音生成モデルの敵対的学習
雑音環境下音声を用いた音声合成のための雑音生成モデルの敵対的学習
 
論文紹介 Unsupervised training of neural mask-based beamforming
論文紹介 Unsupervised training of neural  mask-based beamforming論文紹介 Unsupervised training of neural  mask-based beamforming
論文紹介 Unsupervised training of neural mask-based beamforming
 
距離学習を導入した二値分類モデルによる異常音検知
距離学習を導入した二値分類モデルによる異常音検知距離学習を導入した二値分類モデルによる異常音検知
距離学習を導入した二値分類モデルによる異常音検知
 
音情報処理における特徴表現
音情報処理における特徴表現音情報処理における特徴表現
音情報処理における特徴表現
 
差分スペクトル法に基づく DNN 声質変換の計算量削減に向けたフィルタ推定
差分スペクトル法に基づく DNN 声質変換の計算量削減に向けたフィルタ推定差分スペクトル法に基づく DNN 声質変換の計算量削減に向けたフィルタ推定
差分スペクトル法に基づく DNN 声質変換の計算量削減に向けたフィルタ推定
 
実環境音響信号処理における収音技術
実環境音響信号処理における収音技術実環境音響信号処理における収音技術
実環境音響信号処理における収音技術
 
Nakai22sp03 presentation
Nakai22sp03 presentationNakai22sp03 presentation
Nakai22sp03 presentation
 
ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)
ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)
ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)
 
z変換をやさしく教えて下さい (音響学入門ペディア)
z変換をやさしく教えて下さい (音響学入門ペディア)z変換をやさしく教えて下さい (音響学入門ペディア)
z変換をやさしく教えて下さい (音響学入門ペディア)
 
ICASSP 2019での音響信号処理分野の世界動向
ICASSP 2019での音響信号処理分野の世界動向ICASSP 2019での音響信号処理分野の世界動向
ICASSP 2019での音響信号処理分野の世界動向
 
高効率音声符号化―MP3詳解―
高効率音声符号化―MP3詳解―高効率音声符号化―MP3詳解―
高効率音声符号化―MP3詳解―
 
日本音響学会2017秋 ”Moment-matching networkに基づく一期一会音声合成における発話間変動の評価”
日本音響学会2017秋 ”Moment-matching networkに基づく一期一会音声合成における発話間変動の評価”日本音響学会2017秋 ”Moment-matching networkに基づく一期一会音声合成における発話間変動の評価”
日本音響学会2017秋 ”Moment-matching networkに基づく一期一会音声合成における発話間変動の評価”
 
音源分離における音響モデリング(Acoustic modeling in audio source separation)
音源分離における音響モデリング(Acoustic modeling in audio source separation)音源分離における音響モデリング(Acoustic modeling in audio source separation)
音源分離における音響モデリング(Acoustic modeling in audio source separation)
 
深層学習に基づく音響特徴量からの振幅スペクトログラム予測
深層学習に基づく音響特徴量からの振幅スペクトログラム予測深層学習に基づく音響特徴量からの振幅スペクトログラム予測
深層学習に基づく音響特徴量からの振幅スペクトログラム予測
 
深層学習を利用した音声強調
深層学習を利用した音声強調深層学習を利用した音声強調
深層学習を利用した音声強調
 
GAN-based statistical speech synthesis (in Japanese)
GAN-based statistical speech synthesis (in Japanese)GAN-based statistical speech synthesis (in Japanese)
GAN-based statistical speech synthesis (in Japanese)
 
深層学習と音響信号処理
深層学習と音響信号処理深層学習と音響信号処理
深層学習と音響信号処理
 
音声感情認識の分野動向と実用化に向けたNTTの取り組み
音声感情認識の分野動向と実用化に向けたNTTの取り組み音声感情認識の分野動向と実用化に向けたNTTの取り組み
音声感情認識の分野動向と実用化に向けたNTTの取り組み
 
[DL輪読会]Discriminative Learning for Monaural Speech Separation Using Deep Embe...
[DL輪読会]Discriminative Learning for Monaural Speech Separation Using Deep Embe...[DL輪読会]Discriminative Learning for Monaural Speech Separation Using Deep Embe...
[DL輪読会]Discriminative Learning for Monaural Speech Separation Using Deep Embe...
 

Similar to サブバンドフィルタリングに基づくリアルタイム広帯域DNN声質変換の実装と評価

多目的な音声伝送システム MRATの開発
多目的な音声伝送システムMRATの開発多目的な音声伝送システムMRATの開発
多目的な音声伝送システム MRATの開発Takashi Kishida
 
ICASSP2019音声&音響論文読み会 論文紹介(認識系)
ICASSP2019音声&音響論文読み会 論文紹介(認識系)ICASSP2019音声&音響論文読み会 論文紹介(認識系)
ICASSP2019音声&音響論文読み会 論文紹介(認識系)貴史 益子
 
Icassp2018 発表参加報告 FFTNet, Tactron2紹介
Icassp2018 発表参加報告 FFTNet, Tactron2紹介Icassp2018 発表参加報告 FFTNet, Tactron2紹介
Icassp2018 発表参加報告 FFTNet, Tactron2紹介Kentaro Tachibana
 
MPSoCのPLの性能について
MPSoCのPLの性能についてMPSoCのPLの性能について
MPSoCのPLの性能についてmarsee101
 
深層ガウス過程音声合成におけるsequence-to-sequence学習の初期検討
深層ガウス過程音声合成におけるsequence-to-sequence学習の初期検討 深層ガウス過程音声合成におけるsequence-to-sequence学習の初期検討
深層ガウス過程音声合成におけるsequence-to-sequence学習の初期検討 TaikiNakamura
 
AnnoTone: 高周波音の映像収録時 埋め込みによる編集支援
AnnoTone: 高周波音の映像収録時埋め込みによる編集支援AnnoTone: 高周波音の映像収録時埋め込みによる編集支援
AnnoTone: 高周波音の映像収録時 埋め込みによる編集支援Ryohei Suzuki
 
インターネット上の多目的な 音声伝送システムに関する研究
インターネット上の多目的な音声伝送システムに関する研究インターネット上の多目的な音声伝送システムに関する研究
インターネット上の多目的な 音声伝送システムに関する研究Takashi Kishida
 
A convolutional encoder model for neural machine translation
A convolutional encoder model for neural machine translationA convolutional encoder model for neural machine translation
A convolutional encoder model for neural machine translationSatoru Katsumata
 
NSG フローログを支える技術 - NVF Advanced Flow Logging
NSG フローログを支える技術 - NVF Advanced Flow LoggingNSG フローログを支える技術 - NVF Advanced Flow Logging
NSG フローログを支える技術 - NVF Advanced Flow Logging順也 山口
 
差分スペクトル法に基づくDNN声質変換のためのリフタ学習およびサブバンド処理
差分スペクトル法に基づくDNN声質変換のためのリフタ学習およびサブバンド処理差分スペクトル法に基づくDNN声質変換のためのリフタ学習およびサブバンド処理
差分スペクトル法に基づくDNN声質変換のためのリフタ学習およびサブバンド処理Takaaki Saeki
 

Similar to サブバンドフィルタリングに基づくリアルタイム広帯域DNN声質変換の実装と評価 (12)

多目的な音声伝送システム MRATの開発
多目的な音声伝送システムMRATの開発多目的な音声伝送システムMRATの開発
多目的な音声伝送システム MRATの開発
 
ICASSP2019音声&音響論文読み会 論文紹介(認識系)
ICASSP2019音声&音響論文読み会 論文紹介(認識系)ICASSP2019音声&音響論文読み会 論文紹介(認識系)
ICASSP2019音声&音響論文読み会 論文紹介(認識系)
 
Icassp2018 発表参加報告 FFTNet, Tactron2紹介
Icassp2018 発表参加報告 FFTNet, Tactron2紹介Icassp2018 発表参加報告 FFTNet, Tactron2紹介
Icassp2018 発表参加報告 FFTNet, Tactron2紹介
 
MPSoCのPLの性能について
MPSoCのPLの性能についてMPSoCのPLの性能について
MPSoCのPLの性能について
 
深層ガウス過程音声合成におけるsequence-to-sequence学習の初期検討
深層ガウス過程音声合成におけるsequence-to-sequence学習の初期検討 深層ガウス過程音声合成におけるsequence-to-sequence学習の初期検討
深層ガウス過程音声合成におけるsequence-to-sequence学習の初期検討
 
M1 gpプレゼン
M1 gpプレゼンM1 gpプレゼン
M1 gpプレゼン
 
AnnoTone: 高周波音の映像収録時 埋め込みによる編集支援
AnnoTone: 高周波音の映像収録時埋め込みによる編集支援AnnoTone: 高周波音の映像収録時埋め込みによる編集支援
AnnoTone: 高周波音の映像収録時 埋め込みによる編集支援
 
Agreement for rnn
Agreement for rnnAgreement for rnn
Agreement for rnn
 
インターネット上の多目的な 音声伝送システムに関する研究
インターネット上の多目的な音声伝送システムに関する研究インターネット上の多目的な音声伝送システムに関する研究
インターネット上の多目的な 音声伝送システムに関する研究
 
A convolutional encoder model for neural machine translation
A convolutional encoder model for neural machine translationA convolutional encoder model for neural machine translation
A convolutional encoder model for neural machine translation
 
NSG フローログを支える技術 - NVF Advanced Flow Logging
NSG フローログを支える技術 - NVF Advanced Flow LoggingNSG フローログを支える技術 - NVF Advanced Flow Logging
NSG フローログを支える技術 - NVF Advanced Flow Logging
 
差分スペクトル法に基づくDNN声質変換のためのリフタ学習およびサブバンド処理
差分スペクトル法に基づくDNN声質変換のためのリフタ学習およびサブバンド処理差分スペクトル法に基づくDNN声質変換のためのリフタ学習およびサブバンド処理
差分スペクトル法に基づくDNN声質変換のためのリフタ学習およびサブバンド処理
 

More from Shinnosuke Takamichi

JTubeSpeech: 音声認識と話者照合のために YouTube から構築される日本語音声コーパス
JTubeSpeech:  音声認識と話者照合のために YouTube から構築される日本語音声コーパスJTubeSpeech:  音声認識と話者照合のために YouTube から構築される日本語音声コーパス
JTubeSpeech: 音声認識と話者照合のために YouTube から構築される日本語音声コーパスShinnosuke Takamichi
 
音声合成のコーパスをつくろう
音声合成のコーパスをつくろう音声合成のコーパスをつくろう
音声合成のコーパスをつくろうShinnosuke Takamichi
 
J-KAC:日本語オーディオブック・紙芝居朗読音声コーパス
J-KAC:日本語オーディオブック・紙芝居朗読音声コーパスJ-KAC:日本語オーディオブック・紙芝居朗読音声コーパス
J-KAC:日本語オーディオブック・紙芝居朗読音声コーパスShinnosuke Takamichi
 
短時間発話を用いた話者照合のための音声加工の効果に関する検討
短時間発話を用いた話者照合のための音声加工の効果に関する検討短時間発話を用いた話者照合のための音声加工の効果に関する検討
短時間発話を用いた話者照合のための音声加工の効果に関する検討Shinnosuke Takamichi
 
国際会議 interspeech 2020 報告
国際会議 interspeech 2020 報告国際会議 interspeech 2020 報告
国際会議 interspeech 2020 報告Shinnosuke Takamichi
 
Interspeech 2020 読み会 "Incremental Text to Speech for Neural Sequence-to-Sequ...
Interspeech 2020 読み会 "Incremental Text to Speech for Neural  Sequence-to-Sequ...Interspeech 2020 読み会 "Incremental Text to Speech for Neural  Sequence-to-Sequ...
Interspeech 2020 読み会 "Incremental Text to Speech for Neural Sequence-to-Sequ...Shinnosuke Takamichi
 
P J S: 音素バランスを考慮した日本語歌声コーパス
P J S: 音素バランスを考慮した日本語歌声コーパスP J S: 音素バランスを考慮した日本語歌声コーパス
P J S: 音素バランスを考慮した日本語歌声コーパスShinnosuke Takamichi
 
音響モデル尤度に基づくsubword分割の韻律推定精度における評価
音響モデル尤度に基づくsubword分割の韻律推定精度における評価音響モデル尤度に基づくsubword分割の韻律推定精度における評価
音響モデル尤度に基づくsubword分割の韻律推定精度における評価Shinnosuke Takamichi
 
音声合成研究を加速させるためのコーパスデザイン
音声合成研究を加速させるためのコーパスデザイン音声合成研究を加速させるためのコーパスデザイン
音声合成研究を加速させるためのコーパスデザインShinnosuke Takamichi
 
論文紹介 Building the Singapore English National Speech Corpus
論文紹介 Building the Singapore English National Speech Corpus論文紹介 Building the Singapore English National Speech Corpus
論文紹介 Building the Singapore English National Speech CorpusShinnosuke Takamichi
 
論文紹介 SANTLR: Speech Annotation Toolkit for Low Resource Languages
論文紹介 SANTLR: Speech Annotation Toolkit for Low Resource Languages論文紹介 SANTLR: Speech Annotation Toolkit for Low Resource Languages
論文紹介 SANTLR: Speech Annotation Toolkit for Low Resource LanguagesShinnosuke Takamichi
 
話者V2S攻撃: 話者認証から構築される 声質変換とその音声なりすまし可能性の評価
話者V2S攻撃: 話者認証から構築される 声質変換とその音声なりすまし可能性の評価話者V2S攻撃: 話者認証から構築される 声質変換とその音声なりすまし可能性の評価
話者V2S攻撃: 話者認証から構築される 声質変換とその音声なりすまし可能性の評価Shinnosuke Takamichi
 
音声合成・変換の国際コンペティションへの 参加を振り返って
音声合成・変換の国際コンペティションへの  参加を振り返って音声合成・変換の国際コンペティションへの  参加を振り返って
音声合成・変換の国際コンペティションへの 参加を振り返ってShinnosuke Takamichi
 
ユーザ歌唱のための generative moment matching network に基づく neural double-tracking
ユーザ歌唱のための generative moment matching network に基づく neural double-trackingユーザ歌唱のための generative moment matching network に基づく neural double-tracking
ユーザ歌唱のための generative moment matching network に基づく neural double-trackingShinnosuke Takamichi
 
End-to-end 韻律推定に向けた DNN 音響モデルに基づく subword 分割
End-to-end 韻律推定に向けた DNN 音響モデルに基づく subword 分割End-to-end 韻律推定に向けた DNN 音響モデルに基づく subword 分割
End-to-end 韻律推定に向けた DNN 音響モデルに基づく subword 分割Shinnosuke Takamichi
 
統計的ボイチェン研究事情
統計的ボイチェン研究事情統計的ボイチェン研究事情
統計的ボイチェン研究事情Shinnosuke Takamichi
 
テキスト音声合成技術と多様性への挑戦 (名古屋大学 知能システム特論)
テキスト音声合成技術と多様性への挑戦 (名古屋大学 知能システム特論)テキスト音声合成技術と多様性への挑戦 (名古屋大学 知能システム特論)
テキスト音声合成技術と多様性への挑戦 (名古屋大学 知能システム特論)Shinnosuke Takamichi
 
音声コーパス設計と次世代音声研究に向けた提言
音声コーパス設計と次世代音声研究に向けた提言音声コーパス設計と次世代音声研究に向けた提言
音声コーパス設計と次世代音声研究に向けた提言Shinnosuke Takamichi
 
多様なカートシスを持つ雑音に対応した低ミュージカルノイズ DNN 音声強調
多様なカートシスを持つ雑音に対応した低ミュージカルノイズ DNN 音声強調多様なカートシスを持つ雑音に対応した低ミュージカルノイズ DNN 音声強調
多様なカートシスを持つ雑音に対応した低ミュージカルノイズ DNN 音声強調Shinnosuke Takamichi
 
End-to-end 韻律推定に向けた subword lattice 構造を考慮した DNN 音響モデル学習
End-to-end 韻律推定に向けた subword lattice 構造を考慮した DNN 音響モデル学習End-to-end 韻律推定に向けた subword lattice 構造を考慮した DNN 音響モデル学習
End-to-end 韻律推定に向けた subword lattice 構造を考慮した DNN 音響モデル学習Shinnosuke Takamichi
 

More from Shinnosuke Takamichi (20)

JTubeSpeech: 音声認識と話者照合のために YouTube から構築される日本語音声コーパス
JTubeSpeech:  音声認識と話者照合のために YouTube から構築される日本語音声コーパスJTubeSpeech:  音声認識と話者照合のために YouTube から構築される日本語音声コーパス
JTubeSpeech: 音声認識と話者照合のために YouTube から構築される日本語音声コーパス
 
音声合成のコーパスをつくろう
音声合成のコーパスをつくろう音声合成のコーパスをつくろう
音声合成のコーパスをつくろう
 
J-KAC:日本語オーディオブック・紙芝居朗読音声コーパス
J-KAC:日本語オーディオブック・紙芝居朗読音声コーパスJ-KAC:日本語オーディオブック・紙芝居朗読音声コーパス
J-KAC:日本語オーディオブック・紙芝居朗読音声コーパス
 
短時間発話を用いた話者照合のための音声加工の効果に関する検討
短時間発話を用いた話者照合のための音声加工の効果に関する検討短時間発話を用いた話者照合のための音声加工の効果に関する検討
短時間発話を用いた話者照合のための音声加工の効果に関する検討
 
国際会議 interspeech 2020 報告
国際会議 interspeech 2020 報告国際会議 interspeech 2020 報告
国際会議 interspeech 2020 報告
 
Interspeech 2020 読み会 "Incremental Text to Speech for Neural Sequence-to-Sequ...
Interspeech 2020 読み会 "Incremental Text to Speech for Neural  Sequence-to-Sequ...Interspeech 2020 読み会 "Incremental Text to Speech for Neural  Sequence-to-Sequ...
Interspeech 2020 読み会 "Incremental Text to Speech for Neural Sequence-to-Sequ...
 
P J S: 音素バランスを考慮した日本語歌声コーパス
P J S: 音素バランスを考慮した日本語歌声コーパスP J S: 音素バランスを考慮した日本語歌声コーパス
P J S: 音素バランスを考慮した日本語歌声コーパス
 
音響モデル尤度に基づくsubword分割の韻律推定精度における評価
音響モデル尤度に基づくsubword分割の韻律推定精度における評価音響モデル尤度に基づくsubword分割の韻律推定精度における評価
音響モデル尤度に基づくsubword分割の韻律推定精度における評価
 
音声合成研究を加速させるためのコーパスデザイン
音声合成研究を加速させるためのコーパスデザイン音声合成研究を加速させるためのコーパスデザイン
音声合成研究を加速させるためのコーパスデザイン
 
論文紹介 Building the Singapore English National Speech Corpus
論文紹介 Building the Singapore English National Speech Corpus論文紹介 Building the Singapore English National Speech Corpus
論文紹介 Building the Singapore English National Speech Corpus
 
論文紹介 SANTLR: Speech Annotation Toolkit for Low Resource Languages
論文紹介 SANTLR: Speech Annotation Toolkit for Low Resource Languages論文紹介 SANTLR: Speech Annotation Toolkit for Low Resource Languages
論文紹介 SANTLR: Speech Annotation Toolkit for Low Resource Languages
 
話者V2S攻撃: 話者認証から構築される 声質変換とその音声なりすまし可能性の評価
話者V2S攻撃: 話者認証から構築される 声質変換とその音声なりすまし可能性の評価話者V2S攻撃: 話者認証から構築される 声質変換とその音声なりすまし可能性の評価
話者V2S攻撃: 話者認証から構築される 声質変換とその音声なりすまし可能性の評価
 
音声合成・変換の国際コンペティションへの 参加を振り返って
音声合成・変換の国際コンペティションへの  参加を振り返って音声合成・変換の国際コンペティションへの  参加を振り返って
音声合成・変換の国際コンペティションへの 参加を振り返って
 
ユーザ歌唱のための generative moment matching network に基づく neural double-tracking
ユーザ歌唱のための generative moment matching network に基づく neural double-trackingユーザ歌唱のための generative moment matching network に基づく neural double-tracking
ユーザ歌唱のための generative moment matching network に基づく neural double-tracking
 
End-to-end 韻律推定に向けた DNN 音響モデルに基づく subword 分割
End-to-end 韻律推定に向けた DNN 音響モデルに基づく subword 分割End-to-end 韻律推定に向けた DNN 音響モデルに基づく subword 分割
End-to-end 韻律推定に向けた DNN 音響モデルに基づく subword 分割
 
統計的ボイチェン研究事情
統計的ボイチェン研究事情統計的ボイチェン研究事情
統計的ボイチェン研究事情
 
テキスト音声合成技術と多様性への挑戦 (名古屋大学 知能システム特論)
テキスト音声合成技術と多様性への挑戦 (名古屋大学 知能システム特論)テキスト音声合成技術と多様性への挑戦 (名古屋大学 知能システム特論)
テキスト音声合成技術と多様性への挑戦 (名古屋大学 知能システム特論)
 
音声コーパス設計と次世代音声研究に向けた提言
音声コーパス設計と次世代音声研究に向けた提言音声コーパス設計と次世代音声研究に向けた提言
音声コーパス設計と次世代音声研究に向けた提言
 
多様なカートシスを持つ雑音に対応した低ミュージカルノイズ DNN 音声強調
多様なカートシスを持つ雑音に対応した低ミュージカルノイズ DNN 音声強調多様なカートシスを持つ雑音に対応した低ミュージカルノイズ DNN 音声強調
多様なカートシスを持つ雑音に対応した低ミュージカルノイズ DNN 音声強調
 
End-to-end 韻律推定に向けた subword lattice 構造を考慮した DNN 音響モデル学習
End-to-end 韻律推定に向けた subword lattice 構造を考慮した DNN 音響モデル学習End-to-end 韻律推定に向けた subword lattice 構造を考慮した DNN 音響モデル学習
End-to-end 韻律推定に向けた subword lattice 構造を考慮した DNN 音響モデル学習
 

Recently uploaded

Postman LT Fukuoka_Quick Prototype_By Daniel
Postman LT Fukuoka_Quick Prototype_By DanielPostman LT Fukuoka_Quick Prototype_By Daniel
Postman LT Fukuoka_Quick Prototype_By Danieldanielhu54
 
TSAL operation mechanism and circuit diagram.pdf
TSAL operation mechanism and circuit diagram.pdfTSAL operation mechanism and circuit diagram.pdf
TSAL operation mechanism and circuit diagram.pdftaisei2219
 
SOPを理解する 2024/04/19 の勉強会で発表されたものです
SOPを理解する       2024/04/19 の勉強会で発表されたものですSOPを理解する       2024/04/19 の勉強会で発表されたものです
SOPを理解する 2024/04/19 の勉強会で発表されたものですiPride Co., Ltd.
 
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)Hiroki Ichikura
 
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略Ryo Sasaki
 
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介Yuma Ohgami
 
論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A survey論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A surveyToru Tamaki
 
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...Toru Tamaki
 
論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNet論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNetToru Tamaki
 
スマートフォンを用いた新生児あやし動作の教示システム
スマートフォンを用いた新生児あやし動作の教示システムスマートフォンを用いた新生児あやし動作の教示システム
スマートフォンを用いた新生児あやし動作の教示システムsugiuralab
 

Recently uploaded (10)

Postman LT Fukuoka_Quick Prototype_By Daniel
Postman LT Fukuoka_Quick Prototype_By DanielPostman LT Fukuoka_Quick Prototype_By Daniel
Postman LT Fukuoka_Quick Prototype_By Daniel
 
TSAL operation mechanism and circuit diagram.pdf
TSAL operation mechanism and circuit diagram.pdfTSAL operation mechanism and circuit diagram.pdf
TSAL operation mechanism and circuit diagram.pdf
 
SOPを理解する 2024/04/19 の勉強会で発表されたものです
SOPを理解する       2024/04/19 の勉強会で発表されたものですSOPを理解する       2024/04/19 の勉強会で発表されたものです
SOPを理解する 2024/04/19 の勉強会で発表されたものです
 
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
 
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
 
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
 
論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A survey論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A survey
 
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
 
論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNet論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNet
 
スマートフォンを用いた新生児あやし動作の教示システム
スマートフォンを用いた新生児あやし動作の教示システムスマートフォンを用いた新生児あやし動作の教示システム
スマートフォンを用いた新生児あやし動作の教示システム
 

サブバンドフィルタリングに基づくリアルタイム広帯域DNN声質変換の実装と評価

  • 2. /16本発表の概要 ❑ 背景 ▪ 声質変換では,話者再現度だけでなくリアルタイム性・音質が重要 ▪ 従来のリアルタイム声質変換では,狭帯域 (16 kHz) 音声のみ変換可能 ▪ 高音質なフルバンド (48 kHz) リアルタイム声質変換の実現が目的 ❑ 手法 ▪ サブバンド処理により低域 (0-8 kHz) のみをモデル化・変換 [佐伯20] ▪ 低域変換の際にフィルタ打ち切りを行うことで計算量削減 [Saeki20] ▪ リアルタイム・オンライン処理のための実装 & F0変換機構 ❑ 評価結果 ▪ 計算効率の評価の結果,1CPUでのリアルタイム動作を確認 ▪ 変換音声の品質評価の結果,Benchmark手法より有意に高い自然性 2
  • 3. /16既存のリアルタイム声質変換の課題 ❑ 従来のリアルタイム声質変換 [Toda12][Arakawa19] ▪ 変換された音響特徴量から信号処理に基づくボコーダで波形生成 ▪ 狭帯域 (16 kHz) 音声を遅延50 ms程度で変換可能 ▪ 信号処理に基づくボコーダによるアーティファクト ▪ 変換可能な帯域幅が狭く,変換音声が低音質 3 ConversionAnalysis Synthesis Source feature Converted feature Narrow-band source speech Narrow-band converted speech
  • 4. /16本研究でのアプローチ ❑ 差分スペクトル法に基づく声質変換 [Kobayashi18] ▪ ボコーダを用いず,波形領域でのフィルタリングにより変換 ▪ 帯域拡張すると品質・計算量面で問題 ➢ サブバンドフィルタリングによる解決法を提案 [Saeki20] 4 ⊗ Full-band source speech Full-band converted speech DNN Convolution Analysis 𝐶(𝑋) 𝐶(𝐷) 𝑓(𝐷) Real cepstrum of source speech Real cepstrum of Differential filter Differential filter in time domain
  • 5. /16サブバンドフィルタリングによる広帯域声質変換 [佐伯20] ❑ サブバンド処理により,0-8 kHzのみをモデル化・変換 [佐伯20] ▪ 変動の大きい高域をそのまま使うことで,変換音声の音質を向上 ▪ フィルタをかける波形のサンプル数が減り,計算量を削減 ❑ フィルタのタップ長を短く打ち切ることで,さらに計算量削減 [Saeki20] 5 Pass through ⊗ 0-8 kHz 8-24 kHz DNN Short-tap truncated filter Convolution 0-24 kHz 0-24 kHz 𝑪(𝑿) 𝑪(𝐷) 𝒇(𝑙)
  • 6. /16リアルタイム・オンライン広帯域声質変換 6 Offline変換 (発話ごとに処理) [佐伯20] Online変換 (フレームごとに処理) ❑ サブバンドフィルタリングによる声質変換はオフライン変換を想定 ❑ リアルタイムフルバンド声質変換のためのオンライン実装 Sub-band analysis Conversion 0 -8 kHz 8 -2 4 kHz Pass throug h Sub-band synthesis Sub-band analysis Pass throug hConversion 0 -8 kHz 8 -2 4 kHz Sub-band synthesis
  • 7. /16提案するシステムの主要部 7 ❑ 分析部: 変換元話者の音声をサブバンド処理し,低域から特徴量抽出 ❑ 変換部: DNNでケプストラム変換し,差分フィルタを推定 ❑ 合成部: 変換先話者の音声波形を得る � ( ) � ( ) 0 -8 kHz 8 -2 4 kHz Processing each fram e within 5 m s DNN Pass throug h ⊗ � ( ) Filtering wind ow shift
  • 8. /16その他の部分 8 ❑ F0変換: 入力波形を一定F0比だけPICOLA [森田1986] でピッチシフト ❑ 特徴量分析時にプリエンファシスを適用 � ( ) � ( ) 0 -8 kHz 8 -2 4 kHz Processing each fram e within 5 m s DNN Pass throug h ⊗ � ( ) Filtering window shift F0 transform ation. Pre-em p hasis De-em p hasis
  • 10. /16評価の概要 10 Evaluation cases male-to-male (m2m), female-to-female (f2f) female-to-male (f2m), male-to-female (m2f) Dataset f2f: JSUTcorpus [Sonobe17] Voice Actress corpus [y_benjo17] m2m, f2m, m2f: JVS corpus [Takamichi19] Train / Valid / Test 80 sentences / 10 sentences / 10 sentences DFT length Proposed: 512 samples Benchmark: 2048 samples DNN architecture Multi layer perceptron with 2 hidden layers CPU Intel (R) core (TM) i7-6850K CPU @ 3.60 GHz ❑ Proposed methodとBenchmarkを比較 ▪ Benchmark: 差分スペクトル法を広帯域音声に帯域分割なしで適用 ❑ 評価内容 ▪ 計算効率: FLOPSによる計算量概算 & Real-time factor (RTF) 計測 ▪ 変換音声品質: 主観評価実験
  • 11. /16計算量の評価 11 ❑ FLOPS: 1秒間に浮動小数点演算が何回行えるかという指標 ❑ 1秒間のフルバンド音声を処理するのにかかる計算量をFLOPS単位で概算 ❑ 理論上はモバイル端末でもリアルタイム変換が可能 ➢ Iphone6 single CPU: 2.8 GFLOPS (理論値) ➢ Intel core i7-6850K single CPU: 14.4 GFLOPS (理論値) Analysis Conversion Synthesis Other Total Benchmark 0.21 3.04 16.80 0.30 20.4 Proposed 0.74 0.37 1.05 0.30 2.5 単位はGFLOPS 350 % 12 % 6% 12 %
  • 12. /16処理時間の計測 12 1CPUでRTF < 1 を達成し,リアルタイム動作を確認 ❑ RTFによる評価 ▪ 1フレームごとの処理時間を算出し,波形の長さ (5 ms) で除算 ▪ 全フレームでのRTFの平均値を算出 Analysis Conversion Synthesis Other Total Benchmark 0.02 0.33 2.82 0.06 3.23 Proposed 0.16 0.14 0.22 0.06 0.58 800 % 42 % 8% 18 %
  • 13. /16オンライン・オフラインの品質比較 13 Online Score Offline [佐伯20] m2m 0.493 0.507 m2m f2f 0.487 0.513 f2f Online Score Offline [佐伯20] m2m 0.483 0.517 m2m f2f 0.510 0.490 f2f Speaker similarity Speech quality ❑ Online実装とOffline実装 [佐伯20]の品質を主観評価実験により比較 ▪ 各ケース30人の評価者 • 話者性についてのXABテスト,音質についてのABテスト オンライン変換 vs. オフライン変換に有意差なく,変換音声の品質は同等
  • 14. /16変換音声品質の絶対評価 14 ❑ 自然性をmean opinion score (MOS) により評価 ▪ 同性間・異性間変換の各ケースにつき40人の聴取者が評価 提案するreal-time VCのMOSはbenchmarkより有意に高く,3.5程度 Error bar: 95 % confidence interval
  • 15. /16デモ 15 Source Target Narrow band Benchmark Proposed Intra-gender (f2f) Cross-gender (m2f)
  • 16. /16まとめ 16 ❑ 研究目的 ▪ 高音質なリアルタイム広帯域DNN声質変換の実現 ❑ 手法 ▪ サブバンド処理により低域 (0-8 kHz) のみをモデル化・変換 [佐伯20] ▪ 低域変換の際にフィルタ打ち切りを行うことで計算量削減 [Saeki20] ▪ リアルタイム・オンライン処理のための実装 & F0変換機構 ❑ 評価結果 ▪ 計算量の概算の結果,2.5 GFLOPS程度で広帯域音声を変換可能 ▪ RTF計測の結果,1CPUでのリアルタイム動作を確認 ▪ Online変換でも,offline変換 [佐伯20]と同等品質の変換音声を出力可能 ▪ そのまま帯域拡張したケース (Benchmark) より有意に高い自然性 ❑ 今後の課題 ▪ 実環境での頑健性の検討 ▪ さらなる変換音声品質の改善