SlideShare a Scribd company logo
1 of 19
Download to read offline
広帯域DNN音声合成のための
スペクトル包絡のGMM近似
小口 純矢, 高道 慎之介, 猿渡 洋(東大・情報理工)
嵯峨山 茂樹(電通大・情報理工)
2020年日本音響学会 春季研究発表会 1-2-6
GMM approximation of spectrum envelopes for
wide-band DNN-based speech synthesis
/20
背景:スペクトルのGMM近似
2
𝐺(𝜔) = ෍
𝑘=1
𝑛
𝑤 𝑘
2𝜋𝜎 𝑘
exp −
𝜔 − 𝜇 𝑘
2
2𝜎 𝑘
2
➢ ― ガウス分布はスペクトルの共振構造を表現
・平均 𝜇 :周波数
・分散 𝜎2 :鋭さ
・重み 𝑤:振幅(パワー)
観測スペクトル包絡
GMM 近似包絡 𝐺(𝜔)
𝜎4
𝜎3
𝜎2
𝜎1
𝜇4𝜇3𝜇2𝜇1
𝑤4
𝑤3
𝑤2
𝑤1
周波数
振幅
― GMM を音声特徴量に用いた統計的音声合成 [北条+ 2012]
・狭帯域音声が対象(16 kHz)
・GMM の統計的音声合成における優れた性質(後述)
[Zolfaghari+ 1996]
/20
発表概要
➢ 目的:GMM パラメータを 広帯域のDNN音声合成へ
– 従来の分析手法は広帯域音声に対して適切か?
– DNN 音声合成へそのまま適用できるか?
➢ 広帯域音声分析 と DNNテキスト音声合成 の手法を提案
– 提案法①:反復推定アルゴリズムにおけるパラメータ初期化法
• ピークピッキングに基づくパラメータ初期化
• 従来の初期化法と比較して合成音声の自然性が向上
– 提案法②:GMM パラメータを用いた DNN 音響モデルの学習法
• GMMパラメータ同士の MSE + GMM 近似包絡-観測包絡間の IS div.
– パラメータ推定精度のばらつきを吸収
– 提案法③:分散パラメータ補正に基づくフォルマント強調法
• ポストフィルタ処理により合成音声の自然性が向上
3
GMM: Gaussian Mixture Model(混合ガウスモデル)
DNN: Deep Neural Network(深層ニューラルネットワーク)
MSE: Mean Squared Error(平均二乗誤差)
IS div:Itakura-Saito divergence(板倉斎藤擬距離)
テ
キ
ス
ト
音
声
合
成
音
声
分
析
GMMパラメータを用いた
音声分析合成系
/20
GMM パラメータによる音声分析合成
5
➢ 分析時:ボコーダ分析より得られたスペクトル包絡をGMM近似
➢ 合成時:GMM近似包絡からスペクトル包絡に戻して合成
非周期性指標
GMM
パラメータ
ボコーダ
分析
ボコーダ
合成
GMM
近似
混合
基本周波数
音声波形 スペクトル包絡
[Zolfaghari+ 1996]
/20
GMM を用いる利点
6
1. 統計学習の平均化による over-smoothing を低減できる
– GMM は周波数方向に平均化される
𝜇2A + 𝜇2𝐵
2
𝜇1A + 𝜇1𝐵
2
𝑤2A + 𝑤2𝐵
2
𝑤1A + 𝑤1𝐵
2
𝜇2B𝜇1𝐵
𝑤2B
𝑤1𝐴
𝜇2𝐴𝜇1A
𝑤2𝐴
𝑤1A
周波数
振幅
2. スペクトルの共振成分を独立に制御できる
– 局所的な構造の加工が容易
• 例. スペクトルモーフィングによる声質変換 [Nguyen+ 2006]
平均化されても
ピークとディップが保存される
[北条+ 2012]
/20
GMMパラメータ推定法
7
𝐺(𝜔) = ෍
𝑘=1
𝑛
𝑤 𝑘
2𝜋𝜎 𝑘
exp −
𝜔 − 𝜇 𝑘
2
2𝜎 𝑘
2
➢ ガウス分布はスペクトルの共振構造を表現
平均 𝜇 :周波数
分散 𝜎2 :鋭さ
重み 𝑤:振幅(パワー)
𝐻: 観測スペクトル包絡
𝐺(𝜔): GMM近似包絡
𝜎4
𝜎3
𝜎2
𝜎1
𝜇4𝜇3𝜇2𝜇1
𝑤4
𝑤3
𝑤2
𝑤1
周波数
振幅
I -ダイバージェンス + 𝜇 𝑘 の時間遷移モデル の最小化に基づき反復推定
– 反復アルゴリズムの初期値には自由度が存在
– 𝜇 の初期値は推定結果に大きく影響
[Zolfaghari+ 1996]
[北条+ 2012]
広帯域音声のための
パラメータ初期化法
/20
従来法:LSP分析に基づく初期化と問題点
反復アルゴリズムの初期値の任意性
– 平均パラメータ 𝜇 の初期値は推定精度に大きく影響
– 従来法:混合数×2 次の線スペクトル対 [Itakura+ ] の平均
9
周波数
振幅
𝜇4𝜇3𝜇2𝜇1
正規分布が低域に集中して適合
Log-amplitude
Frequency [Hz]
/20
提案法:ピークピッキングに基づく初期化
包絡のピーク周波数を平均パラメータ初期値に
– 包絡のピークを直接
– LSP 初期値よりも全体域に満遍なく適合する傾向
10
周波数
振幅
Log-amplitude
Frequency [Hz]
高域にも偏りなく適合
GMMパラメータを用いた
DNN音声合成系
/20
GMMパラメータを考慮した DNN 学習
12
混合
DNN
GMM近似
コンテキスト
MSE
板倉-斎藤
擬距離
𝜇1 𝜎1𝑤1 𝜇2 𝜎2𝑤2 𝜇1 𝜎1𝑤1 𝜇2 𝜎2𝑤2
観測GMMパラメータ 𝑌
近似スペクトル包絡 ෠𝐺 観測スペクトル包絡 𝐻
推論GMMパラメータ ෠𝑌
ℒMSE 𝑌, ෠𝑌 + 𝛼ℒIS(𝐻, ෠𝐺)
スペクトル間誤差を考慮し
構造を保存するよう誘導
パラメータ同士の平均化により
スペクトルが過剰に平滑化
/20
GMMの分散パラメータ補正に基づく
フォルマント強調
14
➢ ポストフィルタ処理で合成音声の品質を改善できないか?
– 例. ケプストラムにおけるフォルマント強調 [Yoshimura+ 2004]
➢ 提案法:分散パラメータ補正に基づくポストフィルタ
– 分散パラメータ:共振の鋭さ
– 1 以下の値で定数倍することでフォルマント強調
周波数
振幅
周波数
振幅
スペクトルの山谷を強調
分散パラメータ
定数倍
実験的評価
分析合成音声とDNN合成音声
/20
実験条件(分析合成音声の評価)
16
音声データ
JVS コーパス [Takamichi+ 2019]
話者:男女 1 名ずつ無作為に選出
読み上げ文:PARALLEL100 から無作為に選んだ 2 文
分析・合成 WORLD(d4c edition) [Morise+ 2016]
サンプリング周波数
16 kHz(フレーム長 1024 サンプル)
24 kHz(フレーム長 2048 サンプル)
フレームシフト 5 ms
GMM 混合数 30
➢ 提案法(GMM-PEAK)の 自然性をABプリファレンステストで評価
– 比較対象
• GMM-LSP :LSP初期値(GMM-LSP)
• MCEP60 :60次元メルケプストラム
• MCEP40 :40次元メルケプストラム
/20
分析合成音声のプリファンレンススコア
17
16 kHz
提案手法 スコア 比較手法
GMM-PEAK 0.505 vs. 0.495 GMM-LSP
GMM-PEAK 0.454 vs. 0.556 MCEP40
GMM-PEAK 0.455 vs. 0.545 MCEP60
従来法(GMM-LSP)と比較して
広帯域音声に対して自然性を有意に改善
24 kHz
提案手法 スコア 比較手法
GMM-PEAK 0.570 vs. 0.430 GMM-LSP
GMM-PEAK 0.520 vs. 0.480 MCEP40
GMM-PEAK 0.470 vs. 0.530 MCEP60
※太字のスコアは p 値が0.05以下の場合
/20
実験条件(DNN音声合成)
18
音声データ
JSUT コーパス [Sonobe+ 2017]
BASIC5000 から 4500 文(訓練), 500 文(検証)
VOICEACTRESS100 から 100 文(テスト)
入力コンテキスト 535 次元
音声特徴量 30混合GMM, 対数Fo, 非周期性指標, 有/無声, Δ, ΔΔ
サンプリング周波数 48 kHz(2048 サンプル, フレームシフト 5 ms)
DNN Feed-forward 型
IS div. 重み 𝛼 1000
分散補正ポスト
フィルタ係数
0.75
➢ 合成音声の自然性をABプリファレンステストで評価
– MSE :MSE 最小化学習
– MSE+IS :MSE + IS div. 最小化学習
– MSE+IS+PF :MSE + IS.div 最小化学習 + 分散補正ポストフィルタ
/20
分析合成音声の主観評価結果
19
分散パラメータ補正に基づくポストフィルタ処理は
合成音声の自然性を有意に改善
スペクトル間誤差を考慮することで自然性が有意に改善
スペクトル間誤差の有無による比較
ポストフィルタ処理の有無による比較
手法 スコア 比較手法
MSE+IS 0.822 vs. 0.178 MSE
提案手法 スコア 比較手法
MSE+IS+PF 0.720 vs. 0.280 MSE+IS
※太字のスコアは p 値が0.05以下の場合
/20
まとめ
➢ 目的:GMM パラメータを 広帯域 の DNN音声合成 へ
➢ 広帯域音声分析 と DNNテキスト音声合成 の手法を提案
– 提案法①:反復推定アルゴリズムにおけるパラメータ初期化法
• 評価結果:広帯域音声の初期値としてピークピッキングが有効
– 提案法②:GMMパラメータを用いたDNN 音響モデルの学習法
• パラメータ間誤差だけでなくスペクトル間誤差の導入により品質改善
– 提案法③:分散パラメータ補正に基づくフォルマント強調法
• 評価結果:ポストフィルタ処理の導入により品質改善
➢ 今後の展望
– パラメータ推定精度向上
– 計算速度の向上
20
テ
キ
ス
ト
音
声
合
成
音
声
分
析

More Related Content

More from Shinnosuke Takamichi

サブバンドフィルタリングに基づくリアルタイム広帯域DNN声質変換の実装と評価
サブバンドフィルタリングに基づくリアルタイム広帯域DNN声質変換の実装と評価サブバンドフィルタリングに基づくリアルタイム広帯域DNN声質変換の実装と評価
サブバンドフィルタリングに基づくリアルタイム広帯域DNN声質変換の実装と評価Shinnosuke Takamichi
 
P J S: 音素バランスを考慮した日本語歌声コーパス
P J S: 音素バランスを考慮した日本語歌声コーパスP J S: 音素バランスを考慮した日本語歌声コーパス
P J S: 音素バランスを考慮した日本語歌声コーパスShinnosuke Takamichi
 
音響モデル尤度に基づくsubword分割の韻律推定精度における評価
音響モデル尤度に基づくsubword分割の韻律推定精度における評価音響モデル尤度に基づくsubword分割の韻律推定精度における評価
音響モデル尤度に基づくsubword分割の韻律推定精度における評価Shinnosuke Takamichi
 
音声合成研究を加速させるためのコーパスデザイン
音声合成研究を加速させるためのコーパスデザイン音声合成研究を加速させるためのコーパスデザイン
音声合成研究を加速させるためのコーパスデザインShinnosuke Takamichi
 
論文紹介 Unsupervised training of neural mask-based beamforming
論文紹介 Unsupervised training of neural  mask-based beamforming論文紹介 Unsupervised training of neural  mask-based beamforming
論文紹介 Unsupervised training of neural mask-based beamformingShinnosuke Takamichi
 
論文紹介 Building the Singapore English National Speech Corpus
論文紹介 Building the Singapore English National Speech Corpus論文紹介 Building the Singapore English National Speech Corpus
論文紹介 Building the Singapore English National Speech CorpusShinnosuke Takamichi
 
論文紹介 SANTLR: Speech Annotation Toolkit for Low Resource Languages
論文紹介 SANTLR: Speech Annotation Toolkit for Low Resource Languages論文紹介 SANTLR: Speech Annotation Toolkit for Low Resource Languages
論文紹介 SANTLR: Speech Annotation Toolkit for Low Resource LanguagesShinnosuke Takamichi
 
話者V2S攻撃: 話者認証から構築される 声質変換とその音声なりすまし可能性の評価
話者V2S攻撃: 話者認証から構築される 声質変換とその音声なりすまし可能性の評価話者V2S攻撃: 話者認証から構築される 声質変換とその音声なりすまし可能性の評価
話者V2S攻撃: 話者認証から構築される 声質変換とその音声なりすまし可能性の評価Shinnosuke Takamichi
 
JVS:フリーの日本語多数話者音声コーパス
JVS:フリーの日本語多数話者音声コーパス JVS:フリーの日本語多数話者音声コーパス
JVS:フリーの日本語多数話者音声コーパス Shinnosuke Takamichi
 
差分スペクトル法に基づく DNN 声質変換の計算量削減に向けたフィルタ推定
差分スペクトル法に基づく DNN 声質変換の計算量削減に向けたフィルタ推定差分スペクトル法に基づく DNN 声質変換の計算量削減に向けたフィルタ推定
差分スペクトル法に基づく DNN 声質変換の計算量削減に向けたフィルタ推定Shinnosuke Takamichi
 
音声合成・変換の国際コンペティションへの 参加を振り返って
音声合成・変換の国際コンペティションへの  参加を振り返って音声合成・変換の国際コンペティションへの  参加を振り返って
音声合成・変換の国際コンペティションへの 参加を振り返ってShinnosuke Takamichi
 
ユーザ歌唱のための generative moment matching network に基づく neural double-tracking
ユーザ歌唱のための generative moment matching network に基づく neural double-trackingユーザ歌唱のための generative moment matching network に基づく neural double-tracking
ユーザ歌唱のための generative moment matching network に基づく neural double-trackingShinnosuke Takamichi
 
End-to-end 韻律推定に向けた DNN 音響モデルに基づく subword 分割
End-to-end 韻律推定に向けた DNN 音響モデルに基づく subword 分割End-to-end 韻律推定に向けた DNN 音響モデルに基づく subword 分割
End-to-end 韻律推定に向けた DNN 音響モデルに基づく subword 分割Shinnosuke Takamichi
 
統計的ボイチェン研究事情
統計的ボイチェン研究事情統計的ボイチェン研究事情
統計的ボイチェン研究事情Shinnosuke Takamichi
 
テキスト音声合成技術と多様性への挑戦 (名古屋大学 知能システム特論)
テキスト音声合成技術と多様性への挑戦 (名古屋大学 知能システム特論)テキスト音声合成技術と多様性への挑戦 (名古屋大学 知能システム特論)
テキスト音声合成技術と多様性への挑戦 (名古屋大学 知能システム特論)Shinnosuke Takamichi
 
統計的音声合成変換と近年の発展
統計的音声合成変換と近年の発展統計的音声合成変換と近年の発展
統計的音声合成変換と近年の発展Shinnosuke Takamichi
 
音声コーパス設計と次世代音声研究に向けた提言
音声コーパス設計と次世代音声研究に向けた提言音声コーパス設計と次世代音声研究に向けた提言
音声コーパス設計と次世代音声研究に向けた提言Shinnosuke Takamichi
 
多様なカートシスを持つ雑音に対応した低ミュージカルノイズ DNN 音声強調
多様なカートシスを持つ雑音に対応した低ミュージカルノイズ DNN 音声強調多様なカートシスを持つ雑音に対応した低ミュージカルノイズ DNN 音声強調
多様なカートシスを持つ雑音に対応した低ミュージカルノイズ DNN 音声強調Shinnosuke Takamichi
 
End-to-end 韻律推定に向けた subword lattice 構造を考慮した DNN 音響モデル学習
End-to-end 韻律推定に向けた subword lattice 構造を考慮した DNN 音響モデル学習End-to-end 韻律推定に向けた subword lattice 構造を考慮した DNN 音響モデル学習
End-to-end 韻律推定に向けた subword lattice 構造を考慮した DNN 音響モデル学習Shinnosuke Takamichi
 
外国人留学生日本語の音声合成における 話者性を保持した韻律補正
外国人留学生日本語の音声合成における話者性を保持した韻律補正外国人留学生日本語の音声合成における話者性を保持した韻律補正
外国人留学生日本語の音声合成における 話者性を保持した韻律補正Shinnosuke Takamichi
 

More from Shinnosuke Takamichi (20)

サブバンドフィルタリングに基づくリアルタイム広帯域DNN声質変換の実装と評価
サブバンドフィルタリングに基づくリアルタイム広帯域DNN声質変換の実装と評価サブバンドフィルタリングに基づくリアルタイム広帯域DNN声質変換の実装と評価
サブバンドフィルタリングに基づくリアルタイム広帯域DNN声質変換の実装と評価
 
P J S: 音素バランスを考慮した日本語歌声コーパス
P J S: 音素バランスを考慮した日本語歌声コーパスP J S: 音素バランスを考慮した日本語歌声コーパス
P J S: 音素バランスを考慮した日本語歌声コーパス
 
音響モデル尤度に基づくsubword分割の韻律推定精度における評価
音響モデル尤度に基づくsubword分割の韻律推定精度における評価音響モデル尤度に基づくsubword分割の韻律推定精度における評価
音響モデル尤度に基づくsubword分割の韻律推定精度における評価
 
音声合成研究を加速させるためのコーパスデザイン
音声合成研究を加速させるためのコーパスデザイン音声合成研究を加速させるためのコーパスデザイン
音声合成研究を加速させるためのコーパスデザイン
 
論文紹介 Unsupervised training of neural mask-based beamforming
論文紹介 Unsupervised training of neural  mask-based beamforming論文紹介 Unsupervised training of neural  mask-based beamforming
論文紹介 Unsupervised training of neural mask-based beamforming
 
論文紹介 Building the Singapore English National Speech Corpus
論文紹介 Building the Singapore English National Speech Corpus論文紹介 Building the Singapore English National Speech Corpus
論文紹介 Building the Singapore English National Speech Corpus
 
論文紹介 SANTLR: Speech Annotation Toolkit for Low Resource Languages
論文紹介 SANTLR: Speech Annotation Toolkit for Low Resource Languages論文紹介 SANTLR: Speech Annotation Toolkit for Low Resource Languages
論文紹介 SANTLR: Speech Annotation Toolkit for Low Resource Languages
 
話者V2S攻撃: 話者認証から構築される 声質変換とその音声なりすまし可能性の評価
話者V2S攻撃: 話者認証から構築される 声質変換とその音声なりすまし可能性の評価話者V2S攻撃: 話者認証から構築される 声質変換とその音声なりすまし可能性の評価
話者V2S攻撃: 話者認証から構築される 声質変換とその音声なりすまし可能性の評価
 
JVS:フリーの日本語多数話者音声コーパス
JVS:フリーの日本語多数話者音声コーパス JVS:フリーの日本語多数話者音声コーパス
JVS:フリーの日本語多数話者音声コーパス
 
差分スペクトル法に基づく DNN 声質変換の計算量削減に向けたフィルタ推定
差分スペクトル法に基づく DNN 声質変換の計算量削減に向けたフィルタ推定差分スペクトル法に基づく DNN 声質変換の計算量削減に向けたフィルタ推定
差分スペクトル法に基づく DNN 声質変換の計算量削減に向けたフィルタ推定
 
音声合成・変換の国際コンペティションへの 参加を振り返って
音声合成・変換の国際コンペティションへの  参加を振り返って音声合成・変換の国際コンペティションへの  参加を振り返って
音声合成・変換の国際コンペティションへの 参加を振り返って
 
ユーザ歌唱のための generative moment matching network に基づく neural double-tracking
ユーザ歌唱のための generative moment matching network に基づく neural double-trackingユーザ歌唱のための generative moment matching network に基づく neural double-tracking
ユーザ歌唱のための generative moment matching network に基づく neural double-tracking
 
End-to-end 韻律推定に向けた DNN 音響モデルに基づく subword 分割
End-to-end 韻律推定に向けた DNN 音響モデルに基づく subword 分割End-to-end 韻律推定に向けた DNN 音響モデルに基づく subword 分割
End-to-end 韻律推定に向けた DNN 音響モデルに基づく subword 分割
 
統計的ボイチェン研究事情
統計的ボイチェン研究事情統計的ボイチェン研究事情
統計的ボイチェン研究事情
 
テキスト音声合成技術と多様性への挑戦 (名古屋大学 知能システム特論)
テキスト音声合成技術と多様性への挑戦 (名古屋大学 知能システム特論)テキスト音声合成技術と多様性への挑戦 (名古屋大学 知能システム特論)
テキスト音声合成技術と多様性への挑戦 (名古屋大学 知能システム特論)
 
統計的音声合成変換と近年の発展
統計的音声合成変換と近年の発展統計的音声合成変換と近年の発展
統計的音声合成変換と近年の発展
 
音声コーパス設計と次世代音声研究に向けた提言
音声コーパス設計と次世代音声研究に向けた提言音声コーパス設計と次世代音声研究に向けた提言
音声コーパス設計と次世代音声研究に向けた提言
 
多様なカートシスを持つ雑音に対応した低ミュージカルノイズ DNN 音声強調
多様なカートシスを持つ雑音に対応した低ミュージカルノイズ DNN 音声強調多様なカートシスを持つ雑音に対応した低ミュージカルノイズ DNN 音声強調
多様なカートシスを持つ雑音に対応した低ミュージカルノイズ DNN 音声強調
 
End-to-end 韻律推定に向けた subword lattice 構造を考慮した DNN 音響モデル学習
End-to-end 韻律推定に向けた subword lattice 構造を考慮した DNN 音響モデル学習End-to-end 韻律推定に向けた subword lattice 構造を考慮した DNN 音響モデル学習
End-to-end 韻律推定に向けた subword lattice 構造を考慮した DNN 音響モデル学習
 
外国人留学生日本語の音声合成における 話者性を保持した韻律補正
外国人留学生日本語の音声合成における話者性を保持した韻律補正外国人留学生日本語の音声合成における話者性を保持した韻律補正
外国人留学生日本語の音声合成における 話者性を保持した韻律補正
 

Recently uploaded

論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...Toru Tamaki
 
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)Hiroki Ichikura
 
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介Yuma Ohgami
 
スマートフォンを用いた新生児あやし動作の教示システム
スマートフォンを用いた新生児あやし動作の教示システムスマートフォンを用いた新生児あやし動作の教示システム
スマートフォンを用いた新生児あやし動作の教示システムsugiuralab
 
TSAL operation mechanism and circuit diagram.pdf
TSAL operation mechanism and circuit diagram.pdfTSAL operation mechanism and circuit diagram.pdf
TSAL operation mechanism and circuit diagram.pdftaisei2219
 
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略Ryo Sasaki
 
論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A survey論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A surveyToru Tamaki
 
論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNet論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNetToru Tamaki
 
SOPを理解する 2024/04/19 の勉強会で発表されたものです
SOPを理解する       2024/04/19 の勉強会で発表されたものですSOPを理解する       2024/04/19 の勉強会で発表されたものです
SOPを理解する 2024/04/19 の勉強会で発表されたものですiPride Co., Ltd.
 

Recently uploaded (9)

論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
 
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
 
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
 
スマートフォンを用いた新生児あやし動作の教示システム
スマートフォンを用いた新生児あやし動作の教示システムスマートフォンを用いた新生児あやし動作の教示システム
スマートフォンを用いた新生児あやし動作の教示システム
 
TSAL operation mechanism and circuit diagram.pdf
TSAL operation mechanism and circuit diagram.pdfTSAL operation mechanism and circuit diagram.pdf
TSAL operation mechanism and circuit diagram.pdf
 
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
 
論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A survey論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A survey
 
論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNet論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNet
 
SOPを理解する 2024/04/19 の勉強会で発表されたものです
SOPを理解する       2024/04/19 の勉強会で発表されたものですSOPを理解する       2024/04/19 の勉強会で発表されたものです
SOPを理解する 2024/04/19 の勉強会で発表されたものです
 

広帯域DNN音声合成のための スペクトル包絡のGMM近似