Submit Search
Upload
日本音響学会2017秋 ビギナーズセミナー "深層学習を深く学習するための基礎"
•
6 likes
•
1,767 views
Shinnosuke Takamichi
Follow
日本音響学会2017秋 ビギナーズセミナー
Read less
Read more
Education
Report
Share
Report
Share
1 of 22
Download now
Download to read offline
Recommended
(文献紹介)Deep Unrolling: Learned ISTA (LISTA)
(文献紹介)Deep Unrolling: Learned ISTA (LISTA)
Morpho, Inc.
深層学習と音響信号処理
深層学習と音響信号処理
Yuma Koizumi
音声認識と深層学習
音声認識と深層学習
Preferred Networks
深層学習を利用した音声強調
深層学習を利用した音声強調
Yuma Koizumi
JVS:フリーの日本語多数話者音声コーパス
JVS:フリーの日本語多数話者音声コーパス
Shinnosuke Takamichi
GAN-based statistical speech synthesis (in Japanese)
GAN-based statistical speech synthesis (in Japanese)
Yuki Saito
SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜
SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜
SSII
[DL輪読会]AutoAugment: LearningAugmentation Strategies from Data & Learning Data...
[DL輪読会]AutoAugment: LearningAugmentation Strategies from Data & Learning Data...
Deep Learning JP
Recommended
(文献紹介)Deep Unrolling: Learned ISTA (LISTA)
(文献紹介)Deep Unrolling: Learned ISTA (LISTA)
Morpho, Inc.
深層学習と音響信号処理
深層学習と音響信号処理
Yuma Koizumi
音声認識と深層学習
音声認識と深層学習
Preferred Networks
深層学習を利用した音声強調
深層学習を利用した音声強調
Yuma Koizumi
JVS:フリーの日本語多数話者音声コーパス
JVS:フリーの日本語多数話者音声コーパス
Shinnosuke Takamichi
GAN-based statistical speech synthesis (in Japanese)
GAN-based statistical speech synthesis (in Japanese)
Yuki Saito
SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜
SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜
SSII
[DL輪読会]AutoAugment: LearningAugmentation Strategies from Data & Learning Data...
[DL輪読会]AutoAugment: LearningAugmentation Strategies from Data & Learning Data...
Deep Learning JP
【メタサーベイ】基盤モデル / Foundation Models
【メタサーベイ】基盤モデル / Foundation Models
cvpaper. challenge
Transformerを雰囲気で理解する
Transformerを雰囲気で理解する
AtsukiYamaguchi1
【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks?
【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks?
Deep Learning JP
全力解説!Transformer
全力解説!Transformer
Arithmer Inc.
z変換をやさしく教えて下さい (音響学入門ペディア)
z変換をやさしく教えて下さい (音響学入門ペディア)
Shinnosuke Takamichi
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Yusuke Uchida
統計的ボイチェン研究事情
統計的ボイチェン研究事情
Shinnosuke Takamichi
[DL輪読会]Wavenet a generative model for raw audio
[DL輪読会]Wavenet a generative model for raw audio
Deep Learning JP
[DLHacks LT] PytorchのDataLoader -torchtextのソースコードを読んでみた-
[DLHacks LT] PytorchのDataLoader -torchtextのソースコードを読んでみた-
Deep Learning JP
統計的手法に基づく異常音検知の理論と応用
統計的手法に基づく異常音検知の理論と応用
Yuma Koizumi
【DL輪読会】"Masked Siamese Networks for Label-Efficient Learning"
【DL輪読会】"Masked Siamese Networks for Label-Efficient Learning"
Deep Learning JP
backbone としての timm 入門
backbone としての timm 入門
Takuji Tahara
Deep Learningによる画像認識革命 ー歴史・最新理論から実践応用までー
Deep Learningによる画像認識革命 ー歴史・最新理論から実践応用までー
nlab_utokyo
【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究について
Deep Learning JP
音源分離 ~DNN音源分離の基礎から最新技術まで~ Tokyo bishbash #3
音源分離 ~DNN音源分離の基礎から最新技術まで~ Tokyo bishbash #3
Naoya Takahashi
深層生成モデルを用いたマルチモーダル学習
深層生成モデルを用いたマルチモーダル学習
Masahiro Suzuki
自然言語処理のためのDeep Learning
自然言語処理のためのDeep Learning
Yuta Kikuchi
近年のHierarchical Vision Transformer
近年のHierarchical Vision Transformer
Yusuke Uchida
深層生成モデルと世界モデル,深層生成モデルライブラリPixyzについて
深層生成モデルと世界モデル,深層生成モデルライブラリPixyzについて
Masahiro Suzuki
SSII2022 [OS3-03] スケーラブルなロボット学習システムに向けて
SSII2022 [OS3-03] スケーラブルなロボット学習システムに向けて
SSII
日本音響学会2017秋 ”クラウドソーシングを利用した対訳方言音声コーパスの構築”
日本音響学会2017秋 ”クラウドソーシングを利用した対訳方言音声コーパスの構築”
Shinnosuke Takamichi
雑音環境下音声を用いた音声合成のための雑音生成モデルの敵対的学習
雑音環境下音声を用いた音声合成のための雑音生成モデルの敵対的学習
Shinnosuke Takamichi
More Related Content
What's hot
【メタサーベイ】基盤モデル / Foundation Models
【メタサーベイ】基盤モデル / Foundation Models
cvpaper. challenge
Transformerを雰囲気で理解する
Transformerを雰囲気で理解する
AtsukiYamaguchi1
【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks?
【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks?
Deep Learning JP
全力解説!Transformer
全力解説!Transformer
Arithmer Inc.
z変換をやさしく教えて下さい (音響学入門ペディア)
z変換をやさしく教えて下さい (音響学入門ペディア)
Shinnosuke Takamichi
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Yusuke Uchida
統計的ボイチェン研究事情
統計的ボイチェン研究事情
Shinnosuke Takamichi
[DL輪読会]Wavenet a generative model for raw audio
[DL輪読会]Wavenet a generative model for raw audio
Deep Learning JP
[DLHacks LT] PytorchのDataLoader -torchtextのソースコードを読んでみた-
[DLHacks LT] PytorchのDataLoader -torchtextのソースコードを読んでみた-
Deep Learning JP
統計的手法に基づく異常音検知の理論と応用
統計的手法に基づく異常音検知の理論と応用
Yuma Koizumi
【DL輪読会】"Masked Siamese Networks for Label-Efficient Learning"
【DL輪読会】"Masked Siamese Networks for Label-Efficient Learning"
Deep Learning JP
backbone としての timm 入門
backbone としての timm 入門
Takuji Tahara
Deep Learningによる画像認識革命 ー歴史・最新理論から実践応用までー
Deep Learningによる画像認識革命 ー歴史・最新理論から実践応用までー
nlab_utokyo
【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究について
Deep Learning JP
音源分離 ~DNN音源分離の基礎から最新技術まで~ Tokyo bishbash #3
音源分離 ~DNN音源分離の基礎から最新技術まで~ Tokyo bishbash #3
Naoya Takahashi
深層生成モデルを用いたマルチモーダル学習
深層生成モデルを用いたマルチモーダル学習
Masahiro Suzuki
自然言語処理のためのDeep Learning
自然言語処理のためのDeep Learning
Yuta Kikuchi
近年のHierarchical Vision Transformer
近年のHierarchical Vision Transformer
Yusuke Uchida
深層生成モデルと世界モデル,深層生成モデルライブラリPixyzについて
深層生成モデルと世界モデル,深層生成モデルライブラリPixyzについて
Masahiro Suzuki
SSII2022 [OS3-03] スケーラブルなロボット学習システムに向けて
SSII2022 [OS3-03] スケーラブルなロボット学習システムに向けて
SSII
What's hot
(20)
【メタサーベイ】基盤モデル / Foundation Models
【メタサーベイ】基盤モデル / Foundation Models
Transformerを雰囲気で理解する
Transformerを雰囲気で理解する
【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks?
【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks?
全力解説!Transformer
全力解説!Transformer
z変換をやさしく教えて下さい (音響学入門ペディア)
z変換をやさしく教えて下さい (音響学入門ペディア)
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
統計的ボイチェン研究事情
統計的ボイチェン研究事情
[DL輪読会]Wavenet a generative model for raw audio
[DL輪読会]Wavenet a generative model for raw audio
[DLHacks LT] PytorchのDataLoader -torchtextのソースコードを読んでみた-
[DLHacks LT] PytorchのDataLoader -torchtextのソースコードを読んでみた-
統計的手法に基づく異常音検知の理論と応用
統計的手法に基づく異常音検知の理論と応用
【DL輪読会】"Masked Siamese Networks for Label-Efficient Learning"
【DL輪読会】"Masked Siamese Networks for Label-Efficient Learning"
backbone としての timm 入門
backbone としての timm 入門
Deep Learningによる画像認識革命 ー歴史・最新理論から実践応用までー
Deep Learningによる画像認識革命 ー歴史・最新理論から実践応用までー
【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究について
音源分離 ~DNN音源分離の基礎から最新技術まで~ Tokyo bishbash #3
音源分離 ~DNN音源分離の基礎から最新技術まで~ Tokyo bishbash #3
深層生成モデルを用いたマルチモーダル学習
深層生成モデルを用いたマルチモーダル学習
自然言語処理のためのDeep Learning
自然言語処理のためのDeep Learning
近年のHierarchical Vision Transformer
近年のHierarchical Vision Transformer
深層生成モデルと世界モデル,深層生成モデルライブラリPixyzについて
深層生成モデルと世界モデル,深層生成モデルライブラリPixyzについて
SSII2022 [OS3-03] スケーラブルなロボット学習システムに向けて
SSII2022 [OS3-03] スケーラブルなロボット学習システムに向けて
Viewers also liked
日本音響学会2017秋 ”クラウドソーシングを利用した対訳方言音声コーパスの構築”
日本音響学会2017秋 ”クラウドソーシングを利用した対訳方言音声コーパスの構築”
Shinnosuke Takamichi
雑音環境下音声を用いた音声合成のための雑音生成モデルの敵対的学習
雑音環境下音声を用いた音声合成のための雑音生成モデルの敵対的学習
Shinnosuke Takamichi
Jap2017 ss65 優しいベイズ統計への導入法
Jap2017 ss65 優しいベイズ統計への導入法
考司 小杉
Lyric Jumper:アーティストごとの歌詞トピックの傾向に基づく歌詞探索サービス
Lyric Jumper:アーティストごとの歌詞トピックの傾向に基づく歌詞探索サービス
Kosetsu Tsukuda
広告プラットフォーム立ち上げ百鬼夜行
広告プラットフォーム立ち上げ百鬼夜行
Takahiro Ogoshi
多腕バンディット問題: 定式化と応用 (第13回ステアラボ人工知能セミナー)
多腕バンディット問題: 定式化と応用 (第13回ステアラボ人工知能セミナー)
STAIR Lab, Chiba Institute of Technology
アドテクスタジオのデータ分析基盤について
アドテクスタジオのデータ分析基盤について
kazuhiro ito
マッチングサービスにおけるKPIの話
マッチングサービスにおけるKPIの話
cyberagent
VentureCafe_第2回:SIerでのキャリアパスを考える_ござ先輩発表資料 V1.0
VentureCafe_第2回:SIerでのキャリアパスを考える_ござ先輩発表資料 V1.0
Michitaka Yumoto
『バックドア基準の入門』@統数研研究集会
『バックドア基準の入門』@統数研研究集会
takehikoihayashi
研究発表のためのプレゼンテーション技術
研究発表のためのプレゼンテーション技術
Shinnosuke Takamichi
Apache Kuduを使った分析システムの裏側
Apache Kuduを使った分析システムの裏側
Cloudera Japan
Active Learning 入門
Active Learning 入門
Shuyo Nakatani
Jaccard係数の計算式と特徴(1)
Jaccard係数の計算式と特徴(1)
khcoder
最小カットを使って「燃やす埋める問題」を解く
最小カットを使って「燃やす埋める問題」を解く
shindannin
ミリシタを支える GAE/Go
ミリシタを支える GAE/Go
Google Cloud Platform - Japan
(DL hacks輪読)Bayesian Neural Network
(DL hacks輪読)Bayesian Neural Network
Masahiro Suzuki
If文から機械学習への道
If文から機械学習への道
nishio
シリコンバレーの「何が」凄いのか
シリコンバレーの「何が」凄いのか
Atsushi Nakada
Viewers also liked
(19)
日本音響学会2017秋 ”クラウドソーシングを利用した対訳方言音声コーパスの構築”
日本音響学会2017秋 ”クラウドソーシングを利用した対訳方言音声コーパスの構築”
雑音環境下音声を用いた音声合成のための雑音生成モデルの敵対的学習
雑音環境下音声を用いた音声合成のための雑音生成モデルの敵対的学習
Jap2017 ss65 優しいベイズ統計への導入法
Jap2017 ss65 優しいベイズ統計への導入法
Lyric Jumper:アーティストごとの歌詞トピックの傾向に基づく歌詞探索サービス
Lyric Jumper:アーティストごとの歌詞トピックの傾向に基づく歌詞探索サービス
広告プラットフォーム立ち上げ百鬼夜行
広告プラットフォーム立ち上げ百鬼夜行
多腕バンディット問題: 定式化と応用 (第13回ステアラボ人工知能セミナー)
多腕バンディット問題: 定式化と応用 (第13回ステアラボ人工知能セミナー)
アドテクスタジオのデータ分析基盤について
アドテクスタジオのデータ分析基盤について
マッチングサービスにおけるKPIの話
マッチングサービスにおけるKPIの話
VentureCafe_第2回:SIerでのキャリアパスを考える_ござ先輩発表資料 V1.0
VentureCafe_第2回:SIerでのキャリアパスを考える_ござ先輩発表資料 V1.0
『バックドア基準の入門』@統数研研究集会
『バックドア基準の入門』@統数研研究集会
研究発表のためのプレゼンテーション技術
研究発表のためのプレゼンテーション技術
Apache Kuduを使った分析システムの裏側
Apache Kuduを使った分析システムの裏側
Active Learning 入門
Active Learning 入門
Jaccard係数の計算式と特徴(1)
Jaccard係数の計算式と特徴(1)
最小カットを使って「燃やす埋める問題」を解く
最小カットを使って「燃やす埋める問題」を解く
ミリシタを支える GAE/Go
ミリシタを支える GAE/Go
(DL hacks輪読)Bayesian Neural Network
(DL hacks輪読)Bayesian Neural Network
If文から機械学習への道
If文から機械学習への道
シリコンバレーの「何が」凄いのか
シリコンバレーの「何が」凄いのか
Similar to 日本音響学会2017秋 ビギナーズセミナー "深層学習を深く学習するための基礎"
Recurrent Neural Networks
Recurrent Neural Networks
Seiya Tokui
Chainerの使い方と自然言語処理への応用
Chainerの使い方と自然言語処理への応用
Yuya Unno
深層学習フレームワークChainerとその進化
深層学習フレームワークChainerとその進化
Yuya Unno
Deep learning実装の基礎と実践
Deep learning実装の基礎と実践
Seiya Tokui
Extract and edit
Extract and edit
禎晃 山崎
R-CNNの原理とここ数年の流れ
R-CNNの原理とここ数年の流れ
Kazuki Motohashi
Get To The Point: Summarization with Pointer-Generator Networks_acl17_論文紹介
Get To The Point: Summarization with Pointer-Generator Networks_acl17_論文紹介
Masayoshi Kondo
WaveNetが音声合成研究に与える影響
WaveNetが音声合成研究に与える影響
NU_I_TODALAB
畳み込みニューラルネットワークの高精度化と高速化
畳み込みニューラルネットワークの高精度化と高速化
Yusuke Uchida
深層学習フレームワーク Chainer の開発と今後の展開
深層学習フレームワーク Chainer の開発と今後の展開
Seiya Tokui
Learning Deep Architectures for AI (第 3 回 Deep Learning 勉強会資料; 松尾)
Learning Deep Architectures for AI (第 3 回 Deep Learning 勉強会資料; 松尾)
Ohsawa Goodfellow
畳み込みニューラルネットワークの研究動向
畳み込みニューラルネットワークの研究動向
Yusuke Uchida
Deep Learningの基礎と応用
Deep Learningの基礎と応用
Seiya Tokui
Chainerの使い方と自然言語処理への応用
Chainerの使い方と自然言語処理への応用
Seiya Tokui
画像認識モデルを自動的に作る。1日以内に。~Simple And Efficient Architecture Search for Convolutio...
画像認識モデルを自動的に作る。1日以内に。~Simple And Efficient Architecture Search for Convolutio...
Takahiro Kubo
20130925.deeplearning
20130925.deeplearning
Hayaru SHOUNO
深層学習による非滑らかな関数の推定
深層学習による非滑らかな関数の推定
Masaaki Imaizumi
点群深層学習 Meta-study
点群深層学習 Meta-study
Naoya Chiba
[DL輪読会]Pervasive Attention: 2D Convolutional Neural Networks for Sequence-to-...
[DL輪読会]Pervasive Attention: 2D Convolutional Neural Networks for Sequence-to-...
Deep Learning JP
文献紹介:An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale
文献紹介:An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale
Toru Tamaki
Similar to 日本音響学会2017秋 ビギナーズセミナー "深層学習を深く学習するための基礎"
(20)
Recurrent Neural Networks
Recurrent Neural Networks
Chainerの使い方と自然言語処理への応用
Chainerの使い方と自然言語処理への応用
深層学習フレームワークChainerとその進化
深層学習フレームワークChainerとその進化
Deep learning実装の基礎と実践
Deep learning実装の基礎と実践
Extract and edit
Extract and edit
R-CNNの原理とここ数年の流れ
R-CNNの原理とここ数年の流れ
Get To The Point: Summarization with Pointer-Generator Networks_acl17_論文紹介
Get To The Point: Summarization with Pointer-Generator Networks_acl17_論文紹介
WaveNetが音声合成研究に与える影響
WaveNetが音声合成研究に与える影響
畳み込みニューラルネットワークの高精度化と高速化
畳み込みニューラルネットワークの高精度化と高速化
深層学習フレームワーク Chainer の開発と今後の展開
深層学習フレームワーク Chainer の開発と今後の展開
Learning Deep Architectures for AI (第 3 回 Deep Learning 勉強会資料; 松尾)
Learning Deep Architectures for AI (第 3 回 Deep Learning 勉強会資料; 松尾)
畳み込みニューラルネットワークの研究動向
畳み込みニューラルネットワークの研究動向
Deep Learningの基礎と応用
Deep Learningの基礎と応用
Chainerの使い方と自然言語処理への応用
Chainerの使い方と自然言語処理への応用
画像認識モデルを自動的に作る。1日以内に。~Simple And Efficient Architecture Search for Convolutio...
画像認識モデルを自動的に作る。1日以内に。~Simple And Efficient Architecture Search for Convolutio...
20130925.deeplearning
20130925.deeplearning
深層学習による非滑らかな関数の推定
深層学習による非滑らかな関数の推定
点群深層学習 Meta-study
点群深層学習 Meta-study
[DL輪読会]Pervasive Attention: 2D Convolutional Neural Networks for Sequence-to-...
[DL輪読会]Pervasive Attention: 2D Convolutional Neural Networks for Sequence-to-...
文献紹介:An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale
文献紹介:An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale
More from Shinnosuke Takamichi
JTubeSpeech: 音声認識と話者照合のために YouTube から構築される日本語音声コーパス
JTubeSpeech: 音声認識と話者照合のために YouTube から構築される日本語音声コーパス
Shinnosuke Takamichi
音声合成のコーパスをつくろう
音声合成のコーパスをつくろう
Shinnosuke Takamichi
J-KAC:日本語オーディオブック・紙芝居朗読音声コーパス
J-KAC:日本語オーディオブック・紙芝居朗読音声コーパス
Shinnosuke Takamichi
短時間発話を用いた話者照合のための音声加工の効果に関する検討
短時間発話を用いた話者照合のための音声加工の効果に関する検討
Shinnosuke Takamichi
リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法
リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法
Shinnosuke Takamichi
ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)
ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)
Shinnosuke Takamichi
国際会議 interspeech 2020 報告
国際会議 interspeech 2020 報告
Shinnosuke Takamichi
Interspeech 2020 読み会 "Incremental Text to Speech for Neural Sequence-to-Sequ...
Interspeech 2020 読み会 "Incremental Text to Speech for Neural Sequence-to-Sequ...
Shinnosuke Takamichi
サブバンドフィルタリングに基づくリアルタイム広帯域DNN声質変換の実装と評価
サブバンドフィルタリングに基づくリアルタイム広帯域DNN声質変換の実装と評価
Shinnosuke Takamichi
P J S: 音素バランスを考慮した日本語歌声コーパス
P J S: 音素バランスを考慮した日本語歌声コーパス
Shinnosuke Takamichi
音響モデル尤度に基づくsubword分割の韻律推定精度における評価
音響モデル尤度に基づくsubword分割の韻律推定精度における評価
Shinnosuke Takamichi
音声合成研究を加速させるためのコーパスデザイン
音声合成研究を加速させるためのコーパスデザイン
Shinnosuke Takamichi
論文紹介 Unsupervised training of neural mask-based beamforming
論文紹介 Unsupervised training of neural mask-based beamforming
Shinnosuke Takamichi
論文紹介 Building the Singapore English National Speech Corpus
論文紹介 Building the Singapore English National Speech Corpus
Shinnosuke Takamichi
論文紹介 SANTLR: Speech Annotation Toolkit for Low Resource Languages
論文紹介 SANTLR: Speech Annotation Toolkit for Low Resource Languages
Shinnosuke Takamichi
話者V2S攻撃: 話者認証から構築される 声質変換とその音声なりすまし可能性の評価
話者V2S攻撃: 話者認証から構築される 声質変換とその音声なりすまし可能性の評価
Shinnosuke Takamichi
差分スペクトル法に基づく DNN 声質変換の計算量削減に向けたフィルタ推定
差分スペクトル法に基づく DNN 声質変換の計算量削減に向けたフィルタ推定
Shinnosuke Takamichi
音声合成・変換の国際コンペティションへの 参加を振り返って
音声合成・変換の国際コンペティションへの 参加を振り返って
Shinnosuke Takamichi
ユーザ歌唱のための generative moment matching network に基づく neural double-tracking
ユーザ歌唱のための generative moment matching network に基づく neural double-tracking
Shinnosuke Takamichi
End-to-end 韻律推定に向けた DNN 音響モデルに基づく subword 分割
End-to-end 韻律推定に向けた DNN 音響モデルに基づく subword 分割
Shinnosuke Takamichi
More from Shinnosuke Takamichi
(20)
JTubeSpeech: 音声認識と話者照合のために YouTube から構築される日本語音声コーパス
JTubeSpeech: 音声認識と話者照合のために YouTube から構築される日本語音声コーパス
音声合成のコーパスをつくろう
音声合成のコーパスをつくろう
J-KAC:日本語オーディオブック・紙芝居朗読音声コーパス
J-KAC:日本語オーディオブック・紙芝居朗読音声コーパス
短時間発話を用いた話者照合のための音声加工の効果に関する検討
短時間発話を用いた話者照合のための音声加工の効果に関する検討
リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法
リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法
ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)
ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)
国際会議 interspeech 2020 報告
国際会議 interspeech 2020 報告
Interspeech 2020 読み会 "Incremental Text to Speech for Neural Sequence-to-Sequ...
Interspeech 2020 読み会 "Incremental Text to Speech for Neural Sequence-to-Sequ...
サブバンドフィルタリングに基づくリアルタイム広帯域DNN声質変換の実装と評価
サブバンドフィルタリングに基づくリアルタイム広帯域DNN声質変換の実装と評価
P J S: 音素バランスを考慮した日本語歌声コーパス
P J S: 音素バランスを考慮した日本語歌声コーパス
音響モデル尤度に基づくsubword分割の韻律推定精度における評価
音響モデル尤度に基づくsubword分割の韻律推定精度における評価
音声合成研究を加速させるためのコーパスデザイン
音声合成研究を加速させるためのコーパスデザイン
論文紹介 Unsupervised training of neural mask-based beamforming
論文紹介 Unsupervised training of neural mask-based beamforming
論文紹介 Building the Singapore English National Speech Corpus
論文紹介 Building the Singapore English National Speech Corpus
論文紹介 SANTLR: Speech Annotation Toolkit for Low Resource Languages
論文紹介 SANTLR: Speech Annotation Toolkit for Low Resource Languages
話者V2S攻撃: 話者認証から構築される 声質変換とその音声なりすまし可能性の評価
話者V2S攻撃: 話者認証から構築される 声質変換とその音声なりすまし可能性の評価
差分スペクトル法に基づく DNN 声質変換の計算量削減に向けたフィルタ推定
差分スペクトル法に基づく DNN 声質変換の計算量削減に向けたフィルタ推定
音声合成・変換の国際コンペティションへの 参加を振り返って
音声合成・変換の国際コンペティションへの 参加を振り返って
ユーザ歌唱のための generative moment matching network に基づく neural double-tracking
ユーザ歌唱のための generative moment matching network に基づく neural double-tracking
End-to-end 韻律推定に向けた DNN 音響モデルに基づく subword 分割
End-to-end 韻律推定に向けた DNN 音響モデルに基づく subword 分割
Recently uploaded
The_Five_Books_Overview_Presentation_2024
The_Five_Books_Overview_Presentation_2024
koheioishi1
UniProject Workshop Make a Discord Bot with JavaScript
UniProject Workshop Make a Discord Bot with JavaScript
yuitoakatsukijp
TokyoTechGraduateExaminationPresentation
TokyoTechGraduateExaminationPresentation
YukiTerazawa
東京工業大学 環境・社会理工学院 建築学系 大学院入学入試・進学説明会2024_v2
東京工業大学 環境・社会理工学院 建築学系 大学院入学入試・進学説明会2024_v2
Tokyo Institute of Technology
ゲーム理論 BASIC 演習106 -価格の交渉ゲーム-#ゲーム理論 #gametheory #数学
ゲーム理論 BASIC 演習106 -価格の交渉ゲーム-#ゲーム理論 #gametheory #数学
ssusere0a682
生成AIの回答内容の修正を課題としたレポートについて:お茶の水女子大学「授業・研究における生成系AIの活用事例」での講演資料
生成AIの回答内容の修正を課題としたレポートについて:お茶の水女子大学「授業・研究における生成系AIの活用事例」での講演資料
Takayuki Itoh
ゲーム理論 BASIC 演習105 -n人囚人のジレンマモデル- #ゲーム理論 #gametheory #数学
ゲーム理論 BASIC 演習105 -n人囚人のジレンマモデル- #ゲーム理論 #gametheory #数学
ssusere0a682
Recently uploaded
(7)
The_Five_Books_Overview_Presentation_2024
The_Five_Books_Overview_Presentation_2024
UniProject Workshop Make a Discord Bot with JavaScript
UniProject Workshop Make a Discord Bot with JavaScript
TokyoTechGraduateExaminationPresentation
TokyoTechGraduateExaminationPresentation
東京工業大学 環境・社会理工学院 建築学系 大学院入学入試・進学説明会2024_v2
東京工業大学 環境・社会理工学院 建築学系 大学院入学入試・進学説明会2024_v2
ゲーム理論 BASIC 演習106 -価格の交渉ゲーム-#ゲーム理論 #gametheory #数学
ゲーム理論 BASIC 演習106 -価格の交渉ゲーム-#ゲーム理論 #gametheory #数学
生成AIの回答内容の修正を課題としたレポートについて:お茶の水女子大学「授業・研究における生成系AIの活用事例」での講演資料
生成AIの回答内容の修正を課題としたレポートについて:お茶の水女子大学「授業・研究における生成系AIの活用事例」での講演資料
ゲーム理論 BASIC 演習105 -n人囚人のジレンマモデル- #ゲーム理論 #gametheory #数学
ゲーム理論 BASIC 演習105 -n人囚人のジレンマモデル- #ゲーム理論 #gametheory #数学
日本音響学会2017秋 ビギナーズセミナー "深層学習を深く学習するための基礎"
1.
深層学習を深く学習するための基礎 高道 慎之介 (東大院・情報理工) 日本音響学会
2017年 秋季研究発表会 ビギナーズセミナー
2.
/18 概要 背景:その強力さが叫ばれて久しい深層学習技術 – LSTM,
CNN, Seq2Seq, CTC, GAN, AE, MemoryNet, SuperNN, etc. 問題:名前は聞いたことあるけど,中身をよく知らない… – (研究で使ってるけど,ぶっちゃけ中身をよく知らない) 本発表: – “名前は聞いたことある” から “仕組みがちょっとわかる” へ – 信号処理とも絡めつつ概要を紹介 2 このスライドはslideshareにアップロード済みです. (twitter: #asj2017a か 高道HPを参照)
3.
Feed-Forward NN (Neural
Network) 3
4.
/18 線形変換+非線形活性化関数による変換 4 𝒚 = 𝒇
𝑾 𝒙 + 𝒃 行列 バイアス非線形 活性化関数 回転・伸縮 シフト 𝒙 𝒚 Forward 𝑾 𝒃 𝒇 ⋅ = ReLU ⋅ 𝜕(𝑾𝒙 + 𝒃) 𝜕𝒙 = 𝑾⊤ Backward (あとで説明)𝒙 の散布図
5.
/18 前のページの構造 (single-layer
NN) を積み重ねる! – 複数のSingle-layer NN から成る関数 Forward propagationを式で書くと… Feed-Forward NN 5 ⋯ ⋯ ⋯ ⋯ 𝒙 𝒚 𝒉1 = 𝒇1 𝑾1 𝒙 + 𝒃1 𝒚 = 𝒇 𝐿 𝑾L 𝒉 𝐿−1 + 𝒃 𝐿 𝒉1 𝒉 𝐿−1 𝒚 = 𝒇 𝐿 𝑾L 𝒇 𝐿−1 𝑾L−𝟏 … 𝒇1 𝑾1 𝒙 + 𝒃1 … + 𝒃 𝐿−1 + 𝒃 𝐿
6.
/18 推定値 𝒚
と正解値 𝒚 から計算される損失関数 𝐿 ⋅ を最小化 – 二乗誤差 𝐿 𝐲, 𝒚 = 𝒚 − 𝒚 ⊤ 𝒚 − 𝒚 損失関数を最小化するようにモデルパラメータ 𝑾, 𝒃 を更新 – 勾配法がしばしば使われる(𝛼は学習係数 [AdaGradなどを使用]) モデルパラメータの学習 6 𝑾1 ← 𝑾1 − 𝛼 𝜕𝐿 𝐲, 𝒚 𝜕𝑾1 ⋯ ⋯ ⋯ ⋯ 𝒙 𝒚𝒉1 𝒉 𝐿−1 𝒚 𝐿 ⋅ 𝐿 𝐲, 𝒚 𝜕𝐿 𝐲, 𝒚 𝜕𝒚𝜕𝒚 𝜕𝒉 𝐿−1𝜕𝒉1 𝜕𝑾1 合成関数なので,各関数の 微分の積として得られる
7.
リカレント構造 & 畳み込み構造 7
8.
/18 RNN (Recurrent NN): リカレント構造を持ったNN
NNの出力の一部を入力に戻すNN (LSTMは,これの派生) – 構造情報など(例えば音声の時間構造)の依存性を記憶 8 𝒙 𝑡−2 ⋯ 𝒚 𝑡−2 𝒚 𝑡−2 𝐿 ⋅ Loss 𝑡−2 𝒙 𝑡−1 ⋯ 𝒚 𝑡−1 𝒚 𝑡−1 𝐿 ⋅ Loss 𝑡−1 𝒙 𝒕 ⋯ 𝒚 𝑡 𝒚 𝑡 𝐿 ⋅ Loss 𝑡 𝒙 𝑡+1 ⋯ 𝒚 𝑡+1 𝒚 𝑡+1 𝐿 ⋅ Loss 𝑡+1
9.
/18 BPTT: Back propagation
Through Time 当該時間におけるbackpropagationを,過去の時間に伝播 – 一定時間でbackwardを打ち切る方法をTruncated BPTTという 9 𝒙 𝑡−2 ⋯ 𝒚 𝑡−2 𝒚 𝑡−2 𝐿 ⋅ Loss 𝑡−2 𝒙 𝑡−1 ⋯ 𝒚 𝑡−1 𝒚 𝑡−1 𝐿 ⋅ Loss 𝑡−1 𝒙 𝒕 ⋯ 𝒚 𝑡 𝒚 𝑡 𝐿 ⋅ Loss 𝑡 𝒙 𝑡+1 ⋯ 𝒚 𝑡+1 𝒚 𝑡+1 𝐿 ⋅ Loss 𝑡+1 Backward path
10.
/18 信号処理における畳み込み 畳み込み層:基本的に動作は同じ –
主なパラメータは – ー filter size: 右図の灰色部分の形 – ー #stride: filterの移動幅 – ー #padding: 端の0埋め数 – ー #channel: filterの数 • 異なるフィルタ係数を持った 複数のfliterを利用 CNN (Convolutional NN): 畳み込み構造を持ったNN 10https://github.com/vdumoulin/conv_arithmetic からgifを引用 Timeは ね は は 21 21 ね ね 21 21 全時間で同じ フィルタ係数がかかる
11.
/18 CNNの全体構造 11 [LeCun et al.,
1998.] フィルタ インデックス ⋯ ⋯ ⋯ Pooling層 例:最大値をとるmax-pooling
12.
/18 自己回帰型CNN 12 CNNを自己回帰モデルとして扱う – あるステップで生成した出力から,次のステップを推定 →
信号処理の自己回帰 (エコーやハウリングなど) と同じ – 系列を扱うRNNと違い,ステップごとに並列化して学習可能 WaveNet (PixelCNNの派生) [Oord et al., 2016.] – これまでに生成した波形から,次の波形を生成 – https://deepmind.com/blog/wavenet-generative-model-raw-audio/ から引用
13.
Deep Generative Model 13
14.
/18 Deep generative model (深層生成モデル)
Deep generative modelとは – DNNを使ってデータの生成分布を表現するモデル – 前述の自己回帰型CNNも,これに相当 ここでは,分布変形に基づく方法を紹介 – 既知の確率分布を観測データの分布に変形 – 生成データ 𝒚 の分布と観測データ 𝒚 の分布が似るようにDNNを学習 14 𝒙 ~ 𝑁 𝟎, 𝑰 𝑮 ⋅ 𝒚𝒚 = 𝑮 𝒙 生成 データの 分布 分布の近さを 計算
15.
/18 Generative Adversarial Network
(GAN): 分布間距離の最小化 Generative adversarial network [Goodfellow et al., 2014.] – 分布間の近似 Jensen-Shannon divergence を最小化 – 𝑮 ⋅ と,観測/生成データを識別する識別モデル 𝑫 ⋅ を敵対 15 𝒚 ⋯ ⋯ ⋯ ⋯ 𝑮 ⋅ 𝑫 ⋅ 1: 観測 0: 生成
16.
/18 Moment Matching Network
(MMN): モーメント間距離の最小化 Moment matching network [Li et al., 2015.] – 分布のモーメント (平均,分散,…) 間の二乗距離を最小化 – 実装上は,グラム行列のノルムの差を最小化 16 𝒚 𝒚 ⋯ ⋯ ⋯ ⋯ 𝑮 ⋅
17.
まとめ 17
18.
/18 まとめ 深層学習を深く学習するための基礎を紹介 基礎構造 –
Feed-Forward neural networks (FFNN) – Recurrent neural networks (RNN) … LSTMなど – Convolutional neural networks (CNN) … WaveNetなど Deep generative models – Generative adversarial networks (GAN) … 敵対的学習 – Moment-matching networks (MMN) 18
19.
/18 付録 19
20.
Auto Encoder (AE) 20
21.
/18 Auto-Encoder (AE): 特徴量の次元圧縮 21 非線形の軸を引いて,特徴量の次元を削減
Auto-Encoder: 元のデータを復元するように学習 – - 𝒉 = 𝑬 𝒙 : encoder, 𝒙 = 𝑫 𝒉 : decoder 2次元データ 非線形軸 𝒙 𝒉 非線形軸に写像 𝒙 𝒉 𝒙 𝑳 𝒙, 𝒙 = 𝒙 − 𝒙 ⊤ 𝒙 − 𝒙 𝒙 = 𝑫 𝑬 𝒙
22.
/18 Denoising AE より頑健な次元圧縮を行うため,入力側にノイズを付与 –
ノイジーな入力から,元のデータを復元する どんなノイズを加える? – Drop: ランダムに,使用する次元を減らす • 𝒙 = 1,1,0,0,1,0,1 ^⊤ ∘ 𝒙 ( ∘ は要素積) – Gauss: ガウスノイズを付与する • 𝒙 = 𝒙 + 𝑵 𝟎, 𝜆𝑰 ( 𝜆 は分散) 22 𝒙 𝒉 𝒙 𝑳 𝒙, 𝒙 = 𝒙 − 𝒙 ⊤ 𝒙 − 𝒙 𝒙 = 𝑫 𝑬 𝒙
Download now