SlideShare a Scribd company logo
1 of 22
Download to read offline
深層学習を深く学習するための基礎
高道 慎之介 (東大院・情報理工)
日本音響学会 2017年 秋季研究発表会
ビギナーズセミナー
/18
概要
 背景:その強力さが叫ばれて久しい深層学習技術
– LSTM, CNN, Seq2Seq, CTC, GAN, AE, MemoryNet, SuperNN, etc.
 問題:名前は聞いたことあるけど,中身をよく知らない…
– (研究で使ってるけど,ぶっちゃけ中身をよく知らない)
 本発表:
– “名前は聞いたことある” から “仕組みがちょっとわかる” へ
– 信号処理とも絡めつつ概要を紹介
2
このスライドはslideshareにアップロード済みです.
(twitter: #asj2017a か 高道HPを参照)
Feed-Forward NN (Neural Network)
3
/18
線形変換+非線形活性化関数による変換
4
𝒚 = 𝒇 𝑾 𝒙 + 𝒃
行列 バイアス非線形
活性化関数 回転・伸縮 シフト
𝒙 𝒚
Forward
𝑾 𝒃
𝒇 ⋅ =
ReLU ⋅
𝜕(𝑾𝒙 + 𝒃)
𝜕𝒙
= 𝑾⊤ Backward (あとで説明)𝒙 の散布図
/18
 前のページの構造 (single-layer NN) を積み重ねる!
– 複数のSingle-layer NN から成る関数
 Forward propagationを式で書くと…
Feed-Forward NN
5
⋯
⋯
⋯
⋯
𝒙 𝒚
𝒉1 = 𝒇1 𝑾1 𝒙 + 𝒃1 𝒚 = 𝒇 𝐿 𝑾L 𝒉 𝐿−1 + 𝒃 𝐿
𝒉1 𝒉 𝐿−1
𝒚 = 𝒇 𝐿 𝑾L 𝒇 𝐿−1 𝑾L−𝟏 … 𝒇1 𝑾1 𝒙 + 𝒃1 … + 𝒃 𝐿−1 + 𝒃 𝐿
/18
 推定値 𝒚 と正解値 𝒚 から計算される損失関数 𝐿 ⋅ を最小化
– 二乗誤差 𝐿 𝐲, 𝒚 = 𝒚 − 𝒚 ⊤ 𝒚 − 𝒚
 損失関数を最小化するようにモデルパラメータ 𝑾, 𝒃 を更新
– 勾配法がしばしば使われる(𝛼は学習係数 [AdaGradなどを使用])
モデルパラメータの学習
6
𝑾1 ← 𝑾1 − 𝛼
𝜕𝐿 𝐲, 𝒚
𝜕𝑾1
⋯
⋯
⋯
⋯
𝒙 𝒚𝒉1 𝒉 𝐿−1
𝒚
𝐿 ⋅ 𝐿 𝐲, 𝒚
𝜕𝐿 𝐲, 𝒚 𝜕𝒚𝜕𝒚 𝜕𝒉 𝐿−1𝜕𝒉1 𝜕𝑾1
合成関数なので,各関数の
微分の積として得られる
リカレント構造 & 畳み込み構造
7
/18
RNN (Recurrent NN):
リカレント構造を持ったNN
 NNの出力の一部を入力に戻すNN (LSTMは,これの派生)
– 構造情報など(例えば音声の時間構造)の依存性を記憶
8
𝒙 𝑡−2
⋯
𝒚 𝑡−2
𝒚 𝑡−2 𝐿 ⋅
Loss 𝑡−2
𝒙 𝑡−1
⋯
𝒚 𝑡−1
𝒚 𝑡−1 𝐿 ⋅
Loss 𝑡−1
𝒙 𝒕
⋯
𝒚 𝑡
𝒚 𝑡 𝐿 ⋅
Loss 𝑡
𝒙 𝑡+1
⋯
𝒚 𝑡+1
𝒚 𝑡+1 𝐿 ⋅
Loss 𝑡+1
/18
BPTT: Back propagation Through Time
 当該時間におけるbackpropagationを,過去の時間に伝播
– 一定時間でbackwardを打ち切る方法をTruncated BPTTという
9
𝒙 𝑡−2
⋯
𝒚 𝑡−2
𝒚 𝑡−2 𝐿 ⋅
Loss 𝑡−2
𝒙 𝑡−1
⋯
𝒚 𝑡−1
𝒚 𝑡−1 𝐿 ⋅
Loss 𝑡−1
𝒙 𝒕
⋯
𝒚 𝑡
𝒚 𝑡 𝐿 ⋅
Loss 𝑡
𝒙 𝑡+1
⋯
𝒚 𝑡+1
𝒚 𝑡+1 𝐿 ⋅
Loss 𝑡+1
Backward path
/18
 信号処理における畳み込み
 畳み込み層:基本的に動作は同じ
– 主なパラメータは
– ー filter size: 右図の灰色部分の形
– ー #stride: filterの移動幅
– ー #padding: 端の0埋め数
– ー #channel: filterの数
• 異なるフィルタ係数を持った
複数のfliterを利用
CNN (Convolutional NN):
畳み込み構造を持ったNN
10https://github.com/vdumoulin/conv_arithmetic からgifを引用
Timeは ね
は は
21 21
ね ね
21 21
全時間で同じ
フィルタ係数がかかる
/18
CNNの全体構造
11
[LeCun et al., 1998.]
フィルタ
インデックス
⋯
⋯
⋯
Pooling層
例:最大値をとるmax-pooling
/18
自己回帰型CNN
12
 CNNを自己回帰モデルとして扱う
– あるステップで生成した出力から,次のステップを推定
→ 信号処理の自己回帰 (エコーやハウリングなど) と同じ
– 系列を扱うRNNと違い,ステップごとに並列化して学習可能
 WaveNet (PixelCNNの派生) [Oord et al., 2016.]
– これまでに生成した波形から,次の波形を生成
–
https://deepmind.com/blog/wavenet-generative-model-raw-audio/ から引用
Deep Generative Model
13
/18
Deep generative model
(深層生成モデル)
 Deep generative modelとは
– DNNを使ってデータの生成分布を表現するモデル
– 前述の自己回帰型CNNも,これに相当
 ここでは,分布変形に基づく方法を紹介
– 既知の確率分布を観測データの分布に変形
– 生成データ 𝒚 の分布と観測データ 𝒚 の分布が似るようにDNNを学習
14
𝒙 ~ 𝑁 𝟎, 𝑰 𝑮 ⋅ 𝒚𝒚 = 𝑮 𝒙
生成
データの
分布
分布の近さを
計算
/18
Generative Adversarial Network (GAN):
分布間距離の最小化
 Generative adversarial network [Goodfellow et al., 2014.]
– 分布間の近似 Jensen-Shannon divergence を最小化
– 𝑮 ⋅ と,観測/生成データを識別する識別モデル 𝑫 ⋅ を敵対
15
𝒚
⋯
⋯
⋯
⋯
𝑮 ⋅
𝑫 ⋅
1: 観測
0: 生成
/18
Moment Matching Network (MMN):
モーメント間距離の最小化
 Moment matching network [Li et al., 2015.]
– 分布のモーメント (平均,分散,…) 間の二乗距離を最小化
– 実装上は,グラム行列のノルムの差を最小化
16
𝒚
𝒚
⋯
⋯
⋯
⋯
𝑮 ⋅
まとめ
17
/18
まとめ
 深層学習を深く学習するための基礎を紹介
 基礎構造
– Feed-Forward neural networks (FFNN)
– Recurrent neural networks (RNN) … LSTMなど
– Convolutional neural networks (CNN) … WaveNetなど
 Deep generative models
– Generative adversarial networks (GAN) … 敵対的学習
– Moment-matching networks (MMN)
18
/18
付録
19
Auto Encoder (AE)
20
/18
Auto-Encoder (AE):
特徴量の次元圧縮
21
 非線形の軸を引いて,特徴量の次元を削減
 Auto-Encoder: 元のデータを復元するように学習
– - 𝒉 = 𝑬 𝒙 : encoder, 𝒙 = 𝑫 𝒉 : decoder
2次元データ
非線形軸 𝒙
𝒉 非線形軸に写像
𝒙
𝒉
𝒙 𝑳 𝒙, 𝒙 = 𝒙 − 𝒙 ⊤
𝒙 − 𝒙
𝒙 = 𝑫 𝑬 𝒙
/18
Denoising AE
 より頑健な次元圧縮を行うため,入力側にノイズを付与
– ノイジーな入力から,元のデータを復元する
 どんなノイズを加える?
– Drop: ランダムに,使用する次元を減らす
• 𝒙 = 1,1,0,0,1,0,1 ^⊤ ∘ 𝒙 ( ∘ は要素積)
– Gauss: ガウスノイズを付与する
• 𝒙 = 𝒙 + 𝑵 𝟎, 𝜆𝑰 ( 𝜆 は分散)
22
𝒙
𝒉
𝒙 𝑳 𝒙, 𝒙 = 𝒙 − 𝒙 ⊤
𝒙 − 𝒙
𝒙 = 𝑫 𝑬 𝒙

More Related Content

What's hot

【メタサーベイ】基盤モデル / Foundation Models
【メタサーベイ】基盤モデル / Foundation Models【メタサーベイ】基盤モデル / Foundation Models
【メタサーベイ】基盤モデル / Foundation Modelscvpaper. challenge
 
Transformerを雰囲気で理解する
Transformerを雰囲気で理解するTransformerを雰囲気で理解する
Transformerを雰囲気で理解するAtsukiYamaguchi1
 
【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks?
【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks? 【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks?
【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks? Deep Learning JP
 
全力解説!Transformer
全力解説!Transformer全力解説!Transformer
全力解説!TransformerArithmer Inc.
 
z変換をやさしく教えて下さい (音響学入門ペディア)
z変換をやさしく教えて下さい (音響学入門ペディア)z変換をやさしく教えて下さい (音響学入門ペディア)
z変換をやさしく教えて下さい (音響学入門ペディア)Shinnosuke Takamichi
 
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料Yusuke Uchida
 
統計的ボイチェン研究事情
統計的ボイチェン研究事情統計的ボイチェン研究事情
統計的ボイチェン研究事情Shinnosuke Takamichi
 
[DL輪読会]Wavenet a generative model for raw audio
[DL輪読会]Wavenet a generative model for raw audio[DL輪読会]Wavenet a generative model for raw audio
[DL輪読会]Wavenet a generative model for raw audioDeep Learning JP
 
[DLHacks LT] PytorchのDataLoader -torchtextのソースコードを読んでみた-
[DLHacks LT] PytorchのDataLoader -torchtextのソースコードを読んでみた-[DLHacks LT] PytorchのDataLoader -torchtextのソースコードを読んでみた-
[DLHacks LT] PytorchのDataLoader -torchtextのソースコードを読んでみた-Deep Learning JP
 
統計的手法に基づく異常音検知の理論と応用
統計的手法に基づく異常音検知の理論と応用統計的手法に基づく異常音検知の理論と応用
統計的手法に基づく異常音検知の理論と応用Yuma Koizumi
 
【DL輪読会】"Masked Siamese Networks for Label-Efficient Learning"
【DL輪読会】"Masked Siamese Networks for Label-Efficient Learning"【DL輪読会】"Masked Siamese Networks for Label-Efficient Learning"
【DL輪読会】"Masked Siamese Networks for Label-Efficient Learning"Deep Learning JP
 
backbone としての timm 入門
backbone としての timm 入門backbone としての timm 入門
backbone としての timm 入門Takuji Tahara
 
Deep Learningによる画像認識革命 ー歴史・最新理論から実践応用までー
Deep Learningによる画像認識革命 ー歴史・最新理論から実践応用までーDeep Learningによる画像認識革命 ー歴史・最新理論から実践応用までー
Deep Learningによる画像認識革命 ー歴史・最新理論から実践応用までーnlab_utokyo
 
【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究について【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究についてDeep Learning JP
 
音源分離 ~DNN音源分離の基礎から最新技術まで~ Tokyo bishbash #3
音源分離 ~DNN音源分離の基礎から最新技術まで~ Tokyo bishbash #3音源分離 ~DNN音源分離の基礎から最新技術まで~ Tokyo bishbash #3
音源分離 ~DNN音源分離の基礎から最新技術まで~ Tokyo bishbash #3Naoya Takahashi
 
深層生成モデルを用いたマルチモーダル学習
深層生成モデルを用いたマルチモーダル学習深層生成モデルを用いたマルチモーダル学習
深層生成モデルを用いたマルチモーダル学習Masahiro Suzuki
 
自然言語処理のためのDeep Learning
自然言語処理のためのDeep Learning自然言語処理のためのDeep Learning
自然言語処理のためのDeep LearningYuta Kikuchi
 
近年のHierarchical Vision Transformer
近年のHierarchical Vision Transformer近年のHierarchical Vision Transformer
近年のHierarchical Vision TransformerYusuke Uchida
 
深層生成モデルと世界モデル, 深層生成モデルライブラリPixyzについて
深層生成モデルと世界モデル,深層生成モデルライブラリPixyzについて深層生成モデルと世界モデル,深層生成モデルライブラリPixyzについて
深層生成モデルと世界モデル, 深層生成モデルライブラリPixyzについてMasahiro Suzuki
 
SSII2022 [OS3-03] スケーラブルなロボット学習システムに向けて
SSII2022 [OS3-03] スケーラブルなロボット学習システムに向けてSSII2022 [OS3-03] スケーラブルなロボット学習システムに向けて
SSII2022 [OS3-03] スケーラブルなロボット学習システムに向けてSSII
 

What's hot (20)

【メタサーベイ】基盤モデル / Foundation Models
【メタサーベイ】基盤モデル / Foundation Models【メタサーベイ】基盤モデル / Foundation Models
【メタサーベイ】基盤モデル / Foundation Models
 
Transformerを雰囲気で理解する
Transformerを雰囲気で理解するTransformerを雰囲気で理解する
Transformerを雰囲気で理解する
 
【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks?
【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks? 【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks?
【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks?
 
全力解説!Transformer
全力解説!Transformer全力解説!Transformer
全力解説!Transformer
 
z変換をやさしく教えて下さい (音響学入門ペディア)
z変換をやさしく教えて下さい (音響学入門ペディア)z変換をやさしく教えて下さい (音響学入門ペディア)
z変換をやさしく教えて下さい (音響学入門ペディア)
 
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
 
統計的ボイチェン研究事情
統計的ボイチェン研究事情統計的ボイチェン研究事情
統計的ボイチェン研究事情
 
[DL輪読会]Wavenet a generative model for raw audio
[DL輪読会]Wavenet a generative model for raw audio[DL輪読会]Wavenet a generative model for raw audio
[DL輪読会]Wavenet a generative model for raw audio
 
[DLHacks LT] PytorchのDataLoader -torchtextのソースコードを読んでみた-
[DLHacks LT] PytorchのDataLoader -torchtextのソースコードを読んでみた-[DLHacks LT] PytorchのDataLoader -torchtextのソースコードを読んでみた-
[DLHacks LT] PytorchのDataLoader -torchtextのソースコードを読んでみた-
 
統計的手法に基づく異常音検知の理論と応用
統計的手法に基づく異常音検知の理論と応用統計的手法に基づく異常音検知の理論と応用
統計的手法に基づく異常音検知の理論と応用
 
【DL輪読会】"Masked Siamese Networks for Label-Efficient Learning"
【DL輪読会】"Masked Siamese Networks for Label-Efficient Learning"【DL輪読会】"Masked Siamese Networks for Label-Efficient Learning"
【DL輪読会】"Masked Siamese Networks for Label-Efficient Learning"
 
backbone としての timm 入門
backbone としての timm 入門backbone としての timm 入門
backbone としての timm 入門
 
Deep Learningによる画像認識革命 ー歴史・最新理論から実践応用までー
Deep Learningによる画像認識革命 ー歴史・最新理論から実践応用までーDeep Learningによる画像認識革命 ー歴史・最新理論から実践応用までー
Deep Learningによる画像認識革命 ー歴史・最新理論から実践応用までー
 
【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究について【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究について
 
音源分離 ~DNN音源分離の基礎から最新技術まで~ Tokyo bishbash #3
音源分離 ~DNN音源分離の基礎から最新技術まで~ Tokyo bishbash #3音源分離 ~DNN音源分離の基礎から最新技術まで~ Tokyo bishbash #3
音源分離 ~DNN音源分離の基礎から最新技術まで~ Tokyo bishbash #3
 
深層生成モデルを用いたマルチモーダル学習
深層生成モデルを用いたマルチモーダル学習深層生成モデルを用いたマルチモーダル学習
深層生成モデルを用いたマルチモーダル学習
 
自然言語処理のためのDeep Learning
自然言語処理のためのDeep Learning自然言語処理のためのDeep Learning
自然言語処理のためのDeep Learning
 
近年のHierarchical Vision Transformer
近年のHierarchical Vision Transformer近年のHierarchical Vision Transformer
近年のHierarchical Vision Transformer
 
深層生成モデルと世界モデル, 深層生成モデルライブラリPixyzについて
深層生成モデルと世界モデル,深層生成モデルライブラリPixyzについて深層生成モデルと世界モデル,深層生成モデルライブラリPixyzについて
深層生成モデルと世界モデル, 深層生成モデルライブラリPixyzについて
 
SSII2022 [OS3-03] スケーラブルなロボット学習システムに向けて
SSII2022 [OS3-03] スケーラブルなロボット学習システムに向けてSSII2022 [OS3-03] スケーラブルなロボット学習システムに向けて
SSII2022 [OS3-03] スケーラブルなロボット学習システムに向けて
 

Viewers also liked

日本音響学会2017秋 ”クラウドソーシングを利用した対訳方言音声コーパスの構築”
日本音響学会2017秋 ”クラウドソーシングを利用した対訳方言音声コーパスの構築”日本音響学会2017秋 ”クラウドソーシングを利用した対訳方言音声コーパスの構築”
日本音響学会2017秋 ”クラウドソーシングを利用した対訳方言音声コーパスの構築”Shinnosuke Takamichi
 
雑音環境下音声を用いた音声合成のための雑音生成モデルの敵対的学習
雑音環境下音声を用いた音声合成のための雑音生成モデルの敵対的学習雑音環境下音声を用いた音声合成のための雑音生成モデルの敵対的学習
雑音環境下音声を用いた音声合成のための雑音生成モデルの敵対的学習Shinnosuke Takamichi
 
Jap2017 ss65 優しいベイズ統計への導入法
Jap2017 ss65 優しいベイズ統計への導入法Jap2017 ss65 優しいベイズ統計への導入法
Jap2017 ss65 優しいベイズ統計への導入法考司 小杉
 
Lyric Jumper:アーティストごとの歌詞トピックの傾向に基づく歌詞探索サービス
Lyric Jumper:アーティストごとの歌詞トピックの傾向に基づく歌詞探索サービスLyric Jumper:アーティストごとの歌詞トピックの傾向に基づく歌詞探索サービス
Lyric Jumper:アーティストごとの歌詞トピックの傾向に基づく歌詞探索サービスKosetsu Tsukuda
 
広告プラットフォーム立ち上げ百鬼夜行
広告プラットフォーム立ち上げ百鬼夜行広告プラットフォーム立ち上げ百鬼夜行
広告プラットフォーム立ち上げ百鬼夜行Takahiro Ogoshi
 
多腕バンディット問題: 定式化と応用 (第13回ステアラボ人工知能セミナー)
多腕バンディット問題: 定式化と応用 (第13回ステアラボ人工知能セミナー)多腕バンディット問題: 定式化と応用 (第13回ステアラボ人工知能セミナー)
多腕バンディット問題: 定式化と応用 (第13回ステアラボ人工知能セミナー)STAIR Lab, Chiba Institute of Technology
 
アドテクスタジオのデータ分析基盤について
アドテクスタジオのデータ分析基盤についてアドテクスタジオのデータ分析基盤について
アドテクスタジオのデータ分析基盤についてkazuhiro ito
 
マッチングサービスにおけるKPIの話
マッチングサービスにおけるKPIの話マッチングサービスにおけるKPIの話
マッチングサービスにおけるKPIの話cyberagent
 
VentureCafe_第2回:SIerでのキャリアパスを考える_ござ先輩発表資料 V1.0
VentureCafe_第2回:SIerでのキャリアパスを考える_ござ先輩発表資料 V1.0VentureCafe_第2回:SIerでのキャリアパスを考える_ござ先輩発表資料 V1.0
VentureCafe_第2回:SIerでのキャリアパスを考える_ござ先輩発表資料 V1.0Michitaka Yumoto
 
『バックドア基準の入門』@統数研研究集会
『バックドア基準の入門』@統数研研究集会『バックドア基準の入門』@統数研研究集会
『バックドア基準の入門』@統数研研究集会takehikoihayashi
 
研究発表のためのプレゼンテーション技術
研究発表のためのプレゼンテーション技術研究発表のためのプレゼンテーション技術
研究発表のためのプレゼンテーション技術Shinnosuke Takamichi
 
Apache Kuduを使った分析システムの裏側
Apache Kuduを使った分析システムの裏側Apache Kuduを使った分析システムの裏側
Apache Kuduを使った分析システムの裏側Cloudera Japan
 
Active Learning 入門
Active Learning 入門Active Learning 入門
Active Learning 入門Shuyo Nakatani
 
Jaccard係数の計算式と特徴(1)
Jaccard係数の計算式と特徴(1)Jaccard係数の計算式と特徴(1)
Jaccard係数の計算式と特徴(1)khcoder
 
最小カットを使って「燃やす埋める問題」を解く
最小カットを使って「燃やす埋める問題」を解く最小カットを使って「燃やす埋める問題」を解く
最小カットを使って「燃やす埋める問題」を解くshindannin
 
(DL hacks輪読)Bayesian Neural Network
(DL hacks輪読)Bayesian Neural Network(DL hacks輪読)Bayesian Neural Network
(DL hacks輪読)Bayesian Neural NetworkMasahiro Suzuki
 
If文から機械学習への道
If文から機械学習への道If文から機械学習への道
If文から機械学習への道nishio
 
シリコンバレーの「何が」凄いのか
シリコンバレーの「何が」凄いのかシリコンバレーの「何が」凄いのか
シリコンバレーの「何が」凄いのかAtsushi Nakada
 

Viewers also liked (19)

日本音響学会2017秋 ”クラウドソーシングを利用した対訳方言音声コーパスの構築”
日本音響学会2017秋 ”クラウドソーシングを利用した対訳方言音声コーパスの構築”日本音響学会2017秋 ”クラウドソーシングを利用した対訳方言音声コーパスの構築”
日本音響学会2017秋 ”クラウドソーシングを利用した対訳方言音声コーパスの構築”
 
雑音環境下音声を用いた音声合成のための雑音生成モデルの敵対的学習
雑音環境下音声を用いた音声合成のための雑音生成モデルの敵対的学習雑音環境下音声を用いた音声合成のための雑音生成モデルの敵対的学習
雑音環境下音声を用いた音声合成のための雑音生成モデルの敵対的学習
 
Jap2017 ss65 優しいベイズ統計への導入法
Jap2017 ss65 優しいベイズ統計への導入法Jap2017 ss65 優しいベイズ統計への導入法
Jap2017 ss65 優しいベイズ統計への導入法
 
Lyric Jumper:アーティストごとの歌詞トピックの傾向に基づく歌詞探索サービス
Lyric Jumper:アーティストごとの歌詞トピックの傾向に基づく歌詞探索サービスLyric Jumper:アーティストごとの歌詞トピックの傾向に基づく歌詞探索サービス
Lyric Jumper:アーティストごとの歌詞トピックの傾向に基づく歌詞探索サービス
 
広告プラットフォーム立ち上げ百鬼夜行
広告プラットフォーム立ち上げ百鬼夜行広告プラットフォーム立ち上げ百鬼夜行
広告プラットフォーム立ち上げ百鬼夜行
 
多腕バンディット問題: 定式化と応用 (第13回ステアラボ人工知能セミナー)
多腕バンディット問題: 定式化と応用 (第13回ステアラボ人工知能セミナー)多腕バンディット問題: 定式化と応用 (第13回ステアラボ人工知能セミナー)
多腕バンディット問題: 定式化と応用 (第13回ステアラボ人工知能セミナー)
 
アドテクスタジオのデータ分析基盤について
アドテクスタジオのデータ分析基盤についてアドテクスタジオのデータ分析基盤について
アドテクスタジオのデータ分析基盤について
 
マッチングサービスにおけるKPIの話
マッチングサービスにおけるKPIの話マッチングサービスにおけるKPIの話
マッチングサービスにおけるKPIの話
 
VentureCafe_第2回:SIerでのキャリアパスを考える_ござ先輩発表資料 V1.0
VentureCafe_第2回:SIerでのキャリアパスを考える_ござ先輩発表資料 V1.0VentureCafe_第2回:SIerでのキャリアパスを考える_ござ先輩発表資料 V1.0
VentureCafe_第2回:SIerでのキャリアパスを考える_ござ先輩発表資料 V1.0
 
『バックドア基準の入門』@統数研研究集会
『バックドア基準の入門』@統数研研究集会『バックドア基準の入門』@統数研研究集会
『バックドア基準の入門』@統数研研究集会
 
研究発表のためのプレゼンテーション技術
研究発表のためのプレゼンテーション技術研究発表のためのプレゼンテーション技術
研究発表のためのプレゼンテーション技術
 
Apache Kuduを使った分析システムの裏側
Apache Kuduを使った分析システムの裏側Apache Kuduを使った分析システムの裏側
Apache Kuduを使った分析システムの裏側
 
Active Learning 入門
Active Learning 入門Active Learning 入門
Active Learning 入門
 
Jaccard係数の計算式と特徴(1)
Jaccard係数の計算式と特徴(1)Jaccard係数の計算式と特徴(1)
Jaccard係数の計算式と特徴(1)
 
最小カットを使って「燃やす埋める問題」を解く
最小カットを使って「燃やす埋める問題」を解く最小カットを使って「燃やす埋める問題」を解く
最小カットを使って「燃やす埋める問題」を解く
 
ミリシタを支える GAE/Go
ミリシタを支える GAE/Goミリシタを支える GAE/Go
ミリシタを支える GAE/Go
 
(DL hacks輪読)Bayesian Neural Network
(DL hacks輪読)Bayesian Neural Network(DL hacks輪読)Bayesian Neural Network
(DL hacks輪読)Bayesian Neural Network
 
If文から機械学習への道
If文から機械学習への道If文から機械学習への道
If文から機械学習への道
 
シリコンバレーの「何が」凄いのか
シリコンバレーの「何が」凄いのかシリコンバレーの「何が」凄いのか
シリコンバレーの「何が」凄いのか
 

Similar to 日本音響学会2017秋 ビギナーズセミナー "深層学習を深く学習するための基礎"

Recurrent Neural Networks
Recurrent Neural NetworksRecurrent Neural Networks
Recurrent Neural NetworksSeiya Tokui
 
Chainerの使い方と 自然言語処理への応用
Chainerの使い方と自然言語処理への応用Chainerの使い方と自然言語処理への応用
Chainerの使い方と 自然言語処理への応用Yuya Unno
 
深層学習フレームワーク Chainerとその進化
深層学習フレームワークChainerとその進化深層学習フレームワークChainerとその進化
深層学習フレームワーク Chainerとその進化Yuya Unno
 
Deep learning実装の基礎と実践
Deep learning実装の基礎と実践Deep learning実装の基礎と実践
Deep learning実装の基礎と実践Seiya Tokui
 
R-CNNの原理とここ数年の流れ
R-CNNの原理とここ数年の流れR-CNNの原理とここ数年の流れ
R-CNNの原理とここ数年の流れKazuki Motohashi
 
Get To The Point: Summarization with Pointer-Generator Networks_acl17_論文紹介
Get To The Point: Summarization with Pointer-Generator Networks_acl17_論文紹介Get To The Point: Summarization with Pointer-Generator Networks_acl17_論文紹介
Get To The Point: Summarization with Pointer-Generator Networks_acl17_論文紹介Masayoshi Kondo
 
WaveNetが音声合成研究に与える影響
WaveNetが音声合成研究に与える影響WaveNetが音声合成研究に与える影響
WaveNetが音声合成研究に与える影響NU_I_TODALAB
 
畳み込みニューラルネットワークの高精度化と高速化
畳み込みニューラルネットワークの高精度化と高速化畳み込みニューラルネットワークの高精度化と高速化
畳み込みニューラルネットワークの高精度化と高速化Yusuke Uchida
 
深層学習フレームワーク Chainer の開発と今後の展開
深層学習フレームワーク Chainer の開発と今後の展開深層学習フレームワーク Chainer の開発と今後の展開
深層学習フレームワーク Chainer の開発と今後の展開Seiya Tokui
 
Learning Deep Architectures for AI (第 3 回 Deep Learning 勉強会資料; 松尾)
Learning Deep Architectures for AI (第 3 回 Deep Learning 勉強会資料; 松尾)Learning Deep Architectures for AI (第 3 回 Deep Learning 勉強会資料; 松尾)
Learning Deep Architectures for AI (第 3 回 Deep Learning 勉強会資料; 松尾)Ohsawa Goodfellow
 
畳み込みニューラルネットワークの研究動向
畳み込みニューラルネットワークの研究動向畳み込みニューラルネットワークの研究動向
畳み込みニューラルネットワークの研究動向Yusuke Uchida
 
Deep Learningの基礎と応用
Deep Learningの基礎と応用Deep Learningの基礎と応用
Deep Learningの基礎と応用Seiya Tokui
 
Chainerの使い方と自然言語処理への応用
Chainerの使い方と自然言語処理への応用Chainerの使い方と自然言語処理への応用
Chainerの使い方と自然言語処理への応用Seiya Tokui
 
画像認識モデルを自動的に作る。1日以内に。~Simple And Efficient Architecture Search for Convolutio...
画像認識モデルを自動的に作る。1日以内に。~Simple And Efficient Architecture Search for Convolutio...画像認識モデルを自動的に作る。1日以内に。~Simple And Efficient Architecture Search for Convolutio...
画像認識モデルを自動的に作る。1日以内に。~Simple And Efficient Architecture Search for Convolutio...Takahiro Kubo
 
20130925.deeplearning
20130925.deeplearning20130925.deeplearning
20130925.deeplearningHayaru SHOUNO
 
深層学習による非滑らかな関数の推定
深層学習による非滑らかな関数の推定深層学習による非滑らかな関数の推定
深層学習による非滑らかな関数の推定Masaaki Imaizumi
 
点群深層学習 Meta-study
点群深層学習 Meta-study点群深層学習 Meta-study
点群深層学習 Meta-studyNaoya Chiba
 
[DL輪読会]Pervasive Attention: 2D Convolutional Neural Networks for Sequence-to-...
[DL輪読会]Pervasive Attention: 2D Convolutional Neural Networks for Sequence-to-...[DL輪読会]Pervasive Attention: 2D Convolutional Neural Networks for Sequence-to-...
[DL輪読会]Pervasive Attention: 2D Convolutional Neural Networks for Sequence-to-...Deep Learning JP
 
文献紹介:An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale
文献紹介:An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale文献紹介:An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale
文献紹介:An Image is Worth 16x16 Words: Transformers for Image Recognition at ScaleToru Tamaki
 

Similar to 日本音響学会2017秋 ビギナーズセミナー "深層学習を深く学習するための基礎" (20)

Recurrent Neural Networks
Recurrent Neural NetworksRecurrent Neural Networks
Recurrent Neural Networks
 
Chainerの使い方と 自然言語処理への応用
Chainerの使い方と自然言語処理への応用Chainerの使い方と自然言語処理への応用
Chainerの使い方と 自然言語処理への応用
 
深層学習フレームワーク Chainerとその進化
深層学習フレームワークChainerとその進化深層学習フレームワークChainerとその進化
深層学習フレームワーク Chainerとその進化
 
Deep learning実装の基礎と実践
Deep learning実装の基礎と実践Deep learning実装の基礎と実践
Deep learning実装の基礎と実践
 
Extract and edit
Extract and editExtract and edit
Extract and edit
 
R-CNNの原理とここ数年の流れ
R-CNNの原理とここ数年の流れR-CNNの原理とここ数年の流れ
R-CNNの原理とここ数年の流れ
 
Get To The Point: Summarization with Pointer-Generator Networks_acl17_論文紹介
Get To The Point: Summarization with Pointer-Generator Networks_acl17_論文紹介Get To The Point: Summarization with Pointer-Generator Networks_acl17_論文紹介
Get To The Point: Summarization with Pointer-Generator Networks_acl17_論文紹介
 
WaveNetが音声合成研究に与える影響
WaveNetが音声合成研究に与える影響WaveNetが音声合成研究に与える影響
WaveNetが音声合成研究に与える影響
 
畳み込みニューラルネットワークの高精度化と高速化
畳み込みニューラルネットワークの高精度化と高速化畳み込みニューラルネットワークの高精度化と高速化
畳み込みニューラルネットワークの高精度化と高速化
 
深層学習フレームワーク Chainer の開発と今後の展開
深層学習フレームワーク Chainer の開発と今後の展開深層学習フレームワーク Chainer の開発と今後の展開
深層学習フレームワーク Chainer の開発と今後の展開
 
Learning Deep Architectures for AI (第 3 回 Deep Learning 勉強会資料; 松尾)
Learning Deep Architectures for AI (第 3 回 Deep Learning 勉強会資料; 松尾)Learning Deep Architectures for AI (第 3 回 Deep Learning 勉強会資料; 松尾)
Learning Deep Architectures for AI (第 3 回 Deep Learning 勉強会資料; 松尾)
 
畳み込みニューラルネットワークの研究動向
畳み込みニューラルネットワークの研究動向畳み込みニューラルネットワークの研究動向
畳み込みニューラルネットワークの研究動向
 
Deep Learningの基礎と応用
Deep Learningの基礎と応用Deep Learningの基礎と応用
Deep Learningの基礎と応用
 
Chainerの使い方と自然言語処理への応用
Chainerの使い方と自然言語処理への応用Chainerの使い方と自然言語処理への応用
Chainerの使い方と自然言語処理への応用
 
画像認識モデルを自動的に作る。1日以内に。~Simple And Efficient Architecture Search for Convolutio...
画像認識モデルを自動的に作る。1日以内に。~Simple And Efficient Architecture Search for Convolutio...画像認識モデルを自動的に作る。1日以内に。~Simple And Efficient Architecture Search for Convolutio...
画像認識モデルを自動的に作る。1日以内に。~Simple And Efficient Architecture Search for Convolutio...
 
20130925.deeplearning
20130925.deeplearning20130925.deeplearning
20130925.deeplearning
 
深層学習による非滑らかな関数の推定
深層学習による非滑らかな関数の推定深層学習による非滑らかな関数の推定
深層学習による非滑らかな関数の推定
 
点群深層学習 Meta-study
点群深層学習 Meta-study点群深層学習 Meta-study
点群深層学習 Meta-study
 
[DL輪読会]Pervasive Attention: 2D Convolutional Neural Networks for Sequence-to-...
[DL輪読会]Pervasive Attention: 2D Convolutional Neural Networks for Sequence-to-...[DL輪読会]Pervasive Attention: 2D Convolutional Neural Networks for Sequence-to-...
[DL輪読会]Pervasive Attention: 2D Convolutional Neural Networks for Sequence-to-...
 
文献紹介:An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale
文献紹介:An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale文献紹介:An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale
文献紹介:An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale
 

More from Shinnosuke Takamichi

JTubeSpeech: 音声認識と話者照合のために YouTube から構築される日本語音声コーパス
JTubeSpeech:  音声認識と話者照合のために YouTube から構築される日本語音声コーパスJTubeSpeech:  音声認識と話者照合のために YouTube から構築される日本語音声コーパス
JTubeSpeech: 音声認識と話者照合のために YouTube から構築される日本語音声コーパスShinnosuke Takamichi
 
音声合成のコーパスをつくろう
音声合成のコーパスをつくろう音声合成のコーパスをつくろう
音声合成のコーパスをつくろうShinnosuke Takamichi
 
J-KAC:日本語オーディオブック・紙芝居朗読音声コーパス
J-KAC:日本語オーディオブック・紙芝居朗読音声コーパスJ-KAC:日本語オーディオブック・紙芝居朗読音声コーパス
J-KAC:日本語オーディオブック・紙芝居朗読音声コーパスShinnosuke Takamichi
 
短時間発話を用いた話者照合のための音声加工の効果に関する検討
短時間発話を用いた話者照合のための音声加工の効果に関する検討短時間発話を用いた話者照合のための音声加工の効果に関する検討
短時間発話を用いた話者照合のための音声加工の効果に関する検討Shinnosuke Takamichi
 
リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法
リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法
リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法Shinnosuke Takamichi
 
ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)
ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)
ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)Shinnosuke Takamichi
 
国際会議 interspeech 2020 報告
国際会議 interspeech 2020 報告国際会議 interspeech 2020 報告
国際会議 interspeech 2020 報告Shinnosuke Takamichi
 
Interspeech 2020 読み会 "Incremental Text to Speech for Neural Sequence-to-Sequ...
Interspeech 2020 読み会 "Incremental Text to Speech for Neural  Sequence-to-Sequ...Interspeech 2020 読み会 "Incremental Text to Speech for Neural  Sequence-to-Sequ...
Interspeech 2020 読み会 "Incremental Text to Speech for Neural Sequence-to-Sequ...Shinnosuke Takamichi
 
サブバンドフィルタリングに基づくリアルタイム広帯域DNN声質変換の実装と評価
サブバンドフィルタリングに基づくリアルタイム広帯域DNN声質変換の実装と評価サブバンドフィルタリングに基づくリアルタイム広帯域DNN声質変換の実装と評価
サブバンドフィルタリングに基づくリアルタイム広帯域DNN声質変換の実装と評価Shinnosuke Takamichi
 
P J S: 音素バランスを考慮した日本語歌声コーパス
P J S: 音素バランスを考慮した日本語歌声コーパスP J S: 音素バランスを考慮した日本語歌声コーパス
P J S: 音素バランスを考慮した日本語歌声コーパスShinnosuke Takamichi
 
音響モデル尤度に基づくsubword分割の韻律推定精度における評価
音響モデル尤度に基づくsubword分割の韻律推定精度における評価音響モデル尤度に基づくsubword分割の韻律推定精度における評価
音響モデル尤度に基づくsubword分割の韻律推定精度における評価Shinnosuke Takamichi
 
音声合成研究を加速させるためのコーパスデザイン
音声合成研究を加速させるためのコーパスデザイン音声合成研究を加速させるためのコーパスデザイン
音声合成研究を加速させるためのコーパスデザインShinnosuke Takamichi
 
論文紹介 Unsupervised training of neural mask-based beamforming
論文紹介 Unsupervised training of neural  mask-based beamforming論文紹介 Unsupervised training of neural  mask-based beamforming
論文紹介 Unsupervised training of neural mask-based beamformingShinnosuke Takamichi
 
論文紹介 Building the Singapore English National Speech Corpus
論文紹介 Building the Singapore English National Speech Corpus論文紹介 Building the Singapore English National Speech Corpus
論文紹介 Building the Singapore English National Speech CorpusShinnosuke Takamichi
 
論文紹介 SANTLR: Speech Annotation Toolkit for Low Resource Languages
論文紹介 SANTLR: Speech Annotation Toolkit for Low Resource Languages論文紹介 SANTLR: Speech Annotation Toolkit for Low Resource Languages
論文紹介 SANTLR: Speech Annotation Toolkit for Low Resource LanguagesShinnosuke Takamichi
 
話者V2S攻撃: 話者認証から構築される 声質変換とその音声なりすまし可能性の評価
話者V2S攻撃: 話者認証から構築される 声質変換とその音声なりすまし可能性の評価話者V2S攻撃: 話者認証から構築される 声質変換とその音声なりすまし可能性の評価
話者V2S攻撃: 話者認証から構築される 声質変換とその音声なりすまし可能性の評価Shinnosuke Takamichi
 
差分スペクトル法に基づく DNN 声質変換の計算量削減に向けたフィルタ推定
差分スペクトル法に基づく DNN 声質変換の計算量削減に向けたフィルタ推定差分スペクトル法に基づく DNN 声質変換の計算量削減に向けたフィルタ推定
差分スペクトル法に基づく DNN 声質変換の計算量削減に向けたフィルタ推定Shinnosuke Takamichi
 
音声合成・変換の国際コンペティションへの 参加を振り返って
音声合成・変換の国際コンペティションへの  参加を振り返って音声合成・変換の国際コンペティションへの  参加を振り返って
音声合成・変換の国際コンペティションへの 参加を振り返ってShinnosuke Takamichi
 
ユーザ歌唱のための generative moment matching network に基づく neural double-tracking
ユーザ歌唱のための generative moment matching network に基づく neural double-trackingユーザ歌唱のための generative moment matching network に基づく neural double-tracking
ユーザ歌唱のための generative moment matching network に基づく neural double-trackingShinnosuke Takamichi
 
End-to-end 韻律推定に向けた DNN 音響モデルに基づく subword 分割
End-to-end 韻律推定に向けた DNN 音響モデルに基づく subword 分割End-to-end 韻律推定に向けた DNN 音響モデルに基づく subword 分割
End-to-end 韻律推定に向けた DNN 音響モデルに基づく subword 分割Shinnosuke Takamichi
 

More from Shinnosuke Takamichi (20)

JTubeSpeech: 音声認識と話者照合のために YouTube から構築される日本語音声コーパス
JTubeSpeech:  音声認識と話者照合のために YouTube から構築される日本語音声コーパスJTubeSpeech:  音声認識と話者照合のために YouTube から構築される日本語音声コーパス
JTubeSpeech: 音声認識と話者照合のために YouTube から構築される日本語音声コーパス
 
音声合成のコーパスをつくろう
音声合成のコーパスをつくろう音声合成のコーパスをつくろう
音声合成のコーパスをつくろう
 
J-KAC:日本語オーディオブック・紙芝居朗読音声コーパス
J-KAC:日本語オーディオブック・紙芝居朗読音声コーパスJ-KAC:日本語オーディオブック・紙芝居朗読音声コーパス
J-KAC:日本語オーディオブック・紙芝居朗読音声コーパス
 
短時間発話を用いた話者照合のための音声加工の効果に関する検討
短時間発話を用いた話者照合のための音声加工の効果に関する検討短時間発話を用いた話者照合のための音声加工の効果に関する検討
短時間発話を用いた話者照合のための音声加工の効果に関する検討
 
リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法
リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法
リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法
 
ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)
ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)
ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)
 
国際会議 interspeech 2020 報告
国際会議 interspeech 2020 報告国際会議 interspeech 2020 報告
国際会議 interspeech 2020 報告
 
Interspeech 2020 読み会 "Incremental Text to Speech for Neural Sequence-to-Sequ...
Interspeech 2020 読み会 "Incremental Text to Speech for Neural  Sequence-to-Sequ...Interspeech 2020 読み会 "Incremental Text to Speech for Neural  Sequence-to-Sequ...
Interspeech 2020 読み会 "Incremental Text to Speech for Neural Sequence-to-Sequ...
 
サブバンドフィルタリングに基づくリアルタイム広帯域DNN声質変換の実装と評価
サブバンドフィルタリングに基づくリアルタイム広帯域DNN声質変換の実装と評価サブバンドフィルタリングに基づくリアルタイム広帯域DNN声質変換の実装と評価
サブバンドフィルタリングに基づくリアルタイム広帯域DNN声質変換の実装と評価
 
P J S: 音素バランスを考慮した日本語歌声コーパス
P J S: 音素バランスを考慮した日本語歌声コーパスP J S: 音素バランスを考慮した日本語歌声コーパス
P J S: 音素バランスを考慮した日本語歌声コーパス
 
音響モデル尤度に基づくsubword分割の韻律推定精度における評価
音響モデル尤度に基づくsubword分割の韻律推定精度における評価音響モデル尤度に基づくsubword分割の韻律推定精度における評価
音響モデル尤度に基づくsubword分割の韻律推定精度における評価
 
音声合成研究を加速させるためのコーパスデザイン
音声合成研究を加速させるためのコーパスデザイン音声合成研究を加速させるためのコーパスデザイン
音声合成研究を加速させるためのコーパスデザイン
 
論文紹介 Unsupervised training of neural mask-based beamforming
論文紹介 Unsupervised training of neural  mask-based beamforming論文紹介 Unsupervised training of neural  mask-based beamforming
論文紹介 Unsupervised training of neural mask-based beamforming
 
論文紹介 Building the Singapore English National Speech Corpus
論文紹介 Building the Singapore English National Speech Corpus論文紹介 Building the Singapore English National Speech Corpus
論文紹介 Building the Singapore English National Speech Corpus
 
論文紹介 SANTLR: Speech Annotation Toolkit for Low Resource Languages
論文紹介 SANTLR: Speech Annotation Toolkit for Low Resource Languages論文紹介 SANTLR: Speech Annotation Toolkit for Low Resource Languages
論文紹介 SANTLR: Speech Annotation Toolkit for Low Resource Languages
 
話者V2S攻撃: 話者認証から構築される 声質変換とその音声なりすまし可能性の評価
話者V2S攻撃: 話者認証から構築される 声質変換とその音声なりすまし可能性の評価話者V2S攻撃: 話者認証から構築される 声質変換とその音声なりすまし可能性の評価
話者V2S攻撃: 話者認証から構築される 声質変換とその音声なりすまし可能性の評価
 
差分スペクトル法に基づく DNN 声質変換の計算量削減に向けたフィルタ推定
差分スペクトル法に基づく DNN 声質変換の計算量削減に向けたフィルタ推定差分スペクトル法に基づく DNN 声質変換の計算量削減に向けたフィルタ推定
差分スペクトル法に基づく DNN 声質変換の計算量削減に向けたフィルタ推定
 
音声合成・変換の国際コンペティションへの 参加を振り返って
音声合成・変換の国際コンペティションへの  参加を振り返って音声合成・変換の国際コンペティションへの  参加を振り返って
音声合成・変換の国際コンペティションへの 参加を振り返って
 
ユーザ歌唱のための generative moment matching network に基づく neural double-tracking
ユーザ歌唱のための generative moment matching network に基づく neural double-trackingユーザ歌唱のための generative moment matching network に基づく neural double-tracking
ユーザ歌唱のための generative moment matching network に基づく neural double-tracking
 
End-to-end 韻律推定に向けた DNN 音響モデルに基づく subword 分割
End-to-end 韻律推定に向けた DNN 音響モデルに基づく subword 分割End-to-end 韻律推定に向けた DNN 音響モデルに基づく subword 分割
End-to-end 韻律推定に向けた DNN 音響モデルに基づく subword 分割
 

Recently uploaded

The_Five_Books_Overview_Presentation_2024
The_Five_Books_Overview_Presentation_2024The_Five_Books_Overview_Presentation_2024
The_Five_Books_Overview_Presentation_2024koheioishi1
 
UniProject Workshop Make a Discord Bot with JavaScript
UniProject Workshop Make a Discord Bot with JavaScriptUniProject Workshop Make a Discord Bot with JavaScript
UniProject Workshop Make a Discord Bot with JavaScriptyuitoakatsukijp
 
TokyoTechGraduateExaminationPresentation
TokyoTechGraduateExaminationPresentationTokyoTechGraduateExaminationPresentation
TokyoTechGraduateExaminationPresentationYukiTerazawa
 
東京工業大学 環境・社会理工学院 建築学系 大学院入学入試・進学説明会2024_v2
東京工業大学 環境・社会理工学院 建築学系 大学院入学入試・進学説明会2024_v2東京工業大学 環境・社会理工学院 建築学系 大学院入学入試・進学説明会2024_v2
東京工業大学 環境・社会理工学院 建築学系 大学院入学入試・進学説明会2024_v2Tokyo Institute of Technology
 
ゲーム理論 BASIC 演習106 -価格の交渉ゲーム-#ゲーム理論 #gametheory #数学
ゲーム理論 BASIC 演習106 -価格の交渉ゲーム-#ゲーム理論 #gametheory #数学ゲーム理論 BASIC 演習106 -価格の交渉ゲーム-#ゲーム理論 #gametheory #数学
ゲーム理論 BASIC 演習106 -価格の交渉ゲーム-#ゲーム理論 #gametheory #数学ssusere0a682
 
生成AIの回答内容の修正を課題としたレポートについて:お茶の水女子大学「授業・研究における生成系AIの活用事例」での講演資料
生成AIの回答内容の修正を課題としたレポートについて:お茶の水女子大学「授業・研究における生成系AIの活用事例」での講演資料生成AIの回答内容の修正を課題としたレポートについて:お茶の水女子大学「授業・研究における生成系AIの活用事例」での講演資料
生成AIの回答内容の修正を課題としたレポートについて:お茶の水女子大学「授業・研究における生成系AIの活用事例」での講演資料Takayuki Itoh
 
ゲーム理論 BASIC 演習105 -n人囚人のジレンマモデル- #ゲーム理論 #gametheory #数学
ゲーム理論 BASIC 演習105 -n人囚人のジレンマモデル- #ゲーム理論 #gametheory #数学ゲーム理論 BASIC 演習105 -n人囚人のジレンマモデル- #ゲーム理論 #gametheory #数学
ゲーム理論 BASIC 演習105 -n人囚人のジレンマモデル- #ゲーム理論 #gametheory #数学ssusere0a682
 

Recently uploaded (7)

The_Five_Books_Overview_Presentation_2024
The_Five_Books_Overview_Presentation_2024The_Five_Books_Overview_Presentation_2024
The_Five_Books_Overview_Presentation_2024
 
UniProject Workshop Make a Discord Bot with JavaScript
UniProject Workshop Make a Discord Bot with JavaScriptUniProject Workshop Make a Discord Bot with JavaScript
UniProject Workshop Make a Discord Bot with JavaScript
 
TokyoTechGraduateExaminationPresentation
TokyoTechGraduateExaminationPresentationTokyoTechGraduateExaminationPresentation
TokyoTechGraduateExaminationPresentation
 
東京工業大学 環境・社会理工学院 建築学系 大学院入学入試・進学説明会2024_v2
東京工業大学 環境・社会理工学院 建築学系 大学院入学入試・進学説明会2024_v2東京工業大学 環境・社会理工学院 建築学系 大学院入学入試・進学説明会2024_v2
東京工業大学 環境・社会理工学院 建築学系 大学院入学入試・進学説明会2024_v2
 
ゲーム理論 BASIC 演習106 -価格の交渉ゲーム-#ゲーム理論 #gametheory #数学
ゲーム理論 BASIC 演習106 -価格の交渉ゲーム-#ゲーム理論 #gametheory #数学ゲーム理論 BASIC 演習106 -価格の交渉ゲーム-#ゲーム理論 #gametheory #数学
ゲーム理論 BASIC 演習106 -価格の交渉ゲーム-#ゲーム理論 #gametheory #数学
 
生成AIの回答内容の修正を課題としたレポートについて:お茶の水女子大学「授業・研究における生成系AIの活用事例」での講演資料
生成AIの回答内容の修正を課題としたレポートについて:お茶の水女子大学「授業・研究における生成系AIの活用事例」での講演資料生成AIの回答内容の修正を課題としたレポートについて:お茶の水女子大学「授業・研究における生成系AIの活用事例」での講演資料
生成AIの回答内容の修正を課題としたレポートについて:お茶の水女子大学「授業・研究における生成系AIの活用事例」での講演資料
 
ゲーム理論 BASIC 演習105 -n人囚人のジレンマモデル- #ゲーム理論 #gametheory #数学
ゲーム理論 BASIC 演習105 -n人囚人のジレンマモデル- #ゲーム理論 #gametheory #数学ゲーム理論 BASIC 演習105 -n人囚人のジレンマモデル- #ゲーム理論 #gametheory #数学
ゲーム理論 BASIC 演習105 -n人囚人のジレンマモデル- #ゲーム理論 #gametheory #数学
 

日本音響学会2017秋 ビギナーズセミナー "深層学習を深く学習するための基礎"

  • 2. /18 概要  背景:その強力さが叫ばれて久しい深層学習技術 – LSTM, CNN, Seq2Seq, CTC, GAN, AE, MemoryNet, SuperNN, etc.  問題:名前は聞いたことあるけど,中身をよく知らない… – (研究で使ってるけど,ぶっちゃけ中身をよく知らない)  本発表: – “名前は聞いたことある” から “仕組みがちょっとわかる” へ – 信号処理とも絡めつつ概要を紹介 2 このスライドはslideshareにアップロード済みです. (twitter: #asj2017a か 高道HPを参照)
  • 4. /18 線形変換+非線形活性化関数による変換 4 𝒚 = 𝒇 𝑾 𝒙 + 𝒃 行列 バイアス非線形 活性化関数 回転・伸縮 シフト 𝒙 𝒚 Forward 𝑾 𝒃 𝒇 ⋅ = ReLU ⋅ 𝜕(𝑾𝒙 + 𝒃) 𝜕𝒙 = 𝑾⊤ Backward (あとで説明)𝒙 の散布図
  • 5. /18  前のページの構造 (single-layer NN) を積み重ねる! – 複数のSingle-layer NN から成る関数  Forward propagationを式で書くと… Feed-Forward NN 5 ⋯ ⋯ ⋯ ⋯ 𝒙 𝒚 𝒉1 = 𝒇1 𝑾1 𝒙 + 𝒃1 𝒚 = 𝒇 𝐿 𝑾L 𝒉 𝐿−1 + 𝒃 𝐿 𝒉1 𝒉 𝐿−1 𝒚 = 𝒇 𝐿 𝑾L 𝒇 𝐿−1 𝑾L−𝟏 … 𝒇1 𝑾1 𝒙 + 𝒃1 … + 𝒃 𝐿−1 + 𝒃 𝐿
  • 6. /18  推定値 𝒚 と正解値 𝒚 から計算される損失関数 𝐿 ⋅ を最小化 – 二乗誤差 𝐿 𝐲, 𝒚 = 𝒚 − 𝒚 ⊤ 𝒚 − 𝒚  損失関数を最小化するようにモデルパラメータ 𝑾, 𝒃 を更新 – 勾配法がしばしば使われる(𝛼は学習係数 [AdaGradなどを使用]) モデルパラメータの学習 6 𝑾1 ← 𝑾1 − 𝛼 𝜕𝐿 𝐲, 𝒚 𝜕𝑾1 ⋯ ⋯ ⋯ ⋯ 𝒙 𝒚𝒉1 𝒉 𝐿−1 𝒚 𝐿 ⋅ 𝐿 𝐲, 𝒚 𝜕𝐿 𝐲, 𝒚 𝜕𝒚𝜕𝒚 𝜕𝒉 𝐿−1𝜕𝒉1 𝜕𝑾1 合成関数なので,各関数の 微分の積として得られる
  • 8. /18 RNN (Recurrent NN): リカレント構造を持ったNN  NNの出力の一部を入力に戻すNN (LSTMは,これの派生) – 構造情報など(例えば音声の時間構造)の依存性を記憶 8 𝒙 𝑡−2 ⋯ 𝒚 𝑡−2 𝒚 𝑡−2 𝐿 ⋅ Loss 𝑡−2 𝒙 𝑡−1 ⋯ 𝒚 𝑡−1 𝒚 𝑡−1 𝐿 ⋅ Loss 𝑡−1 𝒙 𝒕 ⋯ 𝒚 𝑡 𝒚 𝑡 𝐿 ⋅ Loss 𝑡 𝒙 𝑡+1 ⋯ 𝒚 𝑡+1 𝒚 𝑡+1 𝐿 ⋅ Loss 𝑡+1
  • 9. /18 BPTT: Back propagation Through Time  当該時間におけるbackpropagationを,過去の時間に伝播 – 一定時間でbackwardを打ち切る方法をTruncated BPTTという 9 𝒙 𝑡−2 ⋯ 𝒚 𝑡−2 𝒚 𝑡−2 𝐿 ⋅ Loss 𝑡−2 𝒙 𝑡−1 ⋯ 𝒚 𝑡−1 𝒚 𝑡−1 𝐿 ⋅ Loss 𝑡−1 𝒙 𝒕 ⋯ 𝒚 𝑡 𝒚 𝑡 𝐿 ⋅ Loss 𝑡 𝒙 𝑡+1 ⋯ 𝒚 𝑡+1 𝒚 𝑡+1 𝐿 ⋅ Loss 𝑡+1 Backward path
  • 10. /18  信号処理における畳み込み  畳み込み層:基本的に動作は同じ – 主なパラメータは – ー filter size: 右図の灰色部分の形 – ー #stride: filterの移動幅 – ー #padding: 端の0埋め数 – ー #channel: filterの数 • 異なるフィルタ係数を持った 複数のfliterを利用 CNN (Convolutional NN): 畳み込み構造を持ったNN 10https://github.com/vdumoulin/conv_arithmetic からgifを引用 Timeは ね は は 21 21 ね ね 21 21 全時間で同じ フィルタ係数がかかる
  • 11. /18 CNNの全体構造 11 [LeCun et al., 1998.] フィルタ インデックス ⋯ ⋯ ⋯ Pooling層 例:最大値をとるmax-pooling
  • 12. /18 自己回帰型CNN 12  CNNを自己回帰モデルとして扱う – あるステップで生成した出力から,次のステップを推定 → 信号処理の自己回帰 (エコーやハウリングなど) と同じ – 系列を扱うRNNと違い,ステップごとに並列化して学習可能  WaveNet (PixelCNNの派生) [Oord et al., 2016.] – これまでに生成した波形から,次の波形を生成 – https://deepmind.com/blog/wavenet-generative-model-raw-audio/ から引用
  • 14. /18 Deep generative model (深層生成モデル)  Deep generative modelとは – DNNを使ってデータの生成分布を表現するモデル – 前述の自己回帰型CNNも,これに相当  ここでは,分布変形に基づく方法を紹介 – 既知の確率分布を観測データの分布に変形 – 生成データ 𝒚 の分布と観測データ 𝒚 の分布が似るようにDNNを学習 14 𝒙 ~ 𝑁 𝟎, 𝑰 𝑮 ⋅ 𝒚𝒚 = 𝑮 𝒙 生成 データの 分布 分布の近さを 計算
  • 15. /18 Generative Adversarial Network (GAN): 分布間距離の最小化  Generative adversarial network [Goodfellow et al., 2014.] – 分布間の近似 Jensen-Shannon divergence を最小化 – 𝑮 ⋅ と,観測/生成データを識別する識別モデル 𝑫 ⋅ を敵対 15 𝒚 ⋯ ⋯ ⋯ ⋯ 𝑮 ⋅ 𝑫 ⋅ 1: 観測 0: 生成
  • 16. /18 Moment Matching Network (MMN): モーメント間距離の最小化  Moment matching network [Li et al., 2015.] – 分布のモーメント (平均,分散,…) 間の二乗距離を最小化 – 実装上は,グラム行列のノルムの差を最小化 16 𝒚 𝒚 ⋯ ⋯ ⋯ ⋯ 𝑮 ⋅
  • 18. /18 まとめ  深層学習を深く学習するための基礎を紹介  基礎構造 – Feed-Forward neural networks (FFNN) – Recurrent neural networks (RNN) … LSTMなど – Convolutional neural networks (CNN) … WaveNetなど  Deep generative models – Generative adversarial networks (GAN) … 敵対的学習 – Moment-matching networks (MMN) 18
  • 21. /18 Auto-Encoder (AE): 特徴量の次元圧縮 21  非線形の軸を引いて,特徴量の次元を削減  Auto-Encoder: 元のデータを復元するように学習 – - 𝒉 = 𝑬 𝒙 : encoder, 𝒙 = 𝑫 𝒉 : decoder 2次元データ 非線形軸 𝒙 𝒉 非線形軸に写像 𝒙 𝒉 𝒙 𝑳 𝒙, 𝒙 = 𝒙 − 𝒙 ⊤ 𝒙 − 𝒙 𝒙 = 𝑫 𝑬 𝒙
  • 22. /18 Denoising AE  より頑健な次元圧縮を行うため,入力側にノイズを付与 – ノイジーな入力から,元のデータを復元する  どんなノイズを加える? – Drop: ランダムに,使用する次元を減らす • 𝒙 = 1,1,0,0,1,0,1 ^⊤ ∘ 𝒙 ( ∘ は要素積) – Gauss: ガウスノイズを付与する • 𝒙 = 𝒙 + 𝑵 𝟎, 𝜆𝑰 ( 𝜆 は分散) 22 𝒙 𝒉 𝒙 𝑳 𝒙, 𝒙 = 𝒙 − 𝒙 ⊤ 𝒙 − 𝒙 𝒙 = 𝑫 𝑬 𝒙