SlideShare a Scribd company logo
1 of 36
Download to read offline
1
イベント区間検出統合型
BLSTM-HMMハイブリッドモデルによる
多重音響イベント検出
◎林 知樹†, 渡部晋治††, 戸田智基†,
堀貴明††, Jonathan Le Roux††, 武田一哉†
† 名古屋大学
†† Mitsubishi Electric Research Laboratory (MERL)
日本音響学会2017年春季研究発表会 2-5-5 「イベント区間検出統合型BLSTM-HMMハイブリッドモデルによる多重音響イベント検出」
2
環境音理解への関心の高まり
p 従来の音声・音楽以外のあらゆる音を理解する試み
p 非常に幅広い応用の可能性
n 監視 / ライフログ / 環境理解 / 騒音分析 etc.
p 多数のチャレンジの開催 / データセットの公開
n DCASE2013 / 2016 / 2017:環境音分類/検出チャレンジ
n AudioSet:Google謹製大規模環境音データセット
AudioSet
http://g.co/audioset
DCASE2017
http://www.cs.tut.fi/sgn/arg/dcase2017/
今後ますますの発展が望まれる研究分野
日本音響学会2017年春季研究発表会 2-5-5 「イベント区間検出統合型BLSTM-HMMハイブリッドモデルによる多重音響イベント検出」
3
多重音響イベント検出 (SED)
p イベントの開始/終了時刻+ラベルを特定するタスク
p 同時刻に複数のイベントがオーバーラップ
Event 1
Event 2
Time
Event 3
SED System
Time
日本音響学会2017年春季研究発表会 2-5-5 「イベント区間検出統合型BLSTM-HMMハイブリッドモデルによる多重音響イベント検出」
4
本研究の貢献
p 新たな多重音響イベント検出手法を提案
p 多重音響イベント検出タスクDCASE2016 Task2で評価
提案1: BLSTM-HMMハイブリッドモデル
ü BLSTMで入力特徴量の時系列情報を最大限利用
ü HMMで出力系列に制約+系列単位の処理を実現
提案2: SADネットワークによるバイナリマスキング
ü イベント区間を検出するネットワークの併用
ü 雑音環境下における挿入誤りを効率的に抑制
チャレンジのベスト結果を上回る性能を実現
日本音響学会2017年春季研究発表会 2-5-5 「イベント区間検出統合型BLSTM-HMMハイブリッドモデルによる多重音響イベント検出」
5
関連研究 GMM-HMMベース
p イベント毎にGMM-HMMを学習
p ビタビアルゴリズムで最尤系列を決定
J 系列単位の処理が可能
L 入力特徴量空間をGMMでうまく表現できない
Event 1 GMM-HMM
Event C GMM-HMM
⋮
Viterbi Decoding
Time
State
日本音響学会2017年春季研究発表会 2-5-5 「イベント区間検出統合型BLSTM-HMMハイブリッドモデルによる多重音響イベント検出」
6
関連研究 NMFベース
p 各イベントの基底を学習し基底辞書を作成
p 辞書を利用し各イベントのアクティベーションを推定
J 入力特徴量の次元間相関を活用可能
L フレーム間相関を非活用 / フレーム単位の処理
Event1basis
Event2basis
Event3basis
Pre-learned event
basis dictionary
Event 3 activation
Event 2 activation
Event 1 activation
✕
Thresholding
Classifier
Fixed
PredictionPrediction
Data
NMF
日本音響学会2017年春季研究発表会 2-5-5 「イベント区間検出統合型BLSTM-HMMハイブリッドモデルによる多重音響イベント検出」
7
関連研究 ニューラルネットベース
p マルチラベル分類のネットワークを学習
p 閾値処理で各イベントのアクティベーションを推定
J BLSTMなどの利用で入力特徴量をフル活用
L フレーム単位の処理
Thresholding
Sigmoid
FeatureVector
Event 1
Prediction
Event 2
Prediction
Event 3
Prediction
Neural Network
日本音響学会2017年春季研究発表会 2-5-5 「イベント区間検出統合型BLSTM-HMMハイブリッドモデルによる多重音響イベント検出」
8
本研究の提案
提案①: BLSTM-HMMハイブリッドモデル
ü BLSTMで入力特徴量の時系列情報を最大限利用
ü HMMで出力系列に制約+系列単位の処理を実現
提案②: SADネットワークバイナリマスキング
ü イベント区間を検出するネットワークの併用
ü 雑音環境下における挿入誤りを効率的に抑制
上記2つの提案手法を統合した
イベント区間検出統合型BLSTM-HMMハイブリッドモデル
を提案
日本音響学会2017年春季研究発表会 2-5-5 「イベント区間検出統合型BLSTM-HMMハイブリッドモデルによる多重音響イベント検出」
9
提案法の位置づけ
手法
入力次元間の
相関の利用
入力フレーム間の
相関の利用
系列単位の処理
GMM-HMM ✕ ✕ ◯
NMF ◯ ✕ ✕
NN ◯ ◯ ✕
提案法 ◯ ◯ ◯
入力特徴量をフル活用しつつ系列単位の処置を実現
日本音響学会2017年春季研究発表会 2-5-5 「イベント区間検出統合型BLSTM-HMMハイブリッドモデルによる多重音響イベント検出」
10
提案手法
日本音響学会2017年春季研究発表会 2-5-5 「イベント区間検出統合型BLSTM-HMMハイブリッドモデルによる多重音響イベント検出」
11
提案システムフロー
Audio
Featureextraction
Featurevector
Stateposterior
Emissionprob.
MLPath
Binarymask
Prediction
Priornormalization
Viterbidecoding
Post-processing
✕SADnetwork
Thresholding
SEDnetwork
日本音響学会2017年春季研究発表会 2-5-5 「イベント区間検出統合型BLSTM-HMMハイブリッドモデルによる多重音響イベント検出」
12
事後処理
特徴量抽出
提案システムフロー
Audio
Featureextraction
Featurevector
Stateposterior
Emissionprob.
MLPath
Binarymask
Prediction
Priornormalization
Viterbidecoding
Post-processing
✕SADnetwork
Thresholding
SEDnetwork
提案②:
SADネットワーク
バイナリマスキング
提案①:
BLSTM-HMM
ハイブリッドモデル
日本音響学会2017年春季研究発表会 2-5-5 「イベント区間検出統合型BLSTM-HMMハイブリッドモデルによる多重音響イベント検出」
13
特徴量抽出
提案システムフロー
Audio
Featureextraction
Featurevector
Stateposterior
Emissionprob.
MLPath
Binarymask
Prediction
Priornormalization
Viterbidecoding
Post-processing
✕SADnetwork
Thresholding
SEDnetwork
日本音響学会2017年春季研究発表会 2-5-5 「イベント区間検出統合型BLSTM-HMMハイブリッドモデルによる多重音響イベント検出」
14
特徴量抽出
p 窓幅25 msec / シフト幅10 msec でSTFT
p 対数フィルタバンク100 bin抽出 + 発話単位CMN
n 音響イベント検出では高域がより重要視されるため
入力音響信号 抽出された特徴量
Amplitude
Time [sec] Time [sec]
Frequencybin
日本音響学会2017年春季研究発表会 2-5-5 「イベント区間検出統合型BLSTM-HMMハイブリッドモデルによる多重音響イベント検出」
15
提案システムフロー
Audio
Featureextraction
Featurevector
Stateposterior
Emissionprob.
MLPath
Binarymask
Prediction
Priornormalization
Viterbidecoding
Post-processing
✕SADnetwork
Thresholding
SEDnetwork
提案①:
BLSTM-HMM
ハイブリッドモデル
日本音響学会2017年春季研究発表会 2-5-5 「イベント区間検出統合型BLSTM-HMMハイブリッドモデルによる多重音響イベント検出」
16
提案①: BLSTM-HMM (1)
p 各イベントごとに下記のHMMを構築
0 2 5
𝑎&' 𝑎'(
𝑏((𝐱,)𝑏'(𝐱,)𝑏&(𝐱,)
31
4
𝑏1(𝐱,)
Initial state Final state
Non-active state
𝑎1& 𝑎(1
𝑎&& 𝑎'' 𝑎((
𝑎11
日本音響学会2017年春季研究発表会 2-5-5 「イベント区間検出統合型BLSTM-HMMハイブリッドモデルによる多重音響イベント検出」
17
提案①: BLSTM-HMM (1)
p 各イベントごとに下記のHMMを構築
0 2 5
𝑎&' 𝑎'(
𝑏((𝐱,)𝑏'(𝐱,)𝑏&(𝐱,)
31
4
𝑏1(𝐱,)
Initial state Final state
Non-active state
𝑎1& 𝑎(1
𝑎&& 𝑎'' 𝑎((
𝑎11
イベントがアクティブな
部分を表現
日本音響学会2017年春季研究発表会 2-5-5 「イベント区間検出統合型BLSTM-HMMハイブリッドモデルによる多重音響イベント検出」
18
提案①: BLSTM-HMM (1)
p 各イベントごとに下記のHMMを構築
無音もしくは
他のイベントが
アクティブな部分を表現
0 2 5
𝑎&' 𝑎'(
𝑏((𝐱,)𝑏'(𝐱,)𝑏&(𝐱,)
31
4
𝑏1(𝐱,)
Initial state Final state
Non-active state
𝑎1& 𝑎(1
𝑎&& 𝑎'' 𝑎((
𝑎11
日本音響学会2017年春季研究発表会 2-5-5 「イベント区間検出統合型BLSTM-HMMハイブリッドモデルによる多重音響イベント検出」
19
提案①: BLSTM-HMM (1)
p 各イベントごとに下記のHMMを構築
n 遷移確率𝐀は学習データからビタビ学習で決定
出力確率𝑩を
BLSTMでモデル化
0 2 5
𝑎&' 𝑎'(
𝑏((𝐱,)𝑏'(𝐱,)𝑏&(𝐱,)
31
4
𝑏1(𝐱,)
Initial state Final state
Non-active state
𝑎1& 𝑎(1
𝑎&& 𝑎'' 𝑎((
𝑎11
日本音響学会2017年春季研究発表会 2-5-5 「イベント区間検出統合型BLSTM-HMMハイブリッドモデルによる多重音響イベント検出」
20
提案①: BLSTM-HMM (2)
p HMMの事後確率を推定するSEDネットワークを構築
Inputs 100
Forward LSTM 512
Backward LSTM 512
Projection 256
Projection 256
Backward LSTM 512
Projection 256
Projection 256
Backward LSTM 512
Projection 256
Outputs 4 Outputs 4 Outputs 4
⋯
Projection 256
Forward LSTM 512
Forward LSTM 512
𝑃 𝐬&,,	 𝐱,) 𝑃 𝐬',,	 𝐱,) 𝑃 𝐬9,,	 𝐱,)
: Forward Propagation
: Backward Propagation
日本音響学会2017年春季研究発表会 2-5-5 「イベント区間検出統合型BLSTM-HMMハイブリッドモデルによる多重音響イベント検出」
21
提案①: BLSTM-HMM (2)
p HMMの事後確率を推定するSEDネットワークを構築
n クラス分類問題のマルチタスク学習で最適化
Inputs 100
Forward LSTM 512
Backward LSTM 512
Projection 256
Projection 256
Backward LSTM 512
Projection 256
Projection 256
Backward LSTM 512
Projection 256
Outputs 4 Outputs 4 Outputs 4
⋯
Projection 256
Forward LSTM 512
Forward LSTM 512
𝑃 𝐬&,,	 𝐱,) 𝑃 𝐬',,	 𝐱,) 𝑃 𝐬9,,	 𝐱,)
: Forward Propagation
: Backward Propagation
Event 1のHMMの
状態事後確率
Event 2のHMMの
状態事後確率
Event CのHMMの
状態事後確率
日本音響学会2017年春季研究発表会 2-5-5 「イベント区間検出統合型BLSTM-HMMハイブリッドモデルによる多重音響イベント検出」
22
提案①: BLSTM-HMM (3)
p SEDネットワークの事後確率を出力確率へ変換
n 予め計算した事前確率とベイズの定理を利用
p 出力確率を用いて各HMM独立にビタビデコード
)(
)|(
)|()(
nsP
nsP
nsPb
t
tt
tttn
=
=
@==
x
xx
出力確率
事後確率
事前確率
# events
Time
State
Time
State
Time
State
日本音響学会2017年春季研究発表会 2-5-5 「イベント区間検出統合型BLSTM-HMMハイブリッドモデルによる多重音響イベント検出」
23
提案システムフロー
Audio
Featureextraction
Featurevector
Stateposterior
Emissionprob.
MLPath
Binarymask
Prediction
Priornormalization
Viterbidecoding
Post-processing
✕SADnetwork
Thresholding
SEDnetwork
提案②:
SADネットワーク
バイナリマスキング
日本音響学会2017年春季研究発表会 2-5-5 「イベント区間検出統合型BLSTM-HMMハイブリッドモデルによる多重音響イベント検出」
24
提案②: SADネットワーク (1)
p イベントの有無を判定するSADネットワークを構築
n 2値分類の交差エントロピー最小化で最適化
Inputs 100
Forward LSTM 512
Backward LSTM 512
Projection 256
Projection 256
Backward LSTM 512
Projection 256
Projection 256
Backward LSTM 512
Projection 256
Output 1
Projection 256
Forward LSTM 512
Forward LSTM 512
0	 ≤ y ≤ 1
: Forward Propagation
: Backward Propagation
イベントが存在しない イベントが存在する
日本音響学会2017年春季研究発表会 2-5-5 「イベント区間検出統合型BLSTM-HMMハイブリッドモデルによる多重音響イベント検出」
25
提案②: SADネットワーク (2)
p SADネットワークの事後確率を閾値処理で2値化
n 閾値は0.5に設定
p 2値化により得られたバイナリマスクをBLSTM-HMMで
推定された各イベントの予測結果に適用
Time
予測結果
Time
マスク
⨀ 要素積
=
Time
マスク適用後
予測結果
日本音響学会2017年春季研究発表会 2-5-5 「イベント区間検出統合型BLSTM-HMMハイブリッドモデルによる多重音響イベント検出」
26
事後処理
提案システムフロー
Audio
Featureextraction
Featurevector
Stateposterior
Emissionprob.
MLPath
Binarymask
Prediction
Priornormalization
Viterbidecoding
Post-processing
✕SADnetwork
Thresholding
SEDnetwork
日本音響学会2017年春季研究発表会 2-5-5 「イベント区間検出統合型BLSTM-HMMハイブリッドモデルによる多重音響イベント検出」
27
事後処理
1. 150 msec (15 frames) スパンのメディアンフィルタ
2. 100 msec (10 frames) 以下の穴埋め
3. 各イベントの学習データ中の最小長の3/4以下を削除
Time Time
Time Time
Time
¾ minimum length Time
日本音響学会2017年春季研究発表会 2-5-5 「イベント区間検出統合型BLSTM-HMMハイブリッドモデルによる多重音響イベント検出」
28
評価実験
日本音響学会2017年春季研究発表会 2-5-5 「イベント区間検出統合型BLSTM-HMMハイブリッドモデルによる多重音響イベント検出」
29
評価実験
実験設定
p 多重音響イベント検出タスクDCASE2016 task2で評価
p 11 種類の音響イベントが対象
評価尺度
p Segment-based (SB): 1秒のセグメント単位の評価
p Event-based (EB): イベント単位での評価
p それぞれでF1-score (F1)とError rate (ER)を計算
比較手法
p NMF (DCASE2016 task2 ベースライン)
p BLSTM
日本音響学会2017年春季研究発表会 2-5-5 「イベント区間検出統合型BLSTM-HMMハイブリッドモデルによる多重音響イベント検出」
30
実験条件
Sampling rate 44,100 Hz
Bit rate 16 bit
# sound events 11
# training data 4 sec * 100,000 samples
# development data 120 sec * 18 samples
# evaluation data 120 sec * 54 samples
# hidden layer 3
# LSTM unit Forward : 512 Backward: 512
# projection unit Forward : 256 Backward: 256
Initial Scale 0.001
Learning rate 0.0005
Max gradient norm 5
# step 400
# batch 128
Optimization method Adam
日本音響学会2017年春季研究発表会 2-5-5 「イベント区間検出統合型BLSTM-HMMハイブリッドモデルによる多重音響イベント検出」
31
実験結果
Model EB-F1 [%] EB-ER [%] SB-F1 [%] SB-ER [%]
NMF (Baseline) 24.0 168.5 37.0 89.3
BLSTM w/o SAD mask 65.2 66.9 76.1 45.2
BLSTM w/ SAD mask 70.1 54.2 77.9 39.6
BLSTM-HMM w/o SAD mask 71.7 52.3 79.5 36.7
BLSTM-HMM w/ SAD mask 74.9 44.7 80.5 33.8
低いほど高性能高いほど高性能
日本音響学会2017年春季研究発表会 2-5-5 「イベント区間検出統合型BLSTM-HMMハイブリッドモデルによる多重音響イベント検出」
32
手法間の比較
Model EB-F1 [%] EB-ER [%] SB-F1 [%] SB-ER [%]
NMF (Baseline) 24.0 168.5 37.0 89.3
BLSTM w/o SAD mask 65.2 66.9 76.1 45.2
BLSTM w/ SAD mask 70.1 54.2 77.9 39.6
BLSTM-HMM w/o SAD mask 71.7 52.3 79.5 36.7
BLSTM-HMM w/ SAD mask 74.9 44.7 80.5 33.8
提案法が全ての評価尺度において最も高い性能
日本音響学会2017年春季研究発表会 2-5-5 「イベント区間検出統合型BLSTM-HMMハイブリッドモデルによる多重音響イベント検出」
33
SADマスク有無の比較
Model EB-F1 [%] EB-ER [%] SB-F1 [%] SB-ER [%]
NMF (Baseline) 24.0 168.5 37.0 89.3
BLSTM w/o SAD mask 65.2 66.9 76.1 45.2
BLSTM w/ SAD mask 70.1 (+4.8) 54.2 (-12.7) 77.9 (+1.8) 39.6 (-5.6)
BLSTM-HMM w/o SAD mask 71.7 52.3 79.5 36.7
BLSTM-HMM w/ SAD mask 74.9 (+3.2) 44.7 (-7.6) 80.5 (+1.0) 33.8 (-2.9)
SADマスクはモデルによらず性能の改善を実現
日本音響学会2017年春季研究発表会 2-5-5 「イベント区間検出統合型BLSTM-HMMハイブリッドモデルによる多重音響イベント検出」
34
DCASEチャレンジ結果との比較
Model EB-F1 [%] EB-ER [%] SB-F1 [%] SB-ER [%]
Our best result 74.9 44.7 80.5 33.8
DCASE 1st T. Komatsu+
NMF based method
73.8 46.2 80.2 33.1
DCASE 2nd I. Choi+
DNN based method
67.1 61.8 78.7 36.7
1つの評価尺度を除き最高性能を達成
日本音響学会2017年春季研究発表会 2-5-5 「イベント区間検出統合型BLSTM-HMMハイブリッドモデルによる多重音響イベント検出」
35
まとめと今後の課題
日本音響学会2017年春季研究発表会 2-5-5 「イベント区間検出統合型BLSTM-HMMハイブリッドモデルによる多重音響イベント検出」
36
まとめと今後の課題
まとめ
p 区間検出統合型BLSTM-HMMハイブリッドモデルの提案
p 多重音響イベント検出タスクDCASE2016 task2で評価
p 提案モデルがチャレンジベストを上回る最高性能を達成
今後の課題
p 大規模データセットへの適応
p HSMMへの拡張
p 系列識別学習の導入
日本音響学会2017年春季研究発表会 2-5-5 「イベント区間検出統合型BLSTM-HMMハイブリッドモデルによる多重音響イベント検出」

More Related Content

What's hot

複数話者WaveNetボコーダに関する調査
複数話者WaveNetボコーダに関する調査複数話者WaveNetボコーダに関する調査
複数話者WaveNetボコーダに関する調査Tomoki Hayashi
 
GRU-Prednetを実装してみた(途中経過)
GRU-Prednetを実装してみた(途中経過)GRU-Prednetを実装してみた(途中経過)
GRU-Prednetを実装してみた(途中経過)Taichi Iki
 
Deep Learning Chapter12
Deep Learning Chapter12Deep Learning Chapter12
Deep Learning Chapter12Kei Uchiumi
 
Icassp2018 発表参加報告 FFTNet, Tactron2紹介
Icassp2018 発表参加報告 FFTNet, Tactron2紹介Icassp2018 発表参加報告 FFTNet, Tactron2紹介
Icassp2018 発表参加報告 FFTNet, Tactron2紹介Kentaro Tachibana
 
Image net classification with Deep Convolutional Neural Networks
Image net classification with Deep Convolutional Neural NetworksImage net classification with Deep Convolutional Neural Networks
Image net classification with Deep Convolutional Neural NetworksShingo Horiuchi
 
ICASSP2019 音声&音響読み会 テーマ発表音声生成
ICASSP2019 音声&音響読み会 テーマ発表音声生成ICASSP2019 音声&音響読み会 テーマ発表音声生成
ICASSP2019 音声&音響読み会 テーマ発表音声生成Kentaro Tachibana
 
畳み込みLstm
畳み込みLstm畳み込みLstm
畳み込みLstmtak9029
 
[DL輪読会]Blind Video Temporal Consistency via Deep Video Prior
[DL輪読会]Blind Video Temporal Consistency via Deep Video Prior[DL輪読会]Blind Video Temporal Consistency via Deep Video Prior
[DL輪読会]Blind Video Temporal Consistency via Deep Video PriorDeep Learning JP
 
畳み込みニューラルネットワークの研究動向
畳み込みニューラルネットワークの研究動向畳み込みニューラルネットワークの研究動向
畳み込みニューラルネットワークの研究動向Yusuke Uchida
 
[DL輪読会]VoxelPose: Towards Multi-Camera 3D Human Pose Estimation in Wild Envir...
[DL輪読会]VoxelPose: Towards Multi-Camera 3D Human Pose Estimation in Wild Envir...[DL輪読会]VoxelPose: Towards Multi-Camera 3D Human Pose Estimation in Wild Envir...
[DL輪読会]VoxelPose: Towards Multi-Camera 3D Human Pose Estimation in Wild Envir...Deep Learning JP
 
Res netと派生研究の紹介
Res netと派生研究の紹介Res netと派生研究の紹介
Res netと派生研究の紹介masataka nishimori
 
ChainerによるRNN翻訳モデルの実装+@
ChainerによるRNN翻訳モデルの実装+@ChainerによるRNN翻訳モデルの実装+@
ChainerによるRNN翻訳モデルの実装+@Yusuke Oda
 
SSD: Single Shot MultiBox Detector (ECCV2016)
SSD: Single Shot MultiBox Detector (ECCV2016)SSD: Single Shot MultiBox Detector (ECCV2016)
SSD: Single Shot MultiBox Detector (ECCV2016)Takanori Ogata
 
[DL輪読会]Swin Transformer: Hierarchical Vision Transformer using Shifted Windows
[DL輪読会]Swin Transformer: Hierarchical Vision Transformer using Shifted Windows[DL輪読会]Swin Transformer: Hierarchical Vision Transformer using Shifted Windows
[DL輪読会]Swin Transformer: Hierarchical Vision Transformer using Shifted WindowsDeep Learning JP
 
MS COCO Dataset Introduction
MS COCO Dataset IntroductionMS COCO Dataset Introduction
MS COCO Dataset IntroductionShinagawa Seitaro
 

What's hot (20)

複数話者WaveNetボコーダに関する調査
複数話者WaveNetボコーダに関する調査複数話者WaveNetボコーダに関する調査
複数話者WaveNetボコーダに関する調査
 
音声認識と深層学習
音声認識と深層学習音声認識と深層学習
音声認識と深層学習
 
GRU-Prednetを実装してみた(途中経過)
GRU-Prednetを実装してみた(途中経過)GRU-Prednetを実装してみた(途中経過)
GRU-Prednetを実装してみた(途中経過)
 
Deep Learning Chapter12
Deep Learning Chapter12Deep Learning Chapter12
Deep Learning Chapter12
 
Icassp2018 発表参加報告 FFTNet, Tactron2紹介
Icassp2018 発表参加報告 FFTNet, Tactron2紹介Icassp2018 発表参加報告 FFTNet, Tactron2紹介
Icassp2018 発表参加報告 FFTNet, Tactron2紹介
 
Image net classification with Deep Convolutional Neural Networks
Image net classification with Deep Convolutional Neural NetworksImage net classification with Deep Convolutional Neural Networks
Image net classification with Deep Convolutional Neural Networks
 
ICASSP2019 音声&音響読み会 テーマ発表音声生成
ICASSP2019 音声&音響読み会 テーマ発表音声生成ICASSP2019 音声&音響読み会 テーマ発表音声生成
ICASSP2019 音声&音響読み会 テーマ発表音声生成
 
畳み込みLstm
畳み込みLstm畳み込みLstm
畳み込みLstm
 
[DL輪読会]Blind Video Temporal Consistency via Deep Video Prior
[DL輪読会]Blind Video Temporal Consistency via Deep Video Prior[DL輪読会]Blind Video Temporal Consistency via Deep Video Prior
[DL輪読会]Blind Video Temporal Consistency via Deep Video Prior
 
Variational Kalman Filter
Variational Kalman FilterVariational Kalman Filter
Variational Kalman Filter
 
畳み込みニューラルネットワークの研究動向
畳み込みニューラルネットワークの研究動向畳み込みニューラルネットワークの研究動向
畳み込みニューラルネットワークの研究動向
 
Efficient Det
Efficient DetEfficient Det
Efficient Det
 
[DL輪読会]VoxelPose: Towards Multi-Camera 3D Human Pose Estimation in Wild Envir...
[DL輪読会]VoxelPose: Towards Multi-Camera 3D Human Pose Estimation in Wild Envir...[DL輪読会]VoxelPose: Towards Multi-Camera 3D Human Pose Estimation in Wild Envir...
[DL輪読会]VoxelPose: Towards Multi-Camera 3D Human Pose Estimation in Wild Envir...
 
Res netと派生研究の紹介
Res netと派生研究の紹介Res netと派生研究の紹介
Res netと派生研究の紹介
 
ChainerによるRNN翻訳モデルの実装+@
ChainerによるRNN翻訳モデルの実装+@ChainerによるRNN翻訳モデルの実装+@
ChainerによるRNN翻訳モデルの実装+@
 
SSD: Single Shot MultiBox Detector (ECCV2016)
SSD: Single Shot MultiBox Detector (ECCV2016)SSD: Single Shot MultiBox Detector (ECCV2016)
SSD: Single Shot MultiBox Detector (ECCV2016)
 
LT@Chainer Meetup
LT@Chainer MeetupLT@Chainer Meetup
LT@Chainer Meetup
 
[DL輪読会]Swin Transformer: Hierarchical Vision Transformer using Shifted Windows
[DL輪読会]Swin Transformer: Hierarchical Vision Transformer using Shifted Windows[DL輪読会]Swin Transformer: Hierarchical Vision Transformer using Shifted Windows
[DL輪読会]Swin Transformer: Hierarchical Vision Transformer using Shifted Windows
 
CMSI計算科学技術特論C (2015) feram と強誘電体②
CMSI計算科学技術特論C (2015)  feram と強誘電体②CMSI計算科学技術特論C (2015)  feram と強誘電体②
CMSI計算科学技術特論C (2015) feram と強誘電体②
 
MS COCO Dataset Introduction
MS COCO Dataset IntroductionMS COCO Dataset Introduction
MS COCO Dataset Introduction
 

Similar to イベント区間検出統合型 BLSTM-HMMハイブリッドモデルによる 多重音響イベント検出

ICASSP読み会2020
ICASSP読み会2020ICASSP読み会2020
ICASSP読み会2020Yuki Saito
 
分布あるいはモーメント間距離最小化に基づく統計的音声合成
分布あるいはモーメント間距離最小化に基づく統計的音声合成分布あるいはモーメント間距離最小化に基づく統計的音声合成
分布あるいはモーメント間距離最小化に基づく統計的音声合成Shinnosuke Takamichi
 
インターネット上の高品質な 遠隔コラボレーションに関する研究
インターネット上の高品質な遠隔コラボレーションに関する研究インターネット上の高品質な遠隔コラボレーションに関する研究
インターネット上の高品質な 遠隔コラボレーションに関する研究Takashi Kishida
 
Interspeech2022 参加報告
Interspeech2022 参加報告Interspeech2022 参加報告
Interspeech2022 参加報告Yuki Saito
 
Tutorial-DeepLearning-PCSJ-IMPS2016
Tutorial-DeepLearning-PCSJ-IMPS2016Tutorial-DeepLearning-PCSJ-IMPS2016
Tutorial-DeepLearning-PCSJ-IMPS2016Takayoshi Yamashita
 
Deep learning for acoustic modeling in parametric speech generation
Deep learning for acoustic modeling in parametric speech generationDeep learning for acoustic modeling in parametric speech generation
Deep learning for acoustic modeling in parametric speech generationYuki Saito
 
ICASSP2019音声&音響論文読み会 論文紹介(認識系)
ICASSP2019音声&音響論文読み会 論文紹介(認識系)ICASSP2019音声&音響論文読み会 論文紹介(認識系)
ICASSP2019音声&音響論文読み会 論文紹介(認識系)貴史 益子
 
BGI Webinar Aug 28, 2014 "Genome wide methylation analysis and analytics"
BGI Webinar Aug 28, 2014 "Genome wide methylation analysis and analytics"BGI Webinar Aug 28, 2014 "Genome wide methylation analysis and analytics"
BGI Webinar Aug 28, 2014 "Genome wide methylation analysis and analytics"kazuoishii20
 
An Introduction of DNN Compression Technology and Hardware Acceleration on FPGA
An Introduction of DNN Compression Technology and Hardware Acceleration on FPGAAn Introduction of DNN Compression Technology and Hardware Acceleration on FPGA
An Introduction of DNN Compression Technology and Hardware Acceleration on FPGALeapMind Inc
 

Similar to イベント区間検出統合型 BLSTM-HMMハイブリッドモデルによる 多重音響イベント検出 (11)

ICASSP読み会2020
ICASSP読み会2020ICASSP読み会2020
ICASSP読み会2020
 
分布あるいはモーメント間距離最小化に基づく統計的音声合成
分布あるいはモーメント間距離最小化に基づく統計的音声合成分布あるいはモーメント間距離最小化に基づく統計的音声合成
分布あるいはモーメント間距離最小化に基づく統計的音声合成
 
インターネット上の高品質な 遠隔コラボレーションに関する研究
インターネット上の高品質な遠隔コラボレーションに関する研究インターネット上の高品質な遠隔コラボレーションに関する研究
インターネット上の高品質な 遠隔コラボレーションに関する研究
 
Interspeech2022 参加報告
Interspeech2022 参加報告Interspeech2022 参加報告
Interspeech2022 参加報告
 
Tutorial-DeepLearning-PCSJ-IMPS2016
Tutorial-DeepLearning-PCSJ-IMPS2016Tutorial-DeepLearning-PCSJ-IMPS2016
Tutorial-DeepLearning-PCSJ-IMPS2016
 
Deep learning for acoustic modeling in parametric speech generation
Deep learning for acoustic modeling in parametric speech generationDeep learning for acoustic modeling in parametric speech generation
Deep learning for acoustic modeling in parametric speech generation
 
ICASSP2019音声&音響論文読み会 論文紹介(認識系)
ICASSP2019音声&音響論文読み会 論文紹介(認識系)ICASSP2019音声&音響論文読み会 論文紹介(認識系)
ICASSP2019音声&音響論文読み会 論文紹介(認識系)
 
PFI Christmas seminar 2009
PFI Christmas seminar 2009PFI Christmas seminar 2009
PFI Christmas seminar 2009
 
Paper: seq2seq 20190320
Paper: seq2seq 20190320Paper: seq2seq 20190320
Paper: seq2seq 20190320
 
BGI Webinar Aug 28, 2014 "Genome wide methylation analysis and analytics"
BGI Webinar Aug 28, 2014 "Genome wide methylation analysis and analytics"BGI Webinar Aug 28, 2014 "Genome wide methylation analysis and analytics"
BGI Webinar Aug 28, 2014 "Genome wide methylation analysis and analytics"
 
An Introduction of DNN Compression Technology and Hardware Acceleration on FPGA
An Introduction of DNN Compression Technology and Hardware Acceleration on FPGAAn Introduction of DNN Compression Technology and Hardware Acceleration on FPGA
An Introduction of DNN Compression Technology and Hardware Acceleration on FPGA
 

イベント区間検出統合型 BLSTM-HMMハイブリッドモデルによる 多重音響イベント検出