SlideShare a Scribd company logo
1 of 42
Download to read offline
1
イベント継続長を明示的に制御した
BLSTM-HSMMハイブリッドモデル
による多重音響イベント検出
◯林 知樹†, 渡部晋治††, 戸田智基†,
堀貴明††, Jonathan Le Roux††, 武田一哉†
† 名古屋大学
†† Mitsubishi Electric Research Laboratory (MERL)
2017/7/21 EA研究会@北海道大学 「イベント継続長を明示的に制御したBLSTM-HSMMハイブリッドモデルによる多重音響イベント検出」
2
環境音理解への関心の高まり
p 従来の音声・音楽以外のあらゆる音を理解する試み
p 非常に幅広い応用の可能性
n 監視 / ライフログ / 環境理解 / 騒音分析 etc.
p 多数のチャレンジの開催 / データセットの公開
n DCASE2013 / 2016 / 2017:環境音分類/検出チャレンジ
n AudioSet:Google謹製大規模環境音データセット
AudioSet
http://g.co/audioset
DCASE2017
http://www.cs.tut.fi/sgn/arg/dcase2017/
今後ますますの発展が望まれる研究分野
2017/7/21 EA研究会@北海道大学 「イベント継続長を明示的に制御したBLSTM-HSMMハイブリッドモデルによる多重音響イベント検出」
3
多重音響イベント検出 (SED)
p イベントの開始/終了時刻+ラベルを特定するタスク
p 同時刻に複数のイベントがオーバーラップ
Event 1
Event 2
Time
Event 3
SED System
Time
2017/7/21 EA研究会@北海道大学 「イベント継続長を明示的に制御したBLSTM-HSMMハイブリッドモデルによる多重音響イベント検出」
4
本研究の貢献
p 新たな多重音響イベント検出手法を提案
p 多重音響イベント検出タスクDCASE2016 Task2で評価
提案1: BLSTM-HSMMハイブリッドモデル
ü BLSTMで入力特徴量の時系列情報を最大限利用
ü HSMMで出力系列に明示的な継続長制約を付与
提案2: SADネットワークによるバイナリマスキング
ü イベント区間を検出するネットワークの併用
ü 雑音環境下における挿入誤りを効率的に抑制
チャレンジのベスト結果を上回る性能を実現
2017/7/21 EA研究会@北海道大学 「イベント継続長を明示的に制御したBLSTM-HSMMハイブリッドモデルによる多重音響イベント検出」
5
関連研究 GMM-HMMベース
p イベント毎にGMM-HMMを学習
p ビタビアルゴリズムで最尤系列を決定
J 系列単位の処理が可能
L 入力特徴量空間をGMMでうまく表現できない
Event 1 GMM-HMM
Event C GMM-HMM
⋮
Viterbi Decoding
Time
State
2017/7/21 EA研究会@北海道大学 「イベント継続長を明示的に制御したBLSTM-HSMMハイブリッドモデルによる多重音響イベント検出」
6
関連研究 NMFベース
p 各イベントの基底を学習し基底辞書を作成
p 辞書を利用し各イベントのアクティベーションを推定
J 入力特徴量の次元間相関を活用可能
L フレーム間相関を非活用 / フレーム単位の処理
Event1basis
Event2basis
Event3basis
Pre-learned event
basis dictionary
Event 3 activation
Event 2 activation
Event 1 activation
✕
Thresholding
Classifier
Fixed
PredictionPrediction
Data
NMF
2017/7/21 EA研究会@北海道大学 「イベント継続長を明示的に制御したBLSTM-HSMMハイブリッドモデルによる多重音響イベント検出」
7
関連研究 ニューラルネットベース
p マルチラベル分類のネットワークを学習
p 閾値処理で各イベントのアクティベーションを推定
J BLSTMなどの利用で入力特徴量をフル活用
L フレーム単位の処理
Thresholding
Sigmoid
FeatureVector
Event 1
Prediction
Event 2
Prediction
Event 3
Prediction
Neural Network
2017/7/21 EA研究会@北海道大学 「イベント継続長を明示的に制御したBLSTM-HSMMハイブリッドモデルによる多重音響イベント検出」
8
先行研究 [T. Hayashi+, ICASSP2017]
BLSTM-HMMハイブリッドモデルを提案
ü BLSTMで入力特徴量の時系列情報を最大限利用
ü HMMで出力系列に制約+系列単位の処理を実現
2017/7/21 EA研究会@北海道大学 「イベント継続長を明示的に制御したBLSTM-HSMMハイブリッドモデルによる多重音響イベント検出」
先行研究の問題点
p 継続長が遷移確率で暗に制御され指数分布の形に
p 実際の継続長分布と大きく乖離
図:実際のイベントの継続長のヒストグラム
9
本研究の貢献
p 新たな多重音響イベント検出手法を提案
p 多重音響イベント検出タスクDCASE2016 Task2で評価
提案1: BLSTM-HSMMハイブリッドモデル
ü BLSTMで入力特徴量の時系列情報を最大限利用
ü HSMMで出力系列の継続長を明示的にモデル化
提案2: SADネットワークによるバイナリマスキング
ü イベント区間を検出するネットワークの併用
ü 雑音環境下における挿入誤りを効率的に抑制
チャレンジのベスト結果を上回る性能を実現
2017/7/21 EA研究会@北海道大学 「イベント継続長を明示的に制御したBLSTM-HSMMハイブリッドモデルによる多重音響イベント検出」
10
提案法の位置づけ
入力特徴量をフル活用しつつ
明示的な継続長制御による系列単位の処置を実現
2017/7/21 EA研究会@北海道大学 「イベント継続長を明示的に制御したBLSTM-HSMMハイブリッドモデルによる多重音響イベント検出」
手法
次元間の
相関の利用
フレーム間の
相関の利用
系列単位の
処理
イベント
継続長の制御
GMM-
HMM ✕ ✕ ◯ △
NMF ◯ ✕ ✕ ✕
NN ◯ ◯ ✕ △
BLSTM-
HMM ◯ ◯ ◯ △
提案法 ◯ ◯ ◯ ◯
11
提案手法
2017/7/21 EA研究会@北海道大学 「イベント継続長を明示的に制御したBLSTM-HSMMハイブリッドモデルによる多重音響イベント検出」
12
提案システムフロー
Audio
Featureextraction
Featurevector
Stateposterior
Emissionprob.
MLPath
Binarymask
Prediction
Priornormalization
Viterbidecoding
Post-processing
✕SADnetwork
Thresholding
SEDnetwork
2017/7/21 EA研究会@北海道大学 「イベント継続長を明示的に制御したBLSTM-HSMMハイブリッドモデルによる多重音響イベント検出」
13
事後処理
特徴量抽出
提案システムフロー
Audio
Featureextraction
Featurevector
Stateposterior
Emissionprob.
MLPath
Binarymask
Prediction
Priornormalization
Viterbidecoding
Post-processing
✕SADnetwork
Thresholding
SEDnetwork
提案②:
SADネットワーク
バイナリマスキング
提案①:
BLSTM-HSMM
ハイブリッドモデル
2017/7/21 EA研究会@北海道大学 「イベント継続長を明示的に制御したBLSTM-HSMMハイブリッドモデルによる多重音響イベント検出」
14
特徴量抽出
提案システムフロー
Audio
Featureextraction
Featurevector
Stateposterior
Emissionprob.
MLPath
Binarymask
Prediction
Priornormalization
Viterbidecoding
Post-processing
✕SADnetwork
Thresholding
SEDnetwork
2017/7/21 EA研究会@北海道大学 「イベント継続長を明示的に制御したBLSTM-HSMMハイブリッドモデルによる多重音響イベント検出」
15
特徴量抽出
p 窓幅25 msec / シフト幅10 msec でSTFT
p 対数フィルタバンク100 bin抽出 + 発話単位CMN
n 音響イベント検出では高域がより重要視されるため
入力音響信号 抽出された特徴量
Amplitude
Time [sec] Time [sec]
Frequencybin
2017/7/21 EA研究会@北海道大学 「イベント継続長を明示的に制御したBLSTM-HSMMハイブリッドモデルによる多重音響イベント検出」
16
提案システムフロー
Audio
Featureextraction
Featurevector
Stateposterior
Emissionprob.
MLPath
Binarymask
Prediction
Priornormalization
Viterbidecoding
Post-processing
✕SADnetwork
Thresholding
SEDnetwork
提案①:
BLSTM-HSMM
ハイブリッドモデル
2017/7/21 EA研究会@北海道大学 「イベント継続長を明示的に制御したBLSTM-HSMMハイブリッドモデルによる多重音響イベント検出」
17
提案①:BLSTM-HSMM (1)
p 各イベントごとに下記のHSMM構築
p 各状態の継続長分布はガンマ分布で表現
2017/7/21 EA研究会@北海道大学 「イベント継続長を明示的に制御したBLSTM-HSMMハイブリッドモデルによる多重音響イベント検出」
0 2 5
𝑝&(𝑑) 𝑝*(𝑑) 𝑝+(𝑑)
𝑎&* 𝑎*+
𝑏+(𝐱)𝑏*(𝐱)𝑏(𝐱)
𝑝/(𝑑)
31
4
𝑏/(𝐱)
Initial state Final state
Non-active state
𝑎/& 𝑎+/
18
HMMからHSMMへ
2017/7/21 EA研究会@北海道大学 「イベント継続長を明示的に制御したBLSTM-HSMMハイブリッドモデルによる多重音響イベント検出」
𝑛 = 0 𝑛 = 1 𝑛 = 2 𝑛 = 3 𝑛 = 4
𝑝&(𝑑) 𝑝*(𝑑) 𝑝+(𝑑)
𝑎&* 𝑎*+
𝑏+(𝐱)𝑏*(𝐱)𝑏&(𝐱)
𝑛 = 0 𝑛 = 1 𝑛 = 2 𝑛 = 3 𝑛 = 4
𝑎&* 𝑎*+
𝑏+(𝐱)𝑏*(𝐱)𝑏&(𝐱)
𝑎&& 𝑎** 𝑎++
HMM
HSMM
19
提案①:BLSTM-HSMM (1)
p 各イベントごとに下記のHSMM構築
p 各状態の継続長分布はガンマ分布で表現
2017/7/21 EA研究会@北海道大学 「イベント継続長を明示的に制御したBLSTM-HSMMハイブリッドモデルによる多重音響イベント検出」
0 2 5
𝑝&(𝑑) 𝑝*(𝑑) 𝑝+(𝑑)
𝑎&* 𝑎*+
𝑏+(𝐱)𝑏*(𝐱)𝑏(𝐱)
𝑝/(𝑑)
31
4
𝑏/(𝐱)
Initial state Final state
Non-active state
𝑎/& 𝑎+/
イベントがアクティブな
部分を表現
20
提案①:BLSTM-HSMM (1)
p 各イベントごとに下記のHSMM構築
p 各状態の継続長分布はガンマ分布で表現
2017/7/21 EA研究会@北海道大学 「イベント継続長を明示的に制御したBLSTM-HSMMハイブリッドモデルによる多重音響イベント検出」
無音もしくは
他のイベントが
アクティブな部分を表現
0 2 5
𝑝&(𝑑) 𝑝*(𝑑) 𝑝+(𝑑)
𝑎&* 𝑎*+
𝑏+(𝐱)𝑏*(𝐱)𝑏(𝐱)
𝑝/(𝑑)
31
4
𝑏/(𝐱)
Initial state Final state
Non-active state
𝑎/& 𝑎+/
21
提案①:BLSTM-HSMM (1)
p 各イベントごとに下記のHSMM構築
p 各状態の継続長分布はガンマ分布で表現
2017/7/21 EA研究会@北海道大学 「イベント継続長を明示的に制御したBLSTM-HSMMハイブリッドモデルによる多重音響イベント検出」
出力確率𝑩を
BLSTMでモデル化
0 2 5
𝑝&(𝑑) 𝑝*(𝑑) 𝑝+(𝑑)
𝑎&* 𝑎*+
𝑏+(𝐱)𝑏*(𝐱)𝑏(𝐱)
𝑝/(𝑑)
31
4
𝑏/(𝐱)
Initial state Final state
Non-active state
𝑎/& 𝑎+/
22
提案①: BLSTM-HSMM (2)
p HSMMの事後確率を推定するSEDネットワークを構築
Inputs 100
Forward LSTM 512
Backward LSTM 512
Projection 256
Projection 256
Backward LSTM 512
Projection 256
Projection 256
Backward LSTM 512
Projection 256
Outputs 4 Outputs 4 Outputs 4
⋯
Projection 256
Forward LSTM 512
Forward LSTM 512
𝑃 𝐬&,:	 𝐱:) 𝑃 𝐬*,:	 𝐱:) 𝑃 𝐬<,:	 𝐱:)
: Forward Propagation
: Backward Propagation
2017/7/21 EA研究会@北海道大学 「イベント継続長を明示的に制御したBLSTM-HSMMハイブリッドモデルによる多重音響イベント検出」
23
提案①: BLSTM-HSMM (2)
p HSMMの事後確率を推定するSEDネットワークを構築
n クラス分類問題のマルチタスク学習で最適化
Inputs 100
Forward LSTM 512
Backward LSTM 512
Projection 256
Projection 256
Backward LSTM 512
Projection 256
Projection 256
Backward LSTM 512
Projection 256
Outputs 4 Outputs 4 Outputs 4
⋯
Projection 256
Forward LSTM 512
Forward LSTM 512
𝑃 𝐬&,:	 𝐱:) 𝑃 𝐬*,:	 𝐱:) 𝑃 𝐬<,:	 𝐱:)
: Forward Propagation
: Backward Propagation
Event 1のHSMMの
状態事後確率
Event 2のHSMMの
状態事後確率
Event CのHSMMの
状態事後確率
2017/7/21 EA研究会@北海道大学 「イベント継続長を明示的に制御したBLSTM-HSMMハイブリッドモデルによる多重音響イベント検出」
24
提案①: BLSTM-HSMM (3)
p SEDネットワークの事後確率を出力確率へ変換
n 予め計算した事前確率とベイズの定理を利用
p 出力確率を用いて各HSMM独立にビタビデコード
)(
)|(
)|()(
nsP
nsP
nsPb
t
tt
tttn
=
=
@==
x
xx
出力確率
事後確率
事前確率
# events
Time
State
Time
State
Time
State
2017/7/21 EA研究会@北海道大学 「イベント継続長を明示的に制御したBLSTM-HSMMハイブリッドモデルによる多重音響イベント検出」
25
提案システムフロー
Audio
Featureextraction
Featurevector
Stateposterior
Emissionprob.
MLPath
Binarymask
Prediction
Priornormalization
Viterbidecoding
Post-processing
✕SADnetwork
Thresholding
SEDnetwork
提案②:
SADネットワーク
バイナリマスキング
2017/7/21 EA研究会@北海道大学 「イベント継続長を明示的に制御したBLSTM-HSMMハイブリッドモデルによる多重音響イベント検出」
26
提案②: SADネットワーク (1)
p イベントの有無を判定するSADネットワークを構築
n 2値分類の交差エントロピー最小化で最適化
Inputs 100
Forward LSTM 512
Backward LSTM 512
Projection 256
Projection 256
Backward LSTM 512
Projection 256
Projection 256
Backward LSTM 512
Projection 256
Output 1
Projection 256
Forward LSTM 512
Forward LSTM 512
0	 ≤ y ≤ 1
: Forward Propagation
: Backward Propagation
イベントが存在しない イベントが存在する
2017/7/21 EA研究会@北海道大学 「イベント継続長を明示的に制御したBLSTM-HSMMハイブリッドモデルによる多重音響イベント検出」
27
提案②: SADネットワーク (2)
p SADネットワークの事後確率を閾値処理で2値化
n 閾値は0.5に設定
p 2値化されたバイナリマスクをBLSTM-HSMMで
推定された各イベントの予測結果に適用
Time
予測結果
Time
マスク
⨀ 要素積
=
Time
マスク適用後
予測結果
2017/7/21 EA研究会@北海道大学 「イベント継続長を明示的に制御したBLSTM-HSMMハイブリッドモデルによる多重音響イベント検出」
28
事後処理
提案システムフロー
Audio
Featureextraction
Featurevector
Stateposterior
Emissionprob.
MLPath
Binarymask
Prediction
Priornormalization
Viterbidecoding
Post-processing
✕SADnetwork
Thresholding
SEDnetwork
2017/7/21 EA研究会@北海道大学 「イベント継続長を明示的に制御したBLSTM-HSMMハイブリッドモデルによる多重音響イベント検出」
29
事後処理
1. 150 msec (15 frames) スパンのメディアンフィルタ
2. 100 msec (10 frames) 以下の穴埋め
3. 各イベントの学習データ中の最小長の3/4以下を削除
Time Time
Time Time
Time
¾ minimum length Time
2017/7/21 EA研究会@北海道大学 「イベント継続長を明示的に制御したBLSTM-HSMMハイブリッドモデルによる多重音響イベント検出」
30
評価実験
2017/7/21 EA研究会@北海道大学 「イベント継続長を明示的に制御したBLSTM-HSMMハイブリッドモデルによる多重音響イベント検出」
31
評価実験
実験設定
p 多重音響イベント検出タスクDCASE2016 task2で評価
p 11 種類の音響イベントが対象
評価尺度
p Segment-based (SB): 1秒のセグメント単位の評価
p Event-based (EB): イベント単位での評価
p それぞれでF1-score (F1)とError rate (ER)を計算
比較手法
p Supervised NMF (DCASE2016 task2 ベースライン)
p BLSTM
p BLSTM-HMM
2017/7/21 EA研究会@北海道大学 「イベント継続長を明示的に制御したBLSTM-HSMMハイブリッドモデルによる多重音響イベント検出」
32
実験条件
Sampling rate 44,100 Hz
Bit rate 16 bit
# sound events 11
# training data 4 sec * 100,000 samples
# development data 120 sec * 18 samples
# evaluation data 120 sec * 54 samples
# hidden layer 3
# LSTM unit Forward : 512 Backward: 512
# projection unit Forward : 256 Backward: 256
Initial Scale 0.001
Learning rate 0.0005
Max gradient norm 5
# step 400
# batch 128
Optimization method Adam
2017/7/21 EA研究会@北海道大学 「イベント継続長を明示的に制御したBLSTM-HSMMハイブリッドモデルによる多重音響イベント検出」
33
実験結果
2017/7/21 EA研究会@北海道大学 「イベント継続長を明示的に制御したBLSTM-HSMMハイブリッドモデルによる多重音響イベント検出」
Model EB-F1 [%] EB-ER [%] SB-F1 [%] SB-ER [%]
NMF (Baseline) 24.0 168.5 37.0 89.3
BLSTM best 70.1 54.2 77.9 39.6
BLSTM-HMM best 74.9 44.7 80.5 33.8
BLSTM-HSMM best 75.3 44.2 81.1 32.9
DCASE 1st T. Komatsu+
NMF based method
73.8 46.2 80.2 33.1
DCASE 2nd I. Choi+
DNN based method
67.1 61.8 78.7 36.7
高いほど高性能
34
実験結果
2017/7/21 EA研究会@北海道大学 「イベント継続長を明示的に制御したBLSTM-HSMMハイブリッドモデルによる多重音響イベント検出」
Model EB-F1 [%] EB-ER [%] SB-F1 [%] SB-ER [%]
NMF (Baseline) 24.0 168.5 37.0 89.3
BLSTM best 70.1 54.2 77.9 39.6
BLSTM-HMM best 74.9 44.7 80.5 33.8
BLSTM-HSMM best 75.3 44.2 81.1 32.9
DCASE 1st T. Komatsu+
NMF based method
73.8 46.2 80.2 33.1
DCASE 2nd I. Choi+
DNN based method
67.1 61.8 78.7 36.7
低いほど高性能
35
実験結果
2017/7/21 EA研究会@北海道大学 「イベント継続長を明示的に制御したBLSTM-HSMMハイブリッドモデルによる多重音響イベント検出」
Model EB-F1 [%] EB-ER [%] SB-F1 [%] SB-ER [%]
NMF (Baseline) 24.0 168.5 37.0 89.3
BLSTM best 70.1 54.2 77.9 39.6
BLSTM-HMM best 74.9 44.7 80.5 33.8
BLSTM-HSMM best 75.3 44.2 81.1 32.9
DCASE 1st T. Komatsu+
NMF based method
73.8 46.2 80.2 33.1
DCASE 2nd I. Choi+
DNN based method
67.1 61.8 78.7 36.7
全ての評価尺度でBLSTM-HSMMが最高性能
36
実験結果
2017/7/21 EA研究会@北海道大学 「イベント継続長を明示的に制御したBLSTM-HSMMハイブリッドモデルによる多重音響イベント検出」
Model EB-F1 [%] EB-ER [%] SB-F1 [%] SB-ER [%]
NMF (Baseline) 24.0 168.5 37.0 89.3
BLSTM best 70.1 54.2 77.9 39.6
BLSTM-HMM best 74.9 44.7 80.5 33.8
BLSTM-HSMM best 75.3 44.2 81.1 32.9
DCASE 1st T. Komatsu+
NMF based method
73.8 46.2 80.2 33.1
DCASE 2nd I. Choi+
DNN based method
67.1 61.8 78.7 36.7
DCASEチャレンジ結果を上回る世界最高性能
37
実験結果
2017/7/21 EA研究会@北海道大学 「イベント継続長を明示的に制御したBLSTM-HSMMハイブリッドモデルによる多重音響イベント検出」
Model EB-F1 [%] EB-ER [%] SB-F1 [%] SB-ER [%]
NMF (Baseline) 24.0 168.5 37.0 89.3
BLSTM best 70.1 54.2 77.9 39.6
BLSTM-HMM best 74.9 44.7 80.5 33.8
BLSTM-HSMM best 75.3 44.2 81.1 32.9
DCASE 1st T. Komatsu+
NMF based method
73.8 46.2 80.2 33.1
DCASE 2nd I. Choi+
DNN based method
67.1 61.8 78.7 36.7
提案法の有効性を確認
38
SADマスクの有無の比較
Model EB-F1 [%] EB-ER [%] SB-F1 [%] SB-ER [%]
BLSTM w/o SAD mask 65.2 66.9 76.1 45.2
BLSTM w/ SAD mask 70.1 (+4.8) 54.2 (-12.7) 77.9 (+1.8) 39.6 (-5.6)
BLSTM-HMM w/o SAD mask 71.7 52.3 79.5 36.7
BLSTM-HMM w/ SAD mask 74.9 (+3.2) 44.7 (-7.6) 80.5 (+1.0) 33.8 (-2.9)
BLSTM-HSMM w/o SAD mask 72.1 51.4 79.7 37.0
BLSTM-HSMM w/ SAD mask 75.3 (+2.8) 44.2 (-7.2) 81.1 (+1.4) 32.9 (-4.1)
2017/7/21 EA研究会@北海道大学 「イベント継続長を明示的に制御したBLSTM-HSMMハイブリッドモデルによる多重音響イベント検出」
いずれのモデルに対しても有効であることを確認
39
事後処理の有無の比較
2017/7/21 EA研究会@北海道大学 「イベント継続長を明示的に制御したBLSTM-HSMMハイブリッドモデルによる多重音響イベント検出」
Model EB-F1 [%] EB-ER [%] SB-F1 [%] SB-ER [%]
BLSTM-HMM w/o
post-processing
71.0 55.1 79.6 37.4
BLSTM-HMM w/
post-processing
71.7 52.3 79.5 36.7
BLSTM-HSMM w/o
post-processing
71.9 51.7 79.8 37.0
BLSTM-HSMM w/
post-processing
72.1 51.4 79.7 37.0
BLSTM-HMMでは事後処理が有効
HMMでは完全にスムージングできていない
40
事後処理の有無の比較
2017/7/21 EA研究会@北海道大学 「イベント継続長を明示的に制御したBLSTM-HSMMハイブリッドモデルによる多重音響イベント検出」
Model EB-F1 [%] EB-ER [%] SB-F1 [%] SB-ER [%]
BLSTM-HMM w/o
post-processing
71.0 55.1 79.6 37.4
BLSTM-HMM w/
post-processing
71.7 52.3 79.5 36.7
BLSTM-HSMM w/o
post-processing
71.9 51.7 79.8 37.0
BLSTM-HSMM w/
post-processing
72.1 51.4 79.7 37.0
BLSTM-HSMMでは事後処理が効果なし
出力がHSMMにより完全にスムージング可能
41
まとめと今後の課題
2017/7/21 EA研究会@北海道大学 「イベント継続長を明示的に制御したBLSTM-HSMMハイブリッドモデルによる多重音響イベント検出」
42
まとめと今後の課題
まとめ
p BLSTM-HSMMハイブリッドモデルの提案
p SADネットワークによるバイナリマスキングの提案
p 多重音響イベント検出タスクDCASE2016 task2で評価
p 提案モデルがチャレンジベストを上回る最高性能を達成
今後の課題
p 大規模実環境収録データセットへの適応
p 系列識別学習の導入
2017/7/21 EA研究会@北海道大学 「イベント継続長を明示的に制御したBLSTM-HSMMハイブリッドモデルによる多重音響イベント検出」

More Related Content

What's hot

独立低ランク行列分析に基づくブラインド音源分離(Blind source separation based on independent low-rank...
独立低ランク行列分析に基づくブラインド音源分離(Blind source separation based on independent low-rank...独立低ランク行列分析に基づくブラインド音源分離(Blind source separation based on independent low-rank...
独立低ランク行列分析に基づくブラインド音源分離(Blind source separation based on independent low-rank...Daichi Kitamura
 
WaveNetが音声合成研究に与える影響
WaveNetが音声合成研究に与える影響WaveNetが音声合成研究に与える影響
WaveNetが音声合成研究に与える影響NU_I_TODALAB
 
実環境音響信号処理における収音技術
実環境音響信号処理における収音技術実環境音響信号処理における収音技術
実環境音響信号処理における収音技術Yuma Koizumi
 
音声信号の分析と加工 - 音声を自在に変換するには?
音声信号の分析と加工 - 音声を自在に変換するには?音声信号の分析と加工 - 音声を自在に変換するには?
音声信号の分析と加工 - 音声を自在に変換するには?NU_I_TODALAB
 
時間領域低ランクスペクトログラム近似法に基づくマスキング音声の欠損成分復元
時間領域低ランクスペクトログラム近似法に基づくマスキング音声の欠損成分復元時間領域低ランクスペクトログラム近似法に基づくマスキング音声の欠損成分復元
時間領域低ランクスペクトログラム近似法に基づくマスキング音声の欠損成分復元NU_I_TODALAB
 
深層学習と音響信号処理
深層学習と音響信号処理深層学習と音響信号処理
深層学習と音響信号処理Yuma Koizumi
 
論文紹介 wav2vec: Unsupervised Pre-training for Speech Recognition
論文紹介  wav2vec: Unsupervised Pre-training for Speech Recognition論文紹介  wav2vec: Unsupervised Pre-training for Speech Recognition
論文紹介 wav2vec: Unsupervised Pre-training for Speech RecognitionYosukeKashiwagi1
 
End-to-End音声認識ためのMulti-Head Decoderネットワーク
End-to-End音声認識ためのMulti-Head DecoderネットワークEnd-to-End音声認識ためのMulti-Head Decoderネットワーク
End-to-End音声認識ためのMulti-Head DecoderネットワークNU_I_TODALAB
 
音声感情認識の分野動向と実用化に向けたNTTの取り組み
音声感情認識の分野動向と実用化に向けたNTTの取り組み音声感情認識の分野動向と実用化に向けたNTTの取り組み
音声感情認識の分野動向と実用化に向けたNTTの取り組みAtsushi_Ando
 
ICASSP 2019での音響信号処理分野の世界動向
ICASSP 2019での音響信号処理分野の世界動向ICASSP 2019での音響信号処理分野の世界動向
ICASSP 2019での音響信号処理分野の世界動向Yuma Koizumi
 
統計的ボイチェン研究事情
統計的ボイチェン研究事情統計的ボイチェン研究事情
統計的ボイチェン研究事情Shinnosuke Takamichi
 
JVS:フリーの日本語多数話者音声コーパス
JVS:フリーの日本語多数話者音声コーパス JVS:フリーの日本語多数話者音声コーパス
JVS:フリーの日本語多数話者音声コーパス Shinnosuke Takamichi
 
[DL輪読会]Wavenet a generative model for raw audio
[DL輪読会]Wavenet a generative model for raw audio[DL輪読会]Wavenet a generative model for raw audio
[DL輪読会]Wavenet a generative model for raw audioDeep Learning JP
 
喉頭摘出者のための歌唱支援を目指した電気音声変換法
喉頭摘出者のための歌唱支援を目指した電気音声変換法喉頭摘出者のための歌唱支援を目指した電気音声変換法
喉頭摘出者のための歌唱支援を目指した電気音声変換法NU_I_TODALAB
 
独立深層学習行列分析に基づく多チャネル音源分離の実験的評価(Experimental evaluation of multichannel audio s...
独立深層学習行列分析に基づく多チャネル音源分離の実験的評価(Experimental evaluation of multichannel audio s...独立深層学習行列分析に基づく多チャネル音源分離の実験的評価(Experimental evaluation of multichannel audio s...
独立深層学習行列分析に基づく多チャネル音源分離の実験的評価(Experimental evaluation of multichannel audio s...Daichi Kitamura
 
独立性に基づくブラインド音源分離の発展と独立低ランク行列分析 History of independence-based blind source sep...
独立性に基づくブラインド音源分離の発展と独立低ランク行列分析 History of independence-based blind source sep...独立性に基づくブラインド音源分離の発展と独立低ランク行列分析 History of independence-based blind source sep...
独立性に基づくブラインド音源分離の発展と独立低ランク行列分析 History of independence-based blind source sep...Daichi Kitamura
 
[DL輪読会]One Model To Learn Them All
[DL輪読会]One Model To Learn Them All[DL輪読会]One Model To Learn Them All
[DL輪読会]One Model To Learn Them AllDeep Learning JP
 
非負値行列分解の確率的生成モデルと 多チャネル音源分離への応用 (Generative model in nonnegative matrix facto...
非負値行列分解の確率的生成モデルと多チャネル音源分離への応用 (Generative model in nonnegative matrix facto...非負値行列分解の確率的生成モデルと多チャネル音源分離への応用 (Generative model in nonnegative matrix facto...
非負値行列分解の確率的生成モデルと 多チャネル音源分離への応用 (Generative model in nonnegative matrix facto...Daichi Kitamura
 

What's hot (20)

独立低ランク行列分析に基づくブラインド音源分離(Blind source separation based on independent low-rank...
独立低ランク行列分析に基づくブラインド音源分離(Blind source separation based on independent low-rank...独立低ランク行列分析に基づくブラインド音源分離(Blind source separation based on independent low-rank...
独立低ランク行列分析に基づくブラインド音源分離(Blind source separation based on independent low-rank...
 
WaveNetが音声合成研究に与える影響
WaveNetが音声合成研究に与える影響WaveNetが音声合成研究に与える影響
WaveNetが音声合成研究に与える影響
 
実環境音響信号処理における収音技術
実環境音響信号処理における収音技術実環境音響信号処理における収音技術
実環境音響信号処理における収音技術
 
音声信号の分析と加工 - 音声を自在に変換するには?
音声信号の分析と加工 - 音声を自在に変換するには?音声信号の分析と加工 - 音声を自在に変換するには?
音声信号の分析と加工 - 音声を自在に変換するには?
 
時間領域低ランクスペクトログラム近似法に基づくマスキング音声の欠損成分復元
時間領域低ランクスペクトログラム近似法に基づくマスキング音声の欠損成分復元時間領域低ランクスペクトログラム近似法に基づくマスキング音声の欠損成分復元
時間領域低ランクスペクトログラム近似法に基づくマスキング音声の欠損成分復元
 
深層学習と音響信号処理
深層学習と音響信号処理深層学習と音響信号処理
深層学習と音響信号処理
 
Dsp2015for ss
Dsp2015for ssDsp2015for ss
Dsp2015for ss
 
論文紹介 wav2vec: Unsupervised Pre-training for Speech Recognition
論文紹介  wav2vec: Unsupervised Pre-training for Speech Recognition論文紹介  wav2vec: Unsupervised Pre-training for Speech Recognition
論文紹介 wav2vec: Unsupervised Pre-training for Speech Recognition
 
End-to-End音声認識ためのMulti-Head Decoderネットワーク
End-to-End音声認識ためのMulti-Head DecoderネットワークEnd-to-End音声認識ためのMulti-Head Decoderネットワーク
End-to-End音声認識ためのMulti-Head Decoderネットワーク
 
音声感情認識の分野動向と実用化に向けたNTTの取り組み
音声感情認識の分野動向と実用化に向けたNTTの取り組み音声感情認識の分野動向と実用化に向けたNTTの取り組み
音声感情認識の分野動向と実用化に向けたNTTの取り組み
 
ICASSP 2019での音響信号処理分野の世界動向
ICASSP 2019での音響信号処理分野の世界動向ICASSP 2019での音響信号処理分野の世界動向
ICASSP 2019での音響信号処理分野の世界動向
 
統計的ボイチェン研究事情
統計的ボイチェン研究事情統計的ボイチェン研究事情
統計的ボイチェン研究事情
 
Kameoka2017 ieice03
Kameoka2017 ieice03Kameoka2017 ieice03
Kameoka2017 ieice03
 
JVS:フリーの日本語多数話者音声コーパス
JVS:フリーの日本語多数話者音声コーパス JVS:フリーの日本語多数話者音声コーパス
JVS:フリーの日本語多数話者音声コーパス
 
[DL輪読会]Wavenet a generative model for raw audio
[DL輪読会]Wavenet a generative model for raw audio[DL輪読会]Wavenet a generative model for raw audio
[DL輪読会]Wavenet a generative model for raw audio
 
喉頭摘出者のための歌唱支援を目指した電気音声変換法
喉頭摘出者のための歌唱支援を目指した電気音声変換法喉頭摘出者のための歌唱支援を目指した電気音声変換法
喉頭摘出者のための歌唱支援を目指した電気音声変換法
 
独立深層学習行列分析に基づく多チャネル音源分離の実験的評価(Experimental evaluation of multichannel audio s...
独立深層学習行列分析に基づく多チャネル音源分離の実験的評価(Experimental evaluation of multichannel audio s...独立深層学習行列分析に基づく多チャネル音源分離の実験的評価(Experimental evaluation of multichannel audio s...
独立深層学習行列分析に基づく多チャネル音源分離の実験的評価(Experimental evaluation of multichannel audio s...
 
独立性に基づくブラインド音源分離の発展と独立低ランク行列分析 History of independence-based blind source sep...
独立性に基づくブラインド音源分離の発展と独立低ランク行列分析 History of independence-based blind source sep...独立性に基づくブラインド音源分離の発展と独立低ランク行列分析 History of independence-based blind source sep...
独立性に基づくブラインド音源分離の発展と独立低ランク行列分析 History of independence-based blind source sep...
 
[DL輪読会]One Model To Learn Them All
[DL輪読会]One Model To Learn Them All[DL輪読会]One Model To Learn Them All
[DL輪読会]One Model To Learn Them All
 
非負値行列分解の確率的生成モデルと 多チャネル音源分離への応用 (Generative model in nonnegative matrix facto...
非負値行列分解の確率的生成モデルと多チャネル音源分離への応用 (Generative model in nonnegative matrix facto...非負値行列分解の確率的生成モデルと多チャネル音源分離への応用 (Generative model in nonnegative matrix facto...
非負値行列分解の確率的生成モデルと 多チャネル音源分離への応用 (Generative model in nonnegative matrix facto...
 

Viewers also liked

【2017.01】cvpaper.challenge2017
【2017.01】cvpaper.challenge2017【2017.01】cvpaper.challenge2017
【2017.01】cvpaper.challenge2017cvpaper. challenge
 
形態素解析も辞書も言語モデルもいらないend-to-end音声認識
形態素解析も辞書も言語モデルもいらないend-to-end音声認識形態素解析も辞書も言語モデルもいらないend-to-end音声認識
形態素解析も辞書も言語モデルもいらないend-to-end音声認識Tomoki Hayashi
 
画像キャプションの自動生成
画像キャプションの自動生成画像キャプションの自動生成
画像キャプションの自動生成Yoshitaka Ushiku
 
ヤフー音声認識サービスでのディープラーニングとGPU利用事例
ヤフー音声認識サービスでのディープラーニングとGPU利用事例ヤフー音声認識サービスでのディープラーニングとGPU利用事例
ヤフー音声認識サービスでのディープラーニングとGPU利用事例Yahoo!デベロッパーネットワーク
 
俺のtensorが全然flowしないのでみんなchainer使おう by DEEPstation
俺のtensorが全然flowしないのでみんなchainer使おう by DEEPstation俺のtensorが全然flowしないのでみんなchainer使おう by DEEPstation
俺のtensorが全然flowしないのでみんなchainer使おう by DEEPstationYusuke HIDESHIMA
 
Introduction to Chainer
Introduction to ChainerIntroduction to Chainer
Introduction to ChainerShunta Saito
 

Viewers also liked (6)

【2017.01】cvpaper.challenge2017
【2017.01】cvpaper.challenge2017【2017.01】cvpaper.challenge2017
【2017.01】cvpaper.challenge2017
 
形態素解析も辞書も言語モデルもいらないend-to-end音声認識
形態素解析も辞書も言語モデルもいらないend-to-end音声認識形態素解析も辞書も言語モデルもいらないend-to-end音声認識
形態素解析も辞書も言語モデルもいらないend-to-end音声認識
 
画像キャプションの自動生成
画像キャプションの自動生成画像キャプションの自動生成
画像キャプションの自動生成
 
ヤフー音声認識サービスでのディープラーニングとGPU利用事例
ヤフー音声認識サービスでのディープラーニングとGPU利用事例ヤフー音声認識サービスでのディープラーニングとGPU利用事例
ヤフー音声認識サービスでのディープラーニングとGPU利用事例
 
俺のtensorが全然flowしないのでみんなchainer使おう by DEEPstation
俺のtensorが全然flowしないのでみんなchainer使おう by DEEPstation俺のtensorが全然flowしないのでみんなchainer使おう by DEEPstation
俺のtensorが全然flowしないのでみんなchainer使おう by DEEPstation
 
Introduction to Chainer
Introduction to ChainerIntroduction to Chainer
Introduction to Chainer
 

More from Tomoki Hayashi

ESPnet-TTS: Unified, Reproducible, and Integratable Open Source End-to-End Te...
ESPnet-TTS: Unified, Reproducible, and Integratable Open Source End-to-End Te...ESPnet-TTS: Unified, Reproducible, and Integratable Open Source End-to-End Te...
ESPnet-TTS: Unified, Reproducible, and Integratable Open Source End-to-End Te...Tomoki Hayashi
 
複数話者WaveNetボコーダに関する調査
複数話者WaveNetボコーダに関する調査複数話者WaveNetボコーダに関する調査
複数話者WaveNetボコーダに関する調査Tomoki Hayashi
 
イベント区間検出統合型 BLSTM-HMMハイブリッドモデルによる 多重音響イベント検出
イベント区間検出統合型 BLSTM-HMMハイブリッドモデルによる 多重音響イベント検出イベント区間検出統合型 BLSTM-HMMハイブリッドモデルによる 多重音響イベント検出
イベント区間検出統合型 BLSTM-HMMハイブリッドモデルによる 多重音響イベント検出Tomoki Hayashi
 
PRML 5章 PP.227-PP.247
PRML 5章 PP.227-PP.247PRML 5章 PP.227-PP.247
PRML 5章 PP.227-PP.247Tomoki Hayashi
 
Visualizing Data Using t-SNE
Visualizing Data Using t-SNEVisualizing Data Using t-SNE
Visualizing Data Using t-SNETomoki Hayashi
 
Prediction of Exchange Rate Using Deep Neural Network
Prediction of Exchange Rate Using Deep Neural Network  Prediction of Exchange Rate Using Deep Neural Network
Prediction of Exchange Rate Using Deep Neural Network Tomoki Hayashi
 

More from Tomoki Hayashi (6)

ESPnet-TTS: Unified, Reproducible, and Integratable Open Source End-to-End Te...
ESPnet-TTS: Unified, Reproducible, and Integratable Open Source End-to-End Te...ESPnet-TTS: Unified, Reproducible, and Integratable Open Source End-to-End Te...
ESPnet-TTS: Unified, Reproducible, and Integratable Open Source End-to-End Te...
 
複数話者WaveNetボコーダに関する調査
複数話者WaveNetボコーダに関する調査複数話者WaveNetボコーダに関する調査
複数話者WaveNetボコーダに関する調査
 
イベント区間検出統合型 BLSTM-HMMハイブリッドモデルによる 多重音響イベント検出
イベント区間検出統合型 BLSTM-HMMハイブリッドモデルによる 多重音響イベント検出イベント区間検出統合型 BLSTM-HMMハイブリッドモデルによる 多重音響イベント検出
イベント区間検出統合型 BLSTM-HMMハイブリッドモデルによる 多重音響イベント検出
 
PRML 5章 PP.227-PP.247
PRML 5章 PP.227-PP.247PRML 5章 PP.227-PP.247
PRML 5章 PP.227-PP.247
 
Visualizing Data Using t-SNE
Visualizing Data Using t-SNEVisualizing Data Using t-SNE
Visualizing Data Using t-SNE
 
Prediction of Exchange Rate Using Deep Neural Network
Prediction of Exchange Rate Using Deep Neural Network  Prediction of Exchange Rate Using Deep Neural Network
Prediction of Exchange Rate Using Deep Neural Network
 

Recently uploaded

論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A survey論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A surveyToru Tamaki
 
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...Toru Tamaki
 
スマートフォンを用いた新生児あやし動作の教示システム
スマートフォンを用いた新生児あやし動作の教示システムスマートフォンを用いた新生児あやし動作の教示システム
スマートフォンを用いた新生児あやし動作の教示システムsugiuralab
 
TSAL operation mechanism and circuit diagram.pdf
TSAL operation mechanism and circuit diagram.pdfTSAL operation mechanism and circuit diagram.pdf
TSAL operation mechanism and circuit diagram.pdftaisei2219
 
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介Yuma Ohgami
 
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)Hiroki Ichikura
 
SOPを理解する 2024/04/19 の勉強会で発表されたものです
SOPを理解する       2024/04/19 の勉強会で発表されたものですSOPを理解する       2024/04/19 の勉強会で発表されたものです
SOPを理解する 2024/04/19 の勉強会で発表されたものですiPride Co., Ltd.
 
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略Ryo Sasaki
 
論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNet論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNetToru Tamaki
 
Postman LT Fukuoka_Quick Prototype_By Daniel
Postman LT Fukuoka_Quick Prototype_By DanielPostman LT Fukuoka_Quick Prototype_By Daniel
Postman LT Fukuoka_Quick Prototype_By Danieldanielhu54
 

Recently uploaded (10)

論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A survey論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A survey
 
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
 
スマートフォンを用いた新生児あやし動作の教示システム
スマートフォンを用いた新生児あやし動作の教示システムスマートフォンを用いた新生児あやし動作の教示システム
スマートフォンを用いた新生児あやし動作の教示システム
 
TSAL operation mechanism and circuit diagram.pdf
TSAL operation mechanism and circuit diagram.pdfTSAL operation mechanism and circuit diagram.pdf
TSAL operation mechanism and circuit diagram.pdf
 
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
 
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
 
SOPを理解する 2024/04/19 の勉強会で発表されたものです
SOPを理解する       2024/04/19 の勉強会で発表されたものですSOPを理解する       2024/04/19 の勉強会で発表されたものです
SOPを理解する 2024/04/19 の勉強会で発表されたものです
 
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
 
論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNet論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNet
 
Postman LT Fukuoka_Quick Prototype_By Daniel
Postman LT Fukuoka_Quick Prototype_By DanielPostman LT Fukuoka_Quick Prototype_By Daniel
Postman LT Fukuoka_Quick Prototype_By Daniel
 

イベント継続長を明示的に制御したBLSTM-HSMMハイブリッドモデルによる多重音響イベント検出