4. 4
本研究の貢献
p 新たな多重音響イベント検出手法を提案
p 多重音響イベント検出タスクDCASE2016 Task2で評価
提案1: BLSTM-HMMハイブリッドモデル
ü BLSTMで入力特徴量の時系列情報を最大限利用
ü HMMで出力系列に制約+系列単位の処理を実現
提案2: SADネットワークによるバイナリマスキング
ü イベント区間を検出するネットワークの併用
ü 雑音環境下における挿入誤りを効率的に抑制
チャレンジのベスト結果を上回る性能を実現
日本音響学会2017年春季研究発表会 2-5-5 「イベント区間検出統合型BLSTM-HMMハイブリッドモデルによる多重音響イベント検出」
5. 5
関連研究 GMM-HMMベース
p イベント毎にGMM-HMMを学習
p ビタビアルゴリズムで最尤系列を決定
J 系列単位の処理が可能
L 入力特徴量空間をGMMでうまく表現できない
Event 1 GMM-HMM
Event C GMM-HMM
⋮
Viterbi Decoding
Time
State
日本音響学会2017年春季研究発表会 2-5-5 「イベント区間検出統合型BLSTM-HMMハイブリッドモデルによる多重音響イベント検出」
6. 6
関連研究 NMFベース
p 各イベントの基底を学習し基底辞書を作成
p 辞書を利用し各イベントのアクティベーションを推定
J 入力特徴量の次元間相関を活用可能
L フレーム間相関を非活用 / フレーム単位の処理
Event1basis
Event2basis
Event3basis
Pre-learned event
basis dictionary
Event 3 activation
Event 2 activation
Event 1 activation
✕
Thresholding
Classifier
Fixed
PredictionPrediction
Data
NMF
日本音響学会2017年春季研究発表会 2-5-5 「イベント区間検出統合型BLSTM-HMMハイブリッドモデルによる多重音響イベント検出」
7. 7
関連研究 ニューラルネットベース
p マルチラベル分類のネットワークを学習
p 閾値処理で各イベントのアクティベーションを推定
J BLSTMなどの利用で入力特徴量をフル活用
L フレーム単位の処理
Thresholding
Sigmoid
FeatureVector
Event 1
Prediction
Event 2
Prediction
Event 3
Prediction
Neural Network
日本音響学会2017年春季研究発表会 2-5-5 「イベント区間検出統合型BLSTM-HMMハイブリッドモデルによる多重音響イベント検出」
8. 8
本研究の提案
提案①: BLSTM-HMMハイブリッドモデル
ü BLSTMで入力特徴量の時系列情報を最大限利用
ü HMMで出力系列に制約+系列単位の処理を実現
提案②: SADネットワークバイナリマスキング
ü イベント区間を検出するネットワークの併用
ü 雑音環境下における挿入誤りを効率的に抑制
上記2つの提案手法を統合した
イベント区間検出統合型BLSTM-HMMハイブリッドモデル
を提案
日本音響学会2017年春季研究発表会 2-5-5 「イベント区間検出統合型BLSTM-HMMハイブリッドモデルによる多重音響イベント検出」
22. 22
提案①: BLSTM-HMM (3)
p SEDネットワークの事後確率を出力確率へ変換
n 予め計算した事前確率とベイズの定理を利用
p 出力確率を用いて各HMM独立にビタビデコード
)(
)|(
)|()(
nsP
nsP
nsPb
t
tt
tttn
=
=
@==
x
xx
出力確率
事後確率
事前確率
# events
Time
State
Time
State
Time
State
日本音響学会2017年春季研究発表会 2-5-5 「イベント区間検出統合型BLSTM-HMMハイブリッドモデルによる多重音響イベント検出」
25. 25
提案②: SADネットワーク (2)
p SADネットワークの事後確率を閾値処理で2値化
n 閾値は0.5に設定
p 2値化により得られたバイナリマスクをBLSTM-HMMで
推定された各イベントの予測結果に適用
Time
予測結果
Time
マスク
⨀ 要素積
=
Time
マスク適用後
予測結果
日本音響学会2017年春季研究発表会 2-5-5 「イベント区間検出統合型BLSTM-HMMハイブリッドモデルによる多重音響イベント検出」
27. 27
事後処理
1. 150 msec (15 frames) スパンのメディアンフィルタ
2. 100 msec (10 frames) 以下の穴埋め
3. 各イベントの学習データ中の最小長の3/4以下を削除
Time Time
Time Time
Time
¾ minimum length Time
日本音響学会2017年春季研究発表会 2-5-5 「イベント区間検出統合型BLSTM-HMMハイブリッドモデルによる多重音響イベント検出」
29. 29
評価実験
実験設定
p 多重音響イベント検出タスクDCASE2016 task2で評価
p 11 種類の音響イベントが対象
評価尺度
p Segment-based (SB): 1秒のセグメント単位の評価
p Event-based (EB): イベント単位での評価
p それぞれでF1-score (F1)とError rate (ER)を計算
比較手法
p NMF (DCASE2016 task2 ベースライン)
p BLSTM
日本音響学会2017年春季研究発表会 2-5-5 「イベント区間検出統合型BLSTM-HMMハイブリッドモデルによる多重音響イベント検出」
30. 30
実験条件
Sampling rate 44,100 Hz
Bit rate 16 bit
# sound events 11
# training data 4 sec * 100,000 samples
# development data 120 sec * 18 samples
# evaluation data 120 sec * 54 samples
# hidden layer 3
# LSTM unit Forward : 512 Backward: 512
# projection unit Forward : 256 Backward: 256
Initial Scale 0.001
Learning rate 0.0005
Max gradient norm 5
# step 400
# batch 128
Optimization method Adam
日本音響学会2017年春季研究発表会 2-5-5 「イベント区間検出統合型BLSTM-HMMハイブリッドモデルによる多重音響イベント検出」