角野隼斗, 北村大地, 高宗典玄, 高道慎之介, 猿渡洋, 小野順貴, "独立深層学習行列分析に基づく多チャネル音源分離," 日本音響学会 2018年春季研究発表会講演論文集, 1-4-16, pp. 449–452, Saitama, March 2018.
Hayato Sumino, Daichi Kitamura, Norihiro Takamune, Shinnosuke Takamichi, Hiroshi Saruwatari, Nobutaka Ono, "Multichannel audio source separation based on independent deeply learned matrix analysis," Proceedings of 2018 Spring Meeting of Acoustical Society of Japan, 1-4-16, pp. 449–452, Saitama, March 2018 (in Japanese).
8. / 15
n 空間モデル:各音源が統計的に独立となる分離行列を推定
n 音源モデル:分散行列 を推定するDNNを各音源ごとに構成
n IDLMA(Independent Deeply Learned Matrix Analysis)
提案手法:独立深層学習行列分析
2018年3月13日 8
音源モデル (DNN) 空間モデル (音源間が独立)
交互に最適化
観測信号
空間モデル
分離信号 音源モデル(DNN)
xij yij
Wi Time
Frequency
Frequency
Time
Frequency
Frequency
9. / 15
n IDLMA(Independent Deeply Learned Matrix Analysis)
提案手法:独立深層学習行列分析
2018年3月13日 9
n DNN音源モデル(音源ごとに構成)
DNN学習時のコスト関数
(IS divergence)
→ Minimize
n IS divergenceに基づく最適化は の赤枠部分の最小化(最尤推定)と等価
混合信号
(パワー)
DNN
推定分散
分離信号
(パワー)
10. / 15
2 m
Vo.
5.66 cm
40
40
E2A impulse
response
T60 = 300 ms
(a)
2 m
2.83 cm
20
(b)
40
E2A impulse
response
T60 = 300 ms
Ba. or Dr. Ba. or Dr.
Vo.
評価実験
学習信号 DSD100(音楽データセット)Dev 50曲(Vo./Ba. & Vo./Dr.)
評価信号
DSD100 Test 25曲に対し,以下の配置のE2Aインパルス応答
(RT60 = 300 ms)を畳み込んだ信号
サンプリング周波数 8 kHz
STFTの設定 窓長 128, 256, 512, 1024 ms / シフト長: 窓長の半分
評価指標 Signal-to-Distortion Ratio (SDR) の改善量
比較手法
ILRMA / DNN+WF法 [Uhlich+, 2015] /
Duong+DNN法 / 提案手法(IDLMA)
10
配置1 配置2