独立深層学習行列分析に基づく多チャネル音源分離の実験的評価（Experimental evaluation of multichannel audio source separation based on IDLMA）

独立深層学習行列分析に基づく
多チャネル音源分離の実験的評価
Experimental evaluation of multichannel
audio source separation based on IDLMA
北村大地, 角野隼斗，高宗典玄, 高道慎之介, 猿渡洋（東大）
小野順貴（首都大東京）
日本音響学会2018年春季研究発表会 2018年3月19日10:00–11:40
午前EA/SPオーガナイズドセッション
（音声音響信号処理研究における機械学習技術の研究と応用）
EA-3.

背景
• ブラインド音源分離（blind source separation: BSS）
– 混合系（マイクや音源位置の部屋の形状等）が未知
• 優決定条件（マイク数≧音源数）のBSS
– 音源間の独立性に基づく分離系の推定
• 独立成分分析（ICA）[P. Comon, 1994]
• 周波数領域ICA（FDICA）[P. Smaragdis, 1998], [H. Saruwatari+, 2000], [H. Sawada+, 2004], ・・・
• 独立ベクトル分析（IVA）[A. Hiroe, 2006], [T. Kim+, 2006], [T. Kim+, 2007]
• 劣決定条件（マイク数＜音源数）のBSS
– 混合系の推定（時間周波数マスク）
• Sparse coding [P. Bofill+, 2001], [S. Araki+, 2007]
• Duong法 [N. Q. K. Duong+, 2010]
2
混合系分離系

音源分離の歴史と発展（関連手法のみ掲載）
3
1994
1998
2013
1999
2012
パーミュテーション問題
の解決法
数理モデルの拡張
生成モデル的解釈の発見
周波数領域ICA(FDICA)
板倉斎藤擬距離NMF (ISNMF)
独立ベクトル分析(IVA)
2016
2009
2006
2011 補助関数IVA(AuxIVA)
非負値行列因子分解 (NMF)
独立低ランク行列分析 (ILRMA)
時変複素ガウスIVA
多チャネルNMF
2018 独立深層学習行列分析 (IDLMA)
多チャネル信号
優決定条件劣決定条件
単一チャネル信号
Duong法
Duong+DNN法
深層ニューラルネットワーク
(DNN)
独立成分分析(ICA)
[Comon]，[Bell and Sejnowski],
[Cardoso], [Amari], [Cichocki], …
[Smaragdis]
[Saruwatari], [Murata],
[Morgan], [Sawada], …
[Hiroe], [Kim]
[Ono]
[Ono]
[Kitamura]
[Kitamura]
[Nugraha]
[Sawada]
[Duong]
[Févotte]
[Lee]
[Virtanen], [Smaragdis],
[Kameoka], [Ozerov], …
[Hinton], …
2010

• 優決定条件（マイク数≧音源数）が対象
– 混合系の逆系（分離系）が存在
• BSSで活用されるモデル
– 空間モデル：分離系推定の仮定
• 音源間の独立性と種は数領域での瞬時混合（ICA，IVA，ILRMA）
– 音源モデル：分離信号の時間周波数構造の仮定
• グループスパース性（IVA），低ランク性（ILRMA）
– 不適切な音源モデルによる性能の劣化
• パーミュテーション問題
• 独立深層学習行列分析（IDLMA）
– ICA由来の「独立性に基づく分離系推定」
• 空間モデル（分離系）はブラインド推定
– DNNで構築する「教師あり音源モデル」
• 音源モデルは学習データ（教師）より獲得
本発表の概要
4
ICA
IVA
ILRMA IDLMA
ブラインド
音源モデル
教師あり
推定対象
分離系

• 音源数，マイク数（チャネル数）
– 決定系条件を考える
• 短時間フーリエ変換（STFT）して得られる各信号
– 多チャネル観測信号
– 混合行列の逆行列が存在するとき，
多チャネル分離信号
• 時間周波数行列としての表記
– 要素毎の絶対値および指数演算をで表す
• 例：チャネルの観測パワースペクトログラム
記号の定義と定式化
5
時不変混合行列周波数時間
ただし
音源スペクトログラム観測スペクトログラム分離スペクトログラム
とおくと

• 時間周波数分散変動型複素ガウス分布 [Févotte, 2009]
– 時間周波数の各成分が平均0分散の独立な原点対称複素
ガウス分布に従う
音源の生成モデル
6
分散（パワーの期待値）
Frequencybin
Time frame
: パワースペクトログラム
パワーが大＝分散が大
大振幅の複素数も生成しうる
濃淡がパワーの
大きさを示す
パワーが小＝分散が小
0付近の複素数しか生成しない

• 時間周波数分散変動型複素ガウス分布 [Févotte, 2009]
– 時間周波数の各成分が平均0分散の独立な原点対称複素
ガウス分布に従う
• 分散の最尤推定は板倉斎藤擬距離の最小化と等価
7
板倉斎藤
擬距離
での
偏微分は
同じ
分散（パワーの期待値）

• 多チャネル観測信号の負対数尤度
• 原点対称複素ガウス分布のとき
独立性に基づく最適化
8
独立性仮定
独立性に基づく分離行列の推定
（空間モデル）
生成モデルに基づく分散行列の推定
（音源モデル）

• 分離信号や分散に何も仮定をおかない（FDICA）
– 分離行列が周波数に関して非依存（separable）
パーミュテーション問題を引き起こす
音源モデル：分散の構造的仮定
9
分離
行列
音源1
音源2
観測1
観測2
パーミュテーション
の整合
分離信号1
分離信号2Time

• 分離信号のパワースペクトログラムに対して
グループスパース性を仮定
– 同時に生起する周波数成分は同じ音源
としてまとまるパーミュテーション問題の回避
– 独立ベクトル分析（IVA） [A. Hiroe, 2006], [T. Kim+, 2006], [T. Kim+, 2007]
• 生成モデルの分散行列に対して低ランク構造を仮定
– 各音源の低ランク構造（）を推定
パーミュテーション問題を回避
– 低ランクな音源が混ざるとランクは増える
低ランクに誘導することで音源が分離される
– 独立低ランク行列分析（ILRMA） [D. Kitamura, 2016]
音源モデル：分散の構造的仮定
10
Frequency
Time
Frequency
Time
NMFによる表現（ランク）

• 不適切な音源モデルを仮定してしまうと分離精度が劣化
– 例：ボーカルや音声は楽器音ほど低ランクではない
（ダイナミックにピッチが変動するため）
• 音源モデルの教師あり学習
– DNNに基づく単一チャネルの音源分離モデル
• 音楽や音声など「ソロ音源の学習データ」は利用可能な時代
• 空間モデルは学習可能？
– 部屋の形状，残響時間，マイクロホン位置，音源位置，音速等
膨大な物理要因に依存非現実的！
– 独立性に基づくブラインドな推定は有用
提案手法：動機
11
Drums GuitarVocals

• 独立低ランク行列分析（ILRMA）
• 独立深層学習行列分析（independent deeply learned matrix analysis: IDLMA）
– 統計的独立性と教師ありDNN音源モデルに基づく音源分離
提案手法：独立深層学習行列分析
12
観測信号
周波数毎の
分離行列
分離信号 DNN音源モデルによる分散推定
Time
Frequency
Frequency
Time
STFT
Time
Frequency
Frequency
Time
観測信号
周波数毎の
分離行列
分離信号
Time
Frequency
Frequency
Time
分離信号が「互いに独立」かつ「低ランクな時
間周波数構造」を持つように分離行列を更新
STFT
NMFによる低ランク近似
分離信号が「互いに独立」かつ「学習済みの
DNNで表現されるような時間周波数構造」を
持つように分離行列を更新
音源モデルを教師あり化

• DNNの特徴量
• DNNの損失関数
提案手法：DNN音源モデルの学習
13
Frequency
Time
Frequency
Time
ランダムな
振幅値
を乗じて混合
音源1（学習データ）
音源2（学習データ）
混合ベクトル
正解
ベクトル
推定
ベクトル
損失関数
最小化
最小化
損失関数
（）
音源2を分離
するDNN
音源1を分離
するDNN
正解推定微小値
板倉斎藤擬距離を使うことで
複素ガウス分布生成モデル
の最尤推定となる

• 原点対称複素ガウス分布の負対数尤度
提案手法：分離行列と分散行列の最適化
14
現在の分離信号を学習済の
DNN音源モデルに入力して分散
を更新することで最小化可能
音源モデルの更新
ILRMAと同様に反復射影法（IP）
を適用し分離行列を更新する
ことで最小化可能
空間モデルの更新

• 反復射影法（iterative projection: IP） [N. Ono, 2011]
– 分離行列を行毎（毎）に更新
15
…
更新
固定
分散の更新
固定
…
固定
更新
固定
…
固定
固定
更新
番目の要素が1，
他が0の縦ベクトル

• 学習済DNN音源モデルの適用
– 分離信号を入力し分散を推定
– IPの数値安定性向上のためフロア処理
16
要素毎のmax演算
を施した行列を返す
微小フロアリング値
Time
Frequency
Time
Frequency
Time
Frequency
フロア
処理

評価実験：条件（1/2）
17
学習信号
SiSEC2016 DSD100音楽データセット
開発データ50曲（Ba., Vo., Dr.の3音源）
評価信号
SiSEC2016 DSD100音楽データセット
テストデータ25曲のBa./Vo.及びDr./Vo.をRWCPデータベース
収録のE2Aインパルス応答で畳み込んで観測した信号
サンプリング周波数 8 kHzにダウンサンプリング
STFTの設定
窓長128, 256, 512, 1024 msのハミング窓
シフト長は常に窓長の半分
評価指標信号対歪み比（signal-to-distortion ratio: SDR）の改善量
2 m
Vo.
5.66cm
40
40
Ba. or Dr.
RWCP収録
E2Aインパルス応答
T60 = 300ms

評価実験：条件（2/2）
18
DNNの構造
全結合型フィードフォワード
隠れ層4層，各層のユニット数1024
活性化関数 ReLU（隠れ層及び出力層）
比較手法
ILRMA（ブラインド），DNN+WF，
Duong+DNN，提案手法（IDLMA）
ILRMA：
DNN+WF：
Duong+DNN：
IDLMA：
ブラインド多チャネル分離
分離行列をIPで推定
音源モデル教師あり単一チャネル分離，
各音源のDNN出力からWienerフィルタを構築・適用
音源モデル教師あり多チャネル分離，
音源モデルにDNNを活用，
混合系（フルランク空間相関行列）をEMで推定
音源モデル教師あり多チャネル分離
音源モデルにDNNを活用
分離行列をIPで推定
[D. Kitamura+, 2016]
[S. Uhlich+, 2015]
[A. A. Nagraha+, 2016]
提案手法

評価実験：結果（1/4）
19
真の分散
（Ba.）
DNN推定分散
（Ba.）
真の分散
（Vo.）
DNN推定分散
（Vo.）

• 様々な窓長に対する性能比較（25曲の平均）
20
0
2
4
6
8
10
12
14
128 256 512 1024
SDRimprovement[dB]
Window length in STFT [ms]
0
2
4
6
8
10
12
14
128 256 512 1024
SDRimprovement[dB]
Window length in STFT [ms]
Ba./Vo.の分離結果 Dr./Vo.の分離結果
IDLMA
IDLMA
Duong+DNN
Duong+DNN
ILRMA（ブラインド）
ILRMA（ブラインド）
DNN+WF（単一チャネル）
DNN+WF（単一チャネル）

• 反復回数に対する性能比較（25曲の平均）
14
12
10
8
6
4
2
0
SDRimprovement[dB]
1009080706050403020100
Iteration step
ILRMA
DNN+WF
Duong+DNN
IDLMA
21
Ba./Vo.の分離結果（512 ms窓）
14
12
10
8
6
4
2
0
SDRimprovement[dB]
1009080706050403020100
Iteration step
ILRMA
DNN+WF
Duong+DNN
IDLMA
IDLMA
Duong+DNN
DNN+WF
ILRMA
IDLMA
Duong+DNN
DNN+WF
ILRMA
DNNによる
性能改善
DNNによる
性能改善
Dr./Vo.の分離結果（256 ms窓）

• 100回更新時の計算時間例比較（30秒の観測信号）
– Python 3.5.2＋Chainer 2.1.0環境
– Intel Core i7-6850K（3.60 GHz，6コア）
– DNN音源モデルによる分散推定はGeForce GTX 1080 Ti
22
0
50
100
150
200
250
300
350
ILRMA Duong+DNN IDLMA
Computationaltime[s]
23.31 s 26.56 s
287.06 s

• 分離行列の最適化（IP）は分離フィルタの更新順に依存
– 例：2音源の場合
• 今回はグリーディに全通り（通り）の更新順を試行
– DNN音源モデルを用いた推定SN比を算出し高い結果を採用
IP最適化の性能不安定性
23
更新
固定
分散の更新
固定
更新
音源インデクスの昇順
固定
更新
分散の更新
更新
固定
音源インデクスの降順
IPによる分離フィルタの更新式
よりよい分離行列の推定の為には
分散行列が高精度に推定でき
た音源を先に更新すべき
推定分散分離行列

• DNN音源モデルに基づく推定SN比
– 現在の分離信号を音源モデルに入力した際の出力
– 現在の分離信号中の音源の成分と残留する他音源
の成分をDNN音源モデルより推定しSN比を算出
• 全時間周波数の総パワーによる推定SN比
• 各時間周波数グリッドの推定SN比の時間周波数平均
– IPの更新順の全通りの結果について上記を算出
• 推定SN比が高くなる結果を採用
IPの更新順の選択基準
24
全音源に
関して平均
全音源に
関して平均

• 条件は先の評価実験と同様
評価実験：IPの更新順選択実験
25
Ba./Vo.の分離結果 Dr./Vo.の分離結果
14
13
12
11
10
9
8
7
SDRimprovement[dB]
1009080706050403020100
Iteration step
Ascending order
Descending order
-based order
-based order
12
11
10
9
8
7
6
SDRimprovement[dB]
1009080706050403020100
Iteration step
Ascending order
Descending order
-based order
-based order

• 独立深層学習行列分析（IDLMA，アイドルエムエー）
– 分離系を高速・安定・高精度に推定する多チャネル音源分離
– 音源モデル：DNNを用いた教師あり推定
– 空間モデル：統計的独立性に基づくブラインド推定
– フルランク空間相関行列を推定するDuong+DNN（低速）
– 分離行列を推定するIDLMA（高精度・高速）
• IPによる分離フィルタの更新順の問題
– DNN音源モデルに基づく選択基準を提案
まとめ
26
Sound Demo:
http://d-kitamura.net/demo_idlma.htm

独立深層学習行列分析に基づく多チャネル音源分離の実験的評価（Experimental evaluation of multichannel audio source separation based on IDLMA）

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Similar to 独立深層学習行列分析に基づく多チャネル音源分離の実験的評価（Experimental evaluation of multichannel audio source separation based on IDLMA）

Similar to 独立深層学習行列分析に基づく多チャネル音源分離の実験的評価（Experimental evaluation of multichannel audio source separation based on IDLMA） (7)

More from Daichi Kitamura

More from Daichi Kitamura (19)

独立深層学習行列分析に基づく多チャネル音源分離の実験的評価（Experimental evaluation of multichannel audio source separation based on IDLMA）

Editor's Notes