SlideShare a Scribd company logo
1 of 48
非負値行列分解の確率的生成モデルと
多チャネル音源分離への応用
Generative model in nonnegative matrix factorization and its
application to multichannel sound source separation
Daichi Kitamura
Ph.D. Student
Department of Informatics
School of Multidisciplinary Sciences
The Graduate University for Advanced Studies (SOKENDAI)
慶応義塾大学 湯川研究室
2015年11月24日
講演概要
• 自己紹介
• 音源分離と非負値行列因子分解の関わり
• 最適化におけるコスト関数と生成モデルとしての解釈
– 良く用いられる距離尺度
– 従来の生成モデル
– 複素数を対象とした生成モデル
• 板倉斎藤擬距離基準
• コーシー分布に基づく生成モデルとコーシー非負値行列因子分解
• 多チャネルブラインド音源分離への応用
– 従来の多チャネル非負値行列因子分解
– ランク1多チャネル非負値行列因子分解
• まとめ
• 参考 2
講演概要
• 自己紹介
• 音源分離と非負値行列因子分解の関わり
• 最適化におけるコスト関数と生成モデルとしての解釈
– 良く用いられる距離尺度
– 従来の生成モデル
– 複素数を対象とした生成モデル
• 板倉斎藤擬距離基準
• コーシー分布に基づく生成モデルとコーシー非負値行列因子分解
• 多チャネルブラインド音源分離への応用
– 従来の多チャネル非負値行列因子分解
– ランク1多チャネル非負値行列因子分解
• まとめ
• 参考 3
自己紹介
• 名前: 北村大地(Daichi Kitamura)
• 年齢: 25(1990年3月11日生まれ),博士後期課程2年
• 経歴:
• 趣味: 旅行,サバゲー,猫,ギター,・・・
4
香川高等専門学校(旧高松工業高等専門学校)(16 ~ 22)
電気情報工学科→専攻科(創造工学専攻), 学士(工学)
奈良先端科学技術大学院大学(22 ~ 24)
情報科学研究科, 修士(工学)
総合研究大学院大学(24 ~ 27)
複合科学研究科(情報学専攻),博士(情報学)取得を目指す
実家の猫
ギリシャ,
サントリーニ島
サバゲー
自己紹介
5
香川日本
うどん!
Kagawa
自己紹介
6
日本
奈良
Nara
大仏
NAIST
自己紹介
7
日本
Tokyo
国立情報学研究所
14F
学生室
自己紹介
• これまでにやってきた研究
– エレクトリックギターの弦振動解析(香川高専時代,原囿教授)
– 教師有り音楽信号分離(NAIST時代,鹿野教授,猿渡准教授)
– 多チャネルブラインド音源分離(現在,小野准教授)
• 非負値行列因子分解(nonnegative matrix factorization: NMF)
8
音源信号 観測信号 分離信号
混合系 分離系
講演概要
• 自己紹介
• 音源分離と非負値行列因子分解の関わり
• 最適化におけるコスト関数と生成モデルとしての解釈
– 良く用いられる距離尺度
– 従来の生成モデル
– 複素数を対象とした生成モデル
• 板倉斎藤擬距離基準
• コーシー分布に基づく生成モデルとコーシー非負値行列因子分解
• 多チャネルブラインド音源分離への応用
– 従来の多チャネル非負値行列因子分解
– ランク1多チャネル非負値行列因子分解
• まとめ
• 参考 9
• 音源分離技術
– 複数の音源が混ざった信号を個々の音源に分離する信号処理
– 音声と雑音の分離,個々の音源の編集,音拡張現実感等
• 音源分離の基本的な処理
– 時間-周波数表現されたスペクトログラム上で音源ごとに分解
音源分離技術とは?
特定音源の
分離・抽出
Time
Frequency
2つの音が存在
最初の音
2番目の音
分離
10
• 多チャネル音源分離(アレー信号処理)
– マイクアレーなど多くのセンサで観測して分離
• ビームフォーミング
• 独立成分分析
• 時間周波数マスク 等
• 単一チャネル(モノラル信号処理)
– 主に音声強調(雑音抑圧)分野で発達
• スペクトル減算
• ポストフィルタ 等
– NMFを用いた音源分離手法が登場(2001年頃)
• 音源分離が分解された基底のクラスタリング問題に帰着
• 教師有り手法,教師無し手法,共に急速に発達(~現在)
• 音源分離においてNMFの登場は非常にショッキングで
あった(ようです)
音源分離技術の歴史
11
非負値行列因子分解 [Lee, et al., 1999]
Amplitude
Amplitude
観測行列
(スペクトログラム)
基底行列
(頻出スペクトルパターン)
アクティベーション行列
(時間的なゲイン変化)
Time
Ω: 周波数ビン数
𝑇: 時間フレーム数
𝐾: 基底ベクトル数
Time
Frequency
Frequency
12
基底ベクトル
• 非負値行列因子分解 (nonnegative matrix factorization: NMF)
– 非負制約条件付き次元圧縮,有意な特徴量抽出法
– 非負制約によって暗にスパースな解が得られる傾向
なぜ非負値制約を与えたのか?
13
• 観測データの非負性
– 世の中の多くの物事は非負値で表現するのが自然
• パワースペクトログラム,文書中の各単語の出現回数,画像データ etc.
• 基底行列の非負性
– 非負データの構成要素は非負であるべき
• 負のスペクトル,負の出現回数,負の画素値は我々には解釈できない
• アクティベーション行列の非負性
– 構成要素の混ざり方は足し算のみ→観測データは加算系によって生じる
• 「非負制約を与えた低ランク近似」は暗に「スパースな分解」をする
– スパースな解は有意な情報を表現する (可能性が高い)
分解される基底行列の幾何学的解釈
14
データ数 基底数
次元数
部分空間 (凸錘, convex cone)
部分空間 (凸錘, convex cone)
凸錘: 凸集合の錘
データ点
データ点と凸錘の距離の和が最小
となる基底 を推定
• NMFで分解された基底ベクトルとは?
• 3次元空間の3点を2本の基底ベクトルで張られる凸錘の
部分空間で表現 [D. Donoho, et al., 2003]
講演概要
• 自己紹介
• 音源分離と非負値行列因子分解の関わり
• 最適化におけるコスト関数と生成モデルとしての解釈
– 良く用いられる距離尺度
– 従来の生成モデル
– 複素数を対象とした生成モデル
• 板倉斎藤擬距離基準
• コーシー分布に基づく生成モデルとコーシー非負値行列因子分解
• 多チャネルブラインド音源分離への応用
– 従来の多チャネル非負値行列因子分解
– ランク1多チャネル非負値行列因子分解
• まとめ
• 参考 15
NMFの最適化手法
16
不等式制約条件付き最適化問題
• 目的関数 を定義して最小化する と を求める
• 解法はいろいろあるが,有名な手法として効率的な反復
型最適化式がある [Lee, et al., 2001]
• 解析的な形では求まらない(不良設定の逆問題の為)
NMFのコスト関数に用いる距離尺度
• 様々なコスト関数が提案されている
– 二乗ユークリッド距離
– 一般化カルバック・ライブラ(KL)ダイバージェンス
– 板倉斎藤(IS)擬距離
• NMF分解においてどのような特質を重視するかを左右
– 例: スペクトルのピークの一致度を重要視した分解(KL,IS)
– 例: 距離値がスケールに対して不変な分解(IS)
• より一般的な距離関数のβ-divergenceというものもある
– β=0がIS,β=1がKL,β=2がEUCに対応する 17
但し,全要素の距離値の総和を
コスト関数とするのが一般的
各距離規範の様子
• データ に対する の変化
– 変数 がデータ に不足する事に大きなペナルティを課す
• スペクトルのピークを精密にフィットさせようとする
18
NMFの生成モデル的解釈(EUC)
• 距離関数を定めることの統計的な解釈が存在
– 距離関数の選択: 観測データの生成モデルを定めている
– 二乗ユークリッド距離(β=2)基準
19
正規分布
下記の最尤推定と等価な問題
観測データは時間周波数毎に平均値の
異なるガウス分布から生成されている 期待値
• 距離関数を定めることの統計的な解釈が存在
– 距離関数の選択: 観測データの生成モデルを定めている
– 一般化KLダイバージェンス(β=1)基準 [A. T. Cemgil, 2009]
NMFの生成モデル的解釈(KL)
20
ポアソン分布
観測データは時間周波数毎に最頻値の
異なるポアソン分布から生成されている
下記の最尤推定と等価な問題
ポアソン分布の
期待値
• 距離関数を定めることの統計的な解釈が存在
– 距離関数の選択: 観測データの生成モデルを定めている
– 板倉斎藤擬距離(β=0)基準
NMFの生成モデル的解釈(IS)
21
観測データは時間周波数毎に母数の
異なる指数分布から生成されている
下記の最尤推定と等価な問題
指数分布
指数分布の
期待値
NMFの生成モデル的解釈(とりあえずまとめ)
• データと変数のフィッティングを,どの確率分布をもって
計っていくかを制御している
– その上で期待値(変数)を求める最尤推定問題を解いている
• これらの統計的解釈は全てBregmanダイバージェンス基
準NMF [I. S. Dhillon, et al., 2005] からも導かれる
– 詳細は割愛!(「指数分布族」という概念で一般化した距離規範)
• 板倉斎藤擬距離基準NMFに関しては複素数の観測デー
タに対する別の生成モデル的な解釈が存在する
– 複素観測データが複素平面で球対称なガウス分布(複素ガウ
ス分布)から生成
– 観測データが複数(基底数)個の独立な複素ガウス分布に従う
確率変数の線形結合であることを仮定(ガウス分布の再生性)
– IS-NMFによる基底分解の(期待値の意味での)妥当性を保証
22
板倉斎藤擬距離基準NMF [C. Févotte, et al., 2009]
• 従来のNMF分解の問題点
– データ行列(非負実数)は1本の基底と1本のアクティベーション
からなるランク1行列の線形結合として表現
– は振幅スペクトログラムなのか?あるいはパワーなのか?
– いずれにしても線形結合(加法性)は成り立たない
• 理論的には複素スペクトログラムの加法モデルが正しい
– 位相スペクトログラムはどうするのか?
• 板倉斎藤擬距離基準NMFでは下記のように解決される
– 複素スペクトログラムに対する生成モデルを与えられる
– 複素生成モデルの線形結合なので理論的に正しいモデル
– 位相は無情報な形(一様分布)で保持される
23
• を複素スペクトログラムとする(STFTしたそのもの)
– 各時間周波数要素は複素要素 を 個足し合わせたもの
– 複素ガウス分布の線形結合なので も複素ガウス分布
• ガウス分布の再生性
• の複素ガウス分布の分散は
– 分散が時間周波数で変動する複素ガウス分布が生成モデル
板倉斎藤擬距離基準NMF [C. Févotte, et al., 2009]
24
とある時間
周波数要素
平均0,分散 の球対称複素ガウス
これらの複素ガウス分布は互いに独立
• パワースペクトログラムは複素ガウスの分散に対応
板倉斎藤擬距離基準NMF [C. Févotte, et al., 2009]
25
Frequencybin
Time frame
: パワースペクトログラム
パワーが小=分散が小
殆ど0付近の複素数しか
生成しない
パワーが大=分散が大
大きな振幅の複素数も
生成しうる
各時間周波数で分散が変動する複素ガウス分布
巨視的(マクロ)に考えると分散が逐一変動する為,ス
ペクトログラム全体の密度分布はスーパーガウシアン
(カートシスがガウス分布より大)な分布になっている
但し濃淡が濃い方が
大きなパワーを示す
• この生成モデルにおける 及び の推定
• パワースペクトログラムに対するISNMFは前述の生成モ
デルを仮定しており,理論的に極めて妥当なモデル
– NMF分解後にパワードメインでのウィーナフィルタ(理論的に妥当)
板倉斎藤擬距離基準NMF [C. Févotte, et al., 2009]
26
板倉斎藤擬距離基準NMF
等価な問題 但し,定数項は省いている
番目の音源 は要素毎の積
とはいえ
• では,パワードメインのISNMFがスペクトログラムの分解
や音源分離にとって最良な結果を与えるのか?
– 否!
– 例えば音源分離タスクにおいては「振幅ドメインのKLNMFが良
い」といろいろな文献で報告されている
• Ex. [D. FitzGerald, et al., 2009], [D. Kitamura, et al., 2014]
– 場当たり的に振幅ドメインでISNMFを適用することもしばしば
– 理論的妥当性とはなんだったのか・・・
• 他になんかないの(例えば振幅ドメインで理論的に妥当なNMFとか)
– 先月(2015年10月)のWASPAA2015で登場
– Cauchy NMF [A. Liutkus, et al., 2015]
• コーシー分布の再生性を用いて振幅ドメインでの加法性が(期待値の意
味で)理論的に保証されたNMF
• ウィーナフィルタも振幅ドメインで適用するのが正しい
27
Cauchy NMF [A. Liutkus, et al., 2015]
• 元々の動機はウィーナフィルタの一般化
– 乗ドメインでのウィーナフィルタの構築 [A. Liutkus, et al., 2015]
– (振幅ドメイン)で加法性の成り立つの生成モデルとは?
• コーシー分布生成モデルの発見
• コーシーNMFの生成モデル
– 複素コーシー分布の線形結合なので も複素コーシー分布
• コーシー分布の再生性
• の複素コーシー分布のスケールは
– スケールが時間周波数で変動する複素コーシー分布 28
とある時間
周波数要素
中心値0,スケール の球対称コーシー
これを複素
平面で球対
称に回した
複素分布これらの複素コーシー分布は互いに独立
• この生成モデルにおける 及び の推定
• 振幅ドメインの加法性の妥当性を理論的に保証した分解
モデル
– NMF分解後に振幅ドメインでのウィーナフィルタ(理論的に妥当)
Cauchy NMF [A. Liutkus, et al., 2015]
29
見たこと無いコスト関数に・・・
等価な問題
但し,定数項は省いている
番目の音源 は要素毎の積
球対称コーシー分布
• 音源分離タスクにおいてパワードメインのISNMFよりは
良い性能をマーク
– しかし依然として振幅ドメインのKLには及ばず
• その他,コーシー分布の特徴(heavy-tail)を生かした
denoisingなどに応用可能(だそうです)
Cauchy NMF [A. Liutkus, et al., 2015]
30
NMFの生成モデル的解釈まとめ
• 従来の生成モデルによるNMFの解釈は成分 の重
ね合わせに関しては何も説明していない
– 線形結合された変数 が最尤推定のパラメータになって
いるという事実に過ぎない
• 一方で「複素数成分が生成されるとするISNMFやコー
シーNMFの解釈」は極めて重要
– 複素成分の重ね合わせを「確率モデルの再生性」によって表現
• NMFによるスペクトログラム分解の正当性が初めて保証される
– パワースペクトログラムは複素生成モデルの分散(コーシー分
布ではスケール)に対応
• 大パワーの時間周波数スロットは振幅の大きな複素数値を生成しがち
– 位相スペクトログラムは無情報(観測位相が最尤推定結果)
• 工学的な実用性はまだ無い(性能が良くない)が今後さら
なる理論的な解釈の発展に繋がる 31
講演概要
• 自己紹介
• 音源分離と非負値行列因子分解の関わり
• 最適化におけるコスト関数と生成モデルとしての解釈
– 良く用いられる距離尺度
– 従来の生成モデル
– 複素数を対象とした生成モデル
• 板倉斎藤擬距離基準
• コーシー分布に基づく生成モデルとコーシー非負値行列因子分解
• 多チャネルブラインド音源分離への応用
– 従来の多チャネル非負値行列因子分解
– ランク1多チャネル非負値行列因子分解
• まとめ
• 参考 32
優決定条件ブラインド音源分離
• ブラインド音源分離(blind source separation: BSS)
– 混合系 が未知の条件で分離系 を推定
– マイク位置,マイク間隔,音源位置等の情報が不要
• 優決定条件BSS
– 統計的独立性に基づく手法が代表的
• 独立成分分析(ICA)[Comon, 1994]
• 独立ベクトル分析(IVA)[Hiroe, 2006], [Kim, 2006]
• BSSに利用可能な性質
– 音源毎の空間的な違い(音源のある位置の違い)
– 音源毎の音色の違い(音源固有のスペクトルパターンの違い) 33
State-of-the-art
BSS
混合系 分離系
• 独立ベクトル分析(IVA) [Hiroe, 2006], [Kim, 2006]
– 音源毎の空間的な違いを用いた線形の空間分離フィルタ
– 音源間の統計的独立性仮定に基づいて分離フィルタを推定
– 高速かつ頑健な分離が可能
– 音源毎の音色の違いは用いていない
• 周波数方向に一様な高次相関を考慮しているのみ
• 音声の混合信号ではある程度分離可能
• 音源毎の空間的な違いの他に,音色の違いも音源分離
に活用されるべき
– 音源の音色構造を捉える非負値行列因子分解(NMF)の活用
従来の空間情報を用いた音源分離
34
音源1
音源2
音源1の空間
分離フィルタ
音源1
混合系
Frequency
Time
濃淡は強度値
• 多チャネルNMF [Ozerov, 2010], [Sawada, 2013]
空間的な違いと音色の違いを用いた音源分離
35/21
時間周波数毎の
観測チャネル間相関
多チャンネル観測データ
多チャネル
ベクトル
瞬時チャネル間相関行列
音源周波数毎の
チャネル間相関 基底行列 アクティベーション行列
空間モデル 音源モデル
クラスタリング関数
スペクトルパターン
強度変化
• 多チャネルNMF [Ozerov, 2010], [Sawada, 2013]
– NMFの多チャネル拡張した音源分離手法
– 音色構造を音源毎の空間的な違いに基づいてクラスタリング
– コスト関数は板倉斎藤擬距離の多チャネル版(log-det div.)
– 極めて高い計算コストと極端な初期値依存性が大問題
空間的な違いと音色の違いを用いた音源分離
36
時間周波数毎の
観測チャネル間相関
混合された多チャン
ネル観測信号
音源周波数毎の
チャネル間相関 基底行列 アクティベーション行列
空間モデル 音源モデル
クラスタリング関数
スペクトルパターン
強度変化
音源毎の空間的な違い 全ての音源の音色構造
ランク1多チャネルNMF
• 空間的な違いと音色構造を同時に用いた高速かつ頑健
な分離手法
– NMFによる音色構造表現を導入した独立性に基づく分離手法
• 空間モデルの推定は従来通り独立性基準(高速性,頑健性)
• 音源モデルの推定にはNMFによる分解表現を導入(高品質,高精度)
– 多チャネルNMFにおける空間モデルの自由度の制限
• フルランクで推定される音源毎のチャンネル間相関に制約を導入
• 多チャネルNMFにおける計算コスト及び頑健性の問題を解消
37
音源モデル
空間モデル
柔軟限定的
柔軟限定的
IVA
多チャネル
NMF
提案手法
NMFの音源
モデルを導入
空間モデルの
自由度を制限
ランク1空間モデルを導入
音源毎のチャネル間相関行列の
ランクが全周波数において1になる制約
ランク1多チャネルNMF
ランク1空間モデルとは?
• 音源毎のチャネル間相関行列のランクが1
– 音源の伝達系が1本の時不変なステアリングベクトルで表現
– 複数の音源が存在する場合も音源毎の相関行列のランクは1
38
マイク
アレイ
観測
信号
音源
ステアリング
ベクトル
の相関行列は
マイク
アレイ
観測
信号
音源
ステアリング
ベクトル
ステアリング
ベクトル 混合行列
観測
ベクトル 2x2のランク1行列
音源1のみの録音信号の相関行列は
音源2のみの録音信号の相関行列は
ランク1空間モデルとは?
• 音源毎のチャネル間相関行列のランクが1
– 時間周波数領域において1つの音源の伝達系が1本の時不変
なステアリングベクトルで表現可能
– 時間周波数領域における時不変複素瞬時混合モデル
– 音源やマイクの位置が変わらず,残響がフーリエ変換の窓長よ
り短い
39
マイク
アレイ
観測
信号
音源
: 周波数インデクス
: 時間インデクス
時不変混合行列
ステアリング
ベクトル
ステアリング
ベクトル
• 多チャネルNMFの目的関数にランク1モデルを導入
提案手法の定式化
40
1. ランク1チャネル間相関を導入( )
2. 混合行列 を用いて表現しなおす
3. 分離行列 と分離信号 に変数変換
NMFのコスト関数
(音源モデルの推定に寄与)
IVAのコスト関数
(空間モデルの推定に寄与)
NMFとIVAの最適化更新式を交互に反復することで
全変数を容易に最適化可能
提案手法のアルゴリズム
• 音源毎の空間的な違い(空間モデル)と各音源の音色構
造(音源モデル)を交互に学習
41
空間的な違い
の学習
混合信号
分離信号
音源モデル
IVA
NMF
NMF
音色構造の
学習
音源毎の音色構造を明確に捉えることで
独立性基準での分離性能の向上が期待できる
音楽信号の音源分離実験
• 実験条件
42
音源信号
SiSECのプロ音楽信号に,RWCP収録のマイクアレーインパルス
応答で畳み込んで作成,2チャネルで2音源の混合信号
比較手法 IVA, 多チャネルNMF,ランク1多チャネルNMF(提案手法)
窓長(FFT長) 512 ms,ハニング窓
シフト長 128 ms (1/4シフト)
基底数 1音源につき30本
主観評価値 SDR改善値(音質と分離度合いを含む総合的な分離性能)
2 m
音源1
5.66 cm
50 50
音源2
E2Aインパルス応答
(残響時間: 300 ms)
音楽信号の音源分離実験
• 実験結果(曲名: ultimate nz tour, guitar and synth.)
43
20
18
16
14
12
10
8
6
4
2
0
SDRimprovement[dB]
Proposed
method
Multichannel
NMF
IVA
Source 1 Source 2
– 初期値を変えて10回試
行した際の平均と標準
偏差を示したグラフ
– 頑健かつ高性能な音
源分離を達成
– 反復回数毎の性能の
変化を示したグラフ
– IVAと同程度の高速な
収束を実現
14
12
10
8
6
4
2
0
SDRimprovement[dB]
4003002001000
Iteration steps
IVA
Multichannel NMF
Proposed method
7.8 s(30回時点)
11.8 s(30回時点)
598.5 s(250回時点)
高速,頑健,高品質,
高精度な分離を達成
信号長: 19.7 s (16kHzサンプル)
講演概要
• 自己紹介
• 音源分離と非負値行列因子分解の関わり
• 最適化におけるコスト関数と生成モデルとしての解釈
– 良く用いられる距離尺度
– 従来の生成モデル
– 複素数を対象とした生成モデル
• 板倉斎藤擬距離基準
• コーシー分布に基づく生成モデルとコーシー非負値行列因子分解
• 多チャネルブラインド音源分離への応用
– 従来の多チャネル非負値行列因子分解
– ランク1多チャネル非負値行列因子分解
• まとめ
• 参考 44
まとめ
• 音源分離でよく用いられる非負値行列因子分解の紹介
• NMFによる分解の生成モデル解釈
– 距離基準に対応した生成モデルに対する最尤推定問題と等価
– 但し,複素数値や成分の線形結合を取り扱うわけではない
• 振幅スペクトルやパワースペクトルの加法性が理論的に
妥当なNMF
– 複素数(位相に関しては無情報)の生成モデルを導入
– パワースペクトログラムを用いたISNMF
– 振幅スペクトログラムを用いたコーシーNMF
• ISNMFを用いた多チャネルNMFの紹介と
その発展手法
– ランク1多チャネルNMF(ブラインド音源分離)
45
参考(1/3)
• NMF
– D. D. Lee, H. S. Seung, “Learning the parts of objects by nonnegative matrix factorization,” Nature,
vol.401, pp.788–791, 1999.
– D. D. Lee, H. S. Seung, “Algorithms for non-negative matrix factorization,” Proc. Advances in Neural
Information Processing Systems, vol.13, pp.556–562, 2001.
• NMFの幾何学的解釈
– D. Donoho, V. Stodden, “When does non-negative matrix factorization give correct decomposition into
parts?,” MIT Press, 2003.
• β-divergence NMF
– S. Eguchi, K. Yano, “Robustifying maximum likelihood estimation,” Technical Report of Institute of
Statistical Mathematics, 2001.
– M. Nakano, H. Kameoka, J. Le Roux, Y. Kitano, N. Ono, S. Sagayama, “Convergence-guaranteed
multiplicative algorithms for non-negative matrix factorization with beta-divergence,” Proc. International
Workshop on Machine Learning for Signal Processing, pp.283-288, 2010.
• KLNMFとベイジアンNMF
– A. T. Cemgil, “Bayesian inference for nonnegative matrix factorization models,” Comput. Intell.
Neurosci., vol.2009, pp.1–17, 2009.
• Bregman-divergence-based NMF
– I. S. Dhillon, S. Sara, “Generalized nonnegative matrix approximations with Bregman divergences,”
Proc. NIPS 2005, pp. 283-290, 2005. 46
参考(2/3)
• ISNMF(複素生成モデル)
– C. Févotte, N. Bertin, J.-L. Durrieu, “Nonnegative matrixfactorization with the Itakura-Saito divergence.
With applicationto music analysis,” Neural Computation, vol.21, no.3, 2009.
• 振幅ドメインのKLNMFが良いと実験的に主張する文献
– D. Fitzgerald, M. Cranitch, E. Coyle, “On the use of the beta divergence for musical source
separation,” Proc. Irish Signals Syst. Conf., 2009.
– D. Kitamura, H. Saruwatari, K. Yagi, K. Shikano, Y. Takahashi, K. Kondo, “Music signal separation
based on supervised nonnegative matrix factorization with orthogonality and maximum-divergence
penalties,” IEICE Trans. Fundam. Electron., Commun. Comput. Sci., vol.E97-A, no.5, pp.1113–1118,
2014.
• 一般化ウィーナフィルタとCauchy NMF
– A. Liutkus, R. Badeau, “Generalized Wiener filtering with fractional power spectrograms,” Proc.
ICASSP, pp.266–270, 2015.
– A. Liutkus, D. Fitzgerald, “Cauchy nonnegative matrix factorization,” Proc. WASPAA, 2015.
• 独立成分分析(ICA)
– P. Comon, “Independent component analysis, a new concept?,” Signal Processing, vol.36, no.3,
pp.287–314, 1994.
47
参考(3/3)
• 独立ベクトル分析(IVA)
– T. Kim, T. Eltoft T.-W. Lee, “Independent vector analysis: an extension of ICA to multivariate
components,” Proc. International Conference on Independent Component Analysis and Blind Source
Separation, pp.165–172, 2006.
– A. Hiroe, “Solution of permutation problem in frequency domain ICA using multivariate probability
density functions,” Proc. International Conference on Independent Component Analysis and Blind
Source Separation, pp.601–608, 2006.
– T. Kim, H. T. Attias, S.-Y. Lee T.-W. Lee, “Blind source separation exploiting higher-order frequency
dependencies,” IEEE Trans. ASLP, vol.15, no.1, pp.70–79, 2007.
• 多チャネルNMF
– A. Ozerov, C. Févotte, “Multichannel nonnegative matrix factorization in convolutive mixtures for audio
source separation,” IEEE Trans. ASLP, vol.18, no.3, pp.550–563, 2010.
– H. Sawada, H. Kameoka, S. Araki, N. Ueda, “Multichannel extensions of non-negative matrix
factorization with complex-valued data,” IEEE Trans. ASLP, vol.21, no.5, pp.971–982, 2013.
• ランク1多チャネルNMF
– D. Kitamura, N. Ono, H. Sawada, H. Kameoka, H. Saruwatari, “Efficient multichannel nonnegative
matrix factorization exploiting rank-1 spatial model,” Proc. ICASSP, pp.276–280, 2015.
• HP: http://d-kitamura.sakura.ne.jp/index.html
– β-divergence NMFやCauchy NMFのコード,音源分離デモ等を公開しています
48

More Related Content

What's hot

直交化及び距離最大化則条件を用いた教師あり非負値行列因子分解による音楽信号分離
直交化及び距離最大化則条件を用いた教師あり非負値行列因子分解による音楽信号分離直交化及び距離最大化則条件を用いた教師あり非負値行列因子分解による音楽信号分離
直交化及び距離最大化則条件を用いた教師あり非負値行列因子分解による音楽信号分離
奈良先端大 情報科学研究科
 

What's hot (20)

PRML学習者から入る深層生成モデル入門
PRML学習者から入る深層生成モデル入門PRML学習者から入る深層生成モデル入門
PRML学習者から入る深層生成モデル入門
 
独立性に基づくブラインド音源分離の発展と独立低ランク行列分析 History of independence-based blind source sep...
独立性に基づくブラインド音源分離の発展と独立低ランク行列分析 History of independence-based blind source sep...独立性に基づくブラインド音源分離の発展と独立低ランク行列分析 History of independence-based blind source sep...
独立性に基づくブラインド音源分離の発展と独立低ランク行列分析 History of independence-based blind source sep...
 
独立低ランク行列分析に基づく音源分離とその発展
独立低ランク行列分析に基づく音源分離とその発展独立低ランク行列分析に基づく音源分離とその発展
独立低ランク行列分析に基づく音源分離とその発展
 
帰納バイアスが成立する条件
帰納バイアスが成立する条件帰納バイアスが成立する条件
帰納バイアスが成立する条件
 
半教師あり非負値行列因子分解における音源分離性能向上のための効果的な基底学習法
半教師あり非負値行列因子分解における音源分離性能向上のための効果的な基底学習法半教師あり非負値行列因子分解における音源分離性能向上のための効果的な基底学習法
半教師あり非負値行列因子分解における音源分離性能向上のための効果的な基底学習法
 
ELBO型VAEのダメなところ
ELBO型VAEのダメなところELBO型VAEのダメなところ
ELBO型VAEのダメなところ
 
音響メディア信号処理における独立成分分析の発展と応用, History of independent component analysis for sou...
音響メディア信号処理における独立成分分析の発展と応用, History of independent component analysis for sou...音響メディア信号処理における独立成分分析の発展と応用, History of independent component analysis for sou...
音響メディア信号処理における独立成分分析の発展と応用, History of independent component analysis for sou...
 
ICASSP 2019での音響信号処理分野の世界動向
ICASSP 2019での音響信号処理分野の世界動向ICASSP 2019での音響信号処理分野の世界動向
ICASSP 2019での音響信号処理分野の世界動向
 
Music signal separation using supervised nonnegative matrix factorization wit...
Music signal separation using supervised nonnegative matrix factorization wit...Music signal separation using supervised nonnegative matrix factorization wit...
Music signal separation using supervised nonnegative matrix factorization wit...
 
JTubeSpeech: 音声認識と話者照合のために YouTube から構築される日本語音声コーパス
JTubeSpeech:  音声認識と話者照合のために YouTube から構築される日本語音声コーパスJTubeSpeech:  音声認識と話者照合のために YouTube から構築される日本語音声コーパス
JTubeSpeech: 音声認識と話者照合のために YouTube から構築される日本語音声コーパス
 
スペクトログラム無矛盾性に基づく独立低ランク行列分析
スペクトログラム無矛盾性に基づく独立低ランク行列分析スペクトログラム無矛盾性に基づく独立低ランク行列分析
スペクトログラム無矛盾性に基づく独立低ランク行列分析
 
論文紹介 Unsupervised training of neural mask-based beamforming
論文紹介 Unsupervised training of neural  mask-based beamforming論文紹介 Unsupervised training of neural  mask-based beamforming
論文紹介 Unsupervised training of neural mask-based beamforming
 
猫でも分かるVariational AutoEncoder
猫でも分かるVariational AutoEncoder猫でも分かるVariational AutoEncoder
猫でも分かるVariational AutoEncoder
 
調波打撃音分離の時間周波数マスクを用いた線形ブラインド音源分離
調波打撃音分離の時間周波数マスクを用いた線形ブラインド音源分離調波打撃音分離の時間周波数マスクを用いた線形ブラインド音源分離
調波打撃音分離の時間周波数マスクを用いた線形ブラインド音源分離
 
実環境音響信号処理における収音技術
実環境音響信号処理における収音技術実環境音響信号処理における収音技術
実環境音響信号処理における収音技術
 
独立性基準を用いた非負値行列因子分解の効果的な初期値決定法(Statistical-independence-based efficient initia...
独立性基準を用いた非負値行列因子分解の効果的な初期値決定法(Statistical-independence-based efficient initia...独立性基準を用いた非負値行列因子分解の効果的な初期値決定法(Statistical-independence-based efficient initia...
独立性基準を用いた非負値行列因子分解の効果的な初期値決定法(Statistical-independence-based efficient initia...
 
実装レベルで学ぶVQVAE
実装レベルで学ぶVQVAE実装レベルで学ぶVQVAE
実装レベルで学ぶVQVAE
 
直交化及び距離最大化則条件を用いた教師あり非負値行列因子分解による音楽信号分離
直交化及び距離最大化則条件を用いた教師あり非負値行列因子分解による音楽信号分離直交化及び距離最大化則条件を用いた教師あり非負値行列因子分解による音楽信号分離
直交化及び距離最大化則条件を用いた教師あり非負値行列因子分解による音楽信号分離
 
2019年度チュートリアルBPE
2019年度チュートリアルBPE2019年度チュートリアルBPE
2019年度チュートリアルBPE
 
音源分離 ~DNN音源分離の基礎から最新技術まで~ Tokyo bishbash #3
音源分離 ~DNN音源分離の基礎から最新技術まで~ Tokyo bishbash #3音源分離 ~DNN音源分離の基礎から最新技術まで~ Tokyo bishbash #3
音源分離 ~DNN音源分離の基礎から最新技術まで~ Tokyo bishbash #3
 

Similar to 非負値行列分解の確率的生成モデルと 多チャネル音源分離への応用 (Generative model in nonnegative matrix factorization and its application to multichannel sound source separation)

Kameoka2012 talk07 1
Kameoka2012 talk07 1Kameoka2012 talk07 1
Kameoka2012 talk07 1
kame_hirokazu
 
変分推論と Normalizing Flow
変分推論と Normalizing Flow変分推論と Normalizing Flow
変分推論と Normalizing Flow
Akihiro Nitta
 

Similar to 非負値行列分解の確率的生成モデルと 多チャネル音源分離への応用 (Generative model in nonnegative matrix factorization and its application to multichannel sound source separation) (7)

Study on optimal divergence for superresolution-based supervised nonnegative ...
Study on optimal divergence for superresolution-based supervised nonnegative ...Study on optimal divergence for superresolution-based supervised nonnegative ...
Study on optimal divergence for superresolution-based supervised nonnegative ...
 
ILRMA 20170227 danwakai
ILRMA 20170227 danwakaiILRMA 20170227 danwakai
ILRMA 20170227 danwakai
 
Kameoka2012 talk07 1
Kameoka2012 talk07 1Kameoka2012 talk07 1
Kameoka2012 talk07 1
 
変分推論と Normalizing Flow
変分推論と Normalizing Flow変分推論と Normalizing Flow
変分推論と Normalizing Flow
 
Efficient multichannel nonnegative matrix factorization with rank-1 spatial m...
Efficient multichannel nonnegative matrix factorization with rank-1 spatial m...Efficient multichannel nonnegative matrix factorization with rank-1 spatial m...
Efficient multichannel nonnegative matrix factorization with rank-1 spatial m...
 
深層ニューラルネットワークに基づくパーミュテーション解決法の基礎的検討
深層ニューラルネットワークに基づくパーミュテーション解決法の基礎的検討深層ニューラルネットワークに基づくパーミュテーション解決法の基礎的検討
深層ニューラルネットワークに基づくパーミュテーション解決法の基礎的検討
 
Ea2015 7for ss
Ea2015 7for ssEa2015 7for ss
Ea2015 7for ss
 

More from Daichi Kitamura

More from Daichi Kitamura (19)

スペクトログラム無矛盾性を用いた 独立低ランク行列分析の実験的評価
スペクトログラム無矛盾性を用いた独立低ランク行列分析の実験的評価スペクトログラム無矛盾性を用いた独立低ランク行列分析の実験的評価
スペクトログラム無矛盾性を用いた 独立低ランク行列分析の実験的評価
 
Windowsマシン上でVisual Studio Codeとpipenvを使ってPythonの仮想実行環境を構築する方法(Jupyter notebookも)
Windowsマシン上でVisual Studio Codeとpipenvを使ってPythonの仮想実行環境を構築する方法(Jupyter notebookも)Windowsマシン上でVisual Studio Codeとpipenvを使ってPythonの仮想実行環境を構築する方法(Jupyter notebookも)
Windowsマシン上でVisual Studio Codeとpipenvを使ってPythonの仮想実行環境を構築する方法(Jupyter notebookも)
 
独立深層学習行列分析に基づく多チャネル音源分離の実験的評価(Experimental evaluation of multichannel audio s...
独立深層学習行列分析に基づく多チャネル音源分離の実験的評価(Experimental evaluation of multichannel audio s...独立深層学習行列分析に基づく多チャネル音源分離の実験的評価(Experimental evaluation of multichannel audio s...
独立深層学習行列分析に基づく多チャネル音源分離の実験的評価(Experimental evaluation of multichannel audio s...
 
独立深層学習行列分析に基づく多チャネル音源分離(Multichannel audio source separation based on indepen...
独立深層学習行列分析に基づく多チャネル音源分離(Multichannel audio source separation based on indepen...独立深層学習行列分析に基づく多チャネル音源分離(Multichannel audio source separation based on indepen...
独立深層学習行列分析に基づく多チャネル音源分離(Multichannel audio source separation based on indepen...
 
近接分離最適化によるブラインド⾳源分離(Blind source separation via proximal splitting algorithm)
近接分離最適化によるブラインド⾳源分離(Blind source separation via proximal splitting algorithm)近接分離最適化によるブラインド⾳源分離(Blind source separation via proximal splitting algorithm)
近接分離最適化によるブラインド⾳源分離(Blind source separation via proximal splitting algorithm)
 
Blind source separation based on independent low-rank matrix analysis and its...
Blind source separation based on independent low-rank matrix analysis and its...Blind source separation based on independent low-rank matrix analysis and its...
Blind source separation based on independent low-rank matrix analysis and its...
 
Blind source separation based on independent low-rank matrix analysis and its...
Blind source separation based on independent low-rank matrix analysis and its...Blind source separation based on independent low-rank matrix analysis and its...
Blind source separation based on independent low-rank matrix analysis and its...
 
Experimental analysis of optimal window length for independent low-rank matri...
Experimental analysis of optimal window length for independent low-rank matri...Experimental analysis of optimal window length for independent low-rank matri...
Experimental analysis of optimal window length for independent low-rank matri...
 
ICASSP2017読み会(関東編)・AASP_L3(北村担当分)
ICASSP2017読み会(関東編)・AASP_L3(北村担当分)ICASSP2017読み会(関東編)・AASP_L3(北村担当分)
ICASSP2017読み会(関東編)・AASP_L3(北村担当分)
 
Audio Source Separation Based on Low-Rank Structure and Statistical Independence
Audio Source Separation Based on Low-Rank Structure and Statistical IndependenceAudio Source Separation Based on Low-Rank Structure and Statistical Independence
Audio Source Separation Based on Low-Rank Structure and Statistical Independence
 
Efficient initialization for nonnegative matrix factorization based on nonneg...
Efficient initialization for nonnegative matrix factorization based on nonneg...Efficient initialization for nonnegative matrix factorization based on nonneg...
Efficient initialization for nonnegative matrix factorization based on nonneg...
 
ランク1空間近似を用いたBSSにおける音源及び空間モデルの考察 Study on Source and Spatial Models for BSS wi...
ランク1空間近似を用いたBSSにおける音源及び空間モデルの考察 Study on Source and Spatial Models for BSS wi...ランク1空間近似を用いたBSSにおける音源及び空間モデルの考察 Study on Source and Spatial Models for BSS wi...
ランク1空間近似を用いたBSSにおける音源及び空間モデルの考察 Study on Source and Spatial Models for BSS wi...
 
Relaxation of rank-1 spatial constraint in overdetermined blind source separa...
Relaxation of rank-1 spatial constraint in overdetermined blind source separa...Relaxation of rank-1 spatial constraint in overdetermined blind source separa...
Relaxation of rank-1 spatial constraint in overdetermined blind source separa...
 
基底変形型教師ありNMFによる実楽器信号分離 (in Japanese)
基底変形型教師ありNMFによる実楽器信号分離 (in Japanese)基底変形型教師ありNMFによる実楽器信号分離 (in Japanese)
基底変形型教師ありNMFによる実楽器信号分離 (in Japanese)
 
擬似ハムバッキングピックアップの弦振動応答 (in Japanese)
擬似ハムバッキングピックアップの弦振動応答 (in Japanese)擬似ハムバッキングピックアップの弦振動応答 (in Japanese)
擬似ハムバッキングピックアップの弦振動応答 (in Japanese)
 
模擬ハムバッキング・ピックアップの弦振動応答 (in Japanese)
模擬ハムバッキング・ピックアップの弦振動応答 (in Japanese)模擬ハムバッキング・ピックアップの弦振動応答 (in Japanese)
模擬ハムバッキング・ピックアップの弦振動応答 (in Japanese)
 
Evaluation of separation accuracy for various real instruments based on super...
Evaluation of separation accuracy for various real instruments based on super...Evaluation of separation accuracy for various real instruments based on super...
Evaluation of separation accuracy for various real instruments based on super...
 
Divergence optimization based on trade-off between separation and extrapolati...
Divergence optimization based on trade-off between separation and extrapolati...Divergence optimization based on trade-off between separation and extrapolati...
Divergence optimization based on trade-off between separation and extrapolati...
 
Depth estimation of sound images using directional clustering and activation-...
Depth estimation of sound images using directional clustering and activation-...Depth estimation of sound images using directional clustering and activation-...
Depth estimation of sound images using directional clustering and activation-...
 

非負値行列分解の確率的生成モデルと 多チャネル音源分離への応用 (Generative model in nonnegative matrix factorization and its application to multichannel sound source separation)

  • 1. 非負値行列分解の確率的生成モデルと 多チャネル音源分離への応用 Generative model in nonnegative matrix factorization and its application to multichannel sound source separation Daichi Kitamura Ph.D. Student Department of Informatics School of Multidisciplinary Sciences The Graduate University for Advanced Studies (SOKENDAI) 慶応義塾大学 湯川研究室 2015年11月24日
  • 2. 講演概要 • 自己紹介 • 音源分離と非負値行列因子分解の関わり • 最適化におけるコスト関数と生成モデルとしての解釈 – 良く用いられる距離尺度 – 従来の生成モデル – 複素数を対象とした生成モデル • 板倉斎藤擬距離基準 • コーシー分布に基づく生成モデルとコーシー非負値行列因子分解 • 多チャネルブラインド音源分離への応用 – 従来の多チャネル非負値行列因子分解 – ランク1多チャネル非負値行列因子分解 • まとめ • 参考 2
  • 3. 講演概要 • 自己紹介 • 音源分離と非負値行列因子分解の関わり • 最適化におけるコスト関数と生成モデルとしての解釈 – 良く用いられる距離尺度 – 従来の生成モデル – 複素数を対象とした生成モデル • 板倉斎藤擬距離基準 • コーシー分布に基づく生成モデルとコーシー非負値行列因子分解 • 多チャネルブラインド音源分離への応用 – 従来の多チャネル非負値行列因子分解 – ランク1多チャネル非負値行列因子分解 • まとめ • 参考 3
  • 4. 自己紹介 • 名前: 北村大地(Daichi Kitamura) • 年齢: 25(1990年3月11日生まれ),博士後期課程2年 • 経歴: • 趣味: 旅行,サバゲー,猫,ギター,・・・ 4 香川高等専門学校(旧高松工業高等専門学校)(16 ~ 22) 電気情報工学科→専攻科(創造工学専攻), 学士(工学) 奈良先端科学技術大学院大学(22 ~ 24) 情報科学研究科, 修士(工学) 総合研究大学院大学(24 ~ 27) 複合科学研究科(情報学専攻),博士(情報学)取得を目指す 実家の猫 ギリシャ, サントリーニ島 サバゲー
  • 8. 自己紹介 • これまでにやってきた研究 – エレクトリックギターの弦振動解析(香川高専時代,原囿教授) – 教師有り音楽信号分離(NAIST時代,鹿野教授,猿渡准教授) – 多チャネルブラインド音源分離(現在,小野准教授) • 非負値行列因子分解(nonnegative matrix factorization: NMF) 8 音源信号 観測信号 分離信号 混合系 分離系
  • 9. 講演概要 • 自己紹介 • 音源分離と非負値行列因子分解の関わり • 最適化におけるコスト関数と生成モデルとしての解釈 – 良く用いられる距離尺度 – 従来の生成モデル – 複素数を対象とした生成モデル • 板倉斎藤擬距離基準 • コーシー分布に基づく生成モデルとコーシー非負値行列因子分解 • 多チャネルブラインド音源分離への応用 – 従来の多チャネル非負値行列因子分解 – ランク1多チャネル非負値行列因子分解 • まとめ • 参考 9
  • 10. • 音源分離技術 – 複数の音源が混ざった信号を個々の音源に分離する信号処理 – 音声と雑音の分離,個々の音源の編集,音拡張現実感等 • 音源分離の基本的な処理 – 時間-周波数表現されたスペクトログラム上で音源ごとに分解 音源分離技術とは? 特定音源の 分離・抽出 Time Frequency 2つの音が存在 最初の音 2番目の音 分離 10
  • 11. • 多チャネル音源分離(アレー信号処理) – マイクアレーなど多くのセンサで観測して分離 • ビームフォーミング • 独立成分分析 • 時間周波数マスク 等 • 単一チャネル(モノラル信号処理) – 主に音声強調(雑音抑圧)分野で発達 • スペクトル減算 • ポストフィルタ 等 – NMFを用いた音源分離手法が登場(2001年頃) • 音源分離が分解された基底のクラスタリング問題に帰着 • 教師有り手法,教師無し手法,共に急速に発達(~現在) • 音源分離においてNMFの登場は非常にショッキングで あった(ようです) 音源分離技術の歴史 11
  • 12. 非負値行列因子分解 [Lee, et al., 1999] Amplitude Amplitude 観測行列 (スペクトログラム) 基底行列 (頻出スペクトルパターン) アクティベーション行列 (時間的なゲイン変化) Time Ω: 周波数ビン数 𝑇: 時間フレーム数 𝐾: 基底ベクトル数 Time Frequency Frequency 12 基底ベクトル • 非負値行列因子分解 (nonnegative matrix factorization: NMF) – 非負制約条件付き次元圧縮,有意な特徴量抽出法 – 非負制約によって暗にスパースな解が得られる傾向
  • 13. なぜ非負値制約を与えたのか? 13 • 観測データの非負性 – 世の中の多くの物事は非負値で表現するのが自然 • パワースペクトログラム,文書中の各単語の出現回数,画像データ etc. • 基底行列の非負性 – 非負データの構成要素は非負であるべき • 負のスペクトル,負の出現回数,負の画素値は我々には解釈できない • アクティベーション行列の非負性 – 構成要素の混ざり方は足し算のみ→観測データは加算系によって生じる • 「非負制約を与えた低ランク近似」は暗に「スパースな分解」をする – スパースな解は有意な情報を表現する (可能性が高い)
  • 14. 分解される基底行列の幾何学的解釈 14 データ数 基底数 次元数 部分空間 (凸錘, convex cone) 部分空間 (凸錘, convex cone) 凸錘: 凸集合の錘 データ点 データ点と凸錘の距離の和が最小 となる基底 を推定 • NMFで分解された基底ベクトルとは? • 3次元空間の3点を2本の基底ベクトルで張られる凸錘の 部分空間で表現 [D. Donoho, et al., 2003]
  • 15. 講演概要 • 自己紹介 • 音源分離と非負値行列因子分解の関わり • 最適化におけるコスト関数と生成モデルとしての解釈 – 良く用いられる距離尺度 – 従来の生成モデル – 複素数を対象とした生成モデル • 板倉斎藤擬距離基準 • コーシー分布に基づく生成モデルとコーシー非負値行列因子分解 • 多チャネルブラインド音源分離への応用 – 従来の多チャネル非負値行列因子分解 – ランク1多チャネル非負値行列因子分解 • まとめ • 参考 15
  • 16. NMFの最適化手法 16 不等式制約条件付き最適化問題 • 目的関数 を定義して最小化する と を求める • 解法はいろいろあるが,有名な手法として効率的な反復 型最適化式がある [Lee, et al., 2001] • 解析的な形では求まらない(不良設定の逆問題の為)
  • 17. NMFのコスト関数に用いる距離尺度 • 様々なコスト関数が提案されている – 二乗ユークリッド距離 – 一般化カルバック・ライブラ(KL)ダイバージェンス – 板倉斎藤(IS)擬距離 • NMF分解においてどのような特質を重視するかを左右 – 例: スペクトルのピークの一致度を重要視した分解(KL,IS) – 例: 距離値がスケールに対して不変な分解(IS) • より一般的な距離関数のβ-divergenceというものもある – β=0がIS,β=1がKL,β=2がEUCに対応する 17 但し,全要素の距離値の総和を コスト関数とするのが一般的
  • 18. 各距離規範の様子 • データ に対する の変化 – 変数 がデータ に不足する事に大きなペナルティを課す • スペクトルのピークを精密にフィットさせようとする 18
  • 19. NMFの生成モデル的解釈(EUC) • 距離関数を定めることの統計的な解釈が存在 – 距離関数の選択: 観測データの生成モデルを定めている – 二乗ユークリッド距離(β=2)基準 19 正規分布 下記の最尤推定と等価な問題 観測データは時間周波数毎に平均値の 異なるガウス分布から生成されている 期待値
  • 20. • 距離関数を定めることの統計的な解釈が存在 – 距離関数の選択: 観測データの生成モデルを定めている – 一般化KLダイバージェンス(β=1)基準 [A. T. Cemgil, 2009] NMFの生成モデル的解釈(KL) 20 ポアソン分布 観測データは時間周波数毎に最頻値の 異なるポアソン分布から生成されている 下記の最尤推定と等価な問題 ポアソン分布の 期待値
  • 21. • 距離関数を定めることの統計的な解釈が存在 – 距離関数の選択: 観測データの生成モデルを定めている – 板倉斎藤擬距離(β=0)基準 NMFの生成モデル的解釈(IS) 21 観測データは時間周波数毎に母数の 異なる指数分布から生成されている 下記の最尤推定と等価な問題 指数分布 指数分布の 期待値
  • 22. NMFの生成モデル的解釈(とりあえずまとめ) • データと変数のフィッティングを,どの確率分布をもって 計っていくかを制御している – その上で期待値(変数)を求める最尤推定問題を解いている • これらの統計的解釈は全てBregmanダイバージェンス基 準NMF [I. S. Dhillon, et al., 2005] からも導かれる – 詳細は割愛!(「指数分布族」という概念で一般化した距離規範) • 板倉斎藤擬距離基準NMFに関しては複素数の観測デー タに対する別の生成モデル的な解釈が存在する – 複素観測データが複素平面で球対称なガウス分布(複素ガウ ス分布)から生成 – 観測データが複数(基底数)個の独立な複素ガウス分布に従う 確率変数の線形結合であることを仮定(ガウス分布の再生性) – IS-NMFによる基底分解の(期待値の意味での)妥当性を保証 22
  • 23. 板倉斎藤擬距離基準NMF [C. Févotte, et al., 2009] • 従来のNMF分解の問題点 – データ行列(非負実数)は1本の基底と1本のアクティベーション からなるランク1行列の線形結合として表現 – は振幅スペクトログラムなのか?あるいはパワーなのか? – いずれにしても線形結合(加法性)は成り立たない • 理論的には複素スペクトログラムの加法モデルが正しい – 位相スペクトログラムはどうするのか? • 板倉斎藤擬距離基準NMFでは下記のように解決される – 複素スペクトログラムに対する生成モデルを与えられる – 複素生成モデルの線形結合なので理論的に正しいモデル – 位相は無情報な形(一様分布)で保持される 23
  • 24. • を複素スペクトログラムとする(STFTしたそのもの) – 各時間周波数要素は複素要素 を 個足し合わせたもの – 複素ガウス分布の線形結合なので も複素ガウス分布 • ガウス分布の再生性 • の複素ガウス分布の分散は – 分散が時間周波数で変動する複素ガウス分布が生成モデル 板倉斎藤擬距離基準NMF [C. Févotte, et al., 2009] 24 とある時間 周波数要素 平均0,分散 の球対称複素ガウス これらの複素ガウス分布は互いに独立
  • 25. • パワースペクトログラムは複素ガウスの分散に対応 板倉斎藤擬距離基準NMF [C. Févotte, et al., 2009] 25 Frequencybin Time frame : パワースペクトログラム パワーが小=分散が小 殆ど0付近の複素数しか 生成しない パワーが大=分散が大 大きな振幅の複素数も 生成しうる 各時間周波数で分散が変動する複素ガウス分布 巨視的(マクロ)に考えると分散が逐一変動する為,ス ペクトログラム全体の密度分布はスーパーガウシアン (カートシスがガウス分布より大)な分布になっている 但し濃淡が濃い方が 大きなパワーを示す
  • 26. • この生成モデルにおける 及び の推定 • パワースペクトログラムに対するISNMFは前述の生成モ デルを仮定しており,理論的に極めて妥当なモデル – NMF分解後にパワードメインでのウィーナフィルタ(理論的に妥当) 板倉斎藤擬距離基準NMF [C. Févotte, et al., 2009] 26 板倉斎藤擬距離基準NMF 等価な問題 但し,定数項は省いている 番目の音源 は要素毎の積
  • 27. とはいえ • では,パワードメインのISNMFがスペクトログラムの分解 や音源分離にとって最良な結果を与えるのか? – 否! – 例えば音源分離タスクにおいては「振幅ドメインのKLNMFが良 い」といろいろな文献で報告されている • Ex. [D. FitzGerald, et al., 2009], [D. Kitamura, et al., 2014] – 場当たり的に振幅ドメインでISNMFを適用することもしばしば – 理論的妥当性とはなんだったのか・・・ • 他になんかないの(例えば振幅ドメインで理論的に妥当なNMFとか) – 先月(2015年10月)のWASPAA2015で登場 – Cauchy NMF [A. Liutkus, et al., 2015] • コーシー分布の再生性を用いて振幅ドメインでの加法性が(期待値の意 味で)理論的に保証されたNMF • ウィーナフィルタも振幅ドメインで適用するのが正しい 27
  • 28. Cauchy NMF [A. Liutkus, et al., 2015] • 元々の動機はウィーナフィルタの一般化 – 乗ドメインでのウィーナフィルタの構築 [A. Liutkus, et al., 2015] – (振幅ドメイン)で加法性の成り立つの生成モデルとは? • コーシー分布生成モデルの発見 • コーシーNMFの生成モデル – 複素コーシー分布の線形結合なので も複素コーシー分布 • コーシー分布の再生性 • の複素コーシー分布のスケールは – スケールが時間周波数で変動する複素コーシー分布 28 とある時間 周波数要素 中心値0,スケール の球対称コーシー これを複素 平面で球対 称に回した 複素分布これらの複素コーシー分布は互いに独立
  • 29. • この生成モデルにおける 及び の推定 • 振幅ドメインの加法性の妥当性を理論的に保証した分解 モデル – NMF分解後に振幅ドメインでのウィーナフィルタ(理論的に妥当) Cauchy NMF [A. Liutkus, et al., 2015] 29 見たこと無いコスト関数に・・・ 等価な問題 但し,定数項は省いている 番目の音源 は要素毎の積 球対称コーシー分布
  • 30. • 音源分離タスクにおいてパワードメインのISNMFよりは 良い性能をマーク – しかし依然として振幅ドメインのKLには及ばず • その他,コーシー分布の特徴(heavy-tail)を生かした denoisingなどに応用可能(だそうです) Cauchy NMF [A. Liutkus, et al., 2015] 30
  • 31. NMFの生成モデル的解釈まとめ • 従来の生成モデルによるNMFの解釈は成分 の重 ね合わせに関しては何も説明していない – 線形結合された変数 が最尤推定のパラメータになって いるという事実に過ぎない • 一方で「複素数成分が生成されるとするISNMFやコー シーNMFの解釈」は極めて重要 – 複素成分の重ね合わせを「確率モデルの再生性」によって表現 • NMFによるスペクトログラム分解の正当性が初めて保証される – パワースペクトログラムは複素生成モデルの分散(コーシー分 布ではスケール)に対応 • 大パワーの時間周波数スロットは振幅の大きな複素数値を生成しがち – 位相スペクトログラムは無情報(観測位相が最尤推定結果) • 工学的な実用性はまだ無い(性能が良くない)が今後さら なる理論的な解釈の発展に繋がる 31
  • 32. 講演概要 • 自己紹介 • 音源分離と非負値行列因子分解の関わり • 最適化におけるコスト関数と生成モデルとしての解釈 – 良く用いられる距離尺度 – 従来の生成モデル – 複素数を対象とした生成モデル • 板倉斎藤擬距離基準 • コーシー分布に基づく生成モデルとコーシー非負値行列因子分解 • 多チャネルブラインド音源分離への応用 – 従来の多チャネル非負値行列因子分解 – ランク1多チャネル非負値行列因子分解 • まとめ • 参考 32
  • 33. 優決定条件ブラインド音源分離 • ブラインド音源分離(blind source separation: BSS) – 混合系 が未知の条件で分離系 を推定 – マイク位置,マイク間隔,音源位置等の情報が不要 • 優決定条件BSS – 統計的独立性に基づく手法が代表的 • 独立成分分析(ICA)[Comon, 1994] • 独立ベクトル分析(IVA)[Hiroe, 2006], [Kim, 2006] • BSSに利用可能な性質 – 音源毎の空間的な違い(音源のある位置の違い) – 音源毎の音色の違い(音源固有のスペクトルパターンの違い) 33 State-of-the-art BSS 混合系 分離系
  • 34. • 独立ベクトル分析(IVA) [Hiroe, 2006], [Kim, 2006] – 音源毎の空間的な違いを用いた線形の空間分離フィルタ – 音源間の統計的独立性仮定に基づいて分離フィルタを推定 – 高速かつ頑健な分離が可能 – 音源毎の音色の違いは用いていない • 周波数方向に一様な高次相関を考慮しているのみ • 音声の混合信号ではある程度分離可能 • 音源毎の空間的な違いの他に,音色の違いも音源分離 に活用されるべき – 音源の音色構造を捉える非負値行列因子分解(NMF)の活用 従来の空間情報を用いた音源分離 34 音源1 音源2 音源1の空間 分離フィルタ 音源1 混合系 Frequency Time 濃淡は強度値
  • 35. • 多チャネルNMF [Ozerov, 2010], [Sawada, 2013] 空間的な違いと音色の違いを用いた音源分離 35/21 時間周波数毎の 観測チャネル間相関 多チャンネル観測データ 多チャネル ベクトル 瞬時チャネル間相関行列 音源周波数毎の チャネル間相関 基底行列 アクティベーション行列 空間モデル 音源モデル クラスタリング関数 スペクトルパターン 強度変化
  • 36. • 多チャネルNMF [Ozerov, 2010], [Sawada, 2013] – NMFの多チャネル拡張した音源分離手法 – 音色構造を音源毎の空間的な違いに基づいてクラスタリング – コスト関数は板倉斎藤擬距離の多チャネル版(log-det div.) – 極めて高い計算コストと極端な初期値依存性が大問題 空間的な違いと音色の違いを用いた音源分離 36 時間周波数毎の 観測チャネル間相関 混合された多チャン ネル観測信号 音源周波数毎の チャネル間相関 基底行列 アクティベーション行列 空間モデル 音源モデル クラスタリング関数 スペクトルパターン 強度変化 音源毎の空間的な違い 全ての音源の音色構造
  • 37. ランク1多チャネルNMF • 空間的な違いと音色構造を同時に用いた高速かつ頑健 な分離手法 – NMFによる音色構造表現を導入した独立性に基づく分離手法 • 空間モデルの推定は従来通り独立性基準(高速性,頑健性) • 音源モデルの推定にはNMFによる分解表現を導入(高品質,高精度) – 多チャネルNMFにおける空間モデルの自由度の制限 • フルランクで推定される音源毎のチャンネル間相関に制約を導入 • 多チャネルNMFにおける計算コスト及び頑健性の問題を解消 37 音源モデル 空間モデル 柔軟限定的 柔軟限定的 IVA 多チャネル NMF 提案手法 NMFの音源 モデルを導入 空間モデルの 自由度を制限 ランク1空間モデルを導入 音源毎のチャネル間相関行列の ランクが全周波数において1になる制約 ランク1多チャネルNMF
  • 38. ランク1空間モデルとは? • 音源毎のチャネル間相関行列のランクが1 – 音源の伝達系が1本の時不変なステアリングベクトルで表現 – 複数の音源が存在する場合も音源毎の相関行列のランクは1 38 マイク アレイ 観測 信号 音源 ステアリング ベクトル の相関行列は マイク アレイ 観測 信号 音源 ステアリング ベクトル ステアリング ベクトル 混合行列 観測 ベクトル 2x2のランク1行列 音源1のみの録音信号の相関行列は 音源2のみの録音信号の相関行列は
  • 39. ランク1空間モデルとは? • 音源毎のチャネル間相関行列のランクが1 – 時間周波数領域において1つの音源の伝達系が1本の時不変 なステアリングベクトルで表現可能 – 時間周波数領域における時不変複素瞬時混合モデル – 音源やマイクの位置が変わらず,残響がフーリエ変換の窓長よ り短い 39 マイク アレイ 観測 信号 音源 : 周波数インデクス : 時間インデクス 時不変混合行列 ステアリング ベクトル ステアリング ベクトル
  • 40. • 多チャネルNMFの目的関数にランク1モデルを導入 提案手法の定式化 40 1. ランク1チャネル間相関を導入( ) 2. 混合行列 を用いて表現しなおす 3. 分離行列 と分離信号 に変数変換 NMFのコスト関数 (音源モデルの推定に寄与) IVAのコスト関数 (空間モデルの推定に寄与) NMFとIVAの最適化更新式を交互に反復することで 全変数を容易に最適化可能
  • 42. 音楽信号の音源分離実験 • 実験条件 42 音源信号 SiSECのプロ音楽信号に,RWCP収録のマイクアレーインパルス 応答で畳み込んで作成,2チャネルで2音源の混合信号 比較手法 IVA, 多チャネルNMF,ランク1多チャネルNMF(提案手法) 窓長(FFT長) 512 ms,ハニング窓 シフト長 128 ms (1/4シフト) 基底数 1音源につき30本 主観評価値 SDR改善値(音質と分離度合いを含む総合的な分離性能) 2 m 音源1 5.66 cm 50 50 音源2 E2Aインパルス応答 (残響時間: 300 ms)
  • 43. 音楽信号の音源分離実験 • 実験結果(曲名: ultimate nz tour, guitar and synth.) 43 20 18 16 14 12 10 8 6 4 2 0 SDRimprovement[dB] Proposed method Multichannel NMF IVA Source 1 Source 2 – 初期値を変えて10回試 行した際の平均と標準 偏差を示したグラフ – 頑健かつ高性能な音 源分離を達成 – 反復回数毎の性能の 変化を示したグラフ – IVAと同程度の高速な 収束を実現 14 12 10 8 6 4 2 0 SDRimprovement[dB] 4003002001000 Iteration steps IVA Multichannel NMF Proposed method 7.8 s(30回時点) 11.8 s(30回時点) 598.5 s(250回時点) 高速,頑健,高品質, 高精度な分離を達成 信号長: 19.7 s (16kHzサンプル)
  • 44. 講演概要 • 自己紹介 • 音源分離と非負値行列因子分解の関わり • 最適化におけるコスト関数と生成モデルとしての解釈 – 良く用いられる距離尺度 – 従来の生成モデル – 複素数を対象とした生成モデル • 板倉斎藤擬距離基準 • コーシー分布に基づく生成モデルとコーシー非負値行列因子分解 • 多チャネルブラインド音源分離への応用 – 従来の多チャネル非負値行列因子分解 – ランク1多チャネル非負値行列因子分解 • まとめ • 参考 44
  • 45. まとめ • 音源分離でよく用いられる非負値行列因子分解の紹介 • NMFによる分解の生成モデル解釈 – 距離基準に対応した生成モデルに対する最尤推定問題と等価 – 但し,複素数値や成分の線形結合を取り扱うわけではない • 振幅スペクトルやパワースペクトルの加法性が理論的に 妥当なNMF – 複素数(位相に関しては無情報)の生成モデルを導入 – パワースペクトログラムを用いたISNMF – 振幅スペクトログラムを用いたコーシーNMF • ISNMFを用いた多チャネルNMFの紹介と その発展手法 – ランク1多チャネルNMF(ブラインド音源分離) 45
  • 46. 参考(1/3) • NMF – D. D. Lee, H. S. Seung, “Learning the parts of objects by nonnegative matrix factorization,” Nature, vol.401, pp.788–791, 1999. – D. D. Lee, H. S. Seung, “Algorithms for non-negative matrix factorization,” Proc. Advances in Neural Information Processing Systems, vol.13, pp.556–562, 2001. • NMFの幾何学的解釈 – D. Donoho, V. Stodden, “When does non-negative matrix factorization give correct decomposition into parts?,” MIT Press, 2003. • β-divergence NMF – S. Eguchi, K. Yano, “Robustifying maximum likelihood estimation,” Technical Report of Institute of Statistical Mathematics, 2001. – M. Nakano, H. Kameoka, J. Le Roux, Y. Kitano, N. Ono, S. Sagayama, “Convergence-guaranteed multiplicative algorithms for non-negative matrix factorization with beta-divergence,” Proc. International Workshop on Machine Learning for Signal Processing, pp.283-288, 2010. • KLNMFとベイジアンNMF – A. T. Cemgil, “Bayesian inference for nonnegative matrix factorization models,” Comput. Intell. Neurosci., vol.2009, pp.1–17, 2009. • Bregman-divergence-based NMF – I. S. Dhillon, S. Sara, “Generalized nonnegative matrix approximations with Bregman divergences,” Proc. NIPS 2005, pp. 283-290, 2005. 46
  • 47. 参考(2/3) • ISNMF(複素生成モデル) – C. Févotte, N. Bertin, J.-L. Durrieu, “Nonnegative matrixfactorization with the Itakura-Saito divergence. With applicationto music analysis,” Neural Computation, vol.21, no.3, 2009. • 振幅ドメインのKLNMFが良いと実験的に主張する文献 – D. Fitzgerald, M. Cranitch, E. Coyle, “On the use of the beta divergence for musical source separation,” Proc. Irish Signals Syst. Conf., 2009. – D. Kitamura, H. Saruwatari, K. Yagi, K. Shikano, Y. Takahashi, K. Kondo, “Music signal separation based on supervised nonnegative matrix factorization with orthogonality and maximum-divergence penalties,” IEICE Trans. Fundam. Electron., Commun. Comput. Sci., vol.E97-A, no.5, pp.1113–1118, 2014. • 一般化ウィーナフィルタとCauchy NMF – A. Liutkus, R. Badeau, “Generalized Wiener filtering with fractional power spectrograms,” Proc. ICASSP, pp.266–270, 2015. – A. Liutkus, D. Fitzgerald, “Cauchy nonnegative matrix factorization,” Proc. WASPAA, 2015. • 独立成分分析(ICA) – P. Comon, “Independent component analysis, a new concept?,” Signal Processing, vol.36, no.3, pp.287–314, 1994. 47
  • 48. 参考(3/3) • 独立ベクトル分析(IVA) – T. Kim, T. Eltoft T.-W. Lee, “Independent vector analysis: an extension of ICA to multivariate components,” Proc. International Conference on Independent Component Analysis and Blind Source Separation, pp.165–172, 2006. – A. Hiroe, “Solution of permutation problem in frequency domain ICA using multivariate probability density functions,” Proc. International Conference on Independent Component Analysis and Blind Source Separation, pp.601–608, 2006. – T. Kim, H. T. Attias, S.-Y. Lee T.-W. Lee, “Blind source separation exploiting higher-order frequency dependencies,” IEEE Trans. ASLP, vol.15, no.1, pp.70–79, 2007. • 多チャネルNMF – A. Ozerov, C. Févotte, “Multichannel nonnegative matrix factorization in convolutive mixtures for audio source separation,” IEEE Trans. ASLP, vol.18, no.3, pp.550–563, 2010. – H. Sawada, H. Kameoka, S. Araki, N. Ueda, “Multichannel extensions of non-negative matrix factorization with complex-valued data,” IEEE Trans. ASLP, vol.21, no.5, pp.971–982, 2013. • ランク1多チャネルNMF – D. Kitamura, N. Ono, H. Sawada, H. Kameoka, H. Saruwatari, “Efficient multichannel nonnegative matrix factorization exploiting rank-1 spatial model,” Proc. ICASSP, pp.276–280, 2015. • HP: http://d-kitamura.sakura.ne.jp/index.html – β-divergence NMFやCauchy NMFのコード,音源分離デモ等を公開しています 48