SlideShare a Scribd company logo
1 of 15
Download to read offline
独立深層学習行列分析に基づく
多チャネル音源分離
☆角野隼斗, 北村大地, 高宗典玄, 高道慎之介, 猿渡洋 (東大),
小野順貴 (首都大)
/ 15
n 観測信号を利用し,混合前の音源信号を推定する技術
※ 以下の条件を仮定している
n 優決定条件(観測マイク数 ≧ 音源数)
n 周波数領域上での瞬時混合(ランク1空間モデル)
多チャネル音源分離
2
音源信号 観測信号 分離信号
混合系 分離系
未知 既知 推定
sij xij yij
sij,1
sij,2 xij,2
xij,1 yij,1
yij,2
Ai Wi
:周波数インデクスi
j:時間インデクス
, は行列Ai Wi
= Aisij = Wixij
/ 15
本研究の位置付け
2018年3月13日 3提案手法
/ 15
n 生成モデル:多変量複素ガウス分布(Duongモデル [Duong+, 2009] )
Duong+DNN法 [Nugraha+, 2016]
4
空間相関行列
EMアルゴリズムに基づき空間モデル最適化
n 尤度関数
音源の分散(パワー)
n EMアルゴリズムの反復に必要な計算量が多い
n 分離系を推定する手法は混合系を推定する手法に比べ高精度な分離が
可能 [Kitamura+, 2016]
xij
sij,1
sij,2 xij,2
xij,1 yij,1
yij,2
混合系 分離系
Ai Wi
xij
DNNで推定 ↓
/ 15
生成モデル:時間周波数分散変動型複素ガウス分布 [Févotte+, 2009]
観測信号の負対数尤度
定式化
5
時間周波数の各スロットで
定義された複素ガウス分布
時間周波数に依存する分散
(= のパワー)
複素要素の時間周波数行列
(I × J次元)
:音源インデクスn
音源モデル 空間モデル
/ 15
観測信号
空間モデル
(周波数ごとに
個別な分離行列)
分離信号 音源モデル(低ランク行列)
xij yij
Wi
Frequency
Frequency
Time
独立低ランク行列分析(ILRMA) [Kitamura+, 2016]
2018年3月13日
音源モデル (低ランク性) 空間モデル (音源間が独立)
交互に最適化
分離行列
n 空間モデル(Wの推定):各音源が統計的に独立となる分離行列を推定
n 音源モデル(Rの推定):各音源の分散時間周波数行列の低ランク近似
分散行列
6
/ 15
独立低ランク行列分析(ILRMA) [Kitamura+, 2016]
2018年3月13日
音源モデル (低ランク性) 空間モデル (音源間が独立)
7
事前に学習データを用いて音源モデル
の分散を推定する写像を作る
音源によっては低ランク性が
成り立たない場合がある
音源・マイク位置,部屋の形状,
残響時間などの膨大な物理要因に依存
学習データの用意は非現実的
ブラインドに推定
DNNによる汎用的な音源モデルの構成
/ 15
n 空間モデル:各音源が統計的に独立となる分離行列を推定
n 音源モデル:分散行列 を推定するDNNを各音源ごとに構成
n IDLMA(Independent Deeply Learned Matrix Analysis)
提案手法:独立深層学習行列分析
2018年3月13日 8
音源モデル (DNN) 空間モデル (音源間が独立)
交互に最適化
観測信号
空間モデル
分離信号 音源モデル(DNN)
xij yij
Wi Time
Frequency
Frequency
Time
Frequency
Frequency
/ 15
n IDLMA(Independent Deeply Learned Matrix Analysis)
提案手法:独立深層学習行列分析
2018年3月13日 9
n DNN音源モデル(音源ごとに構成)
DNN学習時のコスト関数
(IS divergence)
→ Minimize
n IS divergenceに基づく最適化は の赤枠部分の最小化(最尤推定)と等価
混合信号
(パワー)
DNN
推定分散
分離信号
(パワー)
/ 15
2 m
Vo.
5.66 cm
40
40
E2A impulse
response
T60 = 300 ms
(a)
2 m
2.83 cm
20
(b)
40
E2A impulse
response
T60 = 300 ms
Ba. or Dr. Ba. or Dr.
Vo.
評価実験
学習信号 DSD100(音楽データセット)Dev 50曲(Vo./Ba. & Vo./Dr.)
評価信号
DSD100 Test 25曲に対し,以下の配置のE2Aインパルス応答
(RT60 = 300 ms)を畳み込んだ信号
サンプリング周波数 8 kHz
STFTの設定 窓長 128, 256, 512, 1024 ms / シフト長: 窓長の半分
評価指標 Signal-to-Distortion Ratio (SDR) の改善量
比較手法
ILRMA / DNN+WF法 [Uhlich+, 2015] /
Duong+DNN法 / 提案手法(IDLMA)
10
配置1 配置2
/ 15
n DNNの入出力
DNNの学習方法
2018年3月13日 11
DNNの構造 全結合NN 隠れ層4層(各層ユニット数1024)
活性化関数 ReLU(隠れ層及び出力層)
音源ごとにDNNを学習
n モデル
/ 15
n STFTの窓長と音源分離性能(平均SDR改善量) [dB]
n Vo./Ba.では窓長512 ms,Vo./Dr.では窓長256 msが最も性能が良い
n IDLMAの性能は窓長に関してトレードオフが存在
実験結果(STFTの窓長と性能の関係)
2018年3月13日 12
窓長 [ms] 128 256 512 1024
Vo ./Ba. (ILRMA) 3.67 4.98 6.48 4.39
Vo ./Ba. (IDLMA) 11.03 12.30 13.04 11.11
Vo ./Dr. (ILRMA) 5.45 6.39 6.18 4.82
Vo ./Dr. (IDLMA) 6.89 10.09 5.77 6.02
※配置1と配置2の平均
長い短い
統計バイアス増加
DNNのパラメータ数増加
瞬時混合仮定が不成立
/ 15
実験結果(従来手法との性能比較)
2018年3月13日 13
Proposed method (IDLMA)
Good
n 10回に1回 DNNで分散行列を更新
DNN+WF
ILRMA
Duong+DNN
教師あり
ブラインド
n 空間モデル更新毎のSDR改善量(窓長512 ms,配置1,Vo./Ba.)
/ 15
実験結果(従来手法との性能比較)
2018年3月13日 14
Proposed method (IDLMA)
Good
n 10回に1回 DNNで分散行列を更新
DNN+WF
ILRMA
Duong+DNN
n 空間モデル更新毎のSDR改善量(窓長512 ms,配置1,Vo./Ba.)
26.56 [s]
287.06 [s]
23.31 [s]
実計算時間例
/ 15
まとめ
n 従来のブラインド音源分離手法(ILRMA)において,音源モデル
をDNNによって推定する教師あり拡張手法(IDLMA)を提案した
n 提案手法(IDLMA)は,既存手法に対し優れた分離性能を示し,
分離系の推定が混合系の推定よりも高速かつ高精度であることを
示した
2018年3月13日 15
観測信号
空間モデル
分離信号 音源モデル(DNN)
xij yij
Wi Time
Frequency
Frequency
Time
Frequency
Frequency

More Related Content

What's hot

論文紹介 Unsupervised training of neural mask-based beamforming
論文紹介 Unsupervised training of neural  mask-based beamforming論文紹介 Unsupervised training of neural  mask-based beamforming
論文紹介 Unsupervised training of neural mask-based beamformingShinnosuke Takamichi
 
[DL輪読会]Wavenet a generative model for raw audio
[DL輪読会]Wavenet a generative model for raw audio[DL輪読会]Wavenet a generative model for raw audio
[DL輪読会]Wavenet a generative model for raw audioDeep Learning JP
 
J-KAC:日本語オーディオブック・紙芝居朗読音声コーパス
J-KAC:日本語オーディオブック・紙芝居朗読音声コーパスJ-KAC:日本語オーディオブック・紙芝居朗読音声コーパス
J-KAC:日本語オーディオブック・紙芝居朗読音声コーパスShinnosuke Takamichi
 
深層学習を用いた音源定位、音源分離、クラス分類の統合~環境音セグメンテーション手法の紹介~
深層学習を用いた音源定位、音源分離、クラス分類の統合~環境音セグメンテーション手法の紹介~深層学習を用いた音源定位、音源分離、クラス分類の統合~環境音セグメンテーション手法の紹介~
深層学習を用いた音源定位、音源分離、クラス分類の統合~環境音セグメンテーション手法の紹介~Yui Sudo
 
非負値行列分解の確率的生成モデルと 多チャネル音源分離への応用 (Generative model in nonnegative matrix facto...
非負値行列分解の確率的生成モデルと多チャネル音源分離への応用 (Generative model in nonnegative matrix facto...非負値行列分解の確率的生成モデルと多チャネル音源分離への応用 (Generative model in nonnegative matrix facto...
非負値行列分解の確率的生成モデルと 多チャネル音源分離への応用 (Generative model in nonnegative matrix facto...Daichi Kitamura
 
独立低ランク行列分析に基づく音源分離とその発展
独立低ランク行列分析に基づく音源分離とその発展独立低ランク行列分析に基づく音源分離とその発展
独立低ランク行列分析に基づく音源分離とその発展Kitamura Laboratory
 
実環境音響信号処理における収音技術
実環境音響信号処理における収音技術実環境音響信号処理における収音技術
実環境音響信号処理における収音技術Yuma Koizumi
 
時間領域低ランクスペクトログラム近似法に基づくマスキング音声の欠損成分復元
時間領域低ランクスペクトログラム近似法に基づくマスキング音声の欠損成分復元時間領域低ランクスペクトログラム近似法に基づくマスキング音声の欠損成分復元
時間領域低ランクスペクトログラム近似法に基づくマスキング音声の欠損成分復元NU_I_TODALAB
 
環境音の特徴を活用した音響イベント検出・シーン分類
環境音の特徴を活用した音響イベント検出・シーン分類環境音の特徴を活用した音響イベント検出・シーン分類
環境音の特徴を活用した音響イベント検出・シーン分類Keisuke Imoto
 
調波打撃音分離の時間周波数マスクを用いた線形ブラインド音源分離
調波打撃音分離の時間周波数マスクを用いた線形ブラインド音源分離調波打撃音分離の時間周波数マスクを用いた線形ブラインド音源分離
調波打撃音分離の時間周波数マスクを用いた線形ブラインド音源分離Kitamura Laboratory
 
JVS:フリーの日本語多数話者音声コーパス
JVS:フリーの日本語多数話者音声コーパス JVS:フリーの日本語多数話者音声コーパス
JVS:フリーの日本語多数話者音声コーパス Shinnosuke Takamichi
 
音情報処理における特徴表現
音情報処理における特徴表現音情報処理における特徴表現
音情報処理における特徴表現NU_I_TODALAB
 
DNN音響モデルにおける特徴量抽出の諸相
DNN音響モデルにおける特徴量抽出の諸相DNN音響モデルにおける特徴量抽出の諸相
DNN音響モデルにおける特徴量抽出の諸相Takuya Yoshioka
 
ICASSP2017読み会(関東編)・AASP_L3(北村担当分)
ICASSP2017読み会(関東編)・AASP_L3(北村担当分)ICASSP2017読み会(関東編)・AASP_L3(北村担当分)
ICASSP2017読み会(関東編)・AASP_L3(北村担当分)Daichi Kitamura
 
スペクトログラム無矛盾性を用いた 独立低ランク行列分析の実験的評価
スペクトログラム無矛盾性を用いた独立低ランク行列分析の実験的評価スペクトログラム無矛盾性を用いた独立低ランク行列分析の実験的評価
スペクトログラム無矛盾性を用いた 独立低ランク行列分析の実験的評価Daichi Kitamura
 
音響メディア信号処理における独立成分分析の発展と応用, History of independent component analysis for sou...
音響メディア信号処理における独立成分分析の発展と応用, History of independent component analysis for sou...音響メディア信号処理における独立成分分析の発展と応用, History of independent component analysis for sou...
音響メディア信号処理における独立成分分析の発展と応用, History of independent component analysis for sou...Daichi Kitamura
 
Interspeech2022 参加報告
Interspeech2022 参加報告Interspeech2022 参加報告
Interspeech2022 参加報告Yuki Saito
 
Neural text-to-speech and voice conversion
Neural text-to-speech and voice conversionNeural text-to-speech and voice conversion
Neural text-to-speech and voice conversionYuki Saito
 

What's hot (20)

論文紹介 Unsupervised training of neural mask-based beamforming
論文紹介 Unsupervised training of neural  mask-based beamforming論文紹介 Unsupervised training of neural  mask-based beamforming
論文紹介 Unsupervised training of neural mask-based beamforming
 
[DL輪読会]Wavenet a generative model for raw audio
[DL輪読会]Wavenet a generative model for raw audio[DL輪読会]Wavenet a generative model for raw audio
[DL輪読会]Wavenet a generative model for raw audio
 
Kameoka2017 ieice03
Kameoka2017 ieice03Kameoka2017 ieice03
Kameoka2017 ieice03
 
J-KAC:日本語オーディオブック・紙芝居朗読音声コーパス
J-KAC:日本語オーディオブック・紙芝居朗読音声コーパスJ-KAC:日本語オーディオブック・紙芝居朗読音声コーパス
J-KAC:日本語オーディオブック・紙芝居朗読音声コーパス
 
深層学習を用いた音源定位、音源分離、クラス分類の統合~環境音セグメンテーション手法の紹介~
深層学習を用いた音源定位、音源分離、クラス分類の統合~環境音セグメンテーション手法の紹介~深層学習を用いた音源定位、音源分離、クラス分類の統合~環境音セグメンテーション手法の紹介~
深層学習を用いた音源定位、音源分離、クラス分類の統合~環境音セグメンテーション手法の紹介~
 
非負値行列分解の確率的生成モデルと 多チャネル音源分離への応用 (Generative model in nonnegative matrix facto...
非負値行列分解の確率的生成モデルと多チャネル音源分離への応用 (Generative model in nonnegative matrix facto...非負値行列分解の確率的生成モデルと多チャネル音源分離への応用 (Generative model in nonnegative matrix facto...
非負値行列分解の確率的生成モデルと 多チャネル音源分離への応用 (Generative model in nonnegative matrix facto...
 
独立低ランク行列分析に基づく音源分離とその発展
独立低ランク行列分析に基づく音源分離とその発展独立低ランク行列分析に基づく音源分離とその発展
独立低ランク行列分析に基づく音源分離とその発展
 
実環境音響信号処理における収音技術
実環境音響信号処理における収音技術実環境音響信号処理における収音技術
実環境音響信号処理における収音技術
 
時間領域低ランクスペクトログラム近似法に基づくマスキング音声の欠損成分復元
時間領域低ランクスペクトログラム近似法に基づくマスキング音声の欠損成分復元時間領域低ランクスペクトログラム近似法に基づくマスキング音声の欠損成分復元
時間領域低ランクスペクトログラム近似法に基づくマスキング音声の欠損成分復元
 
環境音の特徴を活用した音響イベント検出・シーン分類
環境音の特徴を活用した音響イベント検出・シーン分類環境音の特徴を活用した音響イベント検出・シーン分類
環境音の特徴を活用した音響イベント検出・シーン分類
 
調波打撃音分離の時間周波数マスクを用いた線形ブラインド音源分離
調波打撃音分離の時間周波数マスクを用いた線形ブラインド音源分離調波打撃音分離の時間周波数マスクを用いた線形ブラインド音源分離
調波打撃音分離の時間周波数マスクを用いた線形ブラインド音源分離
 
JVS:フリーの日本語多数話者音声コーパス
JVS:フリーの日本語多数話者音声コーパス JVS:フリーの日本語多数話者音声コーパス
JVS:フリーの日本語多数話者音声コーパス
 
音情報処理における特徴表現
音情報処理における特徴表現音情報処理における特徴表現
音情報処理における特徴表現
 
DNN音響モデルにおける特徴量抽出の諸相
DNN音響モデルにおける特徴量抽出の諸相DNN音響モデルにおける特徴量抽出の諸相
DNN音響モデルにおける特徴量抽出の諸相
 
ICASSP2017読み会(関東編)・AASP_L3(北村担当分)
ICASSP2017読み会(関東編)・AASP_L3(北村担当分)ICASSP2017読み会(関東編)・AASP_L3(北村担当分)
ICASSP2017読み会(関東編)・AASP_L3(北村担当分)
 
スペクトログラム無矛盾性を用いた 独立低ランク行列分析の実験的評価
スペクトログラム無矛盾性を用いた独立低ランク行列分析の実験的評価スペクトログラム無矛盾性を用いた独立低ランク行列分析の実験的評価
スペクトログラム無矛盾性を用いた 独立低ランク行列分析の実験的評価
 
音響メディア信号処理における独立成分分析の発展と応用, History of independent component analysis for sou...
音響メディア信号処理における独立成分分析の発展と応用, History of independent component analysis for sou...音響メディア信号処理における独立成分分析の発展と応用, History of independent component analysis for sou...
音響メディア信号処理における独立成分分析の発展と応用, History of independent component analysis for sou...
 
Interspeech2022 参加報告
Interspeech2022 参加報告Interspeech2022 参加報告
Interspeech2022 参加報告
 
Saito2103slp
Saito2103slpSaito2103slp
Saito2103slp
 
Neural text-to-speech and voice conversion
Neural text-to-speech and voice conversionNeural text-to-speech and voice conversion
Neural text-to-speech and voice conversion
 

More from Daichi Kitamura

Windowsマシン上でVisual Studio Codeとpipenvを使ってPythonの仮想実行環境を構築する方法(Jupyter notebookも)
Windowsマシン上でVisual Studio Codeとpipenvを使ってPythonの仮想実行環境を構築する方法(Jupyter notebookも)Windowsマシン上でVisual Studio Codeとpipenvを使ってPythonの仮想実行環境を構築する方法(Jupyter notebookも)
Windowsマシン上でVisual Studio Codeとpipenvを使ってPythonの仮想実行環境を構築する方法(Jupyter notebookも)Daichi Kitamura
 
独立低ランク行列分析に基づくブラインド音源分離(Blind source separation based on independent low-rank...
独立低ランク行列分析に基づくブラインド音源分離(Blind source separation based on independent low-rank...独立低ランク行列分析に基づくブラインド音源分離(Blind source separation based on independent low-rank...
独立低ランク行列分析に基づくブラインド音源分離(Blind source separation based on independent low-rank...Daichi Kitamura
 
近接分離最適化によるブラインド⾳源分離(Blind source separation via proximal splitting algorithm)
近接分離最適化によるブラインド⾳源分離(Blind source separation via proximal splitting algorithm)近接分離最適化によるブラインド⾳源分離(Blind source separation via proximal splitting algorithm)
近接分離最適化によるブラインド⾳源分離(Blind source separation via proximal splitting algorithm)Daichi Kitamura
 
Blind source separation based on independent low-rank matrix analysis and its...
Blind source separation based on independent low-rank matrix analysis and its...Blind source separation based on independent low-rank matrix analysis and its...
Blind source separation based on independent low-rank matrix analysis and its...Daichi Kitamura
 
非負値行列因子分解に基づくブラインド及び教師あり音楽音源分離の効果的最適化法
非負値行列因子分解に基づくブラインド及び教師あり音楽音源分離の効果的最適化法非負値行列因子分解に基づくブラインド及び教師あり音楽音源分離の効果的最適化法
非負値行列因子分解に基づくブラインド及び教師あり音楽音源分離の効果的最適化法Daichi Kitamura
 
Blind source separation based on independent low-rank matrix analysis and its...
Blind source separation based on independent low-rank matrix analysis and its...Blind source separation based on independent low-rank matrix analysis and its...
Blind source separation based on independent low-rank matrix analysis and its...Daichi Kitamura
 
Experimental analysis of optimal window length for independent low-rank matri...
Experimental analysis of optimal window length for independent low-rank matri...Experimental analysis of optimal window length for independent low-rank matri...
Experimental analysis of optimal window length for independent low-rank matri...Daichi Kitamura
 
Audio Source Separation Based on Low-Rank Structure and Statistical Independence
Audio Source Separation Based on Low-Rank Structure and Statistical IndependenceAudio Source Separation Based on Low-Rank Structure and Statistical Independence
Audio Source Separation Based on Low-Rank Structure and Statistical IndependenceDaichi Kitamura
 
統計的独立性と低ランク行列分解理論に基づく ブラインド音源分離 –独立低ランク行列分析– Blind source separation based on...
統計的独立性と低ランク行列分解理論に基づくブラインド音源分離 –独立低ランク行列分析– Blind source separation based on...統計的独立性と低ランク行列分解理論に基づくブラインド音源分離 –独立低ランク行列分析– Blind source separation based on...
統計的独立性と低ランク行列分解理論に基づく ブラインド音源分離 –独立低ランク行列分析– Blind source separation based on...Daichi Kitamura
 
半教師あり非負値行列因子分解における音源分離性能向上のための効果的な基底学習法
半教師あり非負値行列因子分解における音源分離性能向上のための効果的な基底学習法半教師あり非負値行列因子分解における音源分離性能向上のための効果的な基底学習法
半教師あり非負値行列因子分解における音源分離性能向上のための効果的な基底学習法Daichi Kitamura
 
Efficient initialization for nonnegative matrix factorization based on nonneg...
Efficient initialization for nonnegative matrix factorization based on nonneg...Efficient initialization for nonnegative matrix factorization based on nonneg...
Efficient initialization for nonnegative matrix factorization based on nonneg...Daichi Kitamura
 
独立性基準を用いた非負値行列因子分解の効果的な初期値決定法(Statistical-independence-based efficient initia...
独立性基準を用いた非負値行列因子分解の効果的な初期値決定法(Statistical-independence-based efficient initia...独立性基準を用いた非負値行列因子分解の効果的な初期値決定法(Statistical-independence-based efficient initia...
独立性基準を用いた非負値行列因子分解の効果的な初期値決定法(Statistical-independence-based efficient initia...Daichi Kitamura
 
ランク1空間近似を用いたBSSにおける音源及び空間モデルの考察 Study on Source and Spatial Models for BSS wi...
ランク1空間近似を用いたBSSにおける音源及び空間モデルの考察 Study on Source and Spatial Models for BSS wi...ランク1空間近似を用いたBSSにおける音源及び空間モデルの考察 Study on Source and Spatial Models for BSS wi...
ランク1空間近似を用いたBSSにおける音源及び空間モデルの考察 Study on Source and Spatial Models for BSS wi...Daichi Kitamura
 
Relaxation of rank-1 spatial constraint in overdetermined blind source separa...
Relaxation of rank-1 spatial constraint in overdetermined blind source separa...Relaxation of rank-1 spatial constraint in overdetermined blind source separa...
Relaxation of rank-1 spatial constraint in overdetermined blind source separa...Daichi Kitamura
 
基底変形型教師ありNMFによる実楽器信号分離 (in Japanese)
基底変形型教師ありNMFによる実楽器信号分離 (in Japanese)基底変形型教師ありNMFによる実楽器信号分離 (in Japanese)
基底変形型教師ありNMFによる実楽器信号分離 (in Japanese)Daichi Kitamura
 
Study on optimal divergence for superresolution-based supervised nonnegative ...
Study on optimal divergence for superresolution-based supervised nonnegative ...Study on optimal divergence for superresolution-based supervised nonnegative ...
Study on optimal divergence for superresolution-based supervised nonnegative ...Daichi Kitamura
 
Music signal separation using supervised nonnegative matrix factorization wit...
Music signal separation using supervised nonnegative matrix factorization wit...Music signal separation using supervised nonnegative matrix factorization wit...
Music signal separation using supervised nonnegative matrix factorization wit...Daichi Kitamura
 
擬似ハムバッキングピックアップの弦振動応答 (in Japanese)
擬似ハムバッキングピックアップの弦振動応答 (in Japanese)擬似ハムバッキングピックアップの弦振動応答 (in Japanese)
擬似ハムバッキングピックアップの弦振動応答 (in Japanese)Daichi Kitamura
 
模擬ハムバッキング・ピックアップの弦振動応答 (in Japanese)
模擬ハムバッキング・ピックアップの弦振動応答 (in Japanese)模擬ハムバッキング・ピックアップの弦振動応答 (in Japanese)
模擬ハムバッキング・ピックアップの弦振動応答 (in Japanese)Daichi Kitamura
 
Evaluation of separation accuracy for various real instruments based on super...
Evaluation of separation accuracy for various real instruments based on super...Evaluation of separation accuracy for various real instruments based on super...
Evaluation of separation accuracy for various real instruments based on super...Daichi Kitamura
 

More from Daichi Kitamura (20)

Windowsマシン上でVisual Studio Codeとpipenvを使ってPythonの仮想実行環境を構築する方法(Jupyter notebookも)
Windowsマシン上でVisual Studio Codeとpipenvを使ってPythonの仮想実行環境を構築する方法(Jupyter notebookも)Windowsマシン上でVisual Studio Codeとpipenvを使ってPythonの仮想実行環境を構築する方法(Jupyter notebookも)
Windowsマシン上でVisual Studio Codeとpipenvを使ってPythonの仮想実行環境を構築する方法(Jupyter notebookも)
 
独立低ランク行列分析に基づくブラインド音源分離(Blind source separation based on independent low-rank...
独立低ランク行列分析に基づくブラインド音源分離(Blind source separation based on independent low-rank...独立低ランク行列分析に基づくブラインド音源分離(Blind source separation based on independent low-rank...
独立低ランク行列分析に基づくブラインド音源分離(Blind source separation based on independent low-rank...
 
近接分離最適化によるブラインド⾳源分離(Blind source separation via proximal splitting algorithm)
近接分離最適化によるブラインド⾳源分離(Blind source separation via proximal splitting algorithm)近接分離最適化によるブラインド⾳源分離(Blind source separation via proximal splitting algorithm)
近接分離最適化によるブラインド⾳源分離(Blind source separation via proximal splitting algorithm)
 
Blind source separation based on independent low-rank matrix analysis and its...
Blind source separation based on independent low-rank matrix analysis and its...Blind source separation based on independent low-rank matrix analysis and its...
Blind source separation based on independent low-rank matrix analysis and its...
 
非負値行列因子分解に基づくブラインド及び教師あり音楽音源分離の効果的最適化法
非負値行列因子分解に基づくブラインド及び教師あり音楽音源分離の効果的最適化法非負値行列因子分解に基づくブラインド及び教師あり音楽音源分離の効果的最適化法
非負値行列因子分解に基づくブラインド及び教師あり音楽音源分離の効果的最適化法
 
Blind source separation based on independent low-rank matrix analysis and its...
Blind source separation based on independent low-rank matrix analysis and its...Blind source separation based on independent low-rank matrix analysis and its...
Blind source separation based on independent low-rank matrix analysis and its...
 
Experimental analysis of optimal window length for independent low-rank matri...
Experimental analysis of optimal window length for independent low-rank matri...Experimental analysis of optimal window length for independent low-rank matri...
Experimental analysis of optimal window length for independent low-rank matri...
 
Audio Source Separation Based on Low-Rank Structure and Statistical Independence
Audio Source Separation Based on Low-Rank Structure and Statistical IndependenceAudio Source Separation Based on Low-Rank Structure and Statistical Independence
Audio Source Separation Based on Low-Rank Structure and Statistical Independence
 
統計的独立性と低ランク行列分解理論に基づく ブラインド音源分離 –独立低ランク行列分析– Blind source separation based on...
統計的独立性と低ランク行列分解理論に基づくブラインド音源分離 –独立低ランク行列分析– Blind source separation based on...統計的独立性と低ランク行列分解理論に基づくブラインド音源分離 –独立低ランク行列分析– Blind source separation based on...
統計的独立性と低ランク行列分解理論に基づく ブラインド音源分離 –独立低ランク行列分析– Blind source separation based on...
 
半教師あり非負値行列因子分解における音源分離性能向上のための効果的な基底学習法
半教師あり非負値行列因子分解における音源分離性能向上のための効果的な基底学習法半教師あり非負値行列因子分解における音源分離性能向上のための効果的な基底学習法
半教師あり非負値行列因子分解における音源分離性能向上のための効果的な基底学習法
 
Efficient initialization for nonnegative matrix factorization based on nonneg...
Efficient initialization for nonnegative matrix factorization based on nonneg...Efficient initialization for nonnegative matrix factorization based on nonneg...
Efficient initialization for nonnegative matrix factorization based on nonneg...
 
独立性基準を用いた非負値行列因子分解の効果的な初期値決定法(Statistical-independence-based efficient initia...
独立性基準を用いた非負値行列因子分解の効果的な初期値決定法(Statistical-independence-based efficient initia...独立性基準を用いた非負値行列因子分解の効果的な初期値決定法(Statistical-independence-based efficient initia...
独立性基準を用いた非負値行列因子分解の効果的な初期値決定法(Statistical-independence-based efficient initia...
 
ランク1空間近似を用いたBSSにおける音源及び空間モデルの考察 Study on Source and Spatial Models for BSS wi...
ランク1空間近似を用いたBSSにおける音源及び空間モデルの考察 Study on Source and Spatial Models for BSS wi...ランク1空間近似を用いたBSSにおける音源及び空間モデルの考察 Study on Source and Spatial Models for BSS wi...
ランク1空間近似を用いたBSSにおける音源及び空間モデルの考察 Study on Source and Spatial Models for BSS wi...
 
Relaxation of rank-1 spatial constraint in overdetermined blind source separa...
Relaxation of rank-1 spatial constraint in overdetermined blind source separa...Relaxation of rank-1 spatial constraint in overdetermined blind source separa...
Relaxation of rank-1 spatial constraint in overdetermined blind source separa...
 
基底変形型教師ありNMFによる実楽器信号分離 (in Japanese)
基底変形型教師ありNMFによる実楽器信号分離 (in Japanese)基底変形型教師ありNMFによる実楽器信号分離 (in Japanese)
基底変形型教師ありNMFによる実楽器信号分離 (in Japanese)
 
Study on optimal divergence for superresolution-based supervised nonnegative ...
Study on optimal divergence for superresolution-based supervised nonnegative ...Study on optimal divergence for superresolution-based supervised nonnegative ...
Study on optimal divergence for superresolution-based supervised nonnegative ...
 
Music signal separation using supervised nonnegative matrix factorization wit...
Music signal separation using supervised nonnegative matrix factorization wit...Music signal separation using supervised nonnegative matrix factorization wit...
Music signal separation using supervised nonnegative matrix factorization wit...
 
擬似ハムバッキングピックアップの弦振動応答 (in Japanese)
擬似ハムバッキングピックアップの弦振動応答 (in Japanese)擬似ハムバッキングピックアップの弦振動応答 (in Japanese)
擬似ハムバッキングピックアップの弦振動応答 (in Japanese)
 
模擬ハムバッキング・ピックアップの弦振動応答 (in Japanese)
模擬ハムバッキング・ピックアップの弦振動応答 (in Japanese)模擬ハムバッキング・ピックアップの弦振動応答 (in Japanese)
模擬ハムバッキング・ピックアップの弦振動応答 (in Japanese)
 
Evaluation of separation accuracy for various real instruments based on super...
Evaluation of separation accuracy for various real instruments based on super...Evaluation of separation accuracy for various real instruments based on super...
Evaluation of separation accuracy for various real instruments based on super...
 

独立深層学習行列分析に基づく多チャネル音源分離(Multichannel audio source separation based on independent deeply learned matrix analysis)

  • 2. / 15 n 観測信号を利用し,混合前の音源信号を推定する技術 ※ 以下の条件を仮定している n 優決定条件(観測マイク数 ≧ 音源数) n 周波数領域上での瞬時混合(ランク1空間モデル) 多チャネル音源分離 2 音源信号 観測信号 分離信号 混合系 分離系 未知 既知 推定 sij xij yij sij,1 sij,2 xij,2 xij,1 yij,1 yij,2 Ai Wi :周波数インデクスi j:時間インデクス , は行列Ai Wi = Aisij = Wixij
  • 4. / 15 n 生成モデル:多変量複素ガウス分布(Duongモデル [Duong+, 2009] ) Duong+DNN法 [Nugraha+, 2016] 4 空間相関行列 EMアルゴリズムに基づき空間モデル最適化 n 尤度関数 音源の分散(パワー) n EMアルゴリズムの反復に必要な計算量が多い n 分離系を推定する手法は混合系を推定する手法に比べ高精度な分離が 可能 [Kitamura+, 2016] xij sij,1 sij,2 xij,2 xij,1 yij,1 yij,2 混合系 分離系 Ai Wi xij DNNで推定 ↓
  • 5. / 15 生成モデル:時間周波数分散変動型複素ガウス分布 [Févotte+, 2009] 観測信号の負対数尤度 定式化 5 時間周波数の各スロットで 定義された複素ガウス分布 時間周波数に依存する分散 (= のパワー) 複素要素の時間周波数行列 (I × J次元) :音源インデクスn 音源モデル 空間モデル
  • 6. / 15 観測信号 空間モデル (周波数ごとに 個別な分離行列) 分離信号 音源モデル(低ランク行列) xij yij Wi Frequency Frequency Time 独立低ランク行列分析(ILRMA) [Kitamura+, 2016] 2018年3月13日 音源モデル (低ランク性) 空間モデル (音源間が独立) 交互に最適化 分離行列 n 空間モデル(Wの推定):各音源が統計的に独立となる分離行列を推定 n 音源モデル(Rの推定):各音源の分散時間周波数行列の低ランク近似 分散行列 6
  • 7. / 15 独立低ランク行列分析(ILRMA) [Kitamura+, 2016] 2018年3月13日 音源モデル (低ランク性) 空間モデル (音源間が独立) 7 事前に学習データを用いて音源モデル の分散を推定する写像を作る 音源によっては低ランク性が 成り立たない場合がある 音源・マイク位置,部屋の形状, 残響時間などの膨大な物理要因に依存 学習データの用意は非現実的 ブラインドに推定 DNNによる汎用的な音源モデルの構成
  • 8. / 15 n 空間モデル:各音源が統計的に独立となる分離行列を推定 n 音源モデル:分散行列 を推定するDNNを各音源ごとに構成 n IDLMA(Independent Deeply Learned Matrix Analysis) 提案手法:独立深層学習行列分析 2018年3月13日 8 音源モデル (DNN) 空間モデル (音源間が独立) 交互に最適化 観測信号 空間モデル 分離信号 音源モデル(DNN) xij yij Wi Time Frequency Frequency Time Frequency Frequency
  • 9. / 15 n IDLMA(Independent Deeply Learned Matrix Analysis) 提案手法:独立深層学習行列分析 2018年3月13日 9 n DNN音源モデル(音源ごとに構成) DNN学習時のコスト関数 (IS divergence) → Minimize n IS divergenceに基づく最適化は の赤枠部分の最小化(最尤推定)と等価 混合信号 (パワー) DNN 推定分散 分離信号 (パワー)
  • 10. / 15 2 m Vo. 5.66 cm 40 40 E2A impulse response T60 = 300 ms (a) 2 m 2.83 cm 20 (b) 40 E2A impulse response T60 = 300 ms Ba. or Dr. Ba. or Dr. Vo. 評価実験 学習信号 DSD100(音楽データセット)Dev 50曲(Vo./Ba. & Vo./Dr.) 評価信号 DSD100 Test 25曲に対し,以下の配置のE2Aインパルス応答 (RT60 = 300 ms)を畳み込んだ信号 サンプリング周波数 8 kHz STFTの設定 窓長 128, 256, 512, 1024 ms / シフト長: 窓長の半分 評価指標 Signal-to-Distortion Ratio (SDR) の改善量 比較手法 ILRMA / DNN+WF法 [Uhlich+, 2015] / Duong+DNN法 / 提案手法(IDLMA) 10 配置1 配置2
  • 11. / 15 n DNNの入出力 DNNの学習方法 2018年3月13日 11 DNNの構造 全結合NN 隠れ層4層(各層ユニット数1024) 活性化関数 ReLU(隠れ層及び出力層) 音源ごとにDNNを学習 n モデル
  • 12. / 15 n STFTの窓長と音源分離性能(平均SDR改善量) [dB] n Vo./Ba.では窓長512 ms,Vo./Dr.では窓長256 msが最も性能が良い n IDLMAの性能は窓長に関してトレードオフが存在 実験結果(STFTの窓長と性能の関係) 2018年3月13日 12 窓長 [ms] 128 256 512 1024 Vo ./Ba. (ILRMA) 3.67 4.98 6.48 4.39 Vo ./Ba. (IDLMA) 11.03 12.30 13.04 11.11 Vo ./Dr. (ILRMA) 5.45 6.39 6.18 4.82 Vo ./Dr. (IDLMA) 6.89 10.09 5.77 6.02 ※配置1と配置2の平均 長い短い 統計バイアス増加 DNNのパラメータ数増加 瞬時混合仮定が不成立
  • 13. / 15 実験結果(従来手法との性能比較) 2018年3月13日 13 Proposed method (IDLMA) Good n 10回に1回 DNNで分散行列を更新 DNN+WF ILRMA Duong+DNN 教師あり ブラインド n 空間モデル更新毎のSDR改善量(窓長512 ms,配置1,Vo./Ba.)
  • 14. / 15 実験結果(従来手法との性能比較) 2018年3月13日 14 Proposed method (IDLMA) Good n 10回に1回 DNNで分散行列を更新 DNN+WF ILRMA Duong+DNN n 空間モデル更新毎のSDR改善量(窓長512 ms,配置1,Vo./Ba.) 26.56 [s] 287.06 [s] 23.31 [s] 実計算時間例
  • 15. / 15 まとめ n 従来のブラインド音源分離手法(ILRMA)において,音源モデル をDNNによって推定する教師あり拡張手法(IDLMA)を提案した n 提案手法(IDLMA)は,既存手法に対し優れた分離性能を示し, 分離系の推定が混合系の推定よりも高速かつ高精度であることを 示した 2018年3月13日 15 観測信号 空間モデル 分離信号 音源モデル(DNN) xij yij Wi Time Frequency Frequency Time Frequency Frequency