SlideShare a Scribd company logo
1 of 76
Download to read offline
Copyright©2018 NTT corp. All Rights Reserved.
2018/06/17 @ 音学シンポジウム2018
1
NTTメディアインテリジェンス研究所
小泉 悠馬
【招待講演】
実環境音響信号処理における収音技術
Copyright©2018 NTT corp. All Rights Reserved. 2
皆さん初めまして!
SIGMUSの皆さん
お久しぶりです!
Copyright©2018 NTT corp. All Rights Reserved. 3
About me
 小泉 悠馬(こいずみ ゆうま)
 専門:音楽情報処理(修士まで)
⇒ 電気音響(会社から)
略歴
 2014年: 法政大学 情報科学研究科 修了
 2014年: NTTメディアインテリジェンス研究所 入所
 2017年: 博士(工学) (電気通信大学)
研究内容
 音響信号処理 × 機械学習の基礎研究と実用化
 収音技術:うるさい中から欲しい音だけ取り出したい!
 異常検知:周囲の異変を音から検知したい!
指導教官
伊藤 克亘教授
指導教官
羽田 陽一教授
Copyright©2018 NTT corp. All Rights Reserved. 4
Special thanks
丹羽 健太博士 小林 和則博士日岡 祐輔准教授
川瀬 智子博士齊藤 翔一郎氏
羽田 陽一教授
本日の講演は、下記の方々の研究成果も紹介します
伊藤 弘章氏 原田 登博士
Copyright©2018 NTT corp. All Rights Reserved. 5
実環境での音情報処理サービス
計算機/通信の発達で音情報処理技術はどんどん身近に
音声認識
エンターテイメント
異常音検知
音声通信
5
Copyright©2018 NTT corp. All Rights Reserved. 6
実環境における雑音の影響
雑音が音情報処理性能を低下させる
雑音が大きく
音声認識できない
競技音が埋もれ
臨場感が伝わらない
音声認識 スポーツ中継
Copyright©2018 NTT corp. All Rights Reserved. 7
今日の話
実環境で
欲しい音だけ収録するには
どうすればいいのか?
Copyright©2018 NTT corp. All Rights Reserved. 8
収音技術
観測音から目的音を抽出する信号処理
 音源強調、音源分離、雑音抑圧など、様々な小分類がある
 本講演では以降、「音源強調」で統一する
観測音 目的音 雑音
※ 説明の簡単のために、周波数領
域の瞬時混合を仮定し伝達特性を
省略
目的音
雑音 …
観測音
収音技術
出力音
マイク
Copyright©2018 NTT corp. All Rights Reserved. 9
フィルタリングによる音源強調(一般形)
線形フィルタリング(e.g. ビームフォーミング, ICA, IVA)
非線形フィルタリング(e.g. 時間周波数マスク, NMF)
…
…
 周波数領域の時不変な複素線形結合(例外あり)
 周波数領域の時変な(複素/実数)係数の乗算
フィルタ推定
Copyright©2018 NTT corp. All Rights Reserved. 10
線形フィルタリング
音源方向によって、マイクへの到達時間/ゲイン差が生じる
正面から到来する音は、
ほぼ時間差なく到達
Copyright©2018 NTT corp. All Rights Reserved. 11
正面から以外から到来する音は、
時間差をもって到達
線形フィルタリング
音源方向によって、マイクへの到達時間/ゲイン差が生じる
Copyright©2018 NTT corp. All Rights Reserved. 12
複数の方向からの音が混ざると、
複雑な波形となる
線形フィルタリング
音源方向によって、マイクへの到達時間/ゲイン差が生じる
Copyright©2018 NTT corp. All Rights Reserved. 13
到達時間/ゲイン差を利用し、所望の音を強調/抑圧
例)正面の音は同じタイミングで到達するので、
全マイクの音を加算すると強められる
線形フィルタリング
Copyright©2018 NTT corp. All Rights Reserved. 14
目的音=人間の声
非線形フィルタリング
時間周波数マスク 0 ≤ 𝐺𝑡,𝑓 ≤ 1 を乗じる音源強調法
Copyright©2018 NTT corp. All Rights Reserved. 15
雑音=サックス
非線形フィルタリング
時間周波数マスク 0 ≤ 𝐺𝑡,𝑓 ≤ 1 を乗じる音源強調法
Copyright©2018 NTT corp. All Rights Reserved. 16
混ざってしまうと、どれが目的音かわからない
?? ??
非線形フィルタリング
時間周波数マスク 0 ≤ 𝐺𝑡,𝑓 ≤ 1 を乗じる音源強調法
Copyright©2018 NTT corp. All Rights Reserved. 17
例:ウィナーフィルタ
非線形フィルタリング
時間周波数マスク 0 ≤ 𝐺𝑡,𝑓 ≤ 1 を乗じる音源強調法
Copyright©2018 NTT corp. All Rights Reserved. 18
例:ウィナーフィルタ
非線形フィルタリング
時間周波数マスク 0 ≤ 𝐺𝑡,𝑓 ≤ 1 を乗じる音源強調法
Copyright©2018 NTT corp. All Rights Reserved. 19
残念ながら(私の知る限り)
万能なフィルタ設計法は存在しない
どうフィルタを設計すれば良い?
Copyright©2018 NTT corp. All Rights Reserved. 20
手法 着眼点 受音構造制約 フレーム処理 抑圧量/目的音歪 計算コスト
Spectrum subtraction
[Boll+, 1979]など
信号統計量/時間周
波数構造
なし 可能 大/大 軽量
Beamforming 音源方向
マルチチャネル
(dense)
可能 小/小 軽量
音響エコーキャンセラー 音源位置(座標) 雑音源が既知 可能
線形:中/小
非線形:大/大
逐次更新
分散マイクロホンアレー
[Arabi, 2003][Ono+, 2009]
音源位置(座標)
マルチチャネル
(distributed)
可能
線形:中/小
非線形:大/大
手法依存
球面調和関数展開
[Haneda+, 2014]
音源距離 中空球面アレー 可能 大/高域大 軽量
NMF
[Smaragdis+, 2003]
信号統計量/時間周
波数構造
なし 不可 中/中 反復更新
FDICA[Smaragdis+, 1998]
/IVA[Hiroe+, 2006]
信号統計量/音源方
向
マルチチャネル
(優決定)
不可 中/小 反復更新
MNMF
[Sawada+, 2013]など
音源方向/信号統計
量/時間周波数構造
マルチチャネル
(dense)
不可 大/小 反復更新
ILRMA
[Kitamura+, 2016]など
音源方向/信号統計
量/時間周波数構造
マルチチャネル
(優決定)
不可 大/小 反復更新
深層学習/機械学習ベース
[Erdogan+, 2015]など
信号統計量/時間周
波数構造
学習時と一致す
る必要
可能 大/中 要事前学習
代表的な音源強調(※主観的なまとめ)
Copyright©2018 NTT corp. All Rights Reserved. 21
実環境では問題の事前知識は「ある」場合が多数
問題によって【求められる/求められない】性能は異なる
収音技術の性能要件を明確にする
=「問題を定義する」ことが大切
 目的音と雑音の違いは?
 どの程度の雑音抑圧性能が必要?(抑圧量/音の歪み)
 計算リソースはどれくらい使える?
 ハードウェアや設置条件に制限はある?
 リアルタイム処理は必要?
 事前学習は可能?(環境の変動は大きい?)
技術開発チェックリスト
Copyright©2018 NTT corp. All Rights Reserved. 22
1. 方向の違いで分離する
もくじ
2. 位置の違いで分離する
3. 音色の違いで分離する
4. 深層学習を利用した収音技術
実環境で利用した収音技術の紹介
5. まとめ
Copyright©2018 NTT corp. All Rights Reserved. 23
1. 方向の違いで分離する
もくじ
2. 位置の違いで分離する
3. 音色の違いで分離する
4. 深層学習を利用した収音技術
5. まとめ
実環境で利用した収音技術の紹介
Copyright©2018 NTT corp. All Rights Reserved. 24
目的音と雑音の「方向」が異なる例
対話ロボット
話しかける人は
たいてい正面に立つ
Copyright©2018 NTT corp. All Rights Reserved. 25
目的音と雑音の「方向」が異なる例
雑音は様々な方向から
やってくる
対話ロボット
Copyright©2018 NTT corp. All Rights Reserved. 26
到達時間/ゲイン差を利用し、所望の音を強調/抑圧
ビームフォーミング
Copyright©2018 NTT corp. All Rights Reserved. 27
ビームフォーマ設計の例(最尤BF)
 観測信号のモデル化
目的音から各マイクまでの伝達特性ベクトル
 雑音がガウス雑音と仮定すると、尤度関数は 雑音の空間相関行列
 この尤度関数を最大化する出力音と BF は以下で求められる
: 雑音の方向に死角を形成
: 目的音の方向に山を形成
 や は未知のため、ステアリングベクトルを代用
⇨ 音源強調性能が低下
Copyright©2018 NTT corp. All Rights Reserved. 28
ビームフォーミングの精度向上のために
音声認識の精度上げたい!
うるさい中でも通話をしたい!
 音声は歪ませたくない
 計算量は多少使える
 「音声」だけ強調できればいい
 とにかく雑音を消したい
 計算量は数百MIPS程度
 どんな音かわからない
Copyright©2018 NTT corp. All Rights Reserved. 29
うるさい中でも通話をしたい!
 目的音と雑音の違いは?
 どの程度の雑音抑圧性能が必要?(抑圧量/音の歪み)
 計算リソースはどれくらい使える?
 ハードウェアや設置条件に制限はある?
 事前学習は可能?(環境の変動は大きい?)
 リアルタイム処理は必要?
→ 方向
→ YES
→ 通話向けだからとにかく雑音を消したい
→ No
→ DSPチップに乗る程度
→ コスト面から、マイクは数個のみ
Copyright©2018 NTT corp. All Rights Reserved.
…
30
非線形フィルタリングを後段に組み合わせる
1. 通話向けの拡張(抑圧量大/歪み大/演算量小)
BF1
BF-1
時間周波数マスク処理
時間周波数マスク設計
BF-2
BF-L
…
ポストフィルタの利用
[Kaneda+, 1984], [Zelinski, ICASSP-1988], [McCowan+, 2003]
Copyright©2018 NTT corp. All Rights Reserved. 31
♪
目的音
BF出力からの時間周波数マスク設計
雑音マイクロホンアレー
BF単体での雑音抑圧性能は 15 dB 程度
Copyright©2018 NTT corp. All Rights Reserved. 32
♪
BF出力からの時間周波数マスク設計
目的音 雑音マイクロホンアレー
BFを複数組み合わせれば、見かけ上の
ゲイン差が増える
Copyright©2018 NTT corp. All Rights Reserved. 33
BF出力からの時間周波数マスク設計
♪
目的音 雑音マイクロホンアレー
目的音側 BF =
雑音側 BF =
+
♪+
♪ 目的音側 BF – α × 雑音側 BF=
雑音側 BF – β×目的音側 BF=♪
減算係数はどのように決めれば良いだろう?
減算して得られた目的音/雑音のパワースペクト
ルから時間周波数マスクを設計
Copyright©2018 NTT corp. All Rights Reserved. 34
PSD-estimation-in-beamspace
[Hioka, et al., IEEE Trans., 2013]
減算係数を各BFの角度周波数特性から決定
 複数のBFの出力を、各方向毎の音源群の線形和で近似
 減算係数を角度周波数応答行列の一般化逆行列 で求める
非常にシンプルなモデル
なものの、実環境では強
力, 安定かつ高速に動作
※ 安定動作条件は [Niwa+, IWAENC-2016] を参照
Copyright©2018 NTT corp. All Rights Reserved. 35
Demo Video
100 dB の騒音下で目的音を抽出&音声認識
Copyright©2018 NTT corp. All Rights Reserved. 36
音声認識の精度上げたい!
 目的音と雑音の違いは?
 どの程度の雑音抑圧性能が必要?(抑圧量/音の歪み)
 計算リソースはどれくらい使える?
 ハードウェアや設置条件に制限はある?
 事前学習は可能?(環境の変動は大きい?)
 リアルタイム処理は必要?
→ 方向
→ 多少、計算機パワーは使える
→ YES
→ 音声認識向けだから歪ませたくない!
→ 音声の特徴は学習可能
Copyright©2018 NTT corp. All Rights Reserved. 37
時間周波数マスクを利用した空間相関行列の推定
2. 音声認識向けの拡張(抑圧量小/歪み小/演算量大)
…
T-Fマスク推定&
マスク処理
ビームフォーミング
ビームフォーマ設計
[Araki+, ICASSP-2007], [Yoshioka+, ASRU-2015], [Ochiai+, ICML-2017]
空間相関行列の推定
Copyright©2018 NTT corp. All Rights Reserved. 38
空間相関行列の推定 (cont’d)
T-Fマスクを利用した空間相関行列の推定
※ 音声認識では、ML-BF よりも MVDR-BF [Souden+, 2010] が使われている
[Araki+, ICASSP-2007], [Yoshioka+, ASRU-2015], [Ochiai+, ICML-2017]
雑音の空間相関行列
0 1 2 3 4
0
2
4
6
8
0 1 2 3 4
0
2
4
6
8
0 1 2 3 4
0
2
4
6
8
得られるのは観測信号のみで
ノイズの情報を得ることはできない
2. 音声認識向けの拡張(抑圧量小/歪み小/演算量大)
Copyright©2018 NTT corp. All Rights Reserved.
0 1 2 3 4
0
2
4
6
8
0 1 2 3 4
0
2
4
6
8
39
空間相関行列の推定 (cont’d)
T-Fマスクを利用した空間相関行列の推定
※ 音声認識では、ML-BF よりも MVDR-BF [Souden+, 2010] が使われている
[Araki+, ICASSP-2007], [Yoshioka+, ASRU-2015], [Ochiai+, ICML-2017]
雑音の空間相関行列
0 1 2 3 4
0
2
4
6
8
目的音を推定する T-F マスク設計法を利用
2. 音声認識向けの拡張(抑圧量小/歪み小/演算量大)
Copyright©2018 NTT corp. All Rights Reserved. 40
空間相関行列の推定 (cont’d)
T-Fマスクを利用した空間相関行列の推定
※ 音声認識では、ML-BF よりも MVDR-BF [Souden+, 2010] が使われている
[Araki+, ICASSP-2007], [Yoshioka+, ASRU-2015], [Ochiai+, ICML-2017]
雑音の空間相関行列
0 1 2 3 4
0
2
4
6
8
0 1 2 3 4
0
2
4
6
8
0 1 2 3 4
0
2
4
6
8
T-F マスクを ”ひっくり返せば”
雑音の推定値を得ることもできる
2. 音声認識向けの拡張(抑圧量小/歪み小/演算量大)
Copyright©2018 NTT corp. All Rights Reserved. 41
空間相関行列の推定 (cont’d)
T-Fマスクを利用した空間相関行列の推定
※ 音声認識では、ML-BF よりも MVDR-BF [Souden+, 2010] が使われている
雑音の空間相関行列
0 1 2 3 4
0
2
4
6
8
0 1 2 3 4
0
2
4
6
8
0 1 2 3 4
0
2
4
6
8
[Araki+, ICASSP-2007], [Yoshioka+, ASRU-2015], [Ochiai+, ICML-2017]
2. 音声認識向けの拡張(抑圧量小/歪み小/演算量大)
Copyright©2018 NTT corp. All Rights Reserved. 42
1. 方向の違いで分離する
もくじ
2. 位置の違いで分離する
3. 音色の違いで分離する
4. 深層学習を利用した収音技術
5. まとめ
実環境で利用した収音技術の紹介
Copyright©2018 NTT corp. All Rights Reserved. 43
目的音と雑音の「位置」が異なるケース
広い部屋での会議
お誕生日席が遠くて
強調できない!
Copyright©2018 NTT corp. All Rights Reserved. 44
なぜ、遠い音の分離が難しいのか
Target
Noise
𝜃1
Mic. array
𝜃2
マイクロホンからの距離が遠いほど、見込み角が小さくなる
Copyright©2018 NTT corp. All Rights Reserved. 45
分散マイクロホンアレー
Target
Noise
Microphones
複数のマイクロホンを dense に配置するのやめよう
マイクロホンを各音源の近くに配置すればいい!
Copyright©2018 NTT corp. All Rights Reserved. 46
スマホマイクアレー
複数のスマホをマイクロホンアレーとして連携
問題点1:サンプリングの同期が取れない
問題点2:マイクの相対位置が不明
[Ono+, WASPAA-2009]など
Copyright©2018 NTT corp. All Rights Reserved. 47
伝達関数ゲイン推定
伝達ゲイン(各マイクロホンの感度比)の推定問題
[Chiba+, IWAENC-2014], [Kako+, WASPAA-2015]など
PSDの瞬時混合でモデル化
 発話者が一人の時は、
各マイクロホンの音量比で求まる!!
[Kako+, 2015] のアルゴリズム(計算量小/リアルタイム)
1. VADを行い、発話者が一人の区間を検出
2. 各マイクロホンについて、感度比を推定
3. 感度比を並べた行列の疑似逆行列を求め、目的音のPSDを推定
Copyright©2018 NTT corp. All Rights Reserved. 48
Demo Video
これまで紹介した技術を組み合わせた
車内での通話や音声認識のデモ
複数個所に取り付けたマイクロホンアレーを連携させて音声強調
Copyright©2018 NTT corp. All Rights Reserved.
 歓声やPAが雑音源
 野球中継で聞いている音
はパラボラマイクの音
パラボラマイク
場内アナウンス
(PAスピーカ)
応援団
競技音
49
目的音と雑音が離れている場合は?
Copyright©2018 NTT corp. All Rights Reserved. 50
目的音と雑音が離れている場合は?
瞬時混合が成り立たない(距離による伝搬遅延や長残響)
時間周波数
マスク設計
×
Copyright©2018 NTT corp. All Rights Reserved. 51
目的音と雑音が離れている場合は?
瞬時混合が成り立たない(距離による伝搬遅延や長残響)
時間周波数
マスク設計
×
遅延&
残響推定
Copyright©2018 NTT corp. All Rights Reserved. 52
Multi-delay noise model
振幅領域での伝搬遅延/長残響のモデル化
Time-frame
delay
Gain ,
Gain ,1
Gain ,
1
1
……
,
1
,
2
,
Multi-delay noise model
,
Multi-delay
noise model
Multi-delay
noise model
,
1
Time-frequency
mask calc.
𝐺 ,
,
残響 伝搬遅延
Multi-delay noise model
 Multi-delay-block-filter の振幅領域での表現 + 遅延項の拡張
 物理的制約を事前分布におき、残響/遅延パラメータをMAP推定
[小泉+, 音講論(秋), 2017], [Koizumi, et al., EUSIPCO 2018] (to appear)
Copyright©2018 NTT corp. All Rights Reserved. 53
Multi-delay noise model
物理的制約を事前分布においた残響/遅延のMAP推定
 残響:音のパワーは非負&指数的に減衰 → 指数分布
 伝搬遅延:距離と音速から概算できる自然数 → ポアソン分布
[小泉+, 音講論(秋), 2017], [Koizumi, et al., EUSIPCO 2018] (to appear)
概算フレーム遅延
パワーの指数減衰
Copyright©2018 NTT corp. All Rights Reserved. 54
Modeling
…!
ホームベース付近に
パラボラマイク
外野スタンドに
ショットガンマイク
Time [s]
Freq.[kHz]Freq.[kHz]Freq.[kHz]
パラボラマイク(ホームベース)
ショットガンマイク(外野スタンド)
処理音
ストラーイク!
ミット音
Time [s]
野球場での動作デモ
審判の声や捕球音を強調
[小泉+, 音講論(秋), 2017], [Koizumi, et al., EUSIPCO 2018] (to appear)
Copyright©2018 NTT corp. All Rights Reserved. 55
1. 方向の違いで分離する
もくじ
2. 位置の違いで分離する
3. 音色の違いで分離する
4. 深層学習を利用した収音技術
5. まとめ
実環境で利用した収音技術の紹介
Copyright©2018 NTT corp. All Rights Reserved. 56
目的音と雑音の「音色」が異なるケース
マイクアレイ
競技音歓声雑音
雑音が全方位から到来し、目的音の近くにマイク配置できない
目的音と雑音の音色の違いに着目して音源強調できないか
Copyright©2018 NTT corp. All Rights Reserved. 57
音色が異なると観測音はどう変化する?
 サッカーボールのキック音 @ ゴール前
0 2 4 6 8 10
0
2
4
6
8
Time [s]
Frequency[kHz]
キック音 歓声応援&太鼓
Copyright©2018 NTT corp. All Rights Reserved. 58
Demo Video
大歓声の中でキック音を強調
周囲のスピーカーで
競技場の歓声を再現
アルゴリズム
1. 突発音を検出し、その中からキック音を検出
2. キック音だけを強調する時間周波数マスクをルールベース設計
Copyright©2018 NTT corp. All Rights Reserved. 59
もう少し高度化できないものだろうか?
ルールベース処理 = 回帰関数の手作業設計
観測音
時間周波数マスク
1. 突発音検知=閾値判定
2. フィルタ設計
=マッピング
ルール設計やパラメータ調整を自動化したい
⇨ 機械学習ベースの手法へ
Copyright©2018 NTT corp. All Rights Reserved. 60
1. 方向の違いで分離する
もくじ
2. 位置の違いで分離する
3. 音色の違いで分離する
4. 深層学習を利用した収音技術
5. まとめ
Copyright©2018 NTT corp. All Rights Reserved. 61
(D)NN音源強調
DNNを回帰関数として利用
 時間周波数マスク or Log-amplitude-spectrum の推定が主流
…
……
……
……
……
…
……
𝐒
源信号
𝐍
雑音 𝐗
観測信号
𝐒
目的関数
(MMSE)
学習
データ
[Xie, et al., 1994], [Nadarayan, et al., ICASSP-2013]
Copyright©2018 NTT corp. All Rights Reserved.
様々なDNN音源強調の研究
バッチ処理系
リアルタイム処理系
 Deep clustering [Hershey+, 2016]
 Permutation Invariant Training (PIT) [Dong Yu+, 2017]
 雑音の種類が目的音と同じでも分離可能(speech + speechなど)
 線形フィルタのパラメータ推定、音声認識との相性が良い
 空間相関行列推定 [Ochiai+, 2017]
 Independent Deep Learning Matrix Analysis (IDLMA) [北村+, 2018]
 マイク数や利用環境に依存しない基礎研究が多い
 新しい時間周波数マスク
 ブラックボックスな指標を利用した最適化 [Koizumi+, 2017]
 Phase Sensitive Mask (PSM) [Erdogan+, 2015]
 Complex Ideal Ratio Mask (cIRM) [Williamson+, 2016]
 MDCT-Mask [Koizumi+, 2018]
Copyright©2018 NTT corp. All Rights Reserved. 63
DNN音源強調における目的関数の重要性
DNNにどんな「情報」を推定して欲しいのか?
 DNNは、ただの柔軟な回帰関数
 出力の信号的/統計的性質を決めるのは、学習に用いる目的関数
システムの最終目的は「歪みの最小化」なのか?
代表的な目的関数 = 歪み最小化
Phase-Sensitive-Cost [Erdogan+, 2015]
 対話の「満足度」を上げたい
 人が聞いて「良い」と思える音を出力したい
実用上、性能指標が解析的に記述できないことも
Copyright©2018 NTT corp. All Rights Reserved. 64
解析的でない(微分できない)目的関数
主観的な音質評価を最大化したい
ブラックボックス関数は微分不可能 (Backprop.が困難)
???
Copyright©2018 NTT corp. All Rights Reserved. 65
DNN音源強調のブラックボックス最適化
強化学習を応用した最適化
[Koizumi, et al., ICASSP-2017], [Koizumi, et al., IEEE Trans., 2018]
Game
score
Reward func.Action selector
Action
candi-
dates
Action
…
…
…
…
ゲームスコアさえあれば
DNNが学習できる
ビデオゲームや囲碁の学習に成功している!
音源強調に応用できないか?
Copyright©2018 NTT corp. All Rights Reserved. 66
DNN音源強調のブラックボックス最適化
強化学習を応用した最適化
Reward func.Mask generator
T-F
mask
Masking
…
…
…
…
スコアを主観評価と
捉えれば最適化できる?
学習には大量の試行が必要 ⇒ 主観評価そのままの利用は厳しい…
[Koizumi, et al., ICASSP-2017], [Koizumi, et al., IEEE Trans., 2018]
Copyright©2018 NTT corp. All Rights Reserved. 67
DNN音源強調のブラックボックス最適化
強化学習を応用した最適化
Reward func.Mask generator
T-F
mask
Masking
…
…
…
…
人間の主観評価を模擬した定量
評価指標を利用 (e.g. PESQ)
PC上のシミュレーションで完結
[Koizumi, et al., ICASSP-2017], [Koizumi, et al., IEEE Trans., 2018]
Copyright©2018 NTT corp. All Rights Reserved.
聴感評点の例
68
音質の定量指標の例
明瞭度(単語の聞き取りやすさ)の定量指標の例
 PESQ: Perceptual Evaluation of Speech Quality
 音声符号化などで使われる音質の定量評価指標
Input: 目的音と出力音の音声ファイル
Output: 人間の音質評価(MOS)を模擬した値
⇒ PESQを上げ、出力音の音質向上を狙う
 STOI: Short-Time Objective Intelligibility
 音声強調などで使われる明瞭度の定量評価指標
Input: 目的音と出力音の音声ファイル
Output: 人間の単語正解率を模擬した値
⇒ STOIを上げ、出力音の明瞭度向上を狙う
Copyright©2018 NTT corp. All Rights Reserved. 69
DNN音源強調のブラックボックス最適化
DNNを用いて目的関数を定義
サンプリングを用いた勾配の近似計算(policy gradient)
出力音の条件付き分布を
DNNで記述
聴感評点の最大化を
目的関数とする
Copyright©2018 NTT corp. All Rights Reserved.
評価実験
70
定量評価実験
主観評価実験
【確認ポイント】聴感評点を向上させるようにDNNを学習できるか?
【確認ポイント】聴感評点と対応した主観品質が向上するか?
実験1:学習回数と聴感評点の関係を調査
実験2:従来法と聴感評点の値を比較
実験1:PESQを向上させたときの 音質(MOS) を評価
実験2:STOIを向上させたときの 明瞭度(単語了解度) を評価
※時間の都合上、詳細な実装/実験/結果は、以下の文献をご参照ください
Y. Koizumi, et al., “DNN-based Source Enhancement to Increase Objective Sound Quality
Assessment Score,” IEEE Trans. ASLP, 2018.
Copyright©2018 NTT corp. All Rights Reserved.
評価実験 1/2(定量評価実験)
71
音質指標
PESQの向上値
【実験1】:学習回数が進むに従い、聴感評点が向上
明瞭度指標
STOIの向上値
学習回数 学習回数
【実験2】:学習に利用した聴感評点が、従来法より優位に向上
SDR [dB](歪み) PESQ (音質) STOI [%](明瞭度)
PSM [Erdogan,2015] 9.40 2.27 83.3
提案法(PESQ) 9.19 2.37 83.4
提案法(STOI) 9.74 2.20 87.3
 学習が進むにつれ、目標としてい
る聴感評点も向上
 学習に用いた聴感評点は従来法より
も優位に向上
(Input SNR: 0dB, Open test)
 聴感評点を向上させるDNN学習に成功
 従来技術と比べ、聴感評点が優位に向上
Copyright©2018 NTT corp. All Rights Reserved.
評価実験 2/2(主観評価実験)
72
音質の主観評価値
従来法
提案法
(PESQ)
提案法
(STOI)
単語了解度[%]
【実験1 】
出力音の音質を5段階で絶対評価
(PESQが模擬している試験)
良
悪
良
悪
【実験2 】
親密度の低い単語の聞き取り正解率
(STOIが模擬している試験)
従来法
提案法
(PESQ)
提案法
(STOI)
従来法 提案法(PESQ) 従来法 提案法(STOI)
PESQ最大化で
音質が向上
STOI最大化で
明瞭度が向上
 聴感評点に対応する主観品質も、従来法と比べ優位に向上
Copyright©2018 NTT corp. All Rights Reserved.
評価実験 2/2(主観評価実験)
73
音質の主観評価値
従来法
提案法
(PESQ)
提案法
(STOI)
単語了解度[%]
【実験1 】
出力音の音質を5段階で絶対評価
(PESQが模擬している試験)
良
悪
良
悪
【実験2 】
親密度の低い単語の聞き取り正解率
(STOIが模擬している試験)
従来法
提案法
(PESQ)
提案法
(STOI)
従来法 提案法(PESQ)
 聴感評点に対応する主観品質も、従来法と比べ優位に向上
従来法 提案法(STOI)
正解は「タカドノ」
従来法の正答率:31%, 提案法の正答率:81%
従来法は、雑音を削りすぎ、冒頭の子音の明瞭度が
低下しため、「ハカドノ」などと誤回答
Copyright©2018 NTT corp. All Rights Reserved. 74
1. 方向の違いで分離する
もくじ
2. 位置の違いで分離する
3. 音色の違いで分離する
4. 深層学習を利用した収音技術
5. まとめ
実環境で利用した収音技術の紹介
Copyright©2018 NTT corp. All Rights Reserved. 75
まとめ
収音技術の性能要件を明確にする
=「問題を定義する」ことが大切
 目的音と雑音の違いは?
 どの程度の雑音抑圧性能が必要?(抑圧量/音の歪み)
 計算リソースはどれくらい使える?
 ハードウェアや設置条件に制限はある?
 リアルタイム処理は必要?
 事前学習は可能?(環境の変動は大きい?)
さあ、現場に行ってみましょう!
Copyright©2018 NTT corp. All Rights Reserved. 76
Thank you!!

More Related Content

What's hot

環境音の特徴を活用した音響イベント検出・シーン分類
環境音の特徴を活用した音響イベント検出・シーン分類環境音の特徴を活用した音響イベント検出・シーン分類
環境音の特徴を活用した音響イベント検出・シーン分類Keisuke Imoto
 
統計的手法に基づく異常音検知の理論と応用
統計的手法に基づく異常音検知の理論と応用統計的手法に基づく異常音検知の理論と応用
統計的手法に基づく異常音検知の理論と応用Yuma Koizumi
 
音情報処理における特徴表現
音情報処理における特徴表現音情報処理における特徴表現
音情報処理における特徴表現NU_I_TODALAB
 
【DL輪読会】“Gestalt Principles Emerge When Learning Universal Sound Source Separa...
【DL輪読会】“Gestalt Principles Emerge When Learning Universal Sound Source Separa...【DL輪読会】“Gestalt Principles Emerge When Learning Universal Sound Source Separa...
【DL輪読会】“Gestalt Principles Emerge When Learning Universal Sound Source Separa...Deep Learning JP
 
短時間発話を用いた話者照合のための音声加工の効果に関する検討
短時間発話を用いた話者照合のための音声加工の効果に関する検討短時間発話を用いた話者照合のための音声加工の効果に関する検討
短時間発話を用いた話者照合のための音声加工の効果に関する検討Shinnosuke Takamichi
 
DNN音響モデルにおける特徴量抽出の諸相
DNN音響モデルにおける特徴量抽出の諸相DNN音響モデルにおける特徴量抽出の諸相
DNN音響モデルにおける特徴量抽出の諸相Takuya Yoshioka
 
論文紹介 Unsupervised training of neural mask-based beamforming
論文紹介 Unsupervised training of neural  mask-based beamforming論文紹介 Unsupervised training of neural  mask-based beamforming
論文紹介 Unsupervised training of neural mask-based beamformingShinnosuke Takamichi
 
異常音検知に対する深層学習適用事例
異常音検知に対する深層学習適用事例異常音検知に対する深層学習適用事例
異常音検知に対する深層学習適用事例NU_I_TODALAB
 
独立深層学習行列分析に基づく多チャネル音源分離の実験的評価(Experimental evaluation of multichannel audio s...
独立深層学習行列分析に基づく多チャネル音源分離の実験的評価(Experimental evaluation of multichannel audio s...独立深層学習行列分析に基づく多チャネル音源分離の実験的評価(Experimental evaluation of multichannel audio s...
独立深層学習行列分析に基づく多チャネル音源分離の実験的評価(Experimental evaluation of multichannel audio s...Daichi Kitamura
 
深層学習と音響信号処理
深層学習と音響信号処理深層学習と音響信号処理
深層学習と音響信号処理Yuma Koizumi
 
Neural text-to-speech and voice conversion
Neural text-to-speech and voice conversionNeural text-to-speech and voice conversion
Neural text-to-speech and voice conversionYuki Saito
 
独立低ランク行列分析に基づく音源分離とその発展(Audio source separation based on independent low-rank...
独立低ランク行列分析に基づく音源分離とその発展(Audio source separation based on independent low-rank...独立低ランク行列分析に基づく音源分離とその発展(Audio source separation based on independent low-rank...
独立低ランク行列分析に基づく音源分離とその発展(Audio source separation based on independent low-rank...Daichi Kitamura
 
イベント継続長を明示的に制御したBLSTM-HSMMハイブリッドモデルによる多重音響イベント検出
イベント継続長を明示的に制御したBLSTM-HSMMハイブリッドモデルによる多重音響イベント検出イベント継続長を明示的に制御したBLSTM-HSMMハイブリッドモデルによる多重音響イベント検出
イベント継続長を明示的に制御したBLSTM-HSMMハイブリッドモデルによる多重音響イベント検出Tomoki Hayashi
 
時間領域低ランクスペクトログラム近似法に基づくマスキング音声の欠損成分復元
時間領域低ランクスペクトログラム近似法に基づくマスキング音声の欠損成分復元時間領域低ランクスペクトログラム近似法に基づくマスキング音声の欠損成分復元
時間領域低ランクスペクトログラム近似法に基づくマスキング音声の欠損成分復元NU_I_TODALAB
 
調波打撃音分離の時間周波数マスクを用いた線形ブラインド音源分離
調波打撃音分離の時間周波数マスクを用いた線形ブラインド音源分離調波打撃音分離の時間周波数マスクを用いた線形ブラインド音源分離
調波打撃音分離の時間周波数マスクを用いた線形ブラインド音源分離Kitamura Laboratory
 
音響信号に対する異常音検知技術と応用
音響信号に対する異常音検知技術と応用音響信号に対する異常音検知技術と応用
音響信号に対する異常音検知技術と応用Yuma Koizumi
 
深層パーミュテーション解決法の基礎的検討
深層パーミュテーション解決法の基礎的検討深層パーミュテーション解決法の基礎的検討
深層パーミュテーション解決法の基礎的検討Kitamura Laboratory
 
JTubeSpeech: 音声認識と話者照合のために YouTube から構築される日本語音声コーパス
JTubeSpeech:  音声認識と話者照合のために YouTube から構築される日本語音声コーパスJTubeSpeech:  音声認識と話者照合のために YouTube から構築される日本語音声コーパス
JTubeSpeech: 音声認識と話者照合のために YouTube から構築される日本語音声コーパスShinnosuke Takamichi
 

What's hot (20)

環境音の特徴を活用した音響イベント検出・シーン分類
環境音の特徴を活用した音響イベント検出・シーン分類環境音の特徴を活用した音響イベント検出・シーン分類
環境音の特徴を活用した音響イベント検出・シーン分類
 
統計的手法に基づく異常音検知の理論と応用
統計的手法に基づく異常音検知の理論と応用統計的手法に基づく異常音検知の理論と応用
統計的手法に基づく異常音検知の理論と応用
 
音情報処理における特徴表現
音情報処理における特徴表現音情報処理における特徴表現
音情報処理における特徴表現
 
Kameoka2017 ieice03
Kameoka2017 ieice03Kameoka2017 ieice03
Kameoka2017 ieice03
 
【DL輪読会】“Gestalt Principles Emerge When Learning Universal Sound Source Separa...
【DL輪読会】“Gestalt Principles Emerge When Learning Universal Sound Source Separa...【DL輪読会】“Gestalt Principles Emerge When Learning Universal Sound Source Separa...
【DL輪読会】“Gestalt Principles Emerge When Learning Universal Sound Source Separa...
 
短時間発話を用いた話者照合のための音声加工の効果に関する検討
短時間発話を用いた話者照合のための音声加工の効果に関する検討短時間発話を用いた話者照合のための音声加工の効果に関する検討
短時間発話を用いた話者照合のための音声加工の効果に関する検討
 
DNN音響モデルにおける特徴量抽出の諸相
DNN音響モデルにおける特徴量抽出の諸相DNN音響モデルにおける特徴量抽出の諸相
DNN音響モデルにおける特徴量抽出の諸相
 
論文紹介 Unsupervised training of neural mask-based beamforming
論文紹介 Unsupervised training of neural  mask-based beamforming論文紹介 Unsupervised training of neural  mask-based beamforming
論文紹介 Unsupervised training of neural mask-based beamforming
 
異常音検知に対する深層学習適用事例
異常音検知に対する深層学習適用事例異常音検知に対する深層学習適用事例
異常音検知に対する深層学習適用事例
 
独立深層学習行列分析に基づく多チャネル音源分離の実験的評価(Experimental evaluation of multichannel audio s...
独立深層学習行列分析に基づく多チャネル音源分離の実験的評価(Experimental evaluation of multichannel audio s...独立深層学習行列分析に基づく多チャネル音源分離の実験的評価(Experimental evaluation of multichannel audio s...
独立深層学習行列分析に基づく多チャネル音源分離の実験的評価(Experimental evaluation of multichannel audio s...
 
深層学習と音響信号処理
深層学習と音響信号処理深層学習と音響信号処理
深層学習と音響信号処理
 
Neural text-to-speech and voice conversion
Neural text-to-speech and voice conversionNeural text-to-speech and voice conversion
Neural text-to-speech and voice conversion
 
独立低ランク行列分析に基づく音源分離とその発展(Audio source separation based on independent low-rank...
独立低ランク行列分析に基づく音源分離とその発展(Audio source separation based on independent low-rank...独立低ランク行列分析に基づく音源分離とその発展(Audio source separation based on independent low-rank...
独立低ランク行列分析に基づく音源分離とその発展(Audio source separation based on independent low-rank...
 
イベント継続長を明示的に制御したBLSTM-HSMMハイブリッドモデルによる多重音響イベント検出
イベント継続長を明示的に制御したBLSTM-HSMMハイブリッドモデルによる多重音響イベント検出イベント継続長を明示的に制御したBLSTM-HSMMハイブリッドモデルによる多重音響イベント検出
イベント継続長を明示的に制御したBLSTM-HSMMハイブリッドモデルによる多重音響イベント検出
 
時間領域低ランクスペクトログラム近似法に基づくマスキング音声の欠損成分復元
時間領域低ランクスペクトログラム近似法に基づくマスキング音声の欠損成分復元時間領域低ランクスペクトログラム近似法に基づくマスキング音声の欠損成分復元
時間領域低ランクスペクトログラム近似法に基づくマスキング音声の欠損成分復元
 
調波打撃音分離の時間周波数マスクを用いた線形ブラインド音源分離
調波打撃音分離の時間周波数マスクを用いた線形ブラインド音源分離調波打撃音分離の時間周波数マスクを用いた線形ブラインド音源分離
調波打撃音分離の時間周波数マスクを用いた線形ブラインド音源分離
 
音響信号に対する異常音検知技術と応用
音響信号に対する異常音検知技術と応用音響信号に対する異常音検知技術と応用
音響信号に対する異常音検知技術と応用
 
ILRMA 20170227 danwakai
ILRMA 20170227 danwakaiILRMA 20170227 danwakai
ILRMA 20170227 danwakai
 
深層パーミュテーション解決法の基礎的検討
深層パーミュテーション解決法の基礎的検討深層パーミュテーション解決法の基礎的検討
深層パーミュテーション解決法の基礎的検討
 
JTubeSpeech: 音声認識と話者照合のために YouTube から構築される日本語音声コーパス
JTubeSpeech:  音声認識と話者照合のために YouTube から構築される日本語音声コーパスJTubeSpeech:  音声認識と話者照合のために YouTube から構築される日本語音声コーパス
JTubeSpeech: 音声認識と話者照合のために YouTube から構築される日本語音声コーパス
 

Similar to 実環境音響信号処理における収音技術

ICASSP2019論文読み会_PHASEBOOK
ICASSP2019論文読み会_PHASEBOOKICASSP2019論文読み会_PHASEBOOK
ICASSP2019論文読み会_PHASEBOOKAtsushi_Ando
 
ICASSP2020音声&音響読み会Mellotron
ICASSP2020音声&音響読み会MellotronICASSP2020音声&音響読み会Mellotron
ICASSP2020音声&音響読み会MellotronKentaro Tachibana
 
GTC Japan 2018 Inception Award 登壇資料( LiLz Inc. )
GTC Japan 2018 Inception Award 登壇資料( LiLz Inc. )GTC Japan 2018 Inception Award 登壇資料( LiLz Inc. )
GTC Japan 2018 Inception Award 登壇資料( LiLz Inc. )LiLz Inc.
 
AnnoTone: 高周波音の映像収録時 埋め込みによる編集支援
AnnoTone: 高周波音の映像収録時埋め込みによる編集支援AnnoTone: 高周波音の映像収録時埋め込みによる編集支援
AnnoTone: 高周波音の映像収録時 埋め込みによる編集支援Ryohei Suzuki
 
音声の声質を変換する技術とその応用
音声の声質を変換する技術とその応用音声の声質を変換する技術とその応用
音声の声質を変換する技術とその応用NU_I_TODALAB
 
RPA製品とASTERIAで実現した業務効率化事例
RPA製品とASTERIAで実現した業務効率化事例RPA製品とASTERIAで実現した業務効率化事例
RPA製品とASTERIAで実現した業務効率化事例ASTERIA User Group
 
スマートライフのパートナーを目指すドコモr&d(予告編)
スマートライフのパートナーを目指すドコモr&d(予告編)スマートライフのパートナーを目指すドコモr&d(予告編)
スマートライフのパートナーを目指すドコモr&d(予告編)Osaka University
 
NTTのR&Dを支えるNTTコミュニケーションズのIT基盤サービス
NTTのR&Dを支えるNTTコミュニケーションズのIT基盤サービスNTTのR&Dを支えるNTTコミュニケーションズのIT基盤サービス
NTTのR&Dを支えるNTTコミュニケーションズのIT基盤サービスNTT Software Innovation Center
 
エヌビディアのディープラーニング戦略
エヌビディアのディープラーニング戦略エヌビディアのディープラーニング戦略
エヌビディアのディープラーニング戦略NVIDIA Japan
 
日本語における自然言語解析とその応用 〜COTOHA VA & API〜
日本語における自然言語解析とその応用 〜COTOHA VA & API〜日本語における自然言語解析とその応用 〜COTOHA VA & API〜
日本語における自然言語解析とその応用 〜COTOHA VA & API〜ネクストスケープ
 
AI for Media 2018 Update セミナー: 株式会社ユニゾンシステム: スピーチ AI を活用した文字起こしプラットホームの活用
AI for Media 2018 Update セミナー: 株式会社ユニゾンシステム: スピーチ AI を活用した文字起こしプラットホームの活用AI for Media 2018 Update セミナー: 株式会社ユニゾンシステム: スピーチ AI を活用した文字起こしプラットホームの活用
AI for Media 2018 Update セミナー: 株式会社ユニゾンシステム: スピーチ AI を活用した文字起こしプラットホームの活用Daiyu Hatakeyama
 
最新事例から学ぶ! リモートワークを成功させる最適ソリューションとは?
最新事例から学ぶ! リモートワークを成功させる最適ソリューションとは?最新事例から学ぶ! リモートワークを成功させる最適ソリューションとは?
最新事例から学ぶ! リモートワークを成功させる最適ソリューションとは?aslead
 
軽量開発プロセスにおけるTracを用いたメトリクスの収集・蓄積・利用
軽量開発プロセスにおけるTracを用いたメトリクスの収集・蓄積・利用軽量開発プロセスにおけるTracを用いたメトリクスの収集・蓄積・利用
軽量開発プロセスにおけるTracを用いたメトリクスの収集・蓄積・利用Naoki Ohsugi
 
ソラコム×オプティム共催セミナー 「Ai ファースト」のビジネス立ち上げの秘訣
ソラコム×オプティム共催セミナー 「Ai ファースト」のビジネス立ち上げの秘訣ソラコム×オプティム共催セミナー 「Ai ファースト」のビジネス立ち上げの秘訣
ソラコム×オプティム共催セミナー 「Ai ファースト」のビジネス立ち上げの秘訣株式会社オプティム
 
ION Tokyo: Keynote Presentation -- "Can we go back to the original? A Return ...
ION Tokyo: Keynote Presentation -- "Can we go back to the original? A Return ...ION Tokyo: Keynote Presentation -- "Can we go back to the original? A Return ...
ION Tokyo: Keynote Presentation -- "Can we go back to the original? A Return ...Deploy360 Programme (Internet Society)
 
東工大 工学院 情報通信系 大学院説明会2023
東工大 工学院 情報通信系 大学院説明会2023東工大 工学院 情報通信系 大学院説明会2023
東工大 工学院 情報通信系 大学院説明会2023Tokyo Institute of Technology
 
特別チュートリアル「パターン認識とメディア理解のフロンティア」 ディスカッションペーパー
特別チュートリアル「パターン認識とメディア理解のフロンティア」 ディスカッションペーパー特別チュートリアル「パターン認識とメディア理解のフロンティア」 ディスカッションペーパー
特別チュートリアル「パターン認識とメディア理解のフロンティア」 ディスカッションペーパーOsaka University
 
我々はどこへ行くのか: UXの誤解の先にある未来
我々はどこへ行くのか: UXの誤解の先にある未来我々はどこへ行くのか: UXの誤解の先にある未来
我々はどこへ行くのか: UXの誤解の先にある未来Masaya Ando
 
ウェアラブル時代到来! ~先行企業の活用事例と今後の展望~
ウェアラブル時代到来! ~先行企業の活用事例と今後の展望~ウェアラブル時代到来! ~先行企業の活用事例と今後の展望~
ウェアラブル時代到来! ~先行企業の活用事例と今後の展望~Takashi Ohmoto
 

Similar to 実環境音響信号処理における収音技術 (20)

ICASSP2019論文読み会_PHASEBOOK
ICASSP2019論文読み会_PHASEBOOKICASSP2019論文読み会_PHASEBOOK
ICASSP2019論文読み会_PHASEBOOK
 
ICASSP2020音声&音響読み会Mellotron
ICASSP2020音声&音響読み会MellotronICASSP2020音声&音響読み会Mellotron
ICASSP2020音声&音響読み会Mellotron
 
GTC Japan 2018 Inception Award 登壇資料( LiLz Inc. )
GTC Japan 2018 Inception Award 登壇資料( LiLz Inc. )GTC Japan 2018 Inception Award 登壇資料( LiLz Inc. )
GTC Japan 2018 Inception Award 登壇資料( LiLz Inc. )
 
AnnoTone: 高周波音の映像収録時 埋め込みによる編集支援
AnnoTone: 高周波音の映像収録時埋め込みによる編集支援AnnoTone: 高周波音の映像収録時埋め込みによる編集支援
AnnoTone: 高周波音の映像収録時 埋め込みによる編集支援
 
音声の声質を変換する技術とその応用
音声の声質を変換する技術とその応用音声の声質を変換する技術とその応用
音声の声質を変換する技術とその応用
 
RPA製品とASTERIAで実現した業務効率化事例
RPA製品とASTERIAで実現した業務効率化事例RPA製品とASTERIAで実現した業務効率化事例
RPA製品とASTERIAで実現した業務効率化事例
 
スマートライフのパートナーを目指すドコモr&d(予告編)
スマートライフのパートナーを目指すドコモr&d(予告編)スマートライフのパートナーを目指すドコモr&d(予告編)
スマートライフのパートナーを目指すドコモr&d(予告編)
 
NTTのR&Dを支えるNTTコミュニケーションズのIT基盤サービス
NTTのR&Dを支えるNTTコミュニケーションズのIT基盤サービスNTTのR&Dを支えるNTTコミュニケーションズのIT基盤サービス
NTTのR&Dを支えるNTTコミュニケーションズのIT基盤サービス
 
エヌビディアのディープラーニング戦略
エヌビディアのディープラーニング戦略エヌビディアのディープラーニング戦略
エヌビディアのディープラーニング戦略
 
日本語における自然言語解析とその応用 〜COTOHA VA & API〜
日本語における自然言語解析とその応用 〜COTOHA VA & API〜日本語における自然言語解析とその応用 〜COTOHA VA & API〜
日本語における自然言語解析とその応用 〜COTOHA VA & API〜
 
AI for Media 2018 Update セミナー: 株式会社ユニゾンシステム: スピーチ AI を活用した文字起こしプラットホームの活用
AI for Media 2018 Update セミナー: 株式会社ユニゾンシステム: スピーチ AI を活用した文字起こしプラットホームの活用AI for Media 2018 Update セミナー: 株式会社ユニゾンシステム: スピーチ AI を活用した文字起こしプラットホームの活用
AI for Media 2018 Update セミナー: 株式会社ユニゾンシステム: スピーチ AI を活用した文字起こしプラットホームの活用
 
最新事例から学ぶ! リモートワークを成功させる最適ソリューションとは?
最新事例から学ぶ! リモートワークを成功させる最適ソリューションとは?最新事例から学ぶ! リモートワークを成功させる最適ソリューションとは?
最新事例から学ぶ! リモートワークを成功させる最適ソリューションとは?
 
軽量開発プロセスにおけるTracを用いたメトリクスの収集・蓄積・利用
軽量開発プロセスにおけるTracを用いたメトリクスの収集・蓄積・利用軽量開発プロセスにおけるTracを用いたメトリクスの収集・蓄積・利用
軽量開発プロセスにおけるTracを用いたメトリクスの収集・蓄積・利用
 
Extreme Management Center を活用したネットワークの見える化
Extreme Management Center を活用したネットワークの見える化Extreme Management Center を活用したネットワークの見える化
Extreme Management Center を活用したネットワークの見える化
 
ソラコム×オプティム共催セミナー 「Ai ファースト」のビジネス立ち上げの秘訣
ソラコム×オプティム共催セミナー 「Ai ファースト」のビジネス立ち上げの秘訣ソラコム×オプティム共催セミナー 「Ai ファースト」のビジネス立ち上げの秘訣
ソラコム×オプティム共催セミナー 「Ai ファースト」のビジネス立ち上げの秘訣
 
ION Tokyo: Keynote Presentation -- "Can we go back to the original? A Return ...
ION Tokyo: Keynote Presentation -- "Can we go back to the original? A Return ...ION Tokyo: Keynote Presentation -- "Can we go back to the original? A Return ...
ION Tokyo: Keynote Presentation -- "Can we go back to the original? A Return ...
 
東工大 工学院 情報通信系 大学院説明会2023
東工大 工学院 情報通信系 大学院説明会2023東工大 工学院 情報通信系 大学院説明会2023
東工大 工学院 情報通信系 大学院説明会2023
 
特別チュートリアル「パターン認識とメディア理解のフロンティア」 ディスカッションペーパー
特別チュートリアル「パターン認識とメディア理解のフロンティア」 ディスカッションペーパー特別チュートリアル「パターン認識とメディア理解のフロンティア」 ディスカッションペーパー
特別チュートリアル「パターン認識とメディア理解のフロンティア」 ディスカッションペーパー
 
我々はどこへ行くのか: UXの誤解の先にある未来
我々はどこへ行くのか: UXの誤解の先にある未来我々はどこへ行くのか: UXの誤解の先にある未来
我々はどこへ行くのか: UXの誤解の先にある未来
 
ウェアラブル時代到来! ~先行企業の活用事例と今後の展望~
ウェアラブル時代到来! ~先行企業の活用事例と今後の展望~ウェアラブル時代到来! ~先行企業の活用事例と今後の展望~
ウェアラブル時代到来! ~先行企業の活用事例と今後の展望~
 

実環境音響信号処理における収音技術

  • 1. Copyright©2018 NTT corp. All Rights Reserved. 2018/06/17 @ 音学シンポジウム2018 1 NTTメディアインテリジェンス研究所 小泉 悠馬 【招待講演】 実環境音響信号処理における収音技術
  • 2. Copyright©2018 NTT corp. All Rights Reserved. 2 皆さん初めまして! SIGMUSの皆さん お久しぶりです!
  • 3. Copyright©2018 NTT corp. All Rights Reserved. 3 About me  小泉 悠馬(こいずみ ゆうま)  専門:音楽情報処理(修士まで) ⇒ 電気音響(会社から) 略歴  2014年: 法政大学 情報科学研究科 修了  2014年: NTTメディアインテリジェンス研究所 入所  2017年: 博士(工学) (電気通信大学) 研究内容  音響信号処理 × 機械学習の基礎研究と実用化  収音技術:うるさい中から欲しい音だけ取り出したい!  異常検知:周囲の異変を音から検知したい! 指導教官 伊藤 克亘教授 指導教官 羽田 陽一教授
  • 4. Copyright©2018 NTT corp. All Rights Reserved. 4 Special thanks 丹羽 健太博士 小林 和則博士日岡 祐輔准教授 川瀬 智子博士齊藤 翔一郎氏 羽田 陽一教授 本日の講演は、下記の方々の研究成果も紹介します 伊藤 弘章氏 原田 登博士
  • 5. Copyright©2018 NTT corp. All Rights Reserved. 5 実環境での音情報処理サービス 計算機/通信の発達で音情報処理技術はどんどん身近に 音声認識 エンターテイメント 異常音検知 音声通信 5
  • 6. Copyright©2018 NTT corp. All Rights Reserved. 6 実環境における雑音の影響 雑音が音情報処理性能を低下させる 雑音が大きく 音声認識できない 競技音が埋もれ 臨場感が伝わらない 音声認識 スポーツ中継
  • 7. Copyright©2018 NTT corp. All Rights Reserved. 7 今日の話 実環境で 欲しい音だけ収録するには どうすればいいのか?
  • 8. Copyright©2018 NTT corp. All Rights Reserved. 8 収音技術 観測音から目的音を抽出する信号処理  音源強調、音源分離、雑音抑圧など、様々な小分類がある  本講演では以降、「音源強調」で統一する 観測音 目的音 雑音 ※ 説明の簡単のために、周波数領 域の瞬時混合を仮定し伝達特性を 省略 目的音 雑音 … 観測音 収音技術 出力音 マイク
  • 9. Copyright©2018 NTT corp. All Rights Reserved. 9 フィルタリングによる音源強調(一般形) 線形フィルタリング(e.g. ビームフォーミング, ICA, IVA) 非線形フィルタリング(e.g. 時間周波数マスク, NMF) … …  周波数領域の時不変な複素線形結合(例外あり)  周波数領域の時変な(複素/実数)係数の乗算 フィルタ推定
  • 10. Copyright©2018 NTT corp. All Rights Reserved. 10 線形フィルタリング 音源方向によって、マイクへの到達時間/ゲイン差が生じる 正面から到来する音は、 ほぼ時間差なく到達
  • 11. Copyright©2018 NTT corp. All Rights Reserved. 11 正面から以外から到来する音は、 時間差をもって到達 線形フィルタリング 音源方向によって、マイクへの到達時間/ゲイン差が生じる
  • 12. Copyright©2018 NTT corp. All Rights Reserved. 12 複数の方向からの音が混ざると、 複雑な波形となる 線形フィルタリング 音源方向によって、マイクへの到達時間/ゲイン差が生じる
  • 13. Copyright©2018 NTT corp. All Rights Reserved. 13 到達時間/ゲイン差を利用し、所望の音を強調/抑圧 例)正面の音は同じタイミングで到達するので、 全マイクの音を加算すると強められる 線形フィルタリング
  • 14. Copyright©2018 NTT corp. All Rights Reserved. 14 目的音=人間の声 非線形フィルタリング 時間周波数マスク 0 ≤ 𝐺𝑡,𝑓 ≤ 1 を乗じる音源強調法
  • 15. Copyright©2018 NTT corp. All Rights Reserved. 15 雑音=サックス 非線形フィルタリング 時間周波数マスク 0 ≤ 𝐺𝑡,𝑓 ≤ 1 を乗じる音源強調法
  • 16. Copyright©2018 NTT corp. All Rights Reserved. 16 混ざってしまうと、どれが目的音かわからない ?? ?? 非線形フィルタリング 時間周波数マスク 0 ≤ 𝐺𝑡,𝑓 ≤ 1 を乗じる音源強調法
  • 17. Copyright©2018 NTT corp. All Rights Reserved. 17 例:ウィナーフィルタ 非線形フィルタリング 時間周波数マスク 0 ≤ 𝐺𝑡,𝑓 ≤ 1 を乗じる音源強調法
  • 18. Copyright©2018 NTT corp. All Rights Reserved. 18 例:ウィナーフィルタ 非線形フィルタリング 時間周波数マスク 0 ≤ 𝐺𝑡,𝑓 ≤ 1 を乗じる音源強調法
  • 19. Copyright©2018 NTT corp. All Rights Reserved. 19 残念ながら(私の知る限り) 万能なフィルタ設計法は存在しない どうフィルタを設計すれば良い?
  • 20. Copyright©2018 NTT corp. All Rights Reserved. 20 手法 着眼点 受音構造制約 フレーム処理 抑圧量/目的音歪 計算コスト Spectrum subtraction [Boll+, 1979]など 信号統計量/時間周 波数構造 なし 可能 大/大 軽量 Beamforming 音源方向 マルチチャネル (dense) 可能 小/小 軽量 音響エコーキャンセラー 音源位置(座標) 雑音源が既知 可能 線形:中/小 非線形:大/大 逐次更新 分散マイクロホンアレー [Arabi, 2003][Ono+, 2009] 音源位置(座標) マルチチャネル (distributed) 可能 線形:中/小 非線形:大/大 手法依存 球面調和関数展開 [Haneda+, 2014] 音源距離 中空球面アレー 可能 大/高域大 軽量 NMF [Smaragdis+, 2003] 信号統計量/時間周 波数構造 なし 不可 中/中 反復更新 FDICA[Smaragdis+, 1998] /IVA[Hiroe+, 2006] 信号統計量/音源方 向 マルチチャネル (優決定) 不可 中/小 反復更新 MNMF [Sawada+, 2013]など 音源方向/信号統計 量/時間周波数構造 マルチチャネル (dense) 不可 大/小 反復更新 ILRMA [Kitamura+, 2016]など 音源方向/信号統計 量/時間周波数構造 マルチチャネル (優決定) 不可 大/小 反復更新 深層学習/機械学習ベース [Erdogan+, 2015]など 信号統計量/時間周 波数構造 学習時と一致す る必要 可能 大/中 要事前学習 代表的な音源強調(※主観的なまとめ)
  • 21. Copyright©2018 NTT corp. All Rights Reserved. 21 実環境では問題の事前知識は「ある」場合が多数 問題によって【求められる/求められない】性能は異なる 収音技術の性能要件を明確にする =「問題を定義する」ことが大切  目的音と雑音の違いは?  どの程度の雑音抑圧性能が必要?(抑圧量/音の歪み)  計算リソースはどれくらい使える?  ハードウェアや設置条件に制限はある?  リアルタイム処理は必要?  事前学習は可能?(環境の変動は大きい?) 技術開発チェックリスト
  • 22. Copyright©2018 NTT corp. All Rights Reserved. 22 1. 方向の違いで分離する もくじ 2. 位置の違いで分離する 3. 音色の違いで分離する 4. 深層学習を利用した収音技術 実環境で利用した収音技術の紹介 5. まとめ
  • 23. Copyright©2018 NTT corp. All Rights Reserved. 23 1. 方向の違いで分離する もくじ 2. 位置の違いで分離する 3. 音色の違いで分離する 4. 深層学習を利用した収音技術 5. まとめ 実環境で利用した収音技術の紹介
  • 24. Copyright©2018 NTT corp. All Rights Reserved. 24 目的音と雑音の「方向」が異なる例 対話ロボット 話しかける人は たいてい正面に立つ
  • 25. Copyright©2018 NTT corp. All Rights Reserved. 25 目的音と雑音の「方向」が異なる例 雑音は様々な方向から やってくる 対話ロボット
  • 26. Copyright©2018 NTT corp. All Rights Reserved. 26 到達時間/ゲイン差を利用し、所望の音を強調/抑圧 ビームフォーミング
  • 27. Copyright©2018 NTT corp. All Rights Reserved. 27 ビームフォーマ設計の例(最尤BF)  観測信号のモデル化 目的音から各マイクまでの伝達特性ベクトル  雑音がガウス雑音と仮定すると、尤度関数は 雑音の空間相関行列  この尤度関数を最大化する出力音と BF は以下で求められる : 雑音の方向に死角を形成 : 目的音の方向に山を形成  や は未知のため、ステアリングベクトルを代用 ⇨ 音源強調性能が低下
  • 28. Copyright©2018 NTT corp. All Rights Reserved. 28 ビームフォーミングの精度向上のために 音声認識の精度上げたい! うるさい中でも通話をしたい!  音声は歪ませたくない  計算量は多少使える  「音声」だけ強調できればいい  とにかく雑音を消したい  計算量は数百MIPS程度  どんな音かわからない
  • 29. Copyright©2018 NTT corp. All Rights Reserved. 29 うるさい中でも通話をしたい!  目的音と雑音の違いは?  どの程度の雑音抑圧性能が必要?(抑圧量/音の歪み)  計算リソースはどれくらい使える?  ハードウェアや設置条件に制限はある?  事前学習は可能?(環境の変動は大きい?)  リアルタイム処理は必要? → 方向 → YES → 通話向けだからとにかく雑音を消したい → No → DSPチップに乗る程度 → コスト面から、マイクは数個のみ
  • 30. Copyright©2018 NTT corp. All Rights Reserved. … 30 非線形フィルタリングを後段に組み合わせる 1. 通話向けの拡張(抑圧量大/歪み大/演算量小) BF1 BF-1 時間周波数マスク処理 時間周波数マスク設計 BF-2 BF-L … ポストフィルタの利用 [Kaneda+, 1984], [Zelinski, ICASSP-1988], [McCowan+, 2003]
  • 31. Copyright©2018 NTT corp. All Rights Reserved. 31 ♪ 目的音 BF出力からの時間周波数マスク設計 雑音マイクロホンアレー BF単体での雑音抑圧性能は 15 dB 程度
  • 32. Copyright©2018 NTT corp. All Rights Reserved. 32 ♪ BF出力からの時間周波数マスク設計 目的音 雑音マイクロホンアレー BFを複数組み合わせれば、見かけ上の ゲイン差が増える
  • 33. Copyright©2018 NTT corp. All Rights Reserved. 33 BF出力からの時間周波数マスク設計 ♪ 目的音 雑音マイクロホンアレー 目的音側 BF = 雑音側 BF = + ♪+ ♪ 目的音側 BF – α × 雑音側 BF= 雑音側 BF – β×目的音側 BF=♪ 減算係数はどのように決めれば良いだろう? 減算して得られた目的音/雑音のパワースペクト ルから時間周波数マスクを設計
  • 34. Copyright©2018 NTT corp. All Rights Reserved. 34 PSD-estimation-in-beamspace [Hioka, et al., IEEE Trans., 2013] 減算係数を各BFの角度周波数特性から決定  複数のBFの出力を、各方向毎の音源群の線形和で近似  減算係数を角度周波数応答行列の一般化逆行列 で求める 非常にシンプルなモデル なものの、実環境では強 力, 安定かつ高速に動作 ※ 安定動作条件は [Niwa+, IWAENC-2016] を参照
  • 35. Copyright©2018 NTT corp. All Rights Reserved. 35 Demo Video 100 dB の騒音下で目的音を抽出&音声認識
  • 36. Copyright©2018 NTT corp. All Rights Reserved. 36 音声認識の精度上げたい!  目的音と雑音の違いは?  どの程度の雑音抑圧性能が必要?(抑圧量/音の歪み)  計算リソースはどれくらい使える?  ハードウェアや設置条件に制限はある?  事前学習は可能?(環境の変動は大きい?)  リアルタイム処理は必要? → 方向 → 多少、計算機パワーは使える → YES → 音声認識向けだから歪ませたくない! → 音声の特徴は学習可能
  • 37. Copyright©2018 NTT corp. All Rights Reserved. 37 時間周波数マスクを利用した空間相関行列の推定 2. 音声認識向けの拡張(抑圧量小/歪み小/演算量大) … T-Fマスク推定& マスク処理 ビームフォーミング ビームフォーマ設計 [Araki+, ICASSP-2007], [Yoshioka+, ASRU-2015], [Ochiai+, ICML-2017] 空間相関行列の推定
  • 38. Copyright©2018 NTT corp. All Rights Reserved. 38 空間相関行列の推定 (cont’d) T-Fマスクを利用した空間相関行列の推定 ※ 音声認識では、ML-BF よりも MVDR-BF [Souden+, 2010] が使われている [Araki+, ICASSP-2007], [Yoshioka+, ASRU-2015], [Ochiai+, ICML-2017] 雑音の空間相関行列 0 1 2 3 4 0 2 4 6 8 0 1 2 3 4 0 2 4 6 8 0 1 2 3 4 0 2 4 6 8 得られるのは観測信号のみで ノイズの情報を得ることはできない 2. 音声認識向けの拡張(抑圧量小/歪み小/演算量大)
  • 39. Copyright©2018 NTT corp. All Rights Reserved. 0 1 2 3 4 0 2 4 6 8 0 1 2 3 4 0 2 4 6 8 39 空間相関行列の推定 (cont’d) T-Fマスクを利用した空間相関行列の推定 ※ 音声認識では、ML-BF よりも MVDR-BF [Souden+, 2010] が使われている [Araki+, ICASSP-2007], [Yoshioka+, ASRU-2015], [Ochiai+, ICML-2017] 雑音の空間相関行列 0 1 2 3 4 0 2 4 6 8 目的音を推定する T-F マスク設計法を利用 2. 音声認識向けの拡張(抑圧量小/歪み小/演算量大)
  • 40. Copyright©2018 NTT corp. All Rights Reserved. 40 空間相関行列の推定 (cont’d) T-Fマスクを利用した空間相関行列の推定 ※ 音声認識では、ML-BF よりも MVDR-BF [Souden+, 2010] が使われている [Araki+, ICASSP-2007], [Yoshioka+, ASRU-2015], [Ochiai+, ICML-2017] 雑音の空間相関行列 0 1 2 3 4 0 2 4 6 8 0 1 2 3 4 0 2 4 6 8 0 1 2 3 4 0 2 4 6 8 T-F マスクを ”ひっくり返せば” 雑音の推定値を得ることもできる 2. 音声認識向けの拡張(抑圧量小/歪み小/演算量大)
  • 41. Copyright©2018 NTT corp. All Rights Reserved. 41 空間相関行列の推定 (cont’d) T-Fマスクを利用した空間相関行列の推定 ※ 音声認識では、ML-BF よりも MVDR-BF [Souden+, 2010] が使われている 雑音の空間相関行列 0 1 2 3 4 0 2 4 6 8 0 1 2 3 4 0 2 4 6 8 0 1 2 3 4 0 2 4 6 8 [Araki+, ICASSP-2007], [Yoshioka+, ASRU-2015], [Ochiai+, ICML-2017] 2. 音声認識向けの拡張(抑圧量小/歪み小/演算量大)
  • 42. Copyright©2018 NTT corp. All Rights Reserved. 42 1. 方向の違いで分離する もくじ 2. 位置の違いで分離する 3. 音色の違いで分離する 4. 深層学習を利用した収音技術 5. まとめ 実環境で利用した収音技術の紹介
  • 43. Copyright©2018 NTT corp. All Rights Reserved. 43 目的音と雑音の「位置」が異なるケース 広い部屋での会議 お誕生日席が遠くて 強調できない!
  • 44. Copyright©2018 NTT corp. All Rights Reserved. 44 なぜ、遠い音の分離が難しいのか Target Noise 𝜃1 Mic. array 𝜃2 マイクロホンからの距離が遠いほど、見込み角が小さくなる
  • 45. Copyright©2018 NTT corp. All Rights Reserved. 45 分散マイクロホンアレー Target Noise Microphones 複数のマイクロホンを dense に配置するのやめよう マイクロホンを各音源の近くに配置すればいい!
  • 46. Copyright©2018 NTT corp. All Rights Reserved. 46 スマホマイクアレー 複数のスマホをマイクロホンアレーとして連携 問題点1:サンプリングの同期が取れない 問題点2:マイクの相対位置が不明 [Ono+, WASPAA-2009]など
  • 47. Copyright©2018 NTT corp. All Rights Reserved. 47 伝達関数ゲイン推定 伝達ゲイン(各マイクロホンの感度比)の推定問題 [Chiba+, IWAENC-2014], [Kako+, WASPAA-2015]など PSDの瞬時混合でモデル化  発話者が一人の時は、 各マイクロホンの音量比で求まる!! [Kako+, 2015] のアルゴリズム(計算量小/リアルタイム) 1. VADを行い、発話者が一人の区間を検出 2. 各マイクロホンについて、感度比を推定 3. 感度比を並べた行列の疑似逆行列を求め、目的音のPSDを推定
  • 48. Copyright©2018 NTT corp. All Rights Reserved. 48 Demo Video これまで紹介した技術を組み合わせた 車内での通話や音声認識のデモ 複数個所に取り付けたマイクロホンアレーを連携させて音声強調
  • 49. Copyright©2018 NTT corp. All Rights Reserved.  歓声やPAが雑音源  野球中継で聞いている音 はパラボラマイクの音 パラボラマイク 場内アナウンス (PAスピーカ) 応援団 競技音 49 目的音と雑音が離れている場合は?
  • 50. Copyright©2018 NTT corp. All Rights Reserved. 50 目的音と雑音が離れている場合は? 瞬時混合が成り立たない(距離による伝搬遅延や長残響) 時間周波数 マスク設計 ×
  • 51. Copyright©2018 NTT corp. All Rights Reserved. 51 目的音と雑音が離れている場合は? 瞬時混合が成り立たない(距離による伝搬遅延や長残響) 時間周波数 マスク設計 × 遅延& 残響推定
  • 52. Copyright©2018 NTT corp. All Rights Reserved. 52 Multi-delay noise model 振幅領域での伝搬遅延/長残響のモデル化 Time-frame delay Gain , Gain ,1 Gain , 1 1 …… , 1 , 2 , Multi-delay noise model , Multi-delay noise model Multi-delay noise model , 1 Time-frequency mask calc. 𝐺 , , 残響 伝搬遅延 Multi-delay noise model  Multi-delay-block-filter の振幅領域での表現 + 遅延項の拡張  物理的制約を事前分布におき、残響/遅延パラメータをMAP推定 [小泉+, 音講論(秋), 2017], [Koizumi, et al., EUSIPCO 2018] (to appear)
  • 53. Copyright©2018 NTT corp. All Rights Reserved. 53 Multi-delay noise model 物理的制約を事前分布においた残響/遅延のMAP推定  残響:音のパワーは非負&指数的に減衰 → 指数分布  伝搬遅延:距離と音速から概算できる自然数 → ポアソン分布 [小泉+, 音講論(秋), 2017], [Koizumi, et al., EUSIPCO 2018] (to appear) 概算フレーム遅延 パワーの指数減衰
  • 54. Copyright©2018 NTT corp. All Rights Reserved. 54 Modeling …! ホームベース付近に パラボラマイク 外野スタンドに ショットガンマイク Time [s] Freq.[kHz]Freq.[kHz]Freq.[kHz] パラボラマイク(ホームベース) ショットガンマイク(外野スタンド) 処理音 ストラーイク! ミット音 Time [s] 野球場での動作デモ 審判の声や捕球音を強調 [小泉+, 音講論(秋), 2017], [Koizumi, et al., EUSIPCO 2018] (to appear)
  • 55. Copyright©2018 NTT corp. All Rights Reserved. 55 1. 方向の違いで分離する もくじ 2. 位置の違いで分離する 3. 音色の違いで分離する 4. 深層学習を利用した収音技術 5. まとめ 実環境で利用した収音技術の紹介
  • 56. Copyright©2018 NTT corp. All Rights Reserved. 56 目的音と雑音の「音色」が異なるケース マイクアレイ 競技音歓声雑音 雑音が全方位から到来し、目的音の近くにマイク配置できない 目的音と雑音の音色の違いに着目して音源強調できないか
  • 57. Copyright©2018 NTT corp. All Rights Reserved. 57 音色が異なると観測音はどう変化する?  サッカーボールのキック音 @ ゴール前 0 2 4 6 8 10 0 2 4 6 8 Time [s] Frequency[kHz] キック音 歓声応援&太鼓
  • 58. Copyright©2018 NTT corp. All Rights Reserved. 58 Demo Video 大歓声の中でキック音を強調 周囲のスピーカーで 競技場の歓声を再現 アルゴリズム 1. 突発音を検出し、その中からキック音を検出 2. キック音だけを強調する時間周波数マスクをルールベース設計
  • 59. Copyright©2018 NTT corp. All Rights Reserved. 59 もう少し高度化できないものだろうか? ルールベース処理 = 回帰関数の手作業設計 観測音 時間周波数マスク 1. 突発音検知=閾値判定 2. フィルタ設計 =マッピング ルール設計やパラメータ調整を自動化したい ⇨ 機械学習ベースの手法へ
  • 60. Copyright©2018 NTT corp. All Rights Reserved. 60 1. 方向の違いで分離する もくじ 2. 位置の違いで分離する 3. 音色の違いで分離する 4. 深層学習を利用した収音技術 5. まとめ
  • 61. Copyright©2018 NTT corp. All Rights Reserved. 61 (D)NN音源強調 DNNを回帰関数として利用  時間周波数マスク or Log-amplitude-spectrum の推定が主流 … …… …… …… …… … …… 𝐒 源信号 𝐍 雑音 𝐗 観測信号 𝐒 目的関数 (MMSE) 学習 データ [Xie, et al., 1994], [Nadarayan, et al., ICASSP-2013]
  • 62. Copyright©2018 NTT corp. All Rights Reserved. 様々なDNN音源強調の研究 バッチ処理系 リアルタイム処理系  Deep clustering [Hershey+, 2016]  Permutation Invariant Training (PIT) [Dong Yu+, 2017]  雑音の種類が目的音と同じでも分離可能(speech + speechなど)  線形フィルタのパラメータ推定、音声認識との相性が良い  空間相関行列推定 [Ochiai+, 2017]  Independent Deep Learning Matrix Analysis (IDLMA) [北村+, 2018]  マイク数や利用環境に依存しない基礎研究が多い  新しい時間周波数マスク  ブラックボックスな指標を利用した最適化 [Koizumi+, 2017]  Phase Sensitive Mask (PSM) [Erdogan+, 2015]  Complex Ideal Ratio Mask (cIRM) [Williamson+, 2016]  MDCT-Mask [Koizumi+, 2018]
  • 63. Copyright©2018 NTT corp. All Rights Reserved. 63 DNN音源強調における目的関数の重要性 DNNにどんな「情報」を推定して欲しいのか?  DNNは、ただの柔軟な回帰関数  出力の信号的/統計的性質を決めるのは、学習に用いる目的関数 システムの最終目的は「歪みの最小化」なのか? 代表的な目的関数 = 歪み最小化 Phase-Sensitive-Cost [Erdogan+, 2015]  対話の「満足度」を上げたい  人が聞いて「良い」と思える音を出力したい 実用上、性能指標が解析的に記述できないことも
  • 64. Copyright©2018 NTT corp. All Rights Reserved. 64 解析的でない(微分できない)目的関数 主観的な音質評価を最大化したい ブラックボックス関数は微分不可能 (Backprop.が困難) ???
  • 65. Copyright©2018 NTT corp. All Rights Reserved. 65 DNN音源強調のブラックボックス最適化 強化学習を応用した最適化 [Koizumi, et al., ICASSP-2017], [Koizumi, et al., IEEE Trans., 2018] Game score Reward func.Action selector Action candi- dates Action … … … … ゲームスコアさえあれば DNNが学習できる ビデオゲームや囲碁の学習に成功している! 音源強調に応用できないか?
  • 66. Copyright©2018 NTT corp. All Rights Reserved. 66 DNN音源強調のブラックボックス最適化 強化学習を応用した最適化 Reward func.Mask generator T-F mask Masking … … … … スコアを主観評価と 捉えれば最適化できる? 学習には大量の試行が必要 ⇒ 主観評価そのままの利用は厳しい… [Koizumi, et al., ICASSP-2017], [Koizumi, et al., IEEE Trans., 2018]
  • 67. Copyright©2018 NTT corp. All Rights Reserved. 67 DNN音源強調のブラックボックス最適化 強化学習を応用した最適化 Reward func.Mask generator T-F mask Masking … … … … 人間の主観評価を模擬した定量 評価指標を利用 (e.g. PESQ) PC上のシミュレーションで完結 [Koizumi, et al., ICASSP-2017], [Koizumi, et al., IEEE Trans., 2018]
  • 68. Copyright©2018 NTT corp. All Rights Reserved. 聴感評点の例 68 音質の定量指標の例 明瞭度(単語の聞き取りやすさ)の定量指標の例  PESQ: Perceptual Evaluation of Speech Quality  音声符号化などで使われる音質の定量評価指標 Input: 目的音と出力音の音声ファイル Output: 人間の音質評価(MOS)を模擬した値 ⇒ PESQを上げ、出力音の音質向上を狙う  STOI: Short-Time Objective Intelligibility  音声強調などで使われる明瞭度の定量評価指標 Input: 目的音と出力音の音声ファイル Output: 人間の単語正解率を模擬した値 ⇒ STOIを上げ、出力音の明瞭度向上を狙う
  • 69. Copyright©2018 NTT corp. All Rights Reserved. 69 DNN音源強調のブラックボックス最適化 DNNを用いて目的関数を定義 サンプリングを用いた勾配の近似計算(policy gradient) 出力音の条件付き分布を DNNで記述 聴感評点の最大化を 目的関数とする
  • 70. Copyright©2018 NTT corp. All Rights Reserved. 評価実験 70 定量評価実験 主観評価実験 【確認ポイント】聴感評点を向上させるようにDNNを学習できるか? 【確認ポイント】聴感評点と対応した主観品質が向上するか? 実験1:学習回数と聴感評点の関係を調査 実験2:従来法と聴感評点の値を比較 実験1:PESQを向上させたときの 音質(MOS) を評価 実験2:STOIを向上させたときの 明瞭度(単語了解度) を評価 ※時間の都合上、詳細な実装/実験/結果は、以下の文献をご参照ください Y. Koizumi, et al., “DNN-based Source Enhancement to Increase Objective Sound Quality Assessment Score,” IEEE Trans. ASLP, 2018.
  • 71. Copyright©2018 NTT corp. All Rights Reserved. 評価実験 1/2(定量評価実験) 71 音質指標 PESQの向上値 【実験1】:学習回数が進むに従い、聴感評点が向上 明瞭度指標 STOIの向上値 学習回数 学習回数 【実験2】:学習に利用した聴感評点が、従来法より優位に向上 SDR [dB](歪み) PESQ (音質) STOI [%](明瞭度) PSM [Erdogan,2015] 9.40 2.27 83.3 提案法(PESQ) 9.19 2.37 83.4 提案法(STOI) 9.74 2.20 87.3  学習が進むにつれ、目標としてい る聴感評点も向上  学習に用いた聴感評点は従来法より も優位に向上 (Input SNR: 0dB, Open test)  聴感評点を向上させるDNN学習に成功  従来技術と比べ、聴感評点が優位に向上
  • 72. Copyright©2018 NTT corp. All Rights Reserved. 評価実験 2/2(主観評価実験) 72 音質の主観評価値 従来法 提案法 (PESQ) 提案法 (STOI) 単語了解度[%] 【実験1 】 出力音の音質を5段階で絶対評価 (PESQが模擬している試験) 良 悪 良 悪 【実験2 】 親密度の低い単語の聞き取り正解率 (STOIが模擬している試験) 従来法 提案法 (PESQ) 提案法 (STOI) 従来法 提案法(PESQ) 従来法 提案法(STOI) PESQ最大化で 音質が向上 STOI最大化で 明瞭度が向上  聴感評点に対応する主観品質も、従来法と比べ優位に向上
  • 73. Copyright©2018 NTT corp. All Rights Reserved. 評価実験 2/2(主観評価実験) 73 音質の主観評価値 従来法 提案法 (PESQ) 提案法 (STOI) 単語了解度[%] 【実験1 】 出力音の音質を5段階で絶対評価 (PESQが模擬している試験) 良 悪 良 悪 【実験2 】 親密度の低い単語の聞き取り正解率 (STOIが模擬している試験) 従来法 提案法 (PESQ) 提案法 (STOI) 従来法 提案法(PESQ)  聴感評点に対応する主観品質も、従来法と比べ優位に向上 従来法 提案法(STOI) 正解は「タカドノ」 従来法の正答率:31%, 提案法の正答率:81% 従来法は、雑音を削りすぎ、冒頭の子音の明瞭度が 低下しため、「ハカドノ」などと誤回答
  • 74. Copyright©2018 NTT corp. All Rights Reserved. 74 1. 方向の違いで分離する もくじ 2. 位置の違いで分離する 3. 音色の違いで分離する 4. 深層学習を利用した収音技術 5. まとめ 実環境で利用した収音技術の紹介
  • 75. Copyright©2018 NTT corp. All Rights Reserved. 75 まとめ 収音技術の性能要件を明確にする =「問題を定義する」ことが大切  目的音と雑音の違いは?  どの程度の雑音抑圧性能が必要?(抑圧量/音の歪み)  計算リソースはどれくらい使える?  ハードウェアや設置条件に制限はある?  リアルタイム処理は必要?  事前学習は可能?(環境の変動は大きい?) さあ、現場に行ってみましょう!
  • 76. Copyright©2018 NTT corp. All Rights Reserved. 76 Thank you!!