深層学習と音響信号処理

Copyright©2018 NTT corp. All Rights Reserved.
2018/12/21 @ ICTイノベーションセミナー, 首都大学東京
1
日本電信電話株式会社
NTTメディアインテリジェンス研究所
小泉悠馬
【招待講演】
深層学習と音響信号処理

Copyright©2018 NTT corp. All Rights Reserved. 2
 小泉悠馬（こいずみゆうま）
1990年02月01日東京生まれ, 北名古屋市＆稲城市育ち
略歴
 2014年: 法政大学情報科学研究科修了
 2014年: NTTメディアインテリジェンス研究所入所
 2017年: 博士（工学）（電気通信大学）
研究内容
 音響信号処理 × 機械学習の基礎研究と実用化
 音源強調：うるさい中から欲しい音だけ取り出したい！
 異常検知：周囲の異変を音から検知したい！
自己紹介

Take home message
何でもかんでも大量データ＆ end-to-end でいいのか？
現状、音響信号処理に関しては No
1. ネットワーク構造に物理的/信号処理的な工夫が必要
2. 人間を超えるためには、
センサー配置や目的関数の工夫も必要
※ end-to-end がうまくいかない条件は、数学的には証明されていないため、
この結論は将来は変わるかもしれない
現状の到達点
将来への展望

実環境での音響信号処理サービス
計算機/通信の発達で音の情報処理技術はどんどん身近に
音声認識
エンターテイメント
異常音検知
音声通信
4

音源強調の必要性
雑音が音情報処理性能を低下させる
→ うるさい中から欲しい音を取り出す技術が必須
雑音が大きく
音声認識できない
競技音が埋もれ
臨場感が伝わらない
音声認識スポーツ中継

音響信号処理の例：音源強調
騒音下でも通話や音声認識を可能にします
 100 dB の騒音下で目的音を抽出＆音声認識

サッカースタジアムでキック音だけ強調します
周囲のスピーカーで
競技場の歓声を再現

今日の話題
情報処理と機械学習&深層学習
深層学習と音響信号処理（音源強調）の到達点
学生の皆さんへメッセージ
人間を超える情報処理へ
計算機基盤の進歩に期待すること

情報処理とはなんだろうか

与えられた情報を別の情報に変換する処理
なんらかの処理入力出力

与えられた情報を別の情報に変換する処理
数理モデル入力出力
計算機で実現するために、情報変換を数式で表す

入力出力
どんな数理モデルがいい？
 定量的な根拠を元にモデルを立てる方がよい
 レイトレーシング（物理ベース）
物理モデル
⇨ 写真と見間違うような画像を出力できる
 光源位置
 物体位置
 反射率
etc…
[*] Wikipedia, “Ray tracing (graphics)”
URL: https://en.wikipedia.org/wiki/Ray_tracing_(graphics)
[*]

 画像/音声などメディアの認識
 人間の認識処理は未だ解明されていない
 そもそも、対象の定義自体が人間の恣意的なもの
？？？
入力出力
Horse
or
(0,0,0,0,0,0,0,1,0,0)
[*] An image from “The CIFAR-10 dataset”
URL: https://www.cs.toronto.edu/~kriz/cifar.html
[*]
根拠に基づくモデルは立てられないことが多い

ブラックボックスな
情報変換（写像）を
計算機で再現するには？

機械学習
変換関数
入力目的関数
正解出力
関数形がブラックボックスな写像を
入出力のデータだけから再現する方法
1. 変換関数を決めて
2. 目的関数を決めて
3. 最適化する
和訳

（深層）ニューラルネットワーク
微分可能な関数の合成関数でできた変換関数
 沢山の亜種があるが、結局全部、ただの合成関数
 無限個の関数を合成すれば任意の写像が表現可能
[*1] Wikipedia, “Artificial neural network”, https://en.wikipedia.org/wiki/Artificial_neural_network
[*2] Wikipedia, “Long short-term memory”, https://en.wikipedia.org/wiki/Long_short-term_memory
[*3] Wikipedia, “Convolutional neural network”, https://en.wikipedia.org/wiki/Convolutional_neural_network
Shallow LSTM CNN
[*1] [*2] [*3]

現状、最有力な変換関数として君臨
画像/音声/自然言語を含む、
多くのメディア処理で SOTA な性能を実現
※ 釈迦に説法ですが…
 画像認識: AlexNet (2012) [*1] などから
 音声認識: DNN-HMM (2011) [*2] などから
※ 当然、これらメディア処理にNNを使うアプローチは大昔からある。
[*1] A. Krizhevsky, et al., “Imagenet classification with deep convolutional neural networks,” in Proc. of NIPS, 2012
[*2] F. Seide, et al., “Conversational speech transcription using context-dependent deep neural networks,” in Proc. of
Interspeech, 2011.
[*3] A. Narayananand, et al., “Ideal ratio mask estimation using deep neural networks for robust speech recognition,” in
Proc. of ICASSP, 2013.
 音源強調: IRM推定 (2013) [*3] などから

なぜ end-to-end はうまくいくのか
恣意性の排除、data-driven な特徴量設計
情報処理不等式
 柔軟な回帰関数の下では、恣意的な情報変換は害悪でしかない
 Googleの猫細胞 [*1][*2] はあまりにも有名
[*1] Official Google Blog, “Using large-scale brain simulations for machine learning
and A.I.” (2012).
URL: https://googleblog.blogspot.com/2012/06/using-large-scale-brain-
simulations-for.html
[*2] Q. V. Le, et al., “Building High-level Features Using Large Scale Unsupervised
Learning,” in Proc. Of ICML, 2012.
 教師なし学習をしているのに、猫画像に対して発
火するニューロンが獲得された

今日の話題

観測音から目的音を抽出する信号処理
目的音
雑音 …
観測音
音源強調
出力音
マイク

情報処理としての音源強調
観測音から目的音を取り出す変換関数の設計問題
音源強調
 ここでは、マイク１本での音源強調を想定
 典型的な劣決定問題
未知変数の数 > 観測変数の数

End-to-end 音源強調 using DNN ??
波形を入力し、波形を出力するニューラルネット??
…
……
……
……
……
…
……
End-to-end
S. Pascual, et al., “SEGAN: Speech Enhancement Generative Adversarial
Network,” in Proc of Interspeech, 2017.
 例えば、以下の論文が有名

End-to-end 音源強調 using DNN ??
波形を入力し、波形を出力するニューラルネット??
…
……
……
……
……
…
……
End-to-end
S. Pascual, et al., “SEGAN: Speech Enhancement Generative Adversarial
Network,” in Proc of Interspeech, 2017.
 例えば、以下の論文が有名
現状
SOTAではない

完全 end-to-end vs. 信号処理-based DNN
波形領域の end-to-end < 信号処理-based
Anonymous, “Phase-Aware Speech Enhancement with Deep Complex U-Net,” open review (submitted to ICLR 2019).
URL: https://openreview.net/forum?id=SkeRTsAcYm
[Deep Complex U-Net の音が聴けるページ]
http://www.deepcomplexunet.tk
[SEGAN の音が聴けるページ]
URL: https://ccrma.stanford.edu/%7Efrancois/SpeechDenoisingWithDeepFeatureLosses/

とってもアバウトな”深層複素U-Net”の構成
フィルタリング
DNNによる
複素マスク推定
FFT IFFT
目的音を強調するフィルタをDNNで推定
→ 信号処理の未知パラメータの推定に利用

どんなときに end2end はうまくいかないか
その理由を解明した論文はまだない
 学習データが足りない説
 DNN は回帰問題は苦手説
 関数の組み方がダメ、自由度が高すぎる説
 学習データですらうまく強調できないので考えにくい…
 識別に関する理論解析は進むが、回帰は進まない
 解空間の大きさや濃度
 画像処理のCNN、自然言語処理の attention のようなキ
ラー構造が波形領域にはまだ無い？

深層複素U-Net の正体
【音響 and/or 機械学習のプロ向けの話】
ここでは
 音声の統計的性質（時間周波数領域でのスパース性）を利用
 非線形フィルタリング（信号処理）をNNで表現
＝信号処理の一連の流れを NN とみなし、
未知パラメータだけをNN で推定
 FFT / IFFT を固定な 1-D convolution layer とみなせば、時間周
波数領域を経由しつつも、”end-to-end” な学習ができる
 非線形フィルタリングの一般式
 DNNをとなる射影関数して、以下で学習
であり、行列演算で書ける
複素時間周波数マスク（非線形なフィルタのようなもの）
を推定する、複素数のニューラルネットワーク

ここまでのまとめ
 音響信号処理では完全な end-to-end はうまく動かない
 end-to-end がうまくいかない条件は、数学的には証明されてい
ないため、この結論は将来は変わるかもしれない
 【現在のトレンド】ネットワーク構造に利用する、物理
的/信号処理的な工夫が模索されている
 音声の統計的性質を利用した信号処理を NN として記述し、そ
の未知パラメータだけを NN で推定 & 波形領域誤差最小化学習
現状の世界最先端

今日の話題

機械の計算能力は人間を超えた
強力な写像関数も手に入れた
では、なぜ（音の）機械学習は
人間を超えてくれないのか
20年後に向け
私たちはどんな研究をすべきだろうか？

今、機械学習に何ができていないのか
情報処理の登場人物は主に３人
1. 実世界のセンシング（マイクロホンなど）
2. 情報の変換（DNNなど）
3. 出力の価値判断（コスト関数など）

 DNNを複雑にすれば、任意の写像を表現可能
→ 人間を超えている

 マイクだけ？画像だけ？一箇所で？
→ 人間と同等以下

 マイクだけ？画像だけ？一箇所で？
→ 人間と同等以下
 二乗誤差？クロスエントロピー？
→ 人間には遠く及ばない

人間を超える情報処理のために
人間を超える (1) センシングと (3) 価値判断

手前味噌な研究紹介
 100m 離れた場所に置いたマイクを連携させるには？
 「音質」を最大化するように DNN を学習するには？
Y. Koizumi, et al., “Distant Noise Reduction Based on Multi-delay Noise Model
Using Distributed Microphone Array,” in Proc of EUSIPCO, 2018.
Y. Koizumi, et al., “DNN-Based Source Enhancement to Increase Objective Sound
Quality Assessment Score,” IEEE/ACM Trans. on ASLP, 2018.

パラボラマイク
場内アナウンス
（ＰＡスピーカ）
応援団
競技音
37
野球場で歓声を消したい

人間の耳の限界を超えるには
バックネットのマイク
だけでは歓声が消せない

人間の耳の限界を超えるには
distance
> 100 m

人間とは異なる情報処理が必要
100m 離れた外野スタンドのマイクを連携させよう
→ 距離による伝搬遅延や長残響で単純な引き算はダメ
時間周波数
マスク設計
×

時間周波数
マスク設計
×
遅延＆
残響推定
人間とは異なる情報処理が必要
100m 離れた外野スタンドのマイクを連携させよう
→ 遅延や残響のキャリブレーションを追加

Multi-delay noise model
振幅領域での伝搬遅延/長残響のモデル化
Time-frame
delay
Gain
Gain
Gain
……
Multi-delay
noise model
Multi-delay
noise model
Time-frequency
mask calc.
残響伝搬遅延
 Multi-delay-block-filter の振幅領域での表現 + 遅延項の拡張
 物理的制約を事前分布におき、残響/遅延パラメータをMAP推定
Y. Koizumi, et al., “Distant Noise Reduction Based on Multi-delay Noise Model Using Distributed Microphone Array,”
in Proc of EUSIPCO, 2018.

Modeling
…!
ホームベース付近に
パラボラマイク
外野スタンドに
ショットガンマイク
Time [s]
Freq.[kHz]Freq.[kHz]Freq.[kHz]
パラボラマイク（ホームベース）
ショットガンマイク（外野スタンド）
処理音
ストラーイク！
ミット音
Time [s]
野球場での動作デモ
審判の声や捕球音を強調

人間を超える (1) センシング
 機械であれば、人間では実現不可能なセンシングが可能
 そのセンサーをうまく活用するためには、その物理的性質
に対応した特殊な信号処理＋機械学習の使い方が必要
 センサーの選択や配置に関する最適性はまだ未知…

価値判断（コスト関数）の重要性
DNN にどんな情報を推定してほしいのか？
 自然言語：対話の「満足度」を上げたい
→ 満足度最大化 ≠ クロスエントロピー
 音源強調：人が聞いて「良い」と思える音を出力したい
→ 音質最大化 ≠ 二乗誤差
DNNを学習するコスト関数と、
本当に推定したい情報のミスマッチ…
計算機を人間と同じ感性の元で最適化するには？
1. 人間の感性の計算機による再現
2. ブラックボックスな指標を最大化する学習法の創出
こちらの紹介

主観的な音質評価を最大化したい
ブラックボックス関数は微分不可能（Backprop.が困難）
？？？
人間は DNN のコスト関数になれるか？

DNN音源強調のブラックボックス最適化
強化学習を応用した最適化
Game
score
Reward func.Action selector
Action
candi-
dates
Action
…
…
…
…
ゲームスコアさえあれば
DNNが学習できる
ビデオゲームや囲碁の学習に成功している！
音源強調に応用できないか？

Reward func.Mask generator
T-F
mask
Masking
…
…
…
…
スコアを主観評価と
捉えれば最適化できる？
学習には大量の試行が必要 ⇒ 主観評価そのままの利用は厳しい…

Reward func.Mask generator
T-F
mask
Masking
…
…
…
…
人間の主観評価を模擬した定量
評価指標を利用 (e.g. PESQ)
PC上のシミュレーションで完結

DNNを用いて目的関数を定義
サンプリングを用いた勾配の近似計算（policy gradient）
出力音の条件付き分布を
DNNで記述
聴感評点の最大化を
目的関数とする

聴感評点の例
52
音質の定量指標の例
明瞭度（単語の聞き取りやすさ）の定量指標の例
 PESQ: Perceptual Evaluation of Speech Quality
 音声符号化などで使われる音質の定量評価指標
Input: 目的音と出力音の音声ファイル
Output: 人間の音質評価（MOS）を模擬した値
⇒ PESQを上げ、出力音の音質向上を狙う
 STOI: Short-Time Objective Intelligibility
 音声強調などで使われる明瞭度の定量評価指標
Input: 目的音と出力音の音声ファイル
Output: 人間の単語正解率を模擬した値
⇒ STOIを上げ、出力音の明瞭度向上を狙う

評価実験 1/2（定量評価実験）
53
音質指標
PESQの向上値
【実験１】：学習回数が進むに従い、聴感評点が向上
明瞭度指標
STOIの向上値
学習回数学習回数
【実験２】：学習に利用した聴感評点が、従来法より優位に向上
SDR [dB]（歪み） PESQ （音質） STOI [%]（明瞭度）
PSM [Erdogan,2015] 9.40 2.27 83.3
提案法（PESQ） 9.19 2.37 83.4
提案法（STOI） 9.74 2.20 87.3
 学習が進むにつれ、目標としてい
る聴感評点も向上
 学習に用いた聴感評点は従来法より
も優位に向上
（Input SNR: 0dB, Open test）
 聴感評点を向上させるDNN学習に成功
 従来技術と比べ、聴感評点が優位に向上

評価実験 2/2（主観評価実験）
54
音質の主観評価値
従来法
提案法
(PESQ)
提案法
(STOI)
単語了解度[%]
【実験１】
出力音の音質を5段階で絶対評価
（PESQが模擬している試験）
良
悪
良
悪
【実験２】
親密度の低い単語の聞き取り正解率
（STOIが模擬している試験）
従来法
提案法
(PESQ)
提案法
(STOI)
従来法提案法(PESQ) 従来法提案法(STOI)
PESQ最大化で
音質が向上
STOI最大化で
明瞭度が向上
 聴感評点に対応する主観品質も、従来法と比べ優位に向上

評価実験 2/2（主観評価実験）
55
音質の主観評価値
従来法
提案法
(PESQ)
提案法
(STOI)
単語了解度[%]
【実験１】
出力音の音質を5段階で絶対評価
（PESQが模擬している試験）
良
悪
良
悪
【実験２】
親密度の低い単語の聞き取り正解率
（STOIが模擬している試験）
従来法
提案法
(PESQ)
提案法
(STOI)
従来法提案法(PESQ)
 聴感評点に対応する主観品質も、従来法と比べ優位に向上
従来法提案法(STOI)
正解は「タカドノ」
従来法の正答率：31%, 提案法の正答率：81％
従来法は、雑音を削りすぎ、冒頭の子音の明瞭度が
低下しため、「ハカドノ」などと誤回答

 DNNの出力の統計的性質はコスト関数依存
 人が本当に欲しい情報を DNN が出力するためには
 人間と同等の価値判断（コスト関数）
 人間を超えるブラックボックス最適化（optimizer）
が必要
 ほとんど未着手かつ、文理融合が必要な研究領域。そろそろ
縦割り研究を超える頃ではないでしょうか？

今日の話題

小規模/安価/中性能な計算機
DNNは音響の世界で実用的か？
 音響の世界では、未だローカル処理が求められることがほとんど
 リアルタイム性：e.g. 音声通話
 ネットワークコスト制約：e.g. 異常音検知
計算機の ”ベースライン” が上がらないと
成り立たないビジネスが多い
 計算機パワーの向上は機械学習のブレイクスルー
 まだ壊して欲しい壁が沢山。特に低レイヤー向けの中性能計算機

今日の話題

まず手を動かそう
未だ、メディア処理には、
言語化しにくいノウハウが沢山
First Step
触ってみないと、できる/できないの直感が働かない

技術者 (Scientist/Engineer) であれ
ノウハウがたまると
データ/計算機/DNN があれば推定はできてしまう
No more “やっただけ” 論文!!
やっただけでは問題が “解けた” ことにはならない
問題の本質は？最もエレガントな解法は？
※ 企業としてはそれでいいことも多い
Next Step

【再掲】Take home message
何でもかんでも大量データ＆ end-to-end でいいのか？
現状、音響信号処理に関しては No
1. ネットワーク構造に物理的/信号処理的な工夫が必要
2. 人間を超えるためには、
センサー配置や目的関数の工夫も必要
※ end-to-end がうまくいかない条件は、数学的には証明されていないため、
この結論は将来は変わるかもしれない
現状の到達点
将来への展望

Q&A

深層学習と音響信号処理

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Similar to 深層学習と音響信号処理

Similar to 深層学習と音響信号処理 (20)

Recently uploaded

Recently uploaded (7)

深層学習と音響信号処理