SlideShare a Scribd company logo
1 of 63
Download to read offline
Copyright©2018 NTT corp. All Rights Reserved.
2018/12/21 @ ICTイノベーションセミナー, 首都大学東京
1
日本電信電話株式会社
NTTメディアインテリジェンス研究所
小泉 悠馬
【招待講演】
深層学習と音響信号処理
Copyright©2018 NTT corp. All Rights Reserved. 2
 小泉 悠馬(こいずみ ゆうま)
1990年02月01日 東京生まれ, 北名古屋市&稲城市育ち
略歴
 2014年: 法政大学 情報科学研究科 修了
 2014年: NTTメディアインテリジェンス研究所 入所
 2017年: 博士(工学) (電気通信大学)
研究内容
 音響信号処理 × 機械学習の基礎研究と実用化
 音源強調:うるさい中から欲しい音だけ取り出したい!
 異常検知:周囲の異変を音から検知したい!
自己紹介
Copyright©2018 NTT corp. All Rights Reserved. 3
Take home message
何でもかんでも大量データ & end-to-end でいいのか?
現状、音響信号処理に関しては No
1. ネットワーク構造に物理的/信号処理的な工夫が必要
2. 人間を超えるためには、
センサー配置や目的関数の工夫も必要
※ end-to-end がうまくいかない条件は、数学的には証明されていないため、
この結論は将来は変わるかもしれない
現状の到達点
将来への展望
Copyright©2018 NTT corp. All Rights Reserved. 4
実環境での音響信号処理サービス
計算機/通信の発達で音の情報処理技術はどんどん身近に
音声認識
エンターテイメント
異常音検知
音声通信
4
Copyright©2018 NTT corp. All Rights Reserved. 5
音源強調の必要性
雑音が音情報処理性能を低下させる
→ うるさい中から欲しい音を取り出す技術が必須
雑音が大きく
音声認識できない
競技音が埋もれ
臨場感が伝わらない
音声認識 スポーツ中継
Copyright©2018 NTT corp. All Rights Reserved. 6
音響信号処理の例:音源強調
騒音下でも通話や音声認識を可能にします
 100 dB の騒音下で目的音を抽出&音声認識
Copyright©2018 NTT corp. All Rights Reserved. 7
音響信号処理の例:音源強調
サッカースタジアムでキック音だけ強調します
周囲のスピーカーで
競技場の歓声を再現
Copyright©2018 NTT corp. All Rights Reserved. 8
今日の話題
情報処理と機械学習&深層学習
深層学習と音響信号処理(音源強調)の到達点
学生の皆さんへメッセージ
人間を超える情報処理へ
計算機基盤の進歩に期待すること
Copyright©2018 NTT corp. All Rights Reserved. 9
情報処理とはなんだろうか
Copyright©2018 NTT corp. All Rights Reserved. 10
情報処理とはなんだろうか
与えられた情報を別の情報に変換する処理
なんらかの処理入力 出力
Copyright©2018 NTT corp. All Rights Reserved. 11
情報処理とはなんだろうか
与えられた情報を別の情報に変換する処理
数理モデル入力 出力
計算機で実現するために、情報変換を数式で表す
Copyright©2018 NTT corp. All Rights Reserved. 12
情報処理とはなんだろうか
入力 出力
どんな数理モデルがいい?
 定量的な根拠を元にモデルを立てる方がよい
 レイトレーシング(物理ベース)
物理モデル
⇨ 写真と見間違うような画像を出力できる
 光源位置
 物体位置
 反射率
etc…
[*] Wikipedia, “Ray tracing (graphics)”
URL: https://en.wikipedia.org/wiki/Ray_tracing_(graphics)
[*]
Copyright©2018 NTT corp. All Rights Reserved. 13
情報処理とはなんだろうか
 画像/音声などメディアの認識
 人間の認識処理は未だ解明されていない
 そもそも、対象の定義自体が人間の恣意的なもの
???
入力 出力
Horse
or
(0,0,0,0,0,0,0,1,0,0)
[*] An image from “The CIFAR-10 dataset”
URL: https://www.cs.toronto.edu/~kriz/cifar.html
[*]
根拠に基づくモデルは立てられないことが多い
Copyright©2018 NTT corp. All Rights Reserved. 14
ブラックボックスな
情報変換(写像)を
計算機で再現するには?
Copyright©2018 NTT corp. All Rights Reserved. 15
機械学習
変換関数
入力 目的関数
正解出力
関数形がブラックボックスな写像を
入出力のデータだけから再現する方法
1. 変換関数を決めて
2. 目的関数を決めて
3. 最適化する
和訳
Copyright©2018 NTT corp. All Rights Reserved. 16
(深層)ニューラルネットワーク
微分可能な関数の合成関数でできた変換関数
 沢山の亜種があるが、結局全部、ただの合成関数
 無限個の関数を合成すれば任意の写像が表現可能
[*1] Wikipedia, “Artificial neural network”, https://en.wikipedia.org/wiki/Artificial_neural_network
[*2] Wikipedia, “Long short-term memory”, https://en.wikipedia.org/wiki/Long_short-term_memory
[*3] Wikipedia, “Convolutional neural network”, https://en.wikipedia.org/wiki/Convolutional_neural_network
Shallow LSTM CNN
[*1] [*2] [*3]
Copyright©2018 NTT corp. All Rights Reserved. 17
現状、最有力な変換関数として君臨
画像/音声/自然言語を含む、
多くのメディア処理で SOTA な性能を実現
※ 釈迦に説法ですが…
 画像認識: AlexNet (2012) [*1] などから
 音声認識: DNN-HMM (2011) [*2] などから
※ 当然、これらメディア処理にNNを使うアプローチは大昔からある。
[*1] A. Krizhevsky, et al., “Imagenet classification with deep convolutional neural networks,” in Proc. of NIPS, 2012
[*2] F. Seide, et al., “Conversational speech transcription using context-dependent deep neural networks,” in Proc. of
Interspeech, 2011.
[*3] A. Narayananand, et al., “Ideal ratio mask estimation using deep neural networks for robust speech recognition,” in
Proc. of ICASSP, 2013.
 音源強調: IRM推定 (2013) [*3] などから
Copyright©2018 NTT corp. All Rights Reserved. 18
なぜ end-to-end はうまくいくのか
恣意性の排除、data-driven な特徴量設計
情報処理不等式
 柔軟な回帰関数の下では、恣意的な情報変換は害悪でしかない
 Googleの猫細胞 [*1][*2] はあまりにも有名
[*1] Official Google Blog, “Using large-scale brain simulations for machine learning
and A.I.” (2012).
URL: https://googleblog.blogspot.com/2012/06/using-large-scale-brain-
simulations-for.html
[*2] Q. V. Le, et al., “Building High-level Features Using Large Scale Unsupervised
Learning,” in Proc. Of ICML, 2012.
 教師なし学習をしているのに、猫画像に対して発
火するニューロンが獲得された
Copyright©2018 NTT corp. All Rights Reserved. 19
今日の話題
情報処理と機械学習&深層学習
深層学習と音響信号処理(音源強調)の到達点
学生の皆さんへメッセージ
人間を超える情報処理へ
計算機基盤の進歩に期待すること
Copyright©2018 NTT corp. All Rights Reserved. 20
観測音から目的音を抽出する信号処理
目的音
雑音 …
観測音
音源強調
出力音
マイク
音響信号処理の例:音源強調
Copyright©2018 NTT corp. All Rights Reserved. 21
情報処理としての音源強調
観測音から目的音を取り出す変換関数の設計問題
音源強調
 ここでは、マイク1本での音源強調を想定
 典型的な劣決定問題
未知変数の数 > 観測変数の数
Copyright©2018 NTT corp. All Rights Reserved. 22
End-to-end 音源強調 using DNN ??
波形を入力し、波形を出力するニューラルネット??
…
……
……
……
……
…
……
End-to-end
S. Pascual, et al., “SEGAN: Speech Enhancement Generative Adversarial
Network,” in Proc of Interspeech, 2017.
 例えば、以下の論文が有名
Copyright©2018 NTT corp. All Rights Reserved. 23
End-to-end 音源強調 using DNN ??
波形を入力し、波形を出力するニューラルネット??
…
……
……
……
……
…
……
End-to-end
S. Pascual, et al., “SEGAN: Speech Enhancement Generative Adversarial
Network,” in Proc of Interspeech, 2017.
 例えば、以下の論文が有名
現状
SOTAではない
Copyright©2018 NTT corp. All Rights Reserved. 24
完全 end-to-end vs. 信号処理-based DNN
波形領域の end-to-end < 信号処理-based
Anonymous, “Phase-Aware Speech Enhancement with Deep Complex U-Net,” open review (submitted to ICLR 2019).
URL: https://openreview.net/forum?id=SkeRTsAcYm
[Deep Complex U-Net の音が聴けるページ]
http://www.deepcomplexunet.tk
[SEGAN の音が聴けるページ]
URL: https://ccrma.stanford.edu/%7Efrancois/SpeechDenoisingWithDeepFeatureLosses/
Copyright©2018 NTT corp. All Rights Reserved. 25
とってもアバウトな”深層複素U-Net”の構成
フィルタリング
DNNによる
複素マスク推定
FFT IFFT
目的音を強調するフィルタをDNNで推定
→ 信号処理の未知パラメータの推定に利用
Copyright©2018 NTT corp. All Rights Reserved. 26
どんなときに end2end はうまくいかないか
その理由を解明した論文はまだない
 学習データが足りない説
 DNN は回帰問題は苦手説
 関数の組み方がダメ、自由度が高すぎる説
 学習データですらうまく強調できないので考えにくい…
 識別に関する理論解析は進むが、回帰は進まない
 解空間の大きさや濃度
 画像処理のCNN、自然言語処理の attention のようなキ
ラー構造が波形領域にはまだ無い?
Copyright©2018 NTT corp. All Rights Reserved. 27
深層複素U-Net の正体
【音響 and/or 機械学習のプロ向けの話】
ここでは
 音声の統計的性質(時間周波数領域でのスパース性)を利用
 非線形フィルタリング(信号処理)をNNで表現
=信号処理の一連の流れを NN とみなし、
未知パラメータだけをNN で推定
 FFT / IFFT を固定な 1-D convolution layer とみなせば、時間周
波数領域を経由しつつも、”end-to-end” な学習ができる
 非線形フィルタリングの一般式
 DNNを となる射影関数して、以下で学習
であり、行列演算で書ける
複素時間周波数マスク(非線形なフィルタのようなもの)
を推定する、複素数のニューラルネットワーク
Copyright©2018 NTT corp. All Rights Reserved. 28
ここまでのまとめ
 音響信号処理では完全な end-to-end はうまく動かない
 end-to-end がうまくいかない条件は、数学的には証明されてい
ないため、この結論は将来は変わるかもしれない
 【現在のトレンド】ネットワーク構造に利用する、物理
的/信号処理的な工夫が模索されている
 音声の統計的性質を利用した信号処理を NN として記述し、そ
の未知パラメータだけを NN で推定 & 波形領域誤差最小化学習
現状の世界最先端
Copyright©2018 NTT corp. All Rights Reserved. 29
今日の話題
情報処理と機械学習&深層学習
深層学習と音響信号処理(音源強調)の到達点
学生の皆さんへメッセージ
人間を超える情報処理へ
計算機基盤の進歩に期待すること
Copyright©2018 NTT corp. All Rights Reserved. 30
機械の計算能力は人間を超えた
強力な写像関数も手に入れた
では、なぜ(音の)機械学習は
人間を超えてくれないのか
20年後に向け
私たちはどんな研究をすべきだろうか?
Copyright©2018 NTT corp. All Rights Reserved. 31
今、機械学習に何ができていないのか
情報処理の登場人物は主に3人
1. 実世界のセンシング(マイクロホンなど)
2. 情報の変換(DNNなど)
3. 出力の価値判断(コスト関数など)
Copyright©2018 NTT corp. All Rights Reserved. 32
今、機械学習に何ができていないのか
情報処理の登場人物は主に3人
1. 実世界のセンシング(マイクロホンなど)
2. 情報の変換(DNNなど)
 DNNを複雑にすれば、任意の写像を表現可能
→ 人間を超えている
3. 出力の価値判断(コスト関数など)
Copyright©2018 NTT corp. All Rights Reserved. 33
今、機械学習に何ができていないのか
情報処理の登場人物は主に3人
1. 実世界のセンシング(マイクロホンなど)
2. 情報の変換(DNNなど)
 DNNを複雑にすれば、任意の写像を表現可能
→ 人間を超えている
 マイクだけ?画像だけ?一箇所で?
→ 人間と同等以下
3. 出力の価値判断(コスト関数など)
Copyright©2018 NTT corp. All Rights Reserved. 34
今、機械学習に何ができていないのか
情報処理の登場人物は主に3人
1. 実世界のセンシング(マイクロホンなど)
2. 情報の変換(DNNなど)
3. 出力の価値判断(コスト関数など)
 DNNを複雑にすれば、任意の写像を表現可能
→ 人間を超えている
 マイクだけ?画像だけ?一箇所で?
→ 人間と同等以下
 二乗誤差?クロスエントロピー?
→ 人間には遠く及ばない
Copyright©2018 NTT corp. All Rights Reserved. 35
人間を超える情報処理のために
人間を超える (1) センシングと (3) 価値判断
1. 実世界のセンシング(マイクロホンなど)
3. 出力の価値判断(コスト関数など)
Copyright©2018 NTT corp. All Rights Reserved. 36
手前味噌な研究紹介
人間を超える (1) センシングと (3) 価値判断
1. 実世界のセンシング(マイクロホンなど)
3. 出力の価値判断(コスト関数など)
 100m 離れた場所に置いたマイクを連携させるには?
 「音質」を最大化するように DNN を学習するには?
Y. Koizumi, et al., “Distant Noise Reduction Based on Multi-delay Noise Model
Using Distributed Microphone Array,” in Proc of EUSIPCO, 2018.
Y. Koizumi, et al., “DNN-Based Source Enhancement to Increase Objective Sound
Quality Assessment Score,” IEEE/ACM Trans. on ASLP, 2018.
Copyright©2018 NTT corp. All Rights Reserved.
パラボラマイク
場内アナウンス
(PAスピーカ)
応援団
競技音
37
野球場で歓声を消したい
Copyright©2018 NTT corp. All Rights Reserved. 38
人間の耳の限界を超えるには
バックネットのマイク
だけでは歓声が消せない
Copyright©2018 NTT corp. All Rights Reserved. 39
人間の耳の限界を超えるには
distance
> 100 m
Copyright©2018 NTT corp. All Rights Reserved. 40
人間とは異なる情報処理が必要
100m 離れた外野スタンドのマイクを連携させよう
→ 距離による伝搬遅延や長残響で単純な引き算はダメ
時間周波数
マスク設計
×
Copyright©2018 NTT corp. All Rights Reserved. 41
時間周波数
マスク設計
×
遅延&
残響推定
人間とは異なる情報処理が必要
100m 離れた外野スタンドのマイクを連携させよう
→ 遅延や残響のキャリブレーションを追加
Copyright©2018 NTT corp. All Rights Reserved. 42
Multi-delay noise model
振幅領域での伝搬遅延/長残響のモデル化
Time-frame
delay
Gain
Gain
Gain
……
Multi-delay noise model
Multi-delay
noise model
Multi-delay
noise model
Time-frequency
mask calc.
残響 伝搬遅延
Multi-delay noise model
 Multi-delay-block-filter の振幅領域での表現 + 遅延項の拡張
 物理的制約を事前分布におき、残響/遅延パラメータをMAP推定
Y. Koizumi, et al., “Distant Noise Reduction Based on Multi-delay Noise Model Using Distributed Microphone Array,”
in Proc of EUSIPCO, 2018.
Copyright©2018 NTT corp. All Rights Reserved. 43
Modeling
…!
ホームベース付近に
パラボラマイク
外野スタンドに
ショットガンマイク
Time [s]
Freq.[kHz]Freq.[kHz]Freq.[kHz]
パラボラマイク(ホームベース)
ショットガンマイク(外野スタンド)
処理音
ストラーイク!
ミット音
Time [s]
野球場での動作デモ
審判の声や捕球音を強調
Copyright©2018 NTT corp. All Rights Reserved. 44
手前味噌な研究紹介
人間を超える (1) センシング
1. 実世界のセンシング(マイクロホンなど)
 100m 離れた場所に置いたマイクを連携させるには?
Y. Koizumi, et al., “Distant Noise Reduction Based on Multi-delay Noise Model
Using Distributed Microphone Array,” in Proc of EUSIPCO, 2018.
 機械であれば、人間では実現不可能なセンシングが可能
 そのセンサーをうまく活用するためには、その物理的性質
に対応した特殊な信号処理+機械学習の使い方が必要
 センサーの選択や配置に関する最適性はまだ未知…
Copyright©2018 NTT corp. All Rights Reserved. 45
手前味噌な研究紹介
1. 実世界のセンシング(マイクロホンなど)
3. 出力の価値判断(コスト関数など)
 100m 離れた場所に置いたマイクを連携させるには?
 「音質」を最大化するように DNN を学習するには?
Y. Koizumi, et al., “Distant Noise Reduction Based on Multi-delay Noise Model
Using Distributed Microphone Array,” in Proc of EUSIPCO, 2018.
Y. Koizumi, et al., “DNN-Based Source Enhancement to Increase Objective Sound
Quality Assessment Score,” IEEE/ACM Trans. on ASLP, 2018.
人間を超える (1) センシングと (3) 価値判断
Copyright©2018 NTT corp. All Rights Reserved. 46
価値判断(コスト関数)の重要性
DNN にどんな情報を推定してほしいのか?
 自然言語:対話の「満足度」を上げたい
→ 満足度最大化 ≠ クロスエントロピー
 音源強調:人が聞いて「良い」と思える音を出力したい
→ 音質最大化 ≠ 二乗誤差
DNNを学習するコスト関数と、
本当に推定したい情報のミスマッチ…
計算機を人間と同じ感性の元で最適化するには?
1. 人間の感性の計算機による再現
2. ブラックボックスな指標を最大化する学習法の創出
こちらの紹介
Copyright©2018 NTT corp. All Rights Reserved. 47
主観的な音質評価を最大化したい
ブラックボックス関数は微分不可能 (Backprop.が困難)
???
人間は DNN のコスト関数になれるか?
Copyright©2018 NTT corp. All Rights Reserved. 48
DNN音源強調のブラックボックス最適化
強化学習を応用した最適化
Game
score
Reward func.Action selector
Action
candi-
dates
Action
…
…
…
…
ゲームスコアさえあれば
DNNが学習できる
ビデオゲームや囲碁の学習に成功している!
音源強調に応用できないか?
Copyright©2018 NTT corp. All Rights Reserved. 49
DNN音源強調のブラックボックス最適化
強化学習を応用した最適化
Reward func.Mask generator
T-F
mask
Masking
…
…
…
…
スコアを主観評価と
捉えれば最適化できる?
学習には大量の試行が必要 ⇒ 主観評価そのままの利用は厳しい…
Copyright©2018 NTT corp. All Rights Reserved. 50
DNN音源強調のブラックボックス最適化
強化学習を応用した最適化
Reward func.Mask generator
T-F
mask
Masking
…
…
…
…
人間の主観評価を模擬した定量
評価指標を利用 (e.g. PESQ)
PC上のシミュレーションで完結
Copyright©2018 NTT corp. All Rights Reserved. 51
DNN音源強調のブラックボックス最適化
DNNを用いて目的関数を定義
サンプリングを用いた勾配の近似計算(policy gradient)
出力音の条件付き分布を
DNNで記述
聴感評点の最大化を
目的関数とする
Copyright©2018 NTT corp. All Rights Reserved.
聴感評点の例
52
音質の定量指標の例
明瞭度(単語の聞き取りやすさ)の定量指標の例
 PESQ: Perceptual Evaluation of Speech Quality
 音声符号化などで使われる音質の定量評価指標
Input: 目的音と出力音の音声ファイル
Output: 人間の音質評価(MOS)を模擬した値
⇒ PESQを上げ、出力音の音質向上を狙う
 STOI: Short-Time Objective Intelligibility
 音声強調などで使われる明瞭度の定量評価指標
Input: 目的音と出力音の音声ファイル
Output: 人間の単語正解率を模擬した値
⇒ STOIを上げ、出力音の明瞭度向上を狙う
Copyright©2018 NTT corp. All Rights Reserved.
評価実験 1/2(定量評価実験)
53
音質指標
PESQの向上値
【実験1】:学習回数が進むに従い、聴感評点が向上
明瞭度指標
STOIの向上値
学習回数 学習回数
【実験2】:学習に利用した聴感評点が、従来法より優位に向上
SDR [dB](歪み) PESQ (音質) STOI [%](明瞭度)
PSM [Erdogan,2015] 9.40 2.27 83.3
提案法(PESQ) 9.19 2.37 83.4
提案法(STOI) 9.74 2.20 87.3
 学習が進むにつれ、目標としてい
る聴感評点も向上
 学習に用いた聴感評点は従来法より
も優位に向上
(Input SNR: 0dB, Open test)
 聴感評点を向上させるDNN学習に成功
 従来技術と比べ、聴感評点が優位に向上
Copyright©2018 NTT corp. All Rights Reserved.
評価実験 2/2(主観評価実験)
54
音質の主観評価値
従来法
提案法
(PESQ)
提案法
(STOI)
単語了解度[%]
【実験1 】
出力音の音質を5段階で絶対評価
(PESQが模擬している試験)
良
悪
良
悪
【実験2 】
親密度の低い単語の聞き取り正解率
(STOIが模擬している試験)
従来法
提案法
(PESQ)
提案法
(STOI)
従来法 提案法(PESQ) 従来法 提案法(STOI)
PESQ最大化で
音質が向上
STOI最大化で
明瞭度が向上
 聴感評点に対応する主観品質も、従来法と比べ優位に向上
Copyright©2018 NTT corp. All Rights Reserved.
評価実験 2/2(主観評価実験)
55
音質の主観評価値
従来法
提案法
(PESQ)
提案法
(STOI)
単語了解度[%]
【実験1 】
出力音の音質を5段階で絶対評価
(PESQが模擬している試験)
良
悪
良
悪
【実験2 】
親密度の低い単語の聞き取り正解率
(STOIが模擬している試験)
従来法
提案法
(PESQ)
提案法
(STOI)
従来法 提案法(PESQ)
 聴感評点に対応する主観品質も、従来法と比べ優位に向上
従来法 提案法(STOI)
正解は「タカドノ」
従来法の正答率:31%, 提案法の正答率:81%
従来法は、雑音を削りすぎ、冒頭の子音の明瞭度が
低下しため、「ハカドノ」などと誤回答
Copyright©2018 NTT corp. All Rights Reserved. 56
手前味噌な研究紹介
人間を超える (1) センシングと (3) 価値判断
3. 出力の価値判断(コスト関数など)
 「音質」を最大化するように DNN を学習するには?
Y. Koizumi, et al., “DNN-Based Source Enhancement to Increase Objective Sound
Quality Assessment Score,” IEEE/ACM Trans. on ASLP, 2018.
 DNNの出力の統計的性質はコスト関数依存
 人が本当に欲しい情報を DNN が出力するためには
 人間と同等の価値判断(コスト関数)
 人間を超えるブラックボックス最適化(optimizer)
が必要
 ほとんど未着手かつ、文理融合が必要な研究領域。そろそろ
縦割り研究を超える頃ではないでしょうか?
Copyright©2018 NTT corp. All Rights Reserved. 57
今日の話題
情報処理と機械学習&深層学習
深層学習と音響信号処理(音源強調)の到達点
学生の皆さんへメッセージ
人間を超える情報処理へ
計算機基盤の進歩に期待すること
Copyright©2018 NTT corp. All Rights Reserved. 58
小規模/安価/中性能な計算機
DNNは音響の世界で実用的か?
 音響の世界では、未だローカル処理が求められることがほとんど
 リアルタイム性:e.g. 音声通話
 ネットワークコスト制約:e.g. 異常音検知
計算機の ”ベースライン” が上がらないと
成り立たないビジネスが多い
 計算機パワーの向上は機械学習のブレイクスルー
 まだ壊して欲しい壁が沢山。特に低レイヤー向けの中性能計算機
Copyright©2018 NTT corp. All Rights Reserved. 59
今日の話題
情報処理と機械学習&深層学習
深層学習と音響信号処理(音源強調)の到達点
学生の皆さんへメッセージ
人間を超える情報処理へ
計算機基盤の進歩に期待すること
Copyright©2018 NTT corp. All Rights Reserved. 60
まず手を動かそう
未だ、メディア処理には、
言語化しにくいノウハウが沢山
First Step
触ってみないと、できる/できないの直感が働かない
Copyright©2018 NTT corp. All Rights Reserved. 61
技術者 (Scientist/Engineer) であれ
ノウハウがたまると
データ/計算機/DNN があれば推定はできてしまう
No more “やっただけ” 論文!!
やっただけでは問題が “解けた” ことにはならない
問題の本質は?最もエレガントな解法は?
※ 企業としてはそれでいいことも多い
Next Step
Copyright©2018 NTT corp. All Rights Reserved. 62
【再掲】Take home message
何でもかんでも大量データ & end-to-end でいいのか?
現状、音響信号処理に関しては No
1. ネットワーク構造に物理的/信号処理的な工夫が必要
2. 人間を超えるためには、
センサー配置や目的関数の工夫も必要
※ end-to-end がうまくいかない条件は、数学的には証明されていないため、
この結論は将来は変わるかもしれない
現状の到達点
将来への展望
Copyright©2018 NTT corp. All Rights Reserved. 63
Q&A

More Related Content

What's hot

統計的手法に基づく異常音検知の理論と応用
統計的手法に基づく異常音検知の理論と応用統計的手法に基づく異常音検知の理論と応用
統計的手法に基づく異常音検知の理論と応用Yuma Koizumi
 
LSTM (Long short-term memory) 概要
LSTM (Long short-term memory) 概要LSTM (Long short-term memory) 概要
LSTM (Long short-term memory) 概要Kenji Urai
 
ドメイン適応の原理と応用
ドメイン適応の原理と応用ドメイン適応の原理と応用
ドメイン適応の原理と応用Yoshitaka Ushiku
 
[DL輪読会]NVAE: A Deep Hierarchical Variational Autoencoder
[DL輪読会]NVAE: A Deep Hierarchical Variational Autoencoder[DL輪読会]NVAE: A Deep Hierarchical Variational Autoencoder
[DL輪読会]NVAE: A Deep Hierarchical Variational AutoencoderDeep Learning JP
 
距離学習を導入した二値分類モデルによる異常音検知
距離学習を導入した二値分類モデルによる異常音検知距離学習を導入した二値分類モデルによる異常音検知
距離学習を導入した二値分類モデルによる異常音検知NU_I_TODALAB
 
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
【DL輪読会】Efficiently Modeling Long Sequences with Structured State SpacesDeep Learning JP
 
PRML学習者から入る深層生成モデル入門
PRML学習者から入る深層生成モデル入門PRML学習者から入る深層生成モデル入門
PRML学習者から入る深層生成モデル入門tmtm otm
 
論文紹介 wav2vec: Unsupervised Pre-training for Speech Recognition
論文紹介  wav2vec: Unsupervised Pre-training for Speech Recognition論文紹介  wav2vec: Unsupervised Pre-training for Speech Recognition
論文紹介 wav2vec: Unsupervised Pre-training for Speech RecognitionYosukeKashiwagi1
 
モデル高速化百選
モデル高速化百選モデル高速化百選
モデル高速化百選Yusuke Uchida
 
【DL輪読会】The Forward-Forward Algorithm: Some Preliminary
【DL輪読会】The Forward-Forward Algorithm: Some Preliminary【DL輪読会】The Forward-Forward Algorithm: Some Preliminary
【DL輪読会】The Forward-Forward Algorithm: Some PreliminaryDeep Learning JP
 
強化学習と逆強化学習を組み合わせた模倣学習
強化学習と逆強化学習を組み合わせた模倣学習強化学習と逆強化学習を組み合わせた模倣学習
強化学習と逆強化学習を組み合わせた模倣学習Eiji Uchibe
 
畳み込みニューラルネットワークの高精度化と高速化
畳み込みニューラルネットワークの高精度化と高速化畳み込みニューラルネットワークの高精度化と高速化
畳み込みニューラルネットワークの高精度化と高速化Yusuke Uchida
 
【宝くじ仮説】The Lottery Ticket Hypothesis: Finding Small, Trainable Neural Networks
【宝くじ仮説】The Lottery Ticket Hypothesis: Finding Small, Trainable Neural Networks【宝くじ仮説】The Lottery Ticket Hypothesis: Finding Small, Trainable Neural Networks
【宝くじ仮説】The Lottery Ticket Hypothesis: Finding Small, Trainable Neural NetworksYosuke Shinya
 
ICASSP2017読み会(関東編)・AASP_L3(北村担当分)
ICASSP2017読み会(関東編)・AASP_L3(北村担当分)ICASSP2017読み会(関東編)・AASP_L3(北村担当分)
ICASSP2017読み会(関東編)・AASP_L3(北村担当分)Daichi Kitamura
 
SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜
SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜
SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜SSII
 
最近のDeep Learning (NLP) 界隈におけるAttention事情
最近のDeep Learning (NLP) 界隈におけるAttention事情最近のDeep Learning (NLP) 界隈におけるAttention事情
最近のDeep Learning (NLP) 界隈におけるAttention事情Yuta Kikuchi
 
深層学習を用いた音源定位、音源分離、クラス分類の統合~環境音セグメンテーション手法の紹介~
深層学習を用いた音源定位、音源分離、クラス分類の統合~環境音セグメンテーション手法の紹介~深層学習を用いた音源定位、音源分離、クラス分類の統合~環境音セグメンテーション手法の紹介~
深層学習を用いた音源定位、音源分離、クラス分類の統合~環境音セグメンテーション手法の紹介~Yui Sudo
 
Anomaly detection 系の論文を一言でまとめた
Anomaly detection 系の論文を一言でまとめたAnomaly detection 系の論文を一言でまとめた
Anomaly detection 系の論文を一言でまとめたぱんいち すみもと
 
機械学習モデルの判断根拠の説明
機械学習モデルの判断根拠の説明機械学習モデルの判断根拠の説明
機械学習モデルの判断根拠の説明Satoshi Hara
 
【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion Models
【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion Models【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion Models
【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion ModelsDeep Learning JP
 

What's hot (20)

統計的手法に基づく異常音検知の理論と応用
統計的手法に基づく異常音検知の理論と応用統計的手法に基づく異常音検知の理論と応用
統計的手法に基づく異常音検知の理論と応用
 
LSTM (Long short-term memory) 概要
LSTM (Long short-term memory) 概要LSTM (Long short-term memory) 概要
LSTM (Long short-term memory) 概要
 
ドメイン適応の原理と応用
ドメイン適応の原理と応用ドメイン適応の原理と応用
ドメイン適応の原理と応用
 
[DL輪読会]NVAE: A Deep Hierarchical Variational Autoencoder
[DL輪読会]NVAE: A Deep Hierarchical Variational Autoencoder[DL輪読会]NVAE: A Deep Hierarchical Variational Autoencoder
[DL輪読会]NVAE: A Deep Hierarchical Variational Autoencoder
 
距離学習を導入した二値分類モデルによる異常音検知
距離学習を導入した二値分類モデルによる異常音検知距離学習を導入した二値分類モデルによる異常音検知
距離学習を導入した二値分類モデルによる異常音検知
 
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
 
PRML学習者から入る深層生成モデル入門
PRML学習者から入る深層生成モデル入門PRML学習者から入る深層生成モデル入門
PRML学習者から入る深層生成モデル入門
 
論文紹介 wav2vec: Unsupervised Pre-training for Speech Recognition
論文紹介  wav2vec: Unsupervised Pre-training for Speech Recognition論文紹介  wav2vec: Unsupervised Pre-training for Speech Recognition
論文紹介 wav2vec: Unsupervised Pre-training for Speech Recognition
 
モデル高速化百選
モデル高速化百選モデル高速化百選
モデル高速化百選
 
【DL輪読会】The Forward-Forward Algorithm: Some Preliminary
【DL輪読会】The Forward-Forward Algorithm: Some Preliminary【DL輪読会】The Forward-Forward Algorithm: Some Preliminary
【DL輪読会】The Forward-Forward Algorithm: Some Preliminary
 
強化学習と逆強化学習を組み合わせた模倣学習
強化学習と逆強化学習を組み合わせた模倣学習強化学習と逆強化学習を組み合わせた模倣学習
強化学習と逆強化学習を組み合わせた模倣学習
 
畳み込みニューラルネットワークの高精度化と高速化
畳み込みニューラルネットワークの高精度化と高速化畳み込みニューラルネットワークの高精度化と高速化
畳み込みニューラルネットワークの高精度化と高速化
 
【宝くじ仮説】The Lottery Ticket Hypothesis: Finding Small, Trainable Neural Networks
【宝くじ仮説】The Lottery Ticket Hypothesis: Finding Small, Trainable Neural Networks【宝くじ仮説】The Lottery Ticket Hypothesis: Finding Small, Trainable Neural Networks
【宝くじ仮説】The Lottery Ticket Hypothesis: Finding Small, Trainable Neural Networks
 
ICASSP2017読み会(関東編)・AASP_L3(北村担当分)
ICASSP2017読み会(関東編)・AASP_L3(北村担当分)ICASSP2017読み会(関東編)・AASP_L3(北村担当分)
ICASSP2017読み会(関東編)・AASP_L3(北村担当分)
 
SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜
SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜
SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜
 
最近のDeep Learning (NLP) 界隈におけるAttention事情
最近のDeep Learning (NLP) 界隈におけるAttention事情最近のDeep Learning (NLP) 界隈におけるAttention事情
最近のDeep Learning (NLP) 界隈におけるAttention事情
 
深層学習を用いた音源定位、音源分離、クラス分類の統合~環境音セグメンテーション手法の紹介~
深層学習を用いた音源定位、音源分離、クラス分類の統合~環境音セグメンテーション手法の紹介~深層学習を用いた音源定位、音源分離、クラス分類の統合~環境音セグメンテーション手法の紹介~
深層学習を用いた音源定位、音源分離、クラス分類の統合~環境音セグメンテーション手法の紹介~
 
Anomaly detection 系の論文を一言でまとめた
Anomaly detection 系の論文を一言でまとめたAnomaly detection 系の論文を一言でまとめた
Anomaly detection 系の論文を一言でまとめた
 
機械学習モデルの判断根拠の説明
機械学習モデルの判断根拠の説明機械学習モデルの判断根拠の説明
機械学習モデルの判断根拠の説明
 
【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion Models
【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion Models【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion Models
【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion Models
 

Similar to 深層学習と音響信号処理

ディープラーニングによる時系列データの異常検知
ディープラーニングによる時系列データの異常検知ディープラーニングによる時系列データの異常検知
ディープラーニングによる時系列データの異常検知Core Concept Technologies
 
中小企業による人工知能の活用~既存事業のアップグレードとイノベーション~
中小企業による人工知能の活用~既存事業のアップグレードとイノベーション~中小企業による人工知能の活用~既存事業のアップグレードとイノベーション~
中小企業による人工知能の活用~既存事業のアップグレードとイノベーション~Kentaro Imai
 
実世界の人工知能@DeNA TechCon 2017
実世界の人工知能@DeNA TechCon 2017 実世界の人工知能@DeNA TechCon 2017
実世界の人工知能@DeNA TechCon 2017 Preferred Networks
 
Ict委員会の開発力について
Ict委員会の開発力についてIct委員会の開発力について
Ict委員会の開発力についてYuta Hinokuma
 
企業における自然言語処理技術の活用の現場(情報処理学会東海支部主催講演会@名古屋大学)
企業における自然言語処理技術の活用の現場(情報処理学会東海支部主催講演会@名古屋大学)企業における自然言語処理技術の活用の現場(情報処理学会東海支部主催講演会@名古屋大学)
企業における自然言語処理技術の活用の現場(情報処理学会東海支部主催講演会@名古屋大学)Yuya Unno
 
最新事例から学ぶ! リモートワークを成功させる最適ソリューションとは?
最新事例から学ぶ! リモートワークを成功させる最適ソリューションとは?最新事例から学ぶ! リモートワークを成功させる最適ソリューションとは?
最新事例から学ぶ! リモートワークを成功させる最適ソリューションとは?aslead
 
スマートライフのパートナーを目指すドコモr&d(予告編)
スマートライフのパートナーを目指すドコモr&d(予告編)スマートライフのパートナーを目指すドコモr&d(予告編)
スマートライフのパートナーを目指すドコモr&d(予告編)Osaka University
 
20190601栄光学園進路ガイダンス
20190601栄光学園進路ガイダンス20190601栄光学園進路ガイダンス
20190601栄光学園進路ガイダンスKeita Miyano
 
[INEVITABLE ja night] 2018 年 12 月 14 日 - 「家庭」が見える!?電力データを利用した機器分離技術の活用
[INEVITABLE ja night] 2018 年 12 月 14 日 - 「家庭」が見える!?電力データを利用した機器分離技術の活用[INEVITABLE ja night] 2018 年 12 月 14 日 - 「家庭」が見える!?電力データを利用した機器分離技術の活用
[INEVITABLE ja night] 2018 年 12 月 14 日 - 「家庭」が見える!?電力データを利用した機器分離技術の活用Google Cloud Platform - Japan
 
情報処理とは何か あとbigdataとか
情報処理とは何か あとbigdataとか情報処理とは何か あとbigdataとか
情報処理とは何か あとbigdataとかTokoroten Nakayama
 
デジタルが切り開く未来ビジネス
デジタルが切り開く未来ビジネスデジタルが切り開く未来ビジネス
デジタルが切り開く未来ビジネスOsaka University
 
ソフトウェアとAIの進化が示唆するもの Final Final revised Final
ソフトウェアとAIの進化が示唆するもの Final Final revised FinalソフトウェアとAIの進化が示唆するもの Final Final revised Final
ソフトウェアとAIの進化が示唆するもの Final Final revised FinalRoy Sugimura, Ph.D
 
ディープラーニングの産業応用とそれを支える技術
ディープラーニングの産業応用とそれを支える技術ディープラーニングの産業応用とそれを支える技術
ディープラーニングの産業応用とそれを支える技術Shohei Hido
 
Domain Adaptation 発展と動向まとめ(サーベイ資料)
Domain Adaptation 発展と動向まとめ(サーベイ資料)Domain Adaptation 発展と動向まとめ(サーベイ資料)
Domain Adaptation 発展と動向まとめ(サーベイ資料)Yamato OKAMOTO
 
生活支援ロボットにおける 大規模データ収集に向けて
生活支援ロボットにおける大規模データ収集に向けて生活支援ロボットにおける大規模データ収集に向けて
生活支援ロボットにおける 大規模データ収集に向けてKomei Sugiura
 
IT化と1億総クリエイター化:知的財産権制度についての近い未来の話
IT化と1億総クリエイター化:知的財産権制度についての近い未来の話IT化と1億総クリエイター化:知的財産権制度についての近い未来の話
IT化と1億総クリエイター化:知的財産権制度についての近い未来の話Tohru Yoshioka-Kobayashi
 
機械学習ライブラリ「Spark MLlib」で作る アニメレコメンドシステム
機械学習ライブラリ「Spark MLlib」で作る アニメレコメンドシステム機械学習ライブラリ「Spark MLlib」で作る アニメレコメンドシステム
機械学習ライブラリ「Spark MLlib」で作る アニメレコメンドシステムJunichi Noda
 

Similar to 深層学習と音響信号処理 (20)

ディープラーニングによる時系列データの異常検知
ディープラーニングによる時系列データの異常検知ディープラーニングによる時系列データの異常検知
ディープラーニングによる時系列データの異常検知
 
中小企業による人工知能の活用~既存事業のアップグレードとイノベーション~
中小企業による人工知能の活用~既存事業のアップグレードとイノベーション~中小企業による人工知能の活用~既存事業のアップグレードとイノベーション~
中小企業による人工知能の活用~既存事業のアップグレードとイノベーション~
 
実世界の人工知能@DeNA TechCon 2017
実世界の人工知能@DeNA TechCon 2017 実世界の人工知能@DeNA TechCon 2017
実世界の人工知能@DeNA TechCon 2017
 
Ict委員会の開発力について
Ict委員会の開発力についてIct委員会の開発力について
Ict委員会の開発力について
 
企業における自然言語処理技術の活用の現場(情報処理学会東海支部主催講演会@名古屋大学)
企業における自然言語処理技術の活用の現場(情報処理学会東海支部主催講演会@名古屋大学)企業における自然言語処理技術の活用の現場(情報処理学会東海支部主催講演会@名古屋大学)
企業における自然言語処理技術の活用の現場(情報処理学会東海支部主催講演会@名古屋大学)
 
最新事例から学ぶ! リモートワークを成功させる最適ソリューションとは?
最新事例から学ぶ! リモートワークを成功させる最適ソリューションとは?最新事例から学ぶ! リモートワークを成功させる最適ソリューションとは?
最新事例から学ぶ! リモートワークを成功させる最適ソリューションとは?
 
スマートライフのパートナーを目指すドコモr&d(予告編)
スマートライフのパートナーを目指すドコモr&d(予告編)スマートライフのパートナーを目指すドコモr&d(予告編)
スマートライフのパートナーを目指すドコモr&d(予告編)
 
20190601栄光学園進路ガイダンス
20190601栄光学園進路ガイダンス20190601栄光学園進路ガイダンス
20190601栄光学園進路ガイダンス
 
[INEVITABLE ja night] 2018 年 12 月 14 日 - 「家庭」が見える!?電力データを利用した機器分離技術の活用
[INEVITABLE ja night] 2018 年 12 月 14 日 - 「家庭」が見える!?電力データを利用した機器分離技術の活用[INEVITABLE ja night] 2018 年 12 月 14 日 - 「家庭」が見える!?電力データを利用した機器分離技術の活用
[INEVITABLE ja night] 2018 年 12 月 14 日 - 「家庭」が見える!?電力データを利用した機器分離技術の活用
 
情報処理とは何か あとbigdataとか
情報処理とは何か あとbigdataとか情報処理とは何か あとbigdataとか
情報処理とは何か あとbigdataとか
 
可視化の先にあるものとは
可視化の先にあるものとは可視化の先にあるものとは
可視化の先にあるものとは
 
デジタルが切り開く未来ビジネス
デジタルが切り開く未来ビジネスデジタルが切り開く未来ビジネス
デジタルが切り開く未来ビジネス
 
ソフトウェアとAIの進化が示唆するもの Final Final revised Final
ソフトウェアとAIの進化が示唆するもの Final Final revised FinalソフトウェアとAIの進化が示唆するもの Final Final revised Final
ソフトウェアとAIの進化が示唆するもの Final Final revised Final
 
ディープラーニングの産業応用とそれを支える技術
ディープラーニングの産業応用とそれを支える技術ディープラーニングの産業応用とそれを支える技術
ディープラーニングの産業応用とそれを支える技術
 
[Japan Tech summit 2017] MAI 001
[Japan Tech summit 2017]  MAI 001[Japan Tech summit 2017]  MAI 001
[Japan Tech summit 2017] MAI 001
 
Domain Adaptation 発展と動向まとめ(サーベイ資料)
Domain Adaptation 発展と動向まとめ(サーベイ資料)Domain Adaptation 発展と動向まとめ(サーベイ資料)
Domain Adaptation 発展と動向まとめ(サーベイ資料)
 
生活支援ロボットにおける 大規模データ収集に向けて
生活支援ロボットにおける大規模データ収集に向けて生活支援ロボットにおける大規模データ収集に向けて
生活支援ロボットにおける 大規模データ収集に向けて
 
IT化と1億総クリエイター化:知的財産権制度についての近い未来の話
IT化と1億総クリエイター化:知的財産権制度についての近い未来の話IT化と1億総クリエイター化:知的財産権制度についての近い未来の話
IT化と1億総クリエイター化:知的財産権制度についての近い未来の話
 
kaneko202304.pptx
kaneko202304.pptxkaneko202304.pptx
kaneko202304.pptx
 
機械学習ライブラリ「Spark MLlib」で作る アニメレコメンドシステム
機械学習ライブラリ「Spark MLlib」で作る アニメレコメンドシステム機械学習ライブラリ「Spark MLlib」で作る アニメレコメンドシステム
機械学習ライブラリ「Spark MLlib」で作る アニメレコメンドシステム
 

Recently uploaded

Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。iPride Co., Ltd.
 
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)Hiroshi Tomioka
 
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)NTT DATA Technology & Innovation
 
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアルLoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアルCRI Japan, Inc.
 
新人研修 後半 2024/04/26の勉強会で発表されたものです。
新人研修 後半        2024/04/26の勉強会で発表されたものです。新人研修 後半        2024/04/26の勉強会で発表されたものです。
新人研修 後半 2024/04/26の勉強会で発表されたものです。iPride Co., Ltd.
 
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
LoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイスLoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイス
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイスCRI Japan, Inc.
 
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。iPride Co., Ltd.
 

Recently uploaded (7)

Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
 
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
 
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
 
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアルLoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
 
新人研修 後半 2024/04/26の勉強会で発表されたものです。
新人研修 後半        2024/04/26の勉強会で発表されたものです。新人研修 後半        2024/04/26の勉強会で発表されたものです。
新人研修 後半 2024/04/26の勉強会で発表されたものです。
 
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
LoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイスLoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイス
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
 
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
 

深層学習と音響信号処理

  • 1. Copyright©2018 NTT corp. All Rights Reserved. 2018/12/21 @ ICTイノベーションセミナー, 首都大学東京 1 日本電信電話株式会社 NTTメディアインテリジェンス研究所 小泉 悠馬 【招待講演】 深層学習と音響信号処理
  • 2. Copyright©2018 NTT corp. All Rights Reserved. 2  小泉 悠馬(こいずみ ゆうま) 1990年02月01日 東京生まれ, 北名古屋市&稲城市育ち 略歴  2014年: 法政大学 情報科学研究科 修了  2014年: NTTメディアインテリジェンス研究所 入所  2017年: 博士(工学) (電気通信大学) 研究内容  音響信号処理 × 機械学習の基礎研究と実用化  音源強調:うるさい中から欲しい音だけ取り出したい!  異常検知:周囲の異変を音から検知したい! 自己紹介
  • 3. Copyright©2018 NTT corp. All Rights Reserved. 3 Take home message 何でもかんでも大量データ & end-to-end でいいのか? 現状、音響信号処理に関しては No 1. ネットワーク構造に物理的/信号処理的な工夫が必要 2. 人間を超えるためには、 センサー配置や目的関数の工夫も必要 ※ end-to-end がうまくいかない条件は、数学的には証明されていないため、 この結論は将来は変わるかもしれない 現状の到達点 将来への展望
  • 4. Copyright©2018 NTT corp. All Rights Reserved. 4 実環境での音響信号処理サービス 計算機/通信の発達で音の情報処理技術はどんどん身近に 音声認識 エンターテイメント 異常音検知 音声通信 4
  • 5. Copyright©2018 NTT corp. All Rights Reserved. 5 音源強調の必要性 雑音が音情報処理性能を低下させる → うるさい中から欲しい音を取り出す技術が必須 雑音が大きく 音声認識できない 競技音が埋もれ 臨場感が伝わらない 音声認識 スポーツ中継
  • 6. Copyright©2018 NTT corp. All Rights Reserved. 6 音響信号処理の例:音源強調 騒音下でも通話や音声認識を可能にします  100 dB の騒音下で目的音を抽出&音声認識
  • 7. Copyright©2018 NTT corp. All Rights Reserved. 7 音響信号処理の例:音源強調 サッカースタジアムでキック音だけ強調します 周囲のスピーカーで 競技場の歓声を再現
  • 8. Copyright©2018 NTT corp. All Rights Reserved. 8 今日の話題 情報処理と機械学習&深層学習 深層学習と音響信号処理(音源強調)の到達点 学生の皆さんへメッセージ 人間を超える情報処理へ 計算機基盤の進歩に期待すること
  • 9. Copyright©2018 NTT corp. All Rights Reserved. 9 情報処理とはなんだろうか
  • 10. Copyright©2018 NTT corp. All Rights Reserved. 10 情報処理とはなんだろうか 与えられた情報を別の情報に変換する処理 なんらかの処理入力 出力
  • 11. Copyright©2018 NTT corp. All Rights Reserved. 11 情報処理とはなんだろうか 与えられた情報を別の情報に変換する処理 数理モデル入力 出力 計算機で実現するために、情報変換を数式で表す
  • 12. Copyright©2018 NTT corp. All Rights Reserved. 12 情報処理とはなんだろうか 入力 出力 どんな数理モデルがいい?  定量的な根拠を元にモデルを立てる方がよい  レイトレーシング(物理ベース) 物理モデル ⇨ 写真と見間違うような画像を出力できる  光源位置  物体位置  反射率 etc… [*] Wikipedia, “Ray tracing (graphics)” URL: https://en.wikipedia.org/wiki/Ray_tracing_(graphics) [*]
  • 13. Copyright©2018 NTT corp. All Rights Reserved. 13 情報処理とはなんだろうか  画像/音声などメディアの認識  人間の認識処理は未だ解明されていない  そもそも、対象の定義自体が人間の恣意的なもの ??? 入力 出力 Horse or (0,0,0,0,0,0,0,1,0,0) [*] An image from “The CIFAR-10 dataset” URL: https://www.cs.toronto.edu/~kriz/cifar.html [*] 根拠に基づくモデルは立てられないことが多い
  • 14. Copyright©2018 NTT corp. All Rights Reserved. 14 ブラックボックスな 情報変換(写像)を 計算機で再現するには?
  • 15. Copyright©2018 NTT corp. All Rights Reserved. 15 機械学習 変換関数 入力 目的関数 正解出力 関数形がブラックボックスな写像を 入出力のデータだけから再現する方法 1. 変換関数を決めて 2. 目的関数を決めて 3. 最適化する 和訳
  • 16. Copyright©2018 NTT corp. All Rights Reserved. 16 (深層)ニューラルネットワーク 微分可能な関数の合成関数でできた変換関数  沢山の亜種があるが、結局全部、ただの合成関数  無限個の関数を合成すれば任意の写像が表現可能 [*1] Wikipedia, “Artificial neural network”, https://en.wikipedia.org/wiki/Artificial_neural_network [*2] Wikipedia, “Long short-term memory”, https://en.wikipedia.org/wiki/Long_short-term_memory [*3] Wikipedia, “Convolutional neural network”, https://en.wikipedia.org/wiki/Convolutional_neural_network Shallow LSTM CNN [*1] [*2] [*3]
  • 17. Copyright©2018 NTT corp. All Rights Reserved. 17 現状、最有力な変換関数として君臨 画像/音声/自然言語を含む、 多くのメディア処理で SOTA な性能を実現 ※ 釈迦に説法ですが…  画像認識: AlexNet (2012) [*1] などから  音声認識: DNN-HMM (2011) [*2] などから ※ 当然、これらメディア処理にNNを使うアプローチは大昔からある。 [*1] A. Krizhevsky, et al., “Imagenet classification with deep convolutional neural networks,” in Proc. of NIPS, 2012 [*2] F. Seide, et al., “Conversational speech transcription using context-dependent deep neural networks,” in Proc. of Interspeech, 2011. [*3] A. Narayananand, et al., “Ideal ratio mask estimation using deep neural networks for robust speech recognition,” in Proc. of ICASSP, 2013.  音源強調: IRM推定 (2013) [*3] などから
  • 18. Copyright©2018 NTT corp. All Rights Reserved. 18 なぜ end-to-end はうまくいくのか 恣意性の排除、data-driven な特徴量設計 情報処理不等式  柔軟な回帰関数の下では、恣意的な情報変換は害悪でしかない  Googleの猫細胞 [*1][*2] はあまりにも有名 [*1] Official Google Blog, “Using large-scale brain simulations for machine learning and A.I.” (2012). URL: https://googleblog.blogspot.com/2012/06/using-large-scale-brain- simulations-for.html [*2] Q. V. Le, et al., “Building High-level Features Using Large Scale Unsupervised Learning,” in Proc. Of ICML, 2012.  教師なし学習をしているのに、猫画像に対して発 火するニューロンが獲得された
  • 19. Copyright©2018 NTT corp. All Rights Reserved. 19 今日の話題 情報処理と機械学習&深層学習 深層学習と音響信号処理(音源強調)の到達点 学生の皆さんへメッセージ 人間を超える情報処理へ 計算機基盤の進歩に期待すること
  • 20. Copyright©2018 NTT corp. All Rights Reserved. 20 観測音から目的音を抽出する信号処理 目的音 雑音 … 観測音 音源強調 出力音 マイク 音響信号処理の例:音源強調
  • 21. Copyright©2018 NTT corp. All Rights Reserved. 21 情報処理としての音源強調 観測音から目的音を取り出す変換関数の設計問題 音源強調  ここでは、マイク1本での音源強調を想定  典型的な劣決定問題 未知変数の数 > 観測変数の数
  • 22. Copyright©2018 NTT corp. All Rights Reserved. 22 End-to-end 音源強調 using DNN ?? 波形を入力し、波形を出力するニューラルネット?? … …… …… …… …… … …… End-to-end S. Pascual, et al., “SEGAN: Speech Enhancement Generative Adversarial Network,” in Proc of Interspeech, 2017.  例えば、以下の論文が有名
  • 23. Copyright©2018 NTT corp. All Rights Reserved. 23 End-to-end 音源強調 using DNN ?? 波形を入力し、波形を出力するニューラルネット?? … …… …… …… …… … …… End-to-end S. Pascual, et al., “SEGAN: Speech Enhancement Generative Adversarial Network,” in Proc of Interspeech, 2017.  例えば、以下の論文が有名 現状 SOTAではない
  • 24. Copyright©2018 NTT corp. All Rights Reserved. 24 完全 end-to-end vs. 信号処理-based DNN 波形領域の end-to-end < 信号処理-based Anonymous, “Phase-Aware Speech Enhancement with Deep Complex U-Net,” open review (submitted to ICLR 2019). URL: https://openreview.net/forum?id=SkeRTsAcYm [Deep Complex U-Net の音が聴けるページ] http://www.deepcomplexunet.tk [SEGAN の音が聴けるページ] URL: https://ccrma.stanford.edu/%7Efrancois/SpeechDenoisingWithDeepFeatureLosses/
  • 25. Copyright©2018 NTT corp. All Rights Reserved. 25 とってもアバウトな”深層複素U-Net”の構成 フィルタリング DNNによる 複素マスク推定 FFT IFFT 目的音を強調するフィルタをDNNで推定 → 信号処理の未知パラメータの推定に利用
  • 26. Copyright©2018 NTT corp. All Rights Reserved. 26 どんなときに end2end はうまくいかないか その理由を解明した論文はまだない  学習データが足りない説  DNN は回帰問題は苦手説  関数の組み方がダメ、自由度が高すぎる説  学習データですらうまく強調できないので考えにくい…  識別に関する理論解析は進むが、回帰は進まない  解空間の大きさや濃度  画像処理のCNN、自然言語処理の attention のようなキ ラー構造が波形領域にはまだ無い?
  • 27. Copyright©2018 NTT corp. All Rights Reserved. 27 深層複素U-Net の正体 【音響 and/or 機械学習のプロ向けの話】 ここでは  音声の統計的性質(時間周波数領域でのスパース性)を利用  非線形フィルタリング(信号処理)をNNで表現 =信号処理の一連の流れを NN とみなし、 未知パラメータだけをNN で推定  FFT / IFFT を固定な 1-D convolution layer とみなせば、時間周 波数領域を経由しつつも、”end-to-end” な学習ができる  非線形フィルタリングの一般式  DNNを となる射影関数して、以下で学習 であり、行列演算で書ける 複素時間周波数マスク(非線形なフィルタのようなもの) を推定する、複素数のニューラルネットワーク
  • 28. Copyright©2018 NTT corp. All Rights Reserved. 28 ここまでのまとめ  音響信号処理では完全な end-to-end はうまく動かない  end-to-end がうまくいかない条件は、数学的には証明されてい ないため、この結論は将来は変わるかもしれない  【現在のトレンド】ネットワーク構造に利用する、物理 的/信号処理的な工夫が模索されている  音声の統計的性質を利用した信号処理を NN として記述し、そ の未知パラメータだけを NN で推定 & 波形領域誤差最小化学習 現状の世界最先端
  • 29. Copyright©2018 NTT corp. All Rights Reserved. 29 今日の話題 情報処理と機械学習&深層学習 深層学習と音響信号処理(音源強調)の到達点 学生の皆さんへメッセージ 人間を超える情報処理へ 計算機基盤の進歩に期待すること
  • 30. Copyright©2018 NTT corp. All Rights Reserved. 30 機械の計算能力は人間を超えた 強力な写像関数も手に入れた では、なぜ(音の)機械学習は 人間を超えてくれないのか 20年後に向け 私たちはどんな研究をすべきだろうか?
  • 31. Copyright©2018 NTT corp. All Rights Reserved. 31 今、機械学習に何ができていないのか 情報処理の登場人物は主に3人 1. 実世界のセンシング(マイクロホンなど) 2. 情報の変換(DNNなど) 3. 出力の価値判断(コスト関数など)
  • 32. Copyright©2018 NTT corp. All Rights Reserved. 32 今、機械学習に何ができていないのか 情報処理の登場人物は主に3人 1. 実世界のセンシング(マイクロホンなど) 2. 情報の変換(DNNなど)  DNNを複雑にすれば、任意の写像を表現可能 → 人間を超えている 3. 出力の価値判断(コスト関数など)
  • 33. Copyright©2018 NTT corp. All Rights Reserved. 33 今、機械学習に何ができていないのか 情報処理の登場人物は主に3人 1. 実世界のセンシング(マイクロホンなど) 2. 情報の変換(DNNなど)  DNNを複雑にすれば、任意の写像を表現可能 → 人間を超えている  マイクだけ?画像だけ?一箇所で? → 人間と同等以下 3. 出力の価値判断(コスト関数など)
  • 34. Copyright©2018 NTT corp. All Rights Reserved. 34 今、機械学習に何ができていないのか 情報処理の登場人物は主に3人 1. 実世界のセンシング(マイクロホンなど) 2. 情報の変換(DNNなど) 3. 出力の価値判断(コスト関数など)  DNNを複雑にすれば、任意の写像を表現可能 → 人間を超えている  マイクだけ?画像だけ?一箇所で? → 人間と同等以下  二乗誤差?クロスエントロピー? → 人間には遠く及ばない
  • 35. Copyright©2018 NTT corp. All Rights Reserved. 35 人間を超える情報処理のために 人間を超える (1) センシングと (3) 価値判断 1. 実世界のセンシング(マイクロホンなど) 3. 出力の価値判断(コスト関数など)
  • 36. Copyright©2018 NTT corp. All Rights Reserved. 36 手前味噌な研究紹介 人間を超える (1) センシングと (3) 価値判断 1. 実世界のセンシング(マイクロホンなど) 3. 出力の価値判断(コスト関数など)  100m 離れた場所に置いたマイクを連携させるには?  「音質」を最大化するように DNN を学習するには? Y. Koizumi, et al., “Distant Noise Reduction Based on Multi-delay Noise Model Using Distributed Microphone Array,” in Proc of EUSIPCO, 2018. Y. Koizumi, et al., “DNN-Based Source Enhancement to Increase Objective Sound Quality Assessment Score,” IEEE/ACM Trans. on ASLP, 2018.
  • 37. Copyright©2018 NTT corp. All Rights Reserved. パラボラマイク 場内アナウンス (PAスピーカ) 応援団 競技音 37 野球場で歓声を消したい
  • 38. Copyright©2018 NTT corp. All Rights Reserved. 38 人間の耳の限界を超えるには バックネットのマイク だけでは歓声が消せない
  • 39. Copyright©2018 NTT corp. All Rights Reserved. 39 人間の耳の限界を超えるには distance > 100 m
  • 40. Copyright©2018 NTT corp. All Rights Reserved. 40 人間とは異なる情報処理が必要 100m 離れた外野スタンドのマイクを連携させよう → 距離による伝搬遅延や長残響で単純な引き算はダメ 時間周波数 マスク設計 ×
  • 41. Copyright©2018 NTT corp. All Rights Reserved. 41 時間周波数 マスク設計 × 遅延& 残響推定 人間とは異なる情報処理が必要 100m 離れた外野スタンドのマイクを連携させよう → 遅延や残響のキャリブレーションを追加
  • 42. Copyright©2018 NTT corp. All Rights Reserved. 42 Multi-delay noise model 振幅領域での伝搬遅延/長残響のモデル化 Time-frame delay Gain Gain Gain …… Multi-delay noise model Multi-delay noise model Multi-delay noise model Time-frequency mask calc. 残響 伝搬遅延 Multi-delay noise model  Multi-delay-block-filter の振幅領域での表現 + 遅延項の拡張  物理的制約を事前分布におき、残響/遅延パラメータをMAP推定 Y. Koizumi, et al., “Distant Noise Reduction Based on Multi-delay Noise Model Using Distributed Microphone Array,” in Proc of EUSIPCO, 2018.
  • 43. Copyright©2018 NTT corp. All Rights Reserved. 43 Modeling …! ホームベース付近に パラボラマイク 外野スタンドに ショットガンマイク Time [s] Freq.[kHz]Freq.[kHz]Freq.[kHz] パラボラマイク(ホームベース) ショットガンマイク(外野スタンド) 処理音 ストラーイク! ミット音 Time [s] 野球場での動作デモ 審判の声や捕球音を強調
  • 44. Copyright©2018 NTT corp. All Rights Reserved. 44 手前味噌な研究紹介 人間を超える (1) センシング 1. 実世界のセンシング(マイクロホンなど)  100m 離れた場所に置いたマイクを連携させるには? Y. Koizumi, et al., “Distant Noise Reduction Based on Multi-delay Noise Model Using Distributed Microphone Array,” in Proc of EUSIPCO, 2018.  機械であれば、人間では実現不可能なセンシングが可能  そのセンサーをうまく活用するためには、その物理的性質 に対応した特殊な信号処理+機械学習の使い方が必要  センサーの選択や配置に関する最適性はまだ未知…
  • 45. Copyright©2018 NTT corp. All Rights Reserved. 45 手前味噌な研究紹介 1. 実世界のセンシング(マイクロホンなど) 3. 出力の価値判断(コスト関数など)  100m 離れた場所に置いたマイクを連携させるには?  「音質」を最大化するように DNN を学習するには? Y. Koizumi, et al., “Distant Noise Reduction Based on Multi-delay Noise Model Using Distributed Microphone Array,” in Proc of EUSIPCO, 2018. Y. Koizumi, et al., “DNN-Based Source Enhancement to Increase Objective Sound Quality Assessment Score,” IEEE/ACM Trans. on ASLP, 2018. 人間を超える (1) センシングと (3) 価値判断
  • 46. Copyright©2018 NTT corp. All Rights Reserved. 46 価値判断(コスト関数)の重要性 DNN にどんな情報を推定してほしいのか?  自然言語:対話の「満足度」を上げたい → 満足度最大化 ≠ クロスエントロピー  音源強調:人が聞いて「良い」と思える音を出力したい → 音質最大化 ≠ 二乗誤差 DNNを学習するコスト関数と、 本当に推定したい情報のミスマッチ… 計算機を人間と同じ感性の元で最適化するには? 1. 人間の感性の計算機による再現 2. ブラックボックスな指標を最大化する学習法の創出 こちらの紹介
  • 47. Copyright©2018 NTT corp. All Rights Reserved. 47 主観的な音質評価を最大化したい ブラックボックス関数は微分不可能 (Backprop.が困難) ??? 人間は DNN のコスト関数になれるか?
  • 48. Copyright©2018 NTT corp. All Rights Reserved. 48 DNN音源強調のブラックボックス最適化 強化学習を応用した最適化 Game score Reward func.Action selector Action candi- dates Action … … … … ゲームスコアさえあれば DNNが学習できる ビデオゲームや囲碁の学習に成功している! 音源強調に応用できないか?
  • 49. Copyright©2018 NTT corp. All Rights Reserved. 49 DNN音源強調のブラックボックス最適化 強化学習を応用した最適化 Reward func.Mask generator T-F mask Masking … … … … スコアを主観評価と 捉えれば最適化できる? 学習には大量の試行が必要 ⇒ 主観評価そのままの利用は厳しい…
  • 50. Copyright©2018 NTT corp. All Rights Reserved. 50 DNN音源強調のブラックボックス最適化 強化学習を応用した最適化 Reward func.Mask generator T-F mask Masking … … … … 人間の主観評価を模擬した定量 評価指標を利用 (e.g. PESQ) PC上のシミュレーションで完結
  • 51. Copyright©2018 NTT corp. All Rights Reserved. 51 DNN音源強調のブラックボックス最適化 DNNを用いて目的関数を定義 サンプリングを用いた勾配の近似計算(policy gradient) 出力音の条件付き分布を DNNで記述 聴感評点の最大化を 目的関数とする
  • 52. Copyright©2018 NTT corp. All Rights Reserved. 聴感評点の例 52 音質の定量指標の例 明瞭度(単語の聞き取りやすさ)の定量指標の例  PESQ: Perceptual Evaluation of Speech Quality  音声符号化などで使われる音質の定量評価指標 Input: 目的音と出力音の音声ファイル Output: 人間の音質評価(MOS)を模擬した値 ⇒ PESQを上げ、出力音の音質向上を狙う  STOI: Short-Time Objective Intelligibility  音声強調などで使われる明瞭度の定量評価指標 Input: 目的音と出力音の音声ファイル Output: 人間の単語正解率を模擬した値 ⇒ STOIを上げ、出力音の明瞭度向上を狙う
  • 53. Copyright©2018 NTT corp. All Rights Reserved. 評価実験 1/2(定量評価実験) 53 音質指標 PESQの向上値 【実験1】:学習回数が進むに従い、聴感評点が向上 明瞭度指標 STOIの向上値 学習回数 学習回数 【実験2】:学習に利用した聴感評点が、従来法より優位に向上 SDR [dB](歪み) PESQ (音質) STOI [%](明瞭度) PSM [Erdogan,2015] 9.40 2.27 83.3 提案法(PESQ) 9.19 2.37 83.4 提案法(STOI) 9.74 2.20 87.3  学習が進むにつれ、目標としてい る聴感評点も向上  学習に用いた聴感評点は従来法より も優位に向上 (Input SNR: 0dB, Open test)  聴感評点を向上させるDNN学習に成功  従来技術と比べ、聴感評点が優位に向上
  • 54. Copyright©2018 NTT corp. All Rights Reserved. 評価実験 2/2(主観評価実験) 54 音質の主観評価値 従来法 提案法 (PESQ) 提案法 (STOI) 単語了解度[%] 【実験1 】 出力音の音質を5段階で絶対評価 (PESQが模擬している試験) 良 悪 良 悪 【実験2 】 親密度の低い単語の聞き取り正解率 (STOIが模擬している試験) 従来法 提案法 (PESQ) 提案法 (STOI) 従来法 提案法(PESQ) 従来法 提案法(STOI) PESQ最大化で 音質が向上 STOI最大化で 明瞭度が向上  聴感評点に対応する主観品質も、従来法と比べ優位に向上
  • 55. Copyright©2018 NTT corp. All Rights Reserved. 評価実験 2/2(主観評価実験) 55 音質の主観評価値 従来法 提案法 (PESQ) 提案法 (STOI) 単語了解度[%] 【実験1 】 出力音の音質を5段階で絶対評価 (PESQが模擬している試験) 良 悪 良 悪 【実験2 】 親密度の低い単語の聞き取り正解率 (STOIが模擬している試験) 従来法 提案法 (PESQ) 提案法 (STOI) 従来法 提案法(PESQ)  聴感評点に対応する主観品質も、従来法と比べ優位に向上 従来法 提案法(STOI) 正解は「タカドノ」 従来法の正答率:31%, 提案法の正答率:81% 従来法は、雑音を削りすぎ、冒頭の子音の明瞭度が 低下しため、「ハカドノ」などと誤回答
  • 56. Copyright©2018 NTT corp. All Rights Reserved. 56 手前味噌な研究紹介 人間を超える (1) センシングと (3) 価値判断 3. 出力の価値判断(コスト関数など)  「音質」を最大化するように DNN を学習するには? Y. Koizumi, et al., “DNN-Based Source Enhancement to Increase Objective Sound Quality Assessment Score,” IEEE/ACM Trans. on ASLP, 2018.  DNNの出力の統計的性質はコスト関数依存  人が本当に欲しい情報を DNN が出力するためには  人間と同等の価値判断(コスト関数)  人間を超えるブラックボックス最適化(optimizer) が必要  ほとんど未着手かつ、文理融合が必要な研究領域。そろそろ 縦割り研究を超える頃ではないでしょうか?
  • 57. Copyright©2018 NTT corp. All Rights Reserved. 57 今日の話題 情報処理と機械学習&深層学習 深層学習と音響信号処理(音源強調)の到達点 学生の皆さんへメッセージ 人間を超える情報処理へ 計算機基盤の進歩に期待すること
  • 58. Copyright©2018 NTT corp. All Rights Reserved. 58 小規模/安価/中性能な計算機 DNNは音響の世界で実用的か?  音響の世界では、未だローカル処理が求められることがほとんど  リアルタイム性:e.g. 音声通話  ネットワークコスト制約:e.g. 異常音検知 計算機の ”ベースライン” が上がらないと 成り立たないビジネスが多い  計算機パワーの向上は機械学習のブレイクスルー  まだ壊して欲しい壁が沢山。特に低レイヤー向けの中性能計算機
  • 59. Copyright©2018 NTT corp. All Rights Reserved. 59 今日の話題 情報処理と機械学習&深層学習 深層学習と音響信号処理(音源強調)の到達点 学生の皆さんへメッセージ 人間を超える情報処理へ 計算機基盤の進歩に期待すること
  • 60. Copyright©2018 NTT corp. All Rights Reserved. 60 まず手を動かそう 未だ、メディア処理には、 言語化しにくいノウハウが沢山 First Step 触ってみないと、できる/できないの直感が働かない
  • 61. Copyright©2018 NTT corp. All Rights Reserved. 61 技術者 (Scientist/Engineer) であれ ノウハウがたまると データ/計算機/DNN があれば推定はできてしまう No more “やっただけ” 論文!! やっただけでは問題が “解けた” ことにはならない 問題の本質は?最もエレガントな解法は? ※ 企業としてはそれでいいことも多い Next Step
  • 62. Copyright©2018 NTT corp. All Rights Reserved. 62 【再掲】Take home message 何でもかんでも大量データ & end-to-end でいいのか? 現状、音響信号処理に関しては No 1. ネットワーク構造に物理的/信号処理的な工夫が必要 2. 人間を超えるためには、 センサー配置や目的関数の工夫も必要 ※ end-to-end がうまくいかない条件は、数学的には証明されていないため、 この結論は将来は変わるかもしれない 現状の到達点 将来への展望
  • 63. Copyright©2018 NTT corp. All Rights Reserved. 63 Q&A