SlideShare a Scribd company logo
1 of 90
Download to read offline
音響システム特論 第11回
実環境における音響信号処理と機械学習
NTTメディアインテリジェンス研究所
小泉 悠馬
Advanced Topics of Acoustic System (Day11)
2
今日のトーク
ケーススタディ:枯れた技術 vs. 最先端技術
実環境で有用なのはどちら?
枯れた技術:多くの人によって利用・検証・修正が行われ、バグもなく、
ノウハウが十分に溜まった技術のこと(=ポジティブな意味)
Take-home message
メリット/デメリットがあり、状況に応じて技術を選ぶ必要があります
先行研究も「使えるレベル」まで理解するといいと思います
新しい世界を切り開く&将来の枯れた技術になる研究をしてください
新しい世界を作るには、最先端技術が不可欠です
20年後、作られた技術がどう発達し、どう深められていくかは予想がつき
ません(e.g. 非負値行列因子分解、独立成分分析)
後世に有用な知見を残す、普遍的に役立つ概念や原理を創出してください
3
※ がっかりしないでほしいこと
今日は実用的な話ばかりしますが
NTT研究所では
基礎研究もバリバリやっています
※ NTT研究所の基礎研究に興味がある方は、学会、もしくは授業後に小泉まで!
4
現職について
音響信号処理技術の研究開発部隊
→ AASP: Audio and Acoustic Signal Processing
5
AASP分野の概要
音
源
分
離
音響イベント
識別
車の
走行音
符号化
音の収録 環境音の分析
復号
局
所
再
生
音の再生
音の符号化
 IEEE Signal Processing Society の1分野(ICASSP では、もっとも人
数/投稿数の多い分野の一つ)
 実世界でシステムを組むときは、各技術を組み合わせて使う
音声の認識/合成以外の音の信号処理
猿渡先生は
ここの大御所
小山先生は
ここの大御所
6
AASP分野の概要
音
源
分
離
音響イベント
識別
車の
走行音
符号化
音の収録
復号
局
所
再
生
音の再生
音の符号化
 今日は、音の収録と分析を例にとり、これらの技術を実環境で動か
した経験についてお話しします
音声の認識/合成以外の音の信号処理
環境音の分析
7
音の収録のお話
8
実環境における収音技術の必要性
雑音が情報処理性能を低下させる
雑音が大きく
音声認識できない
競技音が埋もれ
臨場感が伝わらない
音声認識 スポーツ中継
9
音源強調/音源分離とは
目的音
雑音
…
観測音
信号処理
出力音
マイク
 アプリケーション:
音声認識の前処理, 通話品質向上, Hearing aid, etc…
観測信号から目的音を抽出する信号処理
10
音源分離?音源強調?何が違うの?
 Separation:混ざったものを「個々の音源に分離」する
 Enhancement:混ざったからを「特定の音源を抽出」する
音
源
分
離
音
源
強
調
それぞれの音源に分離=出力はK個
目的音だけ求められればいい
Separation/enhancement で問題設定が異なる
 多くの場合、有限個の点音源を仮定
 目的音+その他というモデル
11
マイクは1つ?複数?
複数あると、空間的な情報が利用できる
線形フィルタリング(e.g. ビームフォーミング, ICA, IVA, ILRMA)
非線形フィルタリング(or 時間周波数マスク)
 複数の場合は線形、1つの場合は非線形のフィルタリングが一般的
12
線形フィルタリング
到達時間/ゲイン差を利用し、所望の方向の音を強調
 音源の位置(空間情報)の違いを利用
正面から到来する音は、
ほぼ時間差なく到達
13
線形フィルタリング
到達時間/ゲイン差を利用し、所望の方向の音を強調
 音源の位置(空間情報)の違いを利用
正面から以外から到来する音は、
時間差をもって到達
14
線形フィルタリング
到達時間/ゲイン差を利用し、所望の方向の音を強調
 音源の位置(空間情報)の違いを利用
複数の方向からの音が混ざると、
複雑な波形となる
15
線形フィルタリング
到達時間/ゲイン差を利用し、所望の方向の音を強調
 音源の位置(空間情報)の違いを利用
複数の方向からの音が混ざると、
複雑な波形となる
例)正面の音は同じタイミングで到達するので、
全マイクの音を加算すると強められる
16
非線形フィルタリング
時間周波数ビン毎に要素を操作するフィルタ
目的音=人間の声
 音源の時間周波数構造の違いを利用
17
非線形フィルタリング
時間周波数ビン毎に要素を操作するフィルタ
雑音=サックス
18
非線形フィルタリング
時間周波数ビン毎に要素を操作するフィルタ
混ざってしまうと、どれが目的音かわからない
?? ??
19
非線形フィルタリング
時間周波数ビン毎に要素を操作するフィルタ
例:ウィナーフィルタ
非線形フィルタリング
時間周波数ビン毎に要素を操作するフィルタ
例:ウィナーフィルタ
20
Demo video: 音声強調の応用例
21
100dBの騒音化で目的音を抽出&音声認識
枯れた技術が役に立った例
22
野球場で
音源強調を動かそう
NTT研究所のスポーツ向け収音技術
23
K. Niwa, et al., “Diffused Sensing for Sharp Directive Beamforming”. IEEE Trans. ASLP, 2013.
K. Niwa, et al., “Optimal Microphone Array Observation for Clear Recording of Distant Sound Sources”. IEEE Trans. ASLP, 2016.
20m
3度
凹型反射板と約100本のマイクロホンで構成
(幅4m×縦1.5m×奥行1m)
1m
スタジアム
ズームアップして収音
ズームアップマイク
(壁や天井への埋め込み)
20m先の音を
空間分解能3度で集音可能
ズームアップマイク
NTT研究所のスポーツ向け収音技術
24
 音色も使って、音を見分ける
 特定の競技音だけをオブジェクトとして収音
…
……
……
……
……
…
……
 相互情報量最大化で特徴量抽出し、ルールベース(or DNN)でマ
スク推定
ターゲットマイク
Y. Koizumi, et al., “Informative Acoustic Feature Selection to Maximize Mutual Information for Collecting Target Sources,” IEEE/ACM
Trans. ASLP, 2017.
Demo Video
マイクロホンアレイ
周囲の
スピーカーから
競技場で収録した
歓声を再生
大歓声の中からキック音を抽出します
高臨場音響ルームをつくろう!
26
 野球の新たな観戦スタイルを提供したい
 札幌ドーム3階に、「高臨場感プレミアム空間演出ソリューション」を設
置し、2016/07/29-31のホークス戦でトライアル
実際のスポーツ場で使ってみよう!
https://www.ntt.co.jp/news2016/1607/160729b.html
https://www.ntt.co.jp/journal/1611/files/jn20161159.pdf
どんなことを実現しようとしたか
27
野球場の3階は、競技音はほぼ聞こえない
Here!
外野
どんなことを実現しようとしたか
28
 バッティング音、審判の声、歓声、場内PAを分離して収音
 多数のスピーカーで、オブジェクトごとに定位を操作し、マウンド上
にいるような音空間を擬似的に作る
選手の気分でスポーツ観戦
ホームベース付近の音
(打球/捕球音・審判の声)
応援席からの音
(歓声・応援団・場内アナウンス)
野球場の音環境
29
 歓声やPAが雑音源
 野球中継で聞いている音
はパラボラマイクの音
パラボラマイク
場内アナウンス
(PAスピーカ)
応援団
競技音
指向性だけでは雑音が消せない
枯れた技術の水平思考
30
場内
アナウンス
伝達特性
推定
-
競技音の
強調
 場内アナウンスの信号は、PA室に源信号がある
 PAスピーカからパラボラまでの伝達特性を推定できれば、PAは消せる
 通話用の「エコーキャンセラ技術」(適応フィルタ)を応用
使い古された技術は、似たような状況にすぐ応用できる
M. M. Sondhi, “An Adaptive Echo Canceller”. The Bell System Technical Journal, 1967.
実際のシステムは論文より複雑に。。。
31
パラボラ
マイク
場内
アナウンス
レフト向き
ガンマイク
ライト向き
ガンマイク
伝達特性
推定
伝達特性
推定
ス
ピ
ー
カ
ー
シ
ス
テ
ム
へ
-
-
-
伝達特性
推定
 システムの大半は、先人の研究とノウハウでできている
DNN音源強調の
現場テストも兼ねる
(どう見てもフラグ)
審判の声
打球音
ミット音
レフト音
ライト音
アナウンス音
システムには爆弾が仕組まれていた
32
 3連戦の初日(テスト日)歓声が大きすぎて、システムが動かない!
 明日には報道陣を呼んでのデモ。タイムリミットは18時間!
 しかし、2016年 夏のパ・リーグは熱かった!
 大谷選手 絶好調
 ホークス(首位) vs. ファイターズ(二位)
7/29 (金) 7/30 (土) 7/31 (日)
テスト日
観客 26,452 人
新聞社の取材
(※ 観客 31,226 人)
お客様を入れて本番
(※ 観客 41,138 人)
※観客動員数 17,679 人
 5月にシステムのテスト
⇒ 安定動作をオフラインで確認
パラボラ 出力音
最先端技術部分が大炎上
33
パラボラ
マイク
場内
アナウンス
レフト向き
ガンマイク
ライト向き
ガンマイク
伝達特性
推定
伝達特性
推定
ス
ピ
ー
カ
ー
シ
ス
テ
ム
へ
-
-
-
伝達特性
推定
 バグ(?)の出切っていない新技術が爆発
審判の声
打球音
ミット音
レフト音
ライト音
アナウンス音
枯れた技術のカスタマイズ
34
 外野付近のマイクには歓声しか入っていない
遅延
処理
時間周波数
マスク設計
×
外野からホームベースまでの距離は
分かっているのだから
遅延時間は概算できるはず!
線形な適応フィルタは使えないけど
概算でいいから到来雑音を推定して、引き算できないか
スペクトル減算
35
S. F. Boll. ”Suppression of Acoustic Noise in Speech Using Spectral Subtraction”. IEEE Trans. ASSP., vol.27, pp.113-120. 1979.
 雑音を推定して、時間周波数マスクを設計
Obs.
??? ???
T-F mask
超遠方にあるマイクを使った雑音推定
36
 マイク同士が100m以上離れているので、瞬時混合が仮定できない
⇒ Multi block freq. domain adaptive filter* のなんちゃって処理
*J.-S. Soo and K. Pang, “Multidelay block frequency domain adaptive filter,” IEEE Trans. ASSP, vol. 38, no. 2, pp. 373–376, 1990.
到達時間差をフレーム遅延で表現伝達ゲインを𝐾ブロックに分割
観測信号の尤度
音源間の距離に
応じた事前分布
MAP推定
 未知パラメータ
 伝達関数ゲイン →
 フレーム遅延 →
[Koizumi+, EUSIPCO2018]
超遠方にあるマイクを使った雑音推定
37
[Koizumi+, EUSIPCO2018]
 伝達関数ゲイン:非負かつ時間方向に指数減衰
 フレーム遅延:非負整数かつ音速で決定すると仮定
音速とマイク間距離から概算
 尤度: 目的音の時間方向へのスパース性を仮定
指数減衰
 非負実数と非負整数が未知パラメータで解析的に解けない
 Proximal gradient + Grid search で近似的に解く
深夜のシステム改造
38
パラボラ
マイク
場内
アナウンス
レフト向き
ガンマイク
ライト向き
ガンマイク
伝達特性
推定
伝達特性
推定
ス
ピ
ー
カ
ー
シ
ス
テ
ム
へ
-
-
-
伝達特性
推定
遅延
処理
遅延
処理
時間周波数
マスク設計
×
審判の声
打球音
ミット音
レフト音
ライト音
アナウンス音
枯れた技術を改造し
後段の統計モデルが想定している
雑音レベルまで下げられるように追加
なんとか動きました
39
Modeling
…!
ホームベース付近に
パラボラマイク
外野スタンドに
ショットガンマイク
Time [s]
Freq.[kHz]Freq.[kHz]Freq.[kHz]
パラボラマイク(ホームベース)
ショットガンマイク(外野スタンド)
処理音
ストラーイク!
ミット音
Time [s]
無事、競技音だけ強調できた!
比較:枯れた技術 vs 最先端技術
40
メリット デメリット
枯れた技術
 実装が早い(=低コスト)
 バグが出にくい(=低リスク)
 応用が効きやすい
最先端技術
 実装に時間がかかる/できない
(=高コスト)
 バグが出やすい(=高リスク)
 応用が効きにくい(=案件に合
わせたチューニングや学習)
41
音の分析のお話
(異常音検知技術を例に)
42
異常検知とは
 Smart City(街頭監視)
 “危険”を予知/早急に察知し,”大事故” を回避
 Smart Factory(製品検査 / 設備保守)など
 人による(常時)監視を計算機で代替
V. Chandola, et al., “Anomaly detection: A survey,” ACM compt. Surv., 2009
「普通じゃない=異常」を検知して
安心安全な世界を実現
“Anomalies are patterns in data that do not conform to
a well-defined notion of normal behavior”
異常とは、正常と定義されたふるまいに従わないパターンである
43
Smart Factory(機器異常検知)
機器監視業務・製品検査の半自動化
+ Normal
正常な動作音
44
Smart Factory(機器異常検知)
機器監視業務・製品検査の半自動化
+ Anomaly
正常な動作音 異常な動作音
45
Smart Factory(機器異常検知)
機器監視業務・製品検査の半自動化
+ Normal
+ Normal+ Normal
事業拡大
46
Smart Factory(機器異常検知)
機器監視業務・製品検査の半自動化
+ Normal
+ Normal
+ Normal
+ Normal
+ Normal
+ Normal
+ Normal
+ Normal
+ Normal
+ Normal+ Normal
+ Normal
人的コストが増大
47
Smart Factory(機器異常検知)
機器監視業務・製品検査の半自動化
+ Normal
+ Normal
+ Normal
+
+ Normal
+ Normal
技術者不足
48
Smart Factory(機器異常検知)
機器監視業務・製品検査の半自動化
+ Anomaly
判断基準のぶれ(本当に異常?)
+ Normal
+ Normal
+ Normal
+
+ Normal
49
Smart Factory(機器異常検知)
機器監視業務・製品検査の半自動化
+ Normal
+ Normal
Normal
+ Normal
+ Normal
+ Normal
+ Normal
+ Normal
+ Normal
+ NormalNormal
+ Anomaly
第4工場に作業員を派遣
50
異常音検知で
必要な技術ってなんだ?
最先端技術が役に立った例
51
異常音検知の一般論(何が難しい?)
異常音の
データ
正常音の
データ
学習データ
(音データ)
学習データ
(正解ラベル)
正常
異常
正常 or 異常
 一般的な機械学習(音声認識タイプ):教師あり学習
⇒ 正常な音と異常な音をたくさん集めて、判別ルールを学習
異常判定異常度計算
未知異常=異常音のデータがない
52
異常音検知の一般論(何が難しい?)
異常音の
データ
正常音の
データ
学習データ
(音データ)
学習データ
(正解ラベル)
正常
異常
正常 or 異常
 一般的な機械学習(音声認識タイプ):教師あり学習
⇒ 正常な音と異常な音をたくさん集めて、判別ルールを学習
 異常音はほとんど集まらない
 どんな異常音が鳴るかもわからない
教師あり識別問題として解けない
未知異常=異常音のデータがない
異常判定異常度計算
53
異常音検知のよくある(枯れた?)技術
オートエンコーダの再構成誤差を異常度に利用
…
……
……
……
…
…
……
……
……
… Normal
Anomaly
Reconstruction errorEncoder Decoder
再構成されるなら正常
正常音を再構成するよう学習
54
異常音検知のよくある(枯れた?)技術
異常度を常時計算し、閾値を超えたらアラート
一連の動作のスペクトログラム
異常度が閾値を超えた
⇨ この動作は異常だ!
 即時性がある(実応用では必須)
55
異常音検知のよくある(枯れた?)技術
オンライン異常音検知の処理フロー
フーリエ変換
特徴量 xt の計算
異常度 A(xt) の計算
閾値判定
異常を検知!
No
Yes
t += 1
パワースペクトル
フィルタバンク
対数
特徴抽出の例
56
それだけじゃ使える技術にならない
Vanilla AEを使った異常度計算結果
誤検知が頻発 or 異常音を見逃す
0 20 40 60 80 100 120
0
2
4
6
8
-80
-60
-40
-20
0
0 20 40 60 80 100 120
10
15
20
25
10
20
30
40
50
60
正常 異常Freq.[khz]Anomalyscore
Time [s]
[dB]
57
それだけじゃ使える技術にならない
よくあるご相談
全拠点でデータ収集&学習はコスト上がりすぎる
Network
工場A
工場B
copy
ダメ!
 周囲の音環境が変わったら、
すべて異常音
 工場Aで学習したシステムは、
工場Bでは使えない
58
それだけじゃ使える技術にならない
よくあるご相談
誤検知した時に簡単に再学習できないの?
Unsupervised
anomaly detector
Final
decision
Normal
Anomaly
Unknown anomaly detector
異常の見逃し
59
新しいもの作りには、新しい技術が必要
検知DNN
スコア計算
閾値処理
正常
異常
枯れた技術で
組めるシステム
問題を観察してモデル化/定式化をすることは
基礎研究だけじゃなく、実環境での研究開発でも重要
60
新しいもの作りには、新しい技術が必要
検知DNN
スコア計算
閾値処理
正常
異常
検知DNN
スコア計算
閾値処理
正常
異常
 Koizumi+, IEEE TASLP 2019
 Koizumi+, IEEE WASPAA 2019
 Koizumi+, IEEE ICASSP 2019 Yamaguchi+, IEEE ICASSP 2019
Few-shot learning
Domain adaptation
Unsupervised learning
拠点A拠点B
最先端技術で
組めるシステム
問題を観察してモデル化/定式化をすることは
基礎研究だけじゃなく、実環境での研究開発でも重要
Demo Video
列車の異常を音から検知します
62
True-positive & False-positive
真陽性(TP)と偽陽性(FP)のトレードオフ
真陽性率(TPR):異常を正しく異常と判定
偽陽性率(FPR):正常を誤って異常と判定
(1) 正常音の異常度を低く、(2) 異常音の異常度を高くしたい
63
普通のAEはなぜダメか
DNNは知らないデータを”知らない”と言えるか?
 先行研究:正常音の異常度最小化で学習すればいい!
…本当に?
 異常音の異常度を上げろ、という項がない
 異常音が再構成されないという保証がない
 AEが汎化されたら、すべての音が再構成される
=すべての異常音を見逃す。。。
64
AEは何をモデル化している?
再構成誤差を異常度に利用
…
……
……
……
…
…
……
……
……
… Normal
Anomaly
Reconstruction errorEncoder Decoder
ボルツマン分布のエネルギー関数を再構成誤差に
65
なぜ異常も再構成してしまうのか?
ボルツマン分布の正規化項を無視しているせい
 真の分布 p(x) とのKL情報量を最小化すべきなのに…
正規化定数項がない!MMSE
 正規化定数は頻度の低い音の異常度を上げる働き
では、logsumexpを頑張って計算すればいいの
か?というと、そういうわけでもない
66
低頻度正常音の誤検知問題
08:30 – 08:31 : エンジン起動 (1分) 異常度:727
08:31 – 18:45 : 製品製造(約10時間) 異常度:77
18:45 – 19:00 : エンジンのクールダウン(15分) 異常度:456
19:00 – 08:30 : 工場稼働なし (約半日) 異常度:58
【例】ある工場機械の1日のスケジュール
毎日、エンジン起動と終了のたびに誤判定する
 即時性がある(実応用では必須)
 低頻度な正常音を異常と誤判定しやすい
Anomaly score
67
低頻度正常音の誤検知問題 (cont’d)
頻度の低い正常音に依存して系列の異常度が決定
特徴量 xt の計算
異常度 A(xt) の計算
閾値判定
異常を検知!
No
Yes
t += 1
フーリエ変換
パワースペクトル
フィルタバンク
対数
特徴抽出の例
68
ではどうする?
最大異常度の最小化?
ミニバッチ内の勾配計算に寄与する
サンプルが一つに…
直接、異常度の最大値を最小化するのは難しい
異常度の最大値が最小になる分布と
qθ(x) のKL情報量を最小化するように学習する
発想転換
確率のチェイン則を使う?
正常モデルの複雑化を招く
69
基本アイディア
ある有界領域上の確率密度関数のうち
最大異常度が最小の分布は連続一様分布
有界領域
真の正常分布
レア正常
=異常度が高い
一定の密度
=最大異常度が最小
70
基本アイディア
ある有界領域上の確率密度関数のうち
最大異常度が最小の分布は連続一様分布
有界領域
真の正常分布
71
AEのためのバッチ一様化
 KL情報量最小化を重み付きMMSEで近似
p(x) は、ミニバッチ内の
カーネル密度推定で近似
ミニバッチが一様分布
になれ、というお気持ち
Boltzmann distributionReconstruction error
Y. Koizumi, et al., “Batch Uniformization for Minimizing Maximum Anomaly Score of DNN-based Anomaly Detection in
Sounds,” in Proc. of WASPAA, 2019.
72
数値実験(1/2)
 小さい4層AE: 隠れユニット 4, 圧縮次元 3, sigmoid活性化
 学習サンプル数: 10,000, ミニバッチサイズ: 100
 Optimizer : Adam, Epoch数: 5
 実験設定
 正常データは、ノルムが2以下
 確率密度は、ノルムに反比例
AEが一様分布を表現できるか数値実験
73
数値実験(2/2)
MMSE(枯れた技術)
0.01
0.02
0.03
0.02
0.04
0.06
0.08
0.1
0.12
0.02
0.04
0.06
0.08
[Koizumi+, 2018] [Koizumi+, 2019]
 AEがモデル化するボルツマン分布を可視化
 一様分布とのKL情報量も減少している
MMSE
[Koizumi+, 2018]
[Koizumi+, 2019]
74
定量評価実験(実験条件)
車の模型の走行音を収集して実験
車のおもちゃの製品検査
 学習データ
 9時間の走行データ(動作音と雑音のSNRは 0dB)
 3種類の個体 x 3種類の環境雑音
 テストデータ
 140種類の擬似異常音の検知精度をAUCで評価
 データセットはNTTの音響実験室で収集
 以下のURLからダウンロード可能
https://archive.org/details/toy_car_running_dataset
75
定量評価実験(結果)
簡略化NP(SNP)より高い異常検知性能を達成
1 2 3
0.2
0.4
0.6
0.8
1
0.727
0.771
0.899
0.572
0.654
0.808
0.519
0.576
0.720
Anomaly-to-Normal Ratio
-10 dB -15 dB -20 dB
AUC
1 2 3
0.2
0.4
0.6
0.8
1
0.726
0.793
0.864
0.570
0.702
0.766
0.516
0.623
0.681
RE SNP BU
RE:MMSE(枯れた技術)
SNP:[Koizumi+ 2018]
BU:[Koizumi+, 2019]
76
ちなみに:教師あり異常検知の話
実際の異常データ
運用中に異常データが得られた
77
ちなみに:教師あり異常検知の話
よっしゃ!識別学習だ!!
78
ちなみに:教師あり異常検知の話
未知異常音の
見逃し
未知異常音を見逃してしまう。。。
79
なぜ識別学習してはダメなのか
密度比ベースの識別では、正常の尤度が低くても、
異常の尤度がそれ以上に低ければ正常と判定
-10 -8 -6 -4 -2 0 2 4 6 8 10
0
0.2
0.4
0.6
正常
既知異常
異常判定領域
どうやって未知異常音検知を拡張していけばいい?
80
異常の定義
: あらゆる音
: 監視対象の ”知らない音”
: 監視対象の正常音
正常:全集合の部分集合
異常:正常の補集合
-10 -8 -6 -4 -2 0 2 4 6 8 10
0
0.1
0.2
0.3
0.4 正常
補集合
81
補集合の分布という考え方
異常は正常の補集合である
[Kawachi+, ICASSP 2018]Complementary set PDF
-10 -8 -6 -4 -2 0 2 4 6 8 10
0
0.1
0.2
0.3
0.4 正常
補集合
異常判定領域
82
補集合の分布という考え方
異常は正常の補集合である
[Kawachi+, ICASSP 2018]Complementary set PDF
83
Complementary set VAE
-10 -8 -6 -4 -2 0 2 4 6 8 10
0
0.1
0.2
0.3
0.4 正常
補集合
観測空間
潜在空間
Encoder
Decoder
コスト関数 = 再構成誤差
 標準正規分布とのKLD
 補集合とのKLD
観測空間のコスト 潜在空間のコスト
正常
既知異常
潜在空間での補集合分布への埋め込み
[Kawachi+, ICASSP 2018]
84
特徴量空間の可視化
 正常: 0,1,2,3,4,5,6,7,8
 既知異常: 9
正常の数字は
中心に集まる
異常の数字は
遠くに離れる
85
定量評価実験
1 𝑣𝑠 1
Complementary set VAE > Unsupervised VAE
既知異常の検知精度
86
定量評価実験 (cont’d)
Complementary set VAE >= Unsupervised VAE
未知異常の検知精度
𝐶𝑎𝑠𝑒 1
 正常 1,2,3
 未知異常: 4,5,6
 既知異常: 7,8,9
 Case 1
比較:枯れた技術 vs 最先端技術
87
メリット デメリット
枯れた技術
 実装が早い(=低コスト)
 バグが出にくい(=低リスク)
 応用が効きやすい
 最高性能は最先端技術に劣る
 枯れた技術の組み合わせだけで
は解けない問題も多々ある
最先端技術
 解けなかった課題が解ける(誰
もできなかった世界/ビジネス
が作れる)
 論文が書ける
 世界でドヤ顔ができる
 実装に時間がかかる/できない
(=高コスト)
 バグが出やすい(=高リスク)
 応用が効きにくい(=案件に合
わせたチューニングや学習)
88
まとめ(再掲:今日のトーク)
実環境では
枯れた技術と最先端技術の使い分けが大事
Take-home message
メリット/デメリットがあり、状況に応じて技術を選ぶ必要があります
先行研究についても「使えるレベル」まで理解するといいと思います
新しい世界を切り開く&将来の枯れた技術になる研究をしてください
新しい世界を作るには、最先端技術が不可欠です
20年後、作られた技術がどう発達し、どう深められていくかは予想がつき
ません(e.g. 非負値行列因子分解、独立成分分析)
後世に有用な知見を残す、普遍的に役立つ概念や原理を創出してください
89
今日の話の関連論文
 K. Niwa, et al., “Diffused Sensing for Sharp Directive Beamforming”. IEEE Trans. ASLP., 2013.
 K. Niwa, et al., “Optimal Microphone Array Observation for Clear Recording of Distant Sound Sources”. IEEE
Trans. ASLP., 2016.
 Y. Koizumi, et al., “Informative Acoustic Feature Selection to Maximize Mutual Information for Collecting
Target Sources”. IEEE/ACM Trans. ASLP., 2017.
 M. M. Sondhi, “An Adaptive Echo Canceller”. The Bell System Technical Journal, 1967.
 S. F. Boll, ”Suppression of Acoustic Noise in Speech Using Spectral Subtraction”. IEEE Trans. ASSP., 1979.
 J. S. Soo, et al., “Multidelay block frequency domain adaptive filter,” IEEE Trans. ASSP., 1990.
 Y. Koizumi, et al., “Distant Noise Reduction Based on Multi-delay Noise Model Using Distributed Microphone
Array,” Proc. EUSIPCO, 2018.
 Y. Koizumi, et al., “Batch Uniformization for Minimizing Maximum Anomaly Score of DNN-based Anomaly
Detection in Sounds”. Proc. IEEE WASPAA, 2019.
 Y. Koizumi, et al., “Unsupervised Detection of Anomalous Sound based on Deep Learning and the Neyman-
Pearson Lemma”. IEEE/ACM Trans. ASLP, 2019.
 M. Yamaguchi, et al., “AdaFlow: Domain-Adaptive Density Estimator with Application to Anomaly Detection
and Unpaired Cross-Domain Transition”. Proc. IEEE ICASSP, 2019.
 Y. Koizumi, et al., “SNIPER: Few-shot Learning for Anomaly Detection to Min- imize False-Negative Rate
with Ensured True-Positive Rate”. Proc. IEEE ICASSP, 2019.
 Y. Kawachi, et al.,“Complementary Set Variational Autoencoder for Supervised Anomaly Detection”. Proc.
IEEE ICASSP, 2018.
90
Q&A

More Related Content

What's hot

Moment matching networkを用いた音声パラメータのランダム生成の検討
Moment matching networkを用いた音声パラメータのランダム生成の検討Moment matching networkを用いた音声パラメータのランダム生成の検討
Moment matching networkを用いた音声パラメータのランダム生成の検討
Shinnosuke Takamichi
 

What's hot (20)

異常音検知に対する深層学習適用事例
異常音検知に対する深層学習適用事例異常音検知に対する深層学習適用事例
異常音検知に対する深層学習適用事例
 
Neural text-to-speech and voice conversion
Neural text-to-speech and voice conversionNeural text-to-speech and voice conversion
Neural text-to-speech and voice conversion
 
音源分離における音響モデリング(Acoustic modeling in audio source separation)
音源分離における音響モデリング(Acoustic modeling in audio source separation)音源分離における音響モデリング(Acoustic modeling in audio source separation)
音源分離における音響モデリング(Acoustic modeling in audio source separation)
 
音情報処理における特徴表現
音情報処理における特徴表現音情報処理における特徴表現
音情報処理における特徴表現
 
時間領域低ランクスペクトログラム近似法に基づくマスキング音声の欠損成分復元
時間領域低ランクスペクトログラム近似法に基づくマスキング音声の欠損成分復元時間領域低ランクスペクトログラム近似法に基づくマスキング音声の欠損成分復元
時間領域低ランクスペクトログラム近似法に基づくマスキング音声の欠損成分復元
 
異常音検知の実用化に向けて
異常音検知の実用化に向けて異常音検知の実用化に向けて
異常音検知の実用化に向けて
 
やさしく音声分析法を学ぶ: ケプストラム分析とLPC分析
やさしく音声分析法を学ぶ: ケプストラム分析とLPC分析やさしく音声分析法を学ぶ: ケプストラム分析とLPC分析
やさしく音声分析法を学ぶ: ケプストラム分析とLPC分析
 
独立低ランク行列分析に基づくブラインド音源分離(Blind source separation based on independent low-rank...
独立低ランク行列分析に基づくブラインド音源分離(Blind source separation based on independent low-rank...独立低ランク行列分析に基づくブラインド音源分離(Blind source separation based on independent low-rank...
独立低ランク行列分析に基づくブラインド音源分離(Blind source separation based on independent low-rank...
 
音声の声質を変換する技術とその応用
音声の声質を変換する技術とその応用音声の声質を変換する技術とその応用
音声の声質を変換する技術とその応用
 
Theory and Methods for Unsupervised Anomaly Detection in Sounds Based on Deep...
Theory and Methods for Unsupervised Anomaly Detection in Sounds Based on Deep...Theory and Methods for Unsupervised Anomaly Detection in Sounds Based on Deep...
Theory and Methods for Unsupervised Anomaly Detection in Sounds Based on Deep...
 
双方向LSTMによるラウドネス及びMFCCからの振幅スペクトログラム予測と評価
双方向LSTMによるラウドネス及びMFCCからの振幅スペクトログラム予測と評価双方向LSTMによるラウドネス及びMFCCからの振幅スペクトログラム予測と評価
双方向LSTMによるラウドネス及びMFCCからの振幅スペクトログラム予測と評価
 
ICASSP 2019での音響信号処理分野の世界動向
ICASSP 2019での音響信号処理分野の世界動向ICASSP 2019での音響信号処理分野の世界動向
ICASSP 2019での音響信号処理分野の世界動向
 
リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法
リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法
リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法
 
調波打撃音分離の時間周波数マスクを用いた線形ブラインド音源分離
調波打撃音分離の時間周波数マスクを用いた線形ブラインド音源分離調波打撃音分離の時間周波数マスクを用いた線形ブラインド音源分離
調波打撃音分離の時間周波数マスクを用いた線形ブラインド音源分離
 
非負値行列因子分解に基づくブラインド及び教師あり音楽音源分離の効果的最適化法
非負値行列因子分解に基づくブラインド及び教師あり音楽音源分離の効果的最適化法非負値行列因子分解に基づくブラインド及び教師あり音楽音源分離の効果的最適化法
非負値行列因子分解に基づくブラインド及び教師あり音楽音源分離の効果的最適化法
 
音声合成の今昔と深層学習を用いた音声合成
音声合成の今昔と深層学習を用いた音声合成音声合成の今昔と深層学習を用いた音声合成
音声合成の今昔と深層学習を用いた音声合成
 
深層パーミュテーション解決法の基礎的検討
深層パーミュテーション解決法の基礎的検討深層パーミュテーション解決法の基礎的検討
深層パーミュテーション解決法の基礎的検討
 
Moment matching networkを用いた音声パラメータのランダム生成の検討
Moment matching networkを用いた音声パラメータのランダム生成の検討Moment matching networkを用いた音声パラメータのランダム生成の検討
Moment matching networkを用いた音声パラメータのランダム生成の検討
 
論文紹介 wav2vec: Unsupervised Pre-training for Speech Recognition
論文紹介  wav2vec: Unsupervised Pre-training for Speech Recognition論文紹介  wav2vec: Unsupervised Pre-training for Speech Recognition
論文紹介 wav2vec: Unsupervised Pre-training for Speech Recognition
 
音響メディア信号処理における独立成分分析の発展と応用, History of independent component analysis for sou...
音響メディア信号処理における独立成分分析の発展と応用, History of independent component analysis for sou...音響メディア信号処理における独立成分分析の発展と応用, History of independent component analysis for sou...
音響メディア信号処理における独立成分分析の発展と応用, History of independent component analysis for sou...
 

Similar to 音響システム特論 第11回 実環境における音響信号処理と機械学習

インターネット上の高品質な 遠隔コラボレーションに関する研究
インターネット上の高品質な遠隔コラボレーションに関する研究インターネット上の高品質な遠隔コラボレーションに関する研究
インターネット上の高品質な 遠隔コラボレーションに関する研究
Takashi Kishida
 

Similar to 音響システム特論 第11回 実環境における音響信号処理と機械学習 (8)

ConditionalPointDiffusion.pdf
ConditionalPointDiffusion.pdfConditionalPointDiffusion.pdf
ConditionalPointDiffusion.pdf
 
#FTMA15 先端技術とメディア表現3
#FTMA15 先端技術とメディア表現3#FTMA15 先端技術とメディア表現3
#FTMA15 先端技術とメディア表現3
 
インターネット上の高品質な 遠隔コラボレーションに関する研究
インターネット上の高品質な遠隔コラボレーションに関する研究インターネット上の高品質な遠隔コラボレーションに関する研究
インターネット上の高品質な 遠隔コラボレーションに関する研究
 
20170419PFNオープンハウス リサーチャーの仕事_公開用
20170419PFNオープンハウス リサーチャーの仕事_公開用20170419PFNオープンハウス リサーチャーの仕事_公開用
20170419PFNオープンハウス リサーチャーの仕事_公開用
 
自動化の先にあるもの ースマート技術のアプローチと選択
自動化の先にあるもの ースマート技術のアプローチと選択自動化の先にあるもの ースマート技術のアプローチと選択
自動化の先にあるもの ースマート技術のアプローチと選択
 
アナログ回路の民主化とプロの役割
アナログ回路の民主化とプロの役割アナログ回路の民主化とプロの役割
アナログ回路の民主化とプロの役割
 
複数話者WaveNetボコーダに関する調査
複数話者WaveNetボコーダに関する調査複数話者WaveNetボコーダに関する調査
複数話者WaveNetボコーダに関する調査
 
低価格・高信頼見守りシステム(MIMAMORIシステム)のためのハードウェア開発
低価格・高信頼見守りシステム(MIMAMORIシステム)のためのハードウェア開発低価格・高信頼見守りシステム(MIMAMORIシステム)のためのハードウェア開発
低価格・高信頼見守りシステム(MIMAMORIシステム)のためのハードウェア開発
 

Recently uploaded

Recently uploaded (12)

論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
 
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
 
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアルLoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
 
Utilizing Ballerina for Cloud Native Integrations
Utilizing Ballerina for Cloud Native IntegrationsUtilizing Ballerina for Cloud Native Integrations
Utilizing Ballerina for Cloud Native Integrations
 
新人研修 後半 2024/04/26の勉強会で発表されたものです。
新人研修 後半        2024/04/26の勉強会で発表されたものです。新人研修 後半        2024/04/26の勉強会で発表されたものです。
新人研修 後半 2024/04/26の勉強会で発表されたものです。
 
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
 
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
LoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイスLoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイス
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
 
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
 
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
 
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
 
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
 
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
 

音響システム特論 第11回 実環境における音響信号処理と機械学習