Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

深層学習と音響信号処理

小泉 悠馬, "深層学習と音響信号処理," 第16回ICTイノベーションセミナー at 首都大学東京, 招待講演, 2018.

Related Books

Free with a 30 day trial from Scribd

See all
  • Be the first to comment

深層学習と音響信号処理

  1. 1. Copyright©2018 NTT corp. All Rights Reserved. 2018/12/21 @ ICTイノベーションセミナー, 首都大学東京 1 日本電信電話株式会社 NTTメディアインテリジェンス研究所 小泉 悠馬 【招待講演】 深層学習と音響信号処理
  2. 2. Copyright©2018 NTT corp. All Rights Reserved. 2  小泉 悠馬(こいずみ ゆうま) 1990年02月01日 東京生まれ, 北名古屋市&稲城市育ち 略歴  2014年: 法政大学 情報科学研究科 修了  2014年: NTTメディアインテリジェンス研究所 入所  2017年: 博士(工学) (電気通信大学) 研究内容  音響信号処理 × 機械学習の基礎研究と実用化  音源強調:うるさい中から欲しい音だけ取り出したい!  異常検知:周囲の異変を音から検知したい! 自己紹介
  3. 3. Copyright©2018 NTT corp. All Rights Reserved. 3 Take home message 何でもかんでも大量データ & end-to-end でいいのか? 現状、音響信号処理に関しては No 1. ネットワーク構造に物理的/信号処理的な工夫が必要 2. 人間を超えるためには、 センサー配置や目的関数の工夫も必要 ※ end-to-end がうまくいかない条件は、数学的には証明されていないため、 この結論は将来は変わるかもしれない 現状の到達点 将来への展望
  4. 4. Copyright©2018 NTT corp. All Rights Reserved. 4 実環境での音響信号処理サービス 計算機/通信の発達で音の情報処理技術はどんどん身近に 音声認識 エンターテイメント 異常音検知 音声通信 4
  5. 5. Copyright©2018 NTT corp. All Rights Reserved. 5 音源強調の必要性 雑音が音情報処理性能を低下させる → うるさい中から欲しい音を取り出す技術が必須 雑音が大きく 音声認識できない 競技音が埋もれ 臨場感が伝わらない 音声認識 スポーツ中継
  6. 6. Copyright©2018 NTT corp. All Rights Reserved. 6 音響信号処理の例:音源強調 騒音下でも通話や音声認識を可能にします  100 dB の騒音下で目的音を抽出&音声認識
  7. 7. Copyright©2018 NTT corp. All Rights Reserved. 7 音響信号処理の例:音源強調 サッカースタジアムでキック音だけ強調します 周囲のスピーカーで 競技場の歓声を再現
  8. 8. Copyright©2018 NTT corp. All Rights Reserved. 8 今日の話題 情報処理と機械学習&深層学習 深層学習と音響信号処理(音源強調)の到達点 学生の皆さんへメッセージ 人間を超える情報処理へ 計算機基盤の進歩に期待すること
  9. 9. Copyright©2018 NTT corp. All Rights Reserved. 9 情報処理とはなんだろうか
  10. 10. Copyright©2018 NTT corp. All Rights Reserved. 10 情報処理とはなんだろうか 与えられた情報を別の情報に変換する処理 なんらかの処理入力 出力
  11. 11. Copyright©2018 NTT corp. All Rights Reserved. 11 情報処理とはなんだろうか 与えられた情報を別の情報に変換する処理 数理モデル入力 出力 計算機で実現するために、情報変換を数式で表す
  12. 12. Copyright©2018 NTT corp. All Rights Reserved. 12 情報処理とはなんだろうか 入力 出力 どんな数理モデルがいい?  定量的な根拠を元にモデルを立てる方がよい  レイトレーシング(物理ベース) 物理モデル ⇨ 写真と見間違うような画像を出力できる  光源位置  物体位置  反射率 etc… [*] Wikipedia, “Ray tracing (graphics)” URL: https://en.wikipedia.org/wiki/Ray_tracing_(graphics) [*]
  13. 13. Copyright©2018 NTT corp. All Rights Reserved. 13 情報処理とはなんだろうか  画像/音声などメディアの認識  人間の認識処理は未だ解明されていない  そもそも、対象の定義自体が人間の恣意的なもの ??? 入力 出力 Horse or (0,0,0,0,0,0,0,1,0,0) [*] An image from “The CIFAR-10 dataset” URL: https://www.cs.toronto.edu/~kriz/cifar.html [*] 根拠に基づくモデルは立てられないことが多い
  14. 14. Copyright©2018 NTT corp. All Rights Reserved. 14 ブラックボックスな 情報変換(写像)を 計算機で再現するには?
  15. 15. Copyright©2018 NTT corp. All Rights Reserved. 15 機械学習 変換関数 入力 目的関数 正解出力 関数形がブラックボックスな写像を 入出力のデータだけから再現する方法 1. 変換関数を決めて 2. 目的関数を決めて 3. 最適化する 和訳
  16. 16. Copyright©2018 NTT corp. All Rights Reserved. 16 (深層)ニューラルネットワーク 微分可能な関数の合成関数でできた変換関数  沢山の亜種があるが、結局全部、ただの合成関数  無限個の関数を合成すれば任意の写像が表現可能 [*1] Wikipedia, “Artificial neural network”, https://en.wikipedia.org/wiki/Artificial_neural_network [*2] Wikipedia, “Long short-term memory”, https://en.wikipedia.org/wiki/Long_short-term_memory [*3] Wikipedia, “Convolutional neural network”, https://en.wikipedia.org/wiki/Convolutional_neural_network Shallow LSTM CNN [*1] [*2] [*3]
  17. 17. Copyright©2018 NTT corp. All Rights Reserved. 17 現状、最有力な変換関数として君臨 画像/音声/自然言語を含む、 多くのメディア処理で SOTA な性能を実現 ※ 釈迦に説法ですが…  画像認識: AlexNet (2012) [*1] などから  音声認識: DNN-HMM (2011) [*2] などから ※ 当然、これらメディア処理にNNを使うアプローチは大昔からある。 [*1] A. Krizhevsky, et al., “Imagenet classification with deep convolutional neural networks,” in Proc. of NIPS, 2012 [*2] F. Seide, et al., “Conversational speech transcription using context-dependent deep neural networks,” in Proc. of Interspeech, 2011. [*3] A. Narayananand, et al., “Ideal ratio mask estimation using deep neural networks for robust speech recognition,” in Proc. of ICASSP, 2013.  音源強調: IRM推定 (2013) [*3] などから
  18. 18. Copyright©2018 NTT corp. All Rights Reserved. 18 なぜ end-to-end はうまくいくのか 恣意性の排除、data-driven な特徴量設計 情報処理不等式  柔軟な回帰関数の下では、恣意的な情報変換は害悪でしかない  Googleの猫細胞 [*1][*2] はあまりにも有名 [*1] Official Google Blog, “Using large-scale brain simulations for machine learning and A.I.” (2012). URL: https://googleblog.blogspot.com/2012/06/using-large-scale-brain- simulations-for.html [*2] Q. V. Le, et al., “Building High-level Features Using Large Scale Unsupervised Learning,” in Proc. Of ICML, 2012.  教師なし学習をしているのに、猫画像に対して発 火するニューロンが獲得された
  19. 19. Copyright©2018 NTT corp. All Rights Reserved. 19 今日の話題 情報処理と機械学習&深層学習 深層学習と音響信号処理(音源強調)の到達点 学生の皆さんへメッセージ 人間を超える情報処理へ 計算機基盤の進歩に期待すること
  20. 20. Copyright©2018 NTT corp. All Rights Reserved. 20 観測音から目的音を抽出する信号処理 目的音 雑音 … 観測音 音源強調 出力音 マイク 音響信号処理の例:音源強調
  21. 21. Copyright©2018 NTT corp. All Rights Reserved. 21 情報処理としての音源強調 観測音から目的音を取り出す変換関数の設計問題 音源強調  ここでは、マイク1本での音源強調を想定  典型的な劣決定問題 未知変数の数 > 観測変数の数
  22. 22. Copyright©2018 NTT corp. All Rights Reserved. 22 End-to-end 音源強調 using DNN ?? 波形を入力し、波形を出力するニューラルネット?? … …… …… …… …… … …… End-to-end S. Pascual, et al., “SEGAN: Speech Enhancement Generative Adversarial Network,” in Proc of Interspeech, 2017.  例えば、以下の論文が有名
  23. 23. Copyright©2018 NTT corp. All Rights Reserved. 23 End-to-end 音源強調 using DNN ?? 波形を入力し、波形を出力するニューラルネット?? … …… …… …… …… … …… End-to-end S. Pascual, et al., “SEGAN: Speech Enhancement Generative Adversarial Network,” in Proc of Interspeech, 2017.  例えば、以下の論文が有名 現状 SOTAではない
  24. 24. Copyright©2018 NTT corp. All Rights Reserved. 24 完全 end-to-end vs. 信号処理-based DNN 波形領域の end-to-end < 信号処理-based Anonymous, “Phase-Aware Speech Enhancement with Deep Complex U-Net,” open review (submitted to ICLR 2019). URL: https://openreview.net/forum?id=SkeRTsAcYm [Deep Complex U-Net の音が聴けるページ] http://www.deepcomplexunet.tk [SEGAN の音が聴けるページ] URL: https://ccrma.stanford.edu/%7Efrancois/SpeechDenoisingWithDeepFeatureLosses/
  25. 25. Copyright©2018 NTT corp. All Rights Reserved. 25 とってもアバウトな”深層複素U-Net”の構成 フィルタリング DNNによる 複素マスク推定 FFT IFFT 目的音を強調するフィルタをDNNで推定 → 信号処理の未知パラメータの推定に利用
  26. 26. Copyright©2018 NTT corp. All Rights Reserved. 26 どんなときに end2end はうまくいかないか その理由を解明した論文はまだない  学習データが足りない説  DNN は回帰問題は苦手説  関数の組み方がダメ、自由度が高すぎる説  学習データですらうまく強調できないので考えにくい…  識別に関する理論解析は進むが、回帰は進まない  解空間の大きさや濃度  画像処理のCNN、自然言語処理の attention のようなキ ラー構造が波形領域にはまだ無い?
  27. 27. Copyright©2018 NTT corp. All Rights Reserved. 27 深層複素U-Net の正体 【音響 and/or 機械学習のプロ向けの話】 ここでは  音声の統計的性質(時間周波数領域でのスパース性)を利用  非線形フィルタリング(信号処理)をNNで表現 =信号処理の一連の流れを NN とみなし、 未知パラメータだけをNN で推定  FFT / IFFT を固定な 1-D convolution layer とみなせば、時間周 波数領域を経由しつつも、”end-to-end” な学習ができる  非線形フィルタリングの一般式  DNNを となる射影関数して、以下で学習 であり、行列演算で書ける 複素時間周波数マスク(非線形なフィルタのようなもの) を推定する、複素数のニューラルネットワーク
  28. 28. Copyright©2018 NTT corp. All Rights Reserved. 28 ここまでのまとめ  音響信号処理では完全な end-to-end はうまく動かない  end-to-end がうまくいかない条件は、数学的には証明されてい ないため、この結論は将来は変わるかもしれない  【現在のトレンド】ネットワーク構造に利用する、物理 的/信号処理的な工夫が模索されている  音声の統計的性質を利用した信号処理を NN として記述し、そ の未知パラメータだけを NN で推定 & 波形領域誤差最小化学習 現状の世界最先端
  29. 29. Copyright©2018 NTT corp. All Rights Reserved. 29 今日の話題 情報処理と機械学習&深層学習 深層学習と音響信号処理(音源強調)の到達点 学生の皆さんへメッセージ 人間を超える情報処理へ 計算機基盤の進歩に期待すること
  30. 30. Copyright©2018 NTT corp. All Rights Reserved. 30 機械の計算能力は人間を超えた 強力な写像関数も手に入れた では、なぜ(音の)機械学習は 人間を超えてくれないのか 20年後に向け 私たちはどんな研究をすべきだろうか?
  31. 31. Copyright©2018 NTT corp. All Rights Reserved. 31 今、機械学習に何ができていないのか 情報処理の登場人物は主に3人 1. 実世界のセンシング(マイクロホンなど) 2. 情報の変換(DNNなど) 3. 出力の価値判断(コスト関数など)
  32. 32. Copyright©2018 NTT corp. All Rights Reserved. 32 今、機械学習に何ができていないのか 情報処理の登場人物は主に3人 1. 実世界のセンシング(マイクロホンなど) 2. 情報の変換(DNNなど)  DNNを複雑にすれば、任意の写像を表現可能 → 人間を超えている 3. 出力の価値判断(コスト関数など)
  33. 33. Copyright©2018 NTT corp. All Rights Reserved. 33 今、機械学習に何ができていないのか 情報処理の登場人物は主に3人 1. 実世界のセンシング(マイクロホンなど) 2. 情報の変換(DNNなど)  DNNを複雑にすれば、任意の写像を表現可能 → 人間を超えている  マイクだけ?画像だけ?一箇所で? → 人間と同等以下 3. 出力の価値判断(コスト関数など)
  34. 34. Copyright©2018 NTT corp. All Rights Reserved. 34 今、機械学習に何ができていないのか 情報処理の登場人物は主に3人 1. 実世界のセンシング(マイクロホンなど) 2. 情報の変換(DNNなど) 3. 出力の価値判断(コスト関数など)  DNNを複雑にすれば、任意の写像を表現可能 → 人間を超えている  マイクだけ?画像だけ?一箇所で? → 人間と同等以下  二乗誤差?クロスエントロピー? → 人間には遠く及ばない
  35. 35. Copyright©2018 NTT corp. All Rights Reserved. 35 人間を超える情報処理のために 人間を超える (1) センシングと (3) 価値判断 1. 実世界のセンシング(マイクロホンなど) 3. 出力の価値判断(コスト関数など)
  36. 36. Copyright©2018 NTT corp. All Rights Reserved. 36 手前味噌な研究紹介 人間を超える (1) センシングと (3) 価値判断 1. 実世界のセンシング(マイクロホンなど) 3. 出力の価値判断(コスト関数など)  100m 離れた場所に置いたマイクを連携させるには?  「音質」を最大化するように DNN を学習するには? Y. Koizumi, et al., “Distant Noise Reduction Based on Multi-delay Noise Model Using Distributed Microphone Array,” in Proc of EUSIPCO, 2018. Y. Koizumi, et al., “DNN-Based Source Enhancement to Increase Objective Sound Quality Assessment Score,” IEEE/ACM Trans. on ASLP, 2018.
  37. 37. Copyright©2018 NTT corp. All Rights Reserved. パラボラマイク 場内アナウンス (PAスピーカ) 応援団 競技音 37 野球場で歓声を消したい
  38. 38. Copyright©2018 NTT corp. All Rights Reserved. 38 人間の耳の限界を超えるには バックネットのマイク だけでは歓声が消せない
  39. 39. Copyright©2018 NTT corp. All Rights Reserved. 39 人間の耳の限界を超えるには distance > 100 m
  40. 40. Copyright©2018 NTT corp. All Rights Reserved. 40 人間とは異なる情報処理が必要 100m 離れた外野スタンドのマイクを連携させよう → 距離による伝搬遅延や長残響で単純な引き算はダメ 時間周波数 マスク設計 ×
  41. 41. Copyright©2018 NTT corp. All Rights Reserved. 41 時間周波数 マスク設計 × 遅延& 残響推定 人間とは異なる情報処理が必要 100m 離れた外野スタンドのマイクを連携させよう → 遅延や残響のキャリブレーションを追加
  42. 42. Copyright©2018 NTT corp. All Rights Reserved. 42 Multi-delay noise model 振幅領域での伝搬遅延/長残響のモデル化 Time-frame delay Gain Gain Gain …… Multi-delay noise model Multi-delay noise model Multi-delay noise model Time-frequency mask calc. 残響 伝搬遅延 Multi-delay noise model  Multi-delay-block-filter の振幅領域での表現 + 遅延項の拡張  物理的制約を事前分布におき、残響/遅延パラメータをMAP推定 Y. Koizumi, et al., “Distant Noise Reduction Based on Multi-delay Noise Model Using Distributed Microphone Array,” in Proc of EUSIPCO, 2018.
  43. 43. Copyright©2018 NTT corp. All Rights Reserved. 43 Modeling …! ホームベース付近に パラボラマイク 外野スタンドに ショットガンマイク Time [s] Freq.[kHz]Freq.[kHz]Freq.[kHz] パラボラマイク(ホームベース) ショットガンマイク(外野スタンド) 処理音 ストラーイク! ミット音 Time [s] 野球場での動作デモ 審判の声や捕球音を強調
  44. 44. Copyright©2018 NTT corp. All Rights Reserved. 44 手前味噌な研究紹介 人間を超える (1) センシング 1. 実世界のセンシング(マイクロホンなど)  100m 離れた場所に置いたマイクを連携させるには? Y. Koizumi, et al., “Distant Noise Reduction Based on Multi-delay Noise Model Using Distributed Microphone Array,” in Proc of EUSIPCO, 2018.  機械であれば、人間では実現不可能なセンシングが可能  そのセンサーをうまく活用するためには、その物理的性質 に対応した特殊な信号処理+機械学習の使い方が必要  センサーの選択や配置に関する最適性はまだ未知…
  45. 45. Copyright©2018 NTT corp. All Rights Reserved. 45 手前味噌な研究紹介 1. 実世界のセンシング(マイクロホンなど) 3. 出力の価値判断(コスト関数など)  100m 離れた場所に置いたマイクを連携させるには?  「音質」を最大化するように DNN を学習するには? Y. Koizumi, et al., “Distant Noise Reduction Based on Multi-delay Noise Model Using Distributed Microphone Array,” in Proc of EUSIPCO, 2018. Y. Koizumi, et al., “DNN-Based Source Enhancement to Increase Objective Sound Quality Assessment Score,” IEEE/ACM Trans. on ASLP, 2018. 人間を超える (1) センシングと (3) 価値判断
  46. 46. Copyright©2018 NTT corp. All Rights Reserved. 46 価値判断(コスト関数)の重要性 DNN にどんな情報を推定してほしいのか?  自然言語:対話の「満足度」を上げたい → 満足度最大化 ≠ クロスエントロピー  音源強調:人が聞いて「良い」と思える音を出力したい → 音質最大化 ≠ 二乗誤差 DNNを学習するコスト関数と、 本当に推定したい情報のミスマッチ… 計算機を人間と同じ感性の元で最適化するには? 1. 人間の感性の計算機による再現 2. ブラックボックスな指標を最大化する学習法の創出 こちらの紹介
  47. 47. Copyright©2018 NTT corp. All Rights Reserved. 47 主観的な音質評価を最大化したい ブラックボックス関数は微分不可能 (Backprop.が困難) ??? 人間は DNN のコスト関数になれるか?
  48. 48. Copyright©2018 NTT corp. All Rights Reserved. 48 DNN音源強調のブラックボックス最適化 強化学習を応用した最適化 Game score Reward func.Action selector Action candi- dates Action … … … … ゲームスコアさえあれば DNNが学習できる ビデオゲームや囲碁の学習に成功している! 音源強調に応用できないか?
  49. 49. Copyright©2018 NTT corp. All Rights Reserved. 49 DNN音源強調のブラックボックス最適化 強化学習を応用した最適化 Reward func.Mask generator T-F mask Masking … … … … スコアを主観評価と 捉えれば最適化できる? 学習には大量の試行が必要 ⇒ 主観評価そのままの利用は厳しい…
  50. 50. Copyright©2018 NTT corp. All Rights Reserved. 50 DNN音源強調のブラックボックス最適化 強化学習を応用した最適化 Reward func.Mask generator T-F mask Masking … … … … 人間の主観評価を模擬した定量 評価指標を利用 (e.g. PESQ) PC上のシミュレーションで完結
  51. 51. Copyright©2018 NTT corp. All Rights Reserved. 51 DNN音源強調のブラックボックス最適化 DNNを用いて目的関数を定義 サンプリングを用いた勾配の近似計算(policy gradient) 出力音の条件付き分布を DNNで記述 聴感評点の最大化を 目的関数とする
  52. 52. Copyright©2018 NTT corp. All Rights Reserved. 聴感評点の例 52 音質の定量指標の例 明瞭度(単語の聞き取りやすさ)の定量指標の例  PESQ: Perceptual Evaluation of Speech Quality  音声符号化などで使われる音質の定量評価指標 Input: 目的音と出力音の音声ファイル Output: 人間の音質評価(MOS)を模擬した値 ⇒ PESQを上げ、出力音の音質向上を狙う  STOI: Short-Time Objective Intelligibility  音声強調などで使われる明瞭度の定量評価指標 Input: 目的音と出力音の音声ファイル Output: 人間の単語正解率を模擬した値 ⇒ STOIを上げ、出力音の明瞭度向上を狙う
  53. 53. Copyright©2018 NTT corp. All Rights Reserved. 評価実験 1/2(定量評価実験) 53 音質指標 PESQの向上値 【実験1】:学習回数が進むに従い、聴感評点が向上 明瞭度指標 STOIの向上値 学習回数 学習回数 【実験2】:学習に利用した聴感評点が、従来法より優位に向上 SDR [dB](歪み) PESQ (音質) STOI [%](明瞭度) PSM [Erdogan,2015] 9.40 2.27 83.3 提案法(PESQ) 9.19 2.37 83.4 提案法(STOI) 9.74 2.20 87.3  学習が進むにつれ、目標としてい る聴感評点も向上  学習に用いた聴感評点は従来法より も優位に向上 (Input SNR: 0dB, Open test)  聴感評点を向上させるDNN学習に成功  従来技術と比べ、聴感評点が優位に向上
  54. 54. Copyright©2018 NTT corp. All Rights Reserved. 評価実験 2/2(主観評価実験) 54 音質の主観評価値 従来法 提案法 (PESQ) 提案法 (STOI) 単語了解度[%] 【実験1 】 出力音の音質を5段階で絶対評価 (PESQが模擬している試験) 良 悪 良 悪 【実験2 】 親密度の低い単語の聞き取り正解率 (STOIが模擬している試験) 従来法 提案法 (PESQ) 提案法 (STOI) 従来法 提案法(PESQ) 従来法 提案法(STOI) PESQ最大化で 音質が向上 STOI最大化で 明瞭度が向上  聴感評点に対応する主観品質も、従来法と比べ優位に向上
  55. 55. Copyright©2018 NTT corp. All Rights Reserved. 評価実験 2/2(主観評価実験) 55 音質の主観評価値 従来法 提案法 (PESQ) 提案法 (STOI) 単語了解度[%] 【実験1 】 出力音の音質を5段階で絶対評価 (PESQが模擬している試験) 良 悪 良 悪 【実験2 】 親密度の低い単語の聞き取り正解率 (STOIが模擬している試験) 従来法 提案法 (PESQ) 提案法 (STOI) 従来法 提案法(PESQ)  聴感評点に対応する主観品質も、従来法と比べ優位に向上 従来法 提案法(STOI) 正解は「タカドノ」 従来法の正答率:31%, 提案法の正答率:81% 従来法は、雑音を削りすぎ、冒頭の子音の明瞭度が 低下しため、「ハカドノ」などと誤回答
  56. 56. Copyright©2018 NTT corp. All Rights Reserved. 56 手前味噌な研究紹介 人間を超える (1) センシングと (3) 価値判断 3. 出力の価値判断(コスト関数など)  「音質」を最大化するように DNN を学習するには? Y. Koizumi, et al., “DNN-Based Source Enhancement to Increase Objective Sound Quality Assessment Score,” IEEE/ACM Trans. on ASLP, 2018.  DNNの出力の統計的性質はコスト関数依存  人が本当に欲しい情報を DNN が出力するためには  人間と同等の価値判断(コスト関数)  人間を超えるブラックボックス最適化(optimizer) が必要  ほとんど未着手かつ、文理融合が必要な研究領域。そろそろ 縦割り研究を超える頃ではないでしょうか?
  57. 57. Copyright©2018 NTT corp. All Rights Reserved. 57 今日の話題 情報処理と機械学習&深層学習 深層学習と音響信号処理(音源強調)の到達点 学生の皆さんへメッセージ 人間を超える情報処理へ 計算機基盤の進歩に期待すること
  58. 58. Copyright©2018 NTT corp. All Rights Reserved. 58 小規模/安価/中性能な計算機 DNNは音響の世界で実用的か?  音響の世界では、未だローカル処理が求められることがほとんど  リアルタイム性:e.g. 音声通話  ネットワークコスト制約:e.g. 異常音検知 計算機の ”ベースライン” が上がらないと 成り立たないビジネスが多い  計算機パワーの向上は機械学習のブレイクスルー  まだ壊して欲しい壁が沢山。特に低レイヤー向けの中性能計算機
  59. 59. Copyright©2018 NTT corp. All Rights Reserved. 59 今日の話題 情報処理と機械学習&深層学習 深層学習と音響信号処理(音源強調)の到達点 学生の皆さんへメッセージ 人間を超える情報処理へ 計算機基盤の進歩に期待すること
  60. 60. Copyright©2018 NTT corp. All Rights Reserved. 60 まず手を動かそう 未だ、メディア処理には、 言語化しにくいノウハウが沢山 First Step 触ってみないと、できる/できないの直感が働かない
  61. 61. Copyright©2018 NTT corp. All Rights Reserved. 61 技術者 (Scientist/Engineer) であれ ノウハウがたまると データ/計算機/DNN があれば推定はできてしまう No more “やっただけ” 論文!! やっただけでは問題が “解けた” ことにはならない 問題の本質は?最もエレガントな解法は? ※ 企業としてはそれでいいことも多い Next Step
  62. 62. Copyright©2018 NTT corp. All Rights Reserved. 62 【再掲】Take home message 何でもかんでも大量データ & end-to-end でいいのか? 現状、音響信号処理に関しては No 1. ネットワーク構造に物理的/信号処理的な工夫が必要 2. 人間を超えるためには、 センサー配置や目的関数の工夫も必要 ※ end-to-end がうまくいかない条件は、数学的には証明されていないため、 この結論は将来は変わるかもしれない 現状の到達点 将来への展望
  63. 63. Copyright©2018 NTT corp. All Rights Reserved. 63 Q&A

    Be the first to comment

    Login to see the comments

  • HayahideYamagishi

    Apr. 8, 2019
  • MichinariKOHNO

    Apr. 8, 2019
  • hisashikanda

    Apr. 8, 2019
  • pmonster

    Apr. 8, 2019
  • shigeyukihirai

    Apr. 8, 2019
  • ssuser1b080a

    Apr. 9, 2019
  • ejiwarp

    Aug. 14, 2019
  • DaikiKo

    Nov. 28, 2019
  • ssuser7d1db0

    May. 21, 2020
  • tanupoo

    Dec. 15, 2020
  • RuiWatanabe3

    Jun. 6, 2021

小泉 悠馬, "深層学習と音響信号処理," 第16回ICTイノベーションセミナー at 首都大学東京, 招待講演, 2018.

Views

Total views

4,810

On Slideshare

0

From embeds

0

Number of embeds

262

Actions

Downloads

65

Shares

0

Comments

0

Likes

11

×