SlideShare a Scribd company logo
1 of 33
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
NIPS2017報告
SPEECH & AUDIO
株式会社ディー・エヌ・エー
AIシステム部 AI研究開発グループ
森 紘一郎
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
自己紹介
 森 紘一郎
 経歴
⁃ 2005年 株式会社東芝 研究開発センター
機械学習、データマイニング、音声合成(7年くらい)
⁃ 2017年 株式会社ディー・エヌ・エー
DEEP LEARNING(音声、コンピュータビジョン)
 プライベート
⁃ Twitter: aidiary (@sylvan5)
⁃ ブログ: 人工知能に関する断創録(2002〜)
⁃ http://aidiary.hatenablog.com/
⁃ 最近はマルチモーダルなDEEP LEARNINGに興味あり
2
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
発表の流れ
 音とDEEP LEARNING
⁃ 音や声の表現方法とDEEP LEARNINGでの扱い方
 「音」関連研究のタスク分類とNIPS2017での傾向と概要
⁃ 本会議
⁃ ワークショップ
• Machine Learning for Audio Signal Processing
• Machine Learning for Creativity and Design
 NIPS2017の「音」関連論文を2本紹介
⁃ Deep Voice 2: Multi-Speaker Neural Text-to-Speech
⁃ Imaginary soundscape: cross-modal approach to
generate pseudo sound environments
 おわりに
3
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
音の表現 (1) 波形
 波形(raw waveform)
⁃ 音の波形は1次元時系列データとみなせる
⁃ 44.1kHz = 1秒間に44100個のサンプル点から成る
⁃ 16bit = 各サンプルが-32768〜32767の値を取る
4
https://deepmind.com/blog/wavenet-generative-model-raw-audio/
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
「画像」だけでなく「音」にもCNNが使える
5
W. Dai et al.
Very Deep Convolutional Neural Networks for Raw
Waveforms,
ICASSP 2017.
16kHzの音声だと
約2秒の音声
カーネルサイズ: 80
フィルタ数: 256
カーネルサイズ: 3
フィルタ数: 256
音声波形は1次元の時系列データ
Conv2dではなく
Conv1dを使う
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
音の表現 (2) メルスペクトログラム
 メルスペクトログラム(mel spectrogram)
⁃ 波形に対してSTFT(短時間フーリエ変換)を適用
⁃ 人の聴覚知覚に合うように周波数軸をメルスケールに変換
⁃ 横軸が時間、縦軸が周波数の2次元データとして表せる
6
時間(単位: フレーム)
周波数(メルスケール)
Audio features for web-based ML
https://towardsdatascience.com/audio-features-for-web-based-ml-555776733bae
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
DEEP LEARNINGにおけるメルスペクトログラムの処理方法 (1)
7
 Convolutional Neural Network(CNN)
⁃ Conv1D or Conv2D
⁃ メルスペクトログラムを2次元の画像とみなす
⁃ カーネルのサイズはさまざま
時間(単位: フレーム)
周波数(メルスケール)
3
3
3
3
1
3
1
Audio features for web-based ML
https://towardsdatascience.com/audio-features-for-web-based-ml-555776733bae
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
DEEP LEARNINGにおけるメルスペクトログラムの処理方法 (2)
 Recurrent Neural Network(RNN)
⁃ メルスペクトログラムを1次元ベクトルの時系列データとみなす
⁃ 文章を埋め込み単語ベクトルの系列とみなすのと似ている
⁃ 系列長が長くなりRNNで学習できない
8
周波数(メルスケール)
時間(単位: フレーム)
Audio features for web-based ML
https://towardsdatascience.com/audio-features-for-web-based-ml-555776733bae
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
Convolutional Recurrent Neural Network (CRNN) = CNN + RNN
9
K. Choi et al.
Convolutional Recurrent Neural Networks for Music Classification,
ICASSP 2017.
メルスペクトログラム
Conv2D
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
NIPS2017の「音」関連研究の概要 (1)
10
Speech Audio Music
認識
Speech Recognition
Speech Emotion Recognition
Gender/Age Recognition
Speaker Identification
Language Identification
Audio Classification
Environmental Sound Recognition
Scene Recognition
Music Tagging
Mood Recognition
Song Identification
生成
Speech Synthesis
Emotional Speech Synthesis
Singing Voice Synthesis
Voice Conversion
Environmental Sound Generation
Audio Style Transfer
Music Generation
Music Style Transfer
検出
Voice Activity Detection
Keyword Spotting
Singing Voice Detection
Audio Event Detection Melody Tracking
Beat Tracking
BGM detection
その他
Speech Enhancement
Sound Source Separation
Singing Voice Separation
Noise Reduction
Sound Representation Music Information Retrieval
Music Recommendation
Hit prediction
赤: 本会議
緑: ワークショップ
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
NIPS2017の「音」関連研究の概要 (1)
11
Speech Audio Music
認識
Speech Recognition
Speech Emotion Recognition
Gender/Age Recognition
Speaker Identification
Language Identification
Audio Classification
Environmental Sound Recognition
Scene Recognition
Music Tagging
Mood Recognition
Song Identification
生成
Speech Synthesis
Emotional Speech Synthesis
Singing Voice Synthesis
Voice Conversion
Environmental Sound Generation
Audio Style Transfer
Music Generation
Music Style Transfer
検出
Voice Activity Detection
Keyword Spotting
Singing Voice Detection
Audio Event Detection Melody Tracking
Beat Tracking
BGM detection
その他
Speech Enhancement
Sound Source Separation
Singing Voice Separation
Noise Reduction
Sound Representation Music Information Retrieval
Music Recommendation
Hit prediction
Analyzing Hidden Representations in End-to-
End Automatic Speech Recognition
End-to-end音声認識における内部表現の可視化
音声からテキストへのマッピングを直接学習
従来の「音素」という概念は隠れ層のどこかでモデ
ル化されているのだろうか?
低レイヤで音素がモデル化されていることを確認!
Deep Voice 2
End-to-end音声合成において話者の埋め込みベクトル
を用いることで1つのニューラルネットから複数話者
の音声を合成することに成功!
Uncovering Latent Style Factors for
Expressive Speech Synthesis
Tacotronに潜在変数を導入して韻律スタイルを制御で
きるように拡張。スタイルは教師なしで学習するた
め人による解釈は必要
赤: 本会議
緑: ワークショップ
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
NIPS2017の「音」関連研究の概要 (2)
12
Speech Audio Music
認識
Speech Recognition
Speech Emotion Recognition
Gender/Age Recognition
Speaker Identification
Language Identification
Audio Classification
Environmental Sound Recognition
Scene Recognition
Music Tagging
Mood Recognition
Song Identification
生成
Speech Synthesis
Emotional Speech Synthesis
Singing Voice Synthesis
Voice Conversion
Environmental Sound Generation
Audio Style Transfer
Music Generation
Music Style Transfer
検出
Voice Activity Detection
Keyword Spotting
Singing Voice Detection
Audio Event Detection Melody Tracking
Beat Tracking
BGM detection
その他
Speech Enhancement
Sound Source Separation
Singing Voice Separation
Noise Reduction
Sound Representation Music Information Retrieval
Music Recommendation
Hit prediction
Utilizing Domain Knowledge in End-to-End
Audio Processing
波形からメルスペクトログラムへ変換する高速な
CNNネットワークを提案
Raw Waveform based Audio Classification
Using Sample Level CNN Architecture
音声認識、楽曲分類、環境音分類の3つのタスクにお
いて波形入力のCNNアーキテクチャでSOTAに近い精
度が出た
Imaginary Soundcape
景色のシーン画像を入力するとそのシーンに適した
音声を再生するシステムを提案。
NELS: Never Ending Learner of Sounds
YouTubeから動画をクローリングして半教師あり学習
の枠組みで600以上の音声クラスにインデキシングす
るシステムを提案
赤: 本会議
緑: ワークショップ
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
NIPS2017の「音」関連研究の概要 (3)
13
Speech Audio Music
認識
Speech Recognition
Speech Emotion Recognition
Gender/Age Recognition
Speaker Identification
Language Identification
Audio Classification
Environmental Sound Recognition
Scene Recognition
Music Tagging
Mood Recognition
Song Identification
生成
Speech Synthesis
Emotional Speech Synthesis
Singing Voice Synthesis
Voice Conversion
Environmental Sound Generation
Audio Style Transfer
Music Generation
Music Style Transfer
検出
Voice Activity Detection
Keyword Spotting
Singing Voice Detection
Audio Event Detection Melody Tracking
Beat Tracking
BGM detection
その他
Speech Enhancement
Sound Source Separation
Singing Voice Separation
Noise Reduction
Sound Representation Music Information Retrieval
Music Recommendation
Hit prediction
End-to-end learning for music audio tagging
at scale
Pandoraの120万曲の大規模データを使って楽曲タギ
ングの実験。入力が波形とメルスペクトログラムの
どちらがよいかを比較実験
Neural Translation of Music Style
楽譜を入力として音楽ジャンルのスタイル(ダイナ
ミクス)を出力するGenreNetを提案
赤: 本会議
緑: ワークショップ
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
SPEECH & SOUND @ NIPS2017
 本会議
⁃ Deep Voice 2: Multi-Speaker Neural Text-to-Speech
 WORKSHOP - Machine Learning for Creativity and Design
⁃ Imaginary soundscape: cross-modal approach to generate
pseudo sound environments
14
SPEECH
AUDIO
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
Deep Voice 2: Multi-Speaker Neural Text-to-Speech
S. O. Arik, G. Diamos, A. Gibiansky, J. Miller, K. Peng, W. Ping, J. Raiman and Y. Zhou
Baidu Silicon Valley Artificial Intelligence Lab
15
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
DeepVoice1(Baidu) (音声合成の主要モジュールを
すべてNNに置き換えよう!)
音声合成の主要モジュールと主な音声合成アーキテクチャ
16
テキス
ト解析
テキスト
言語
特徴量
合成音声
音響
モデル
ボコーダー
音響
特徴量
F0(音の高さ)
時間長(音の長さ)
メルケプストラム(声の個人性、音韻)
周期非周期性指標(声のかすれ具合)
音素、トライフォン(しゃべる内容)
アクセント型
品詞
文章中での位置
Char2Wav
(人手の言語特徴量を排除しよう!)
WaveNet(Google)
(人手の音響特徴量を排除しよう!)
WaveNet vocoder
Tacotron(Google)
(人手の言語特徴量も音響特徴量を排除しよう!
真のEnd-to-End音声合成を目指すのだ!)
J. Sotelo et al.
Char2Wav: End-to-end speech synthesis,
ICLR 2017
Y. Wang et al.
Tacotron: Towards End-to-End Speech Synthesis,
Interspeech 2017
A. Oord et al.
WaveNet: A Generative Model for Raw Audio,
arXiv:1609.03499
S. O. Arik et al.
Deep Voice: Real-time Neural Text-to-speech,
ICML 2017
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
 複数話者モデルへの拡張
⁃ 学習した話者の埋め込みベクトルを入力とすることで一つの
(ニューラルネットワーク)モデルから複数話者の音声を合成でき
るようにした!
 比較手法として Tacotron(Google)を拡張した!
⁃ ボコーダーにWaveNetを導入
⁃ 話者の埋め込みベクトルで複数話者の音声を合成可能に
Deep Voice2 の貢献
17
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
Single-speaker model と Multi-speaker model (1/2)
18
Aさんの
収録音声
Bさんの
収録音声
Aさん
モデル
Bさん
モデル
Aさんの合成音声
Bさんの合成音声
各話者で独立したニューラルネットのモデルを
学習する必要があるため話者ごとに大量の音声を
収録しないといけない
テキスト (例)これはテストです。
テキスト(例)これはテストです。
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
Single-speaker model と Multi-speaker model (2/2)
19
Aさんの
収録音声
Bさんの
収録音声
複数
話者
モデル
Aさんの合成音声
Bさんの合成音声
複数話者の音声を使うことでモデルパラメータを
共有できるため各話者の音声は少量でもOK
テキスト + Aさんの埋め込みベクトル
テキスト + Bさんの埋め込みベクトル
話者の埋め込みベクトルを入力することで
1つのモデルで異なる話者の音声を合成できる
(モデルとともに訓練される!)
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
DeepVoice2の全体構成
20
RNNの
初期値に
使用
入力を拡張
Embeddingも
BPによる学習対象
RNNの
初期値
正規化されている
出力をF0に戻す
有声・無声の判定
SpeakerのEmbeddingを
どこにどのように入れるかが
複数話者化のキー!
Duration(音素の長さ)を予測するネットワーク F0(声の高さ)を予測するネットワーク
声の高さ
音素の長さ
音素系列 音素系列
話者
この3つがそれぞれ独立したニューラルネット
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
Speech synthesis (Vocal) model (from DeepVoice1)
21
F0(声の高さ)音声サンプル(自己回帰入力)
Speaker
DeepVoiceのVocoderはWaveNetの亜種
音声サンプル
言語特徴量もここから入力
話者
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
 複数話者モデルへの拡張
⁃ 学習した話者の埋め込みベクトルを入力とすることで一つの
(ニューラルネットワーク)モデルから複数話者の音声を合成でき
るようにした!
 比較手法として Tacotron(Google)を拡張した!
⁃ ボコーダーにWaveNetを導入
⁃ 話者の埋め込みベクトルで複数話者の音声を合成可能に
Deep Voice2 の貢献
22
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
Tacotron も複数話者対応モデルに拡張
23
TacotronはEncoder-Decoder型の音声合成手法
入力は文字で出力はスペクトログラム
入力は文字
最終出力は
スペクトログラム
Tacotronによる
合成音声
WaveNet
による合成音声
Speaker
Embedding
メルスペクトログラム
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
実験結果
24
MOS (Mean Opinion Score)
合成音声の品質の主観評価(1-5点)
話者の分類精度
Inception Score っぽい指標
原音で学習した話者分類モデル(CNN)で
合成音声の話者を正しく分類できるか?
108話者
各話者400発話
477話者
各話者30分
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
まとめ
25
DeepVoice1
DeepVoice2
Tacotron
DeepVoice3
Baidu Google
音声合成の個別モジュールを
すべてニューラルネットに
置き換え
1つのモデルで
複数話者に対応
Tacotron’
WaveNet導入
Tacotron’’
1つのモデルで
複数話者に対応
結論:DeepVoice2はTacotron’’より合成音声の品質がよい!
GOOD!!!
End-to-EndのTTS
Tactron2
W. Ping et al.
Deep Voice 3: 2000-Speaker Neural Text-to-
Speech,
arXiv:1710.07654 submitted to ICLR 2018
J. Shen et al.
Neural TTS Synthesisby Conditioning WaveNet on Mel Spectrogram
Predictions,
arXiv:1712.05884 submitted to ICASSP 2018
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
Imaginary soundscape: cross-modal approach to generate
pseudo sound environments
Y. Kajihara, S. Dozono and N. Tokui
Qosmo inc. & The Univ. of Tokyo
26
create with AI
http://createwith.ai/
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
Imaginary Soundscape の貢献
 シーンの画像を入力するとそのシーンの(疑似)環境音
(Soundscape)を再生するシステムを作った!
 Google Street Viewの街中探検で音まで聞こえてくる!
 シーン画像と環境音のマルチモーダル技術
27
http://imaginarysoundscape.qosmo.jp/
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
画像と音のマルチモーダル
28
 マルチモーダルDEEP LEARNING
⁃ 異なるモーダル(画像と音声)を同じ潜在空間に写像する
⁃ 画像をVisual CNNで特徴量に変換
⁃ 音声をAudio CNNで同じ潜在空間の特徴量に変換
⁃ 画像と音声の間で距離(KL-divergence)を求められる!
SoundNet
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
SoundNet: 音の深層表現を学習済みの画像分類モデルから学習
29
音声波形入力
(1次元時系列)
Conv1D
Global
Average
Pooling
1000次元
401次元
1401次元
最終的に音の深層表現として出力層ではなく
隠れ層の出力を用いる
Teacher Model
Student Model
Flickrからタグ検索して200万ビデオを収集
ここから画像と音声のペアを抽出
(例)Beach, Forest, Club, Engine
画像入力
Y. Aytar et al.
SoundNet: Learning Sound Representations from Unlabeled Video,
NIPS 2016.
Image Networkの出力分布と
Sound Networkの出力分布が
近くなるようにパラメータを学習
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
SoundNet の実験結果
30
SoundNetで抽出した音声特徴量を
用いて50カテゴリの環境音認識タスクを
評価したらSOTAの精度を達成できた!
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
まとめ
31
ImageNetではなく
Places365のデータセット(シーンに特化)で学習した
SqueezeNetモデル(Webで軽量に動かせる)を使用
Places http://places2.csail.mit.edu/
freesound.orgからCreative Commons
で公開されている環境音を15000
ほど収集して検索対象に
任意のシーン画像入力
画像の特徴量にもっとも近い
音声特徴量を検索して音声を再生!
画像から環境音を生成する技術まででてきた!
Y. Zhou et al.
Visual to Sound: Generating Natural Sound
for Videos in the Wild,
arXiv:1712.01393
http://bvision11.cs.unc.edu/bigpen/yipin/visual2sound_webpage/visual2sound.html
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
おわりに:「音」に関する研究はこれから面白くなる?
 AudioSet (Google)
• YouTubeから収集した200万規模の音声(特徴量)データセット
• 各音声は10秒 632のAudio Eventクラスに分類
• 「音」研究における “ImageNet”
• 画像分類のVGGの音声分類版であるVGGish(VGGっぽい)も提案
32
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
マルチモーダル: 言語 x 画像 x 音声 x 制御
33
TEXTSPEECHAUDIO
MUSIC
IMAGE CONTROL
Speech Recognition
Text-to-Speech
Synthesis
Image
Captioning
(Show and Tell)
Text-to-Image
Synthesis
Imaginary
Soundscape
Talking Head
Visual QA
VIDEO
Visual-to-
sound
TAG
Music Tagging
Image
TaggingSoundNet NL Guided
RL
See and
Listen
See, Hear, and Read

More Related Content

What's hot

やさしく音声分析法を学ぶ: ケプストラム分析とLPC分析
やさしく音声分析法を学ぶ: ケプストラム分析とLPC分析やさしく音声分析法を学ぶ: ケプストラム分析とLPC分析
やさしく音声分析法を学ぶ: ケプストラム分析とLPC分析Shinnosuke Takamichi
 
Transformerを雰囲気で理解する
Transformerを雰囲気で理解するTransformerを雰囲気で理解する
Transformerを雰囲気で理解するAtsukiYamaguchi1
 
論文紹介 wav2vec: Unsupervised Pre-training for Speech Recognition
論文紹介  wav2vec: Unsupervised Pre-training for Speech Recognition論文紹介  wav2vec: Unsupervised Pre-training for Speech Recognition
論文紹介 wav2vec: Unsupervised Pre-training for Speech RecognitionYosukeKashiwagi1
 
Statistical Semantic入門 ~分布仮説からword2vecまで~
Statistical Semantic入門 ~分布仮説からword2vecまで~Statistical Semantic入門 ~分布仮説からword2vecまで~
Statistical Semantic入門 ~分布仮説からword2vecまで~Yuya Unno
 
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法SSII
 
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
【DL輪読会】Efficiently Modeling Long Sequences with Structured State SpacesDeep Learning JP
 
【DL輪読会】SimCSE: Simple Contrastive Learning of Sentence Embeddings (EMNLP 2021)
【DL輪読会】SimCSE: Simple Contrastive Learning of Sentence Embeddings  (EMNLP 2021)【DL輪読会】SimCSE: Simple Contrastive Learning of Sentence Embeddings  (EMNLP 2021)
【DL輪読会】SimCSE: Simple Contrastive Learning of Sentence Embeddings (EMNLP 2021)Deep Learning JP
 
4 データ間の距離と類似度
4 データ間の距離と類似度4 データ間の距離と類似度
4 データ間の距離と類似度Seiichi Uchida
 
【DL輪読会】The Forward-Forward Algorithm: Some Preliminary
【DL輪読会】The Forward-Forward Algorithm: Some Preliminary【DL輪読会】The Forward-Forward Algorithm: Some Preliminary
【DL輪読会】The Forward-Forward Algorithm: Some PreliminaryDeep Learning JP
 
最適輸送の解き方
最適輸送の解き方最適輸送の解き方
最適輸送の解き方joisino
 
ドメイン適応の原理と応用
ドメイン適応の原理と応用ドメイン適応の原理と応用
ドメイン適応の原理と応用Yoshitaka Ushiku
 
深層学習の不確実性 - Uncertainty in Deep Neural Networks -
深層学習の不確実性 - Uncertainty in Deep Neural Networks -深層学習の不確実性 - Uncertainty in Deep Neural Networks -
深層学習の不確実性 - Uncertainty in Deep Neural Networks -tmtm otm
 
Generative Adversarial Imitation Learningの紹介(RLアーキテクチャ勉強会)
Generative Adversarial Imitation Learningの紹介(RLアーキテクチャ勉強会)Generative Adversarial Imitation Learningの紹介(RLアーキテクチャ勉強会)
Generative Adversarial Imitation Learningの紹介(RLアーキテクチャ勉強会)Yusuke Nakata
 
深層学習を用いた音源定位、音源分離、クラス分類の統合~環境音セグメンテーション手法の紹介~
深層学習を用いた音源定位、音源分離、クラス分類の統合~環境音セグメンテーション手法の紹介~深層学習を用いた音源定位、音源分離、クラス分類の統合~環境音セグメンテーション手法の紹介~
深層学習を用いた音源定位、音源分離、クラス分類の統合~環境音セグメンテーション手法の紹介~Yui Sudo
 
[DL輪読会]Deep Learning 第15章 表現学習
[DL輪読会]Deep Learning 第15章 表現学習[DL輪読会]Deep Learning 第15章 表現学習
[DL輪読会]Deep Learning 第15章 表現学習Deep Learning JP
 
Transformerを多層にする際の勾配消失問題と解決法について
Transformerを多層にする際の勾配消失問題と解決法についてTransformerを多層にする際の勾配消失問題と解決法について
Transformerを多層にする際の勾配消失問題と解決法についてSho Takase
 
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)Deep Learning JP
 
Curriculum Learning (関東CV勉強会)
Curriculum Learning (関東CV勉強会)Curriculum Learning (関東CV勉強会)
Curriculum Learning (関東CV勉強会)Yoshitaka Ushiku
 

What's hot (20)

やさしく音声分析法を学ぶ: ケプストラム分析とLPC分析
やさしく音声分析法を学ぶ: ケプストラム分析とLPC分析やさしく音声分析法を学ぶ: ケプストラム分析とLPC分析
やさしく音声分析法を学ぶ: ケプストラム分析とLPC分析
 
Transformerを雰囲気で理解する
Transformerを雰囲気で理解するTransformerを雰囲気で理解する
Transformerを雰囲気で理解する
 
論文紹介 wav2vec: Unsupervised Pre-training for Speech Recognition
論文紹介  wav2vec: Unsupervised Pre-training for Speech Recognition論文紹介  wav2vec: Unsupervised Pre-training for Speech Recognition
論文紹介 wav2vec: Unsupervised Pre-training for Speech Recognition
 
HiPPO/S4解説
HiPPO/S4解説HiPPO/S4解説
HiPPO/S4解説
 
Statistical Semantic入門 ~分布仮説からword2vecまで~
Statistical Semantic入門 ~分布仮説からword2vecまで~Statistical Semantic入門 ~分布仮説からword2vecまで~
Statistical Semantic入門 ~分布仮説からword2vecまで~
 
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
 
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
 
【DL輪読会】SimCSE: Simple Contrastive Learning of Sentence Embeddings (EMNLP 2021)
【DL輪読会】SimCSE: Simple Contrastive Learning of Sentence Embeddings  (EMNLP 2021)【DL輪読会】SimCSE: Simple Contrastive Learning of Sentence Embeddings  (EMNLP 2021)
【DL輪読会】SimCSE: Simple Contrastive Learning of Sentence Embeddings (EMNLP 2021)
 
4 データ間の距離と類似度
4 データ間の距離と類似度4 データ間の距離と類似度
4 データ間の距離と類似度
 
【DL輪読会】The Forward-Forward Algorithm: Some Preliminary
【DL輪読会】The Forward-Forward Algorithm: Some Preliminary【DL輪読会】The Forward-Forward Algorithm: Some Preliminary
【DL輪読会】The Forward-Forward Algorithm: Some Preliminary
 
最適輸送の解き方
最適輸送の解き方最適輸送の解き方
最適輸送の解き方
 
ドメイン適応の原理と応用
ドメイン適応の原理と応用ドメイン適応の原理と応用
ドメイン適応の原理と応用
 
深層学習の不確実性 - Uncertainty in Deep Neural Networks -
深層学習の不確実性 - Uncertainty in Deep Neural Networks -深層学習の不確実性 - Uncertainty in Deep Neural Networks -
深層学習の不確実性 - Uncertainty in Deep Neural Networks -
 
Generative Adversarial Imitation Learningの紹介(RLアーキテクチャ勉強会)
Generative Adversarial Imitation Learningの紹介(RLアーキテクチャ勉強会)Generative Adversarial Imitation Learningの紹介(RLアーキテクチャ勉強会)
Generative Adversarial Imitation Learningの紹介(RLアーキテクチャ勉強会)
 
深層学習を用いた音源定位、音源分離、クラス分類の統合~環境音セグメンテーション手法の紹介~
深層学習を用いた音源定位、音源分離、クラス分類の統合~環境音セグメンテーション手法の紹介~深層学習を用いた音源定位、音源分離、クラス分類の統合~環境音セグメンテーション手法の紹介~
深層学習を用いた音源定位、音源分離、クラス分類の統合~環境音セグメンテーション手法の紹介~
 
[DL輪読会]Deep Learning 第15章 表現学習
[DL輪読会]Deep Learning 第15章 表現学習[DL輪読会]Deep Learning 第15章 表現学習
[DL輪読会]Deep Learning 第15章 表現学習
 
Transformerを多層にする際の勾配消失問題と解決法について
Transformerを多層にする際の勾配消失問題と解決法についてTransformerを多層にする際の勾配消失問題と解決法について
Transformerを多層にする際の勾配消失問題と解決法について
 
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)
 
音声認識と深層学習
音声認識と深層学習音声認識と深層学習
音声認識と深層学習
 
Curriculum Learning (関東CV勉強会)
Curriculum Learning (関東CV勉強会)Curriculum Learning (関東CV勉強会)
Curriculum Learning (関東CV勉強会)
 

Similar to NIPS2017報告 SPEECH & AUDIO

Saito19asjAutumn_DeNA
Saito19asjAutumn_DeNASaito19asjAutumn_DeNA
Saito19asjAutumn_DeNAYuki Saito
 
ギター、パラメトリックスピーカー、ウルトラソニックエフェクター。
ギター、パラメトリックスピーカー、ウルトラソニックエフェクター。ギター、パラメトリックスピーカー、ウルトラソニックエフェクター。
ギター、パラメトリックスピーカー、ウルトラソニックエフェクター。Koji Hara
 
Dll講演資料 2017616
Dll講演資料 2017616Dll講演資料 2017616
Dll講演資料 2017616NORIKO HOSAKA
 
[Ridge-i] Dll講演資料 2017616
[Ridge-i] Dll講演資料 2017616[Ridge-i] Dll講演資料 2017616
[Ridge-i] Dll講演資料 2017616Ridge-i
 
Interspeech2019読み会 音声生成
Interspeech2019読み会 音声生成Interspeech2019読み会 音声生成
Interspeech2019読み会 音声生成Kentaro Tachibana
 
ICASSP2020音声&音響読み会Mellotron
ICASSP2020音声&音響読み会MellotronICASSP2020音声&音響読み会Mellotron
ICASSP2020音声&音響読み会MellotronKentaro Tachibana
 
Gcm#3 グリーモバイルサウンドの歩み・変遷
Gcm#3 グリーモバイルサウンドの歩み・変遷Gcm#3 グリーモバイルサウンドの歩み・変遷
Gcm#3 グリーモバイルサウンドの歩み・変遷GREE/Art
 
DDSP: Differentiable Digital Signal Processing
DDSP: Differentiable Digital Signal ProcessingDDSP: Differentiable Digital Signal Processing
DDSP: Differentiable Digital Signal ProcessingSohOhara
 
SIG-Audio#3 アンケート集計結果
SIG-Audio#3 アンケート集計結果SIG-Audio#3 アンケート集計結果
SIG-Audio#3 アンケート集計結果IGDA Japan SIG-Audio
 
Interspeech2022 参加報告
Interspeech2022 参加報告Interspeech2022 参加報告
Interspeech2022 参加報告Yuki Saito
 
SIG-Audio#4 GDC 2013 AUDIO REPORT ゲームオーディオ トピック
SIG-Audio#4 GDC 2013 AUDIO REPORT ゲームオーディオ トピックSIG-Audio#4 GDC 2013 AUDIO REPORT ゲームオーディオ トピック
SIG-Audio#4 GDC 2013 AUDIO REPORT ゲームオーディオ トピックIGDA Japan SIG-Audio
 
アナグラプレゼン資料 Cedec
アナグラプレゼン資料 Cedecアナグラプレゼン資料 Cedec
アナグラプレゼン資料 CedecTakayuki Nakamura
 

Similar to NIPS2017報告 SPEECH & AUDIO (17)

Nishimoto110111twcu p2
Nishimoto110111twcu p2Nishimoto110111twcu p2
Nishimoto110111twcu p2
 
Saito19asjAutumn_DeNA
Saito19asjAutumn_DeNASaito19asjAutumn_DeNA
Saito19asjAutumn_DeNA
 
ギター、パラメトリックスピーカー、ウルトラソニックエフェクター。
ギター、パラメトリックスピーカー、ウルトラソニックエフェクター。ギター、パラメトリックスピーカー、ウルトラソニックエフェクター。
ギター、パラメトリックスピーカー、ウルトラソニックエフェクター。
 
Dll講演資料 2017616
Dll講演資料 2017616Dll講演資料 2017616
Dll講演資料 2017616
 
[Ridge-i] Dll講演資料 2017616
[Ridge-i] Dll講演資料 2017616[Ridge-i] Dll講演資料 2017616
[Ridge-i] Dll講演資料 2017616
 
Interspeech2019読み会 音声生成
Interspeech2019読み会 音声生成Interspeech2019読み会 音声生成
Interspeech2019読み会 音声生成
 
ICASSP2020音声&音響読み会Mellotron
ICASSP2020音声&音響読み会MellotronICASSP2020音声&音響読み会Mellotron
ICASSP2020音声&音響読み会Mellotron
 
Unityで音を制す
Unityで音を制すUnityで音を制す
Unityで音を制す
 
深層学習に基づくテキスト音声合成の技術動向_言語音声ナイト
深層学習に基づくテキスト音声合成の技術動向_言語音声ナイト深層学習に基づくテキスト音声合成の技術動向_言語音声ナイト
深層学習に基づくテキスト音声合成の技術動向_言語音声ナイト
 
Gcm#3 グリーモバイルサウンドの歩み・変遷
Gcm#3 グリーモバイルサウンドの歩み・変遷Gcm#3 グリーモバイルサウンドの歩み・変遷
Gcm#3 グリーモバイルサウンドの歩み・変遷
 
ヤフー音声認識のご紹介#yjdsw1
ヤフー音声認識のご紹介#yjdsw1ヤフー音声認識のご紹介#yjdsw1
ヤフー音声認識のご紹介#yjdsw1
 
DDSP: Differentiable Digital Signal Processing
DDSP: Differentiable Digital Signal ProcessingDDSP: Differentiable Digital Signal Processing
DDSP: Differentiable Digital Signal Processing
 
SIG-Audio#3 アンケート集計結果
SIG-Audio#3 アンケート集計結果SIG-Audio#3 アンケート集計結果
SIG-Audio#3 アンケート集計結果
 
Interspeech2022 参加報告
Interspeech2022 参加報告Interspeech2022 参加報告
Interspeech2022 参加報告
 
SIG-Audio#4 GDC 2013 AUDIO REPORT ゲームオーディオ トピック
SIG-Audio#4 GDC 2013 AUDIO REPORT ゲームオーディオ トピックSIG-Audio#4 GDC 2013 AUDIO REPORT ゲームオーディオ トピック
SIG-Audio#4 GDC 2013 AUDIO REPORT ゲームオーディオ トピック
 
Microsoft Imagine Cupと深層学習を用いた音源分離技術について_言語音声ナイト
Microsoft Imagine Cupと深層学習を用いた音源分離技術について_言語音声ナイトMicrosoft Imagine Cupと深層学習を用いた音源分離技術について_言語音声ナイト
Microsoft Imagine Cupと深層学習を用いた音源分離技術について_言語音声ナイト
 
アナグラプレゼン資料 Cedec
アナグラプレゼン資料 Cedecアナグラプレゼン資料 Cedec
アナグラプレゼン資料 Cedec
 

Recently uploaded

IoT in the era of generative AI, Thanks IoT ALGYAN.pptx
IoT in the era of generative AI, Thanks IoT ALGYAN.pptxIoT in the era of generative AI, Thanks IoT ALGYAN.pptx
IoT in the era of generative AI, Thanks IoT ALGYAN.pptxAtomu Hidaka
 
スマートフォンを用いた新生児あやし動作の教示システム
スマートフォンを用いた新生児あやし動作の教示システムスマートフォンを用いた新生児あやし動作の教示システム
スマートフォンを用いた新生児あやし動作の教示システムsugiuralab
 
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略Ryo Sasaki
 
20240412_HCCJP での Windows Server 2025 Active Directory
20240412_HCCJP での Windows Server 2025 Active Directory20240412_HCCJP での Windows Server 2025 Active Directory
20240412_HCCJP での Windows Server 2025 Active Directoryosamut
 
新人研修のまとめ 2024/04/12の勉強会で発表されたものです。
新人研修のまとめ       2024/04/12の勉強会で発表されたものです。新人研修のまとめ       2024/04/12の勉強会で発表されたものです。
新人研修のまとめ 2024/04/12の勉強会で発表されたものです。iPride Co., Ltd.
 
UPWARD_share_company_information_20240415.pdf
UPWARD_share_company_information_20240415.pdfUPWARD_share_company_information_20240415.pdf
UPWARD_share_company_information_20240415.pdffurutsuka
 
Postman LT Fukuoka_Quick Prototype_By Daniel
Postman LT Fukuoka_Quick Prototype_By DanielPostman LT Fukuoka_Quick Prototype_By Daniel
Postman LT Fukuoka_Quick Prototype_By Danieldanielhu54
 
PHP-Conference-Odawara-2024-04-000000000
PHP-Conference-Odawara-2024-04-000000000PHP-Conference-Odawara-2024-04-000000000
PHP-Conference-Odawara-2024-04-000000000Shota Ito
 
Amazon SES を勉強してみる その12024/04/12の勉強会で発表されたものです。
Amazon SES を勉強してみる その12024/04/12の勉強会で発表されたものです。Amazon SES を勉強してみる その12024/04/12の勉強会で発表されたものです。
Amazon SES を勉強してみる その12024/04/12の勉強会で発表されたものです。iPride Co., Ltd.
 

Recently uploaded (9)

IoT in the era of generative AI, Thanks IoT ALGYAN.pptx
IoT in the era of generative AI, Thanks IoT ALGYAN.pptxIoT in the era of generative AI, Thanks IoT ALGYAN.pptx
IoT in the era of generative AI, Thanks IoT ALGYAN.pptx
 
スマートフォンを用いた新生児あやし動作の教示システム
スマートフォンを用いた新生児あやし動作の教示システムスマートフォンを用いた新生児あやし動作の教示システム
スマートフォンを用いた新生児あやし動作の教示システム
 
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
 
20240412_HCCJP での Windows Server 2025 Active Directory
20240412_HCCJP での Windows Server 2025 Active Directory20240412_HCCJP での Windows Server 2025 Active Directory
20240412_HCCJP での Windows Server 2025 Active Directory
 
新人研修のまとめ 2024/04/12の勉強会で発表されたものです。
新人研修のまとめ       2024/04/12の勉強会で発表されたものです。新人研修のまとめ       2024/04/12の勉強会で発表されたものです。
新人研修のまとめ 2024/04/12の勉強会で発表されたものです。
 
UPWARD_share_company_information_20240415.pdf
UPWARD_share_company_information_20240415.pdfUPWARD_share_company_information_20240415.pdf
UPWARD_share_company_information_20240415.pdf
 
Postman LT Fukuoka_Quick Prototype_By Daniel
Postman LT Fukuoka_Quick Prototype_By DanielPostman LT Fukuoka_Quick Prototype_By Daniel
Postman LT Fukuoka_Quick Prototype_By Daniel
 
PHP-Conference-Odawara-2024-04-000000000
PHP-Conference-Odawara-2024-04-000000000PHP-Conference-Odawara-2024-04-000000000
PHP-Conference-Odawara-2024-04-000000000
 
Amazon SES を勉強してみる その12024/04/12の勉強会で発表されたものです。
Amazon SES を勉強してみる その12024/04/12の勉強会で発表されたものです。Amazon SES を勉強してみる その12024/04/12の勉強会で発表されたものです。
Amazon SES を勉強してみる その12024/04/12の勉強会で発表されたものです。
 

NIPS2017報告 SPEECH & AUDIO

  • 1. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. NIPS2017報告 SPEECH & AUDIO 株式会社ディー・エヌ・エー AIシステム部 AI研究開発グループ 森 紘一郎
  • 2. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. 自己紹介  森 紘一郎  経歴 ⁃ 2005年 株式会社東芝 研究開発センター 機械学習、データマイニング、音声合成(7年くらい) ⁃ 2017年 株式会社ディー・エヌ・エー DEEP LEARNING(音声、コンピュータビジョン)  プライベート ⁃ Twitter: aidiary (@sylvan5) ⁃ ブログ: 人工知能に関する断創録(2002〜) ⁃ http://aidiary.hatenablog.com/ ⁃ 最近はマルチモーダルなDEEP LEARNINGに興味あり 2
  • 3. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. 発表の流れ  音とDEEP LEARNING ⁃ 音や声の表現方法とDEEP LEARNINGでの扱い方  「音」関連研究のタスク分類とNIPS2017での傾向と概要 ⁃ 本会議 ⁃ ワークショップ • Machine Learning for Audio Signal Processing • Machine Learning for Creativity and Design  NIPS2017の「音」関連論文を2本紹介 ⁃ Deep Voice 2: Multi-Speaker Neural Text-to-Speech ⁃ Imaginary soundscape: cross-modal approach to generate pseudo sound environments  おわりに 3
  • 4. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. 音の表現 (1) 波形  波形(raw waveform) ⁃ 音の波形は1次元時系列データとみなせる ⁃ 44.1kHz = 1秒間に44100個のサンプル点から成る ⁃ 16bit = 各サンプルが-32768〜32767の値を取る 4 https://deepmind.com/blog/wavenet-generative-model-raw-audio/
  • 5. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. 「画像」だけでなく「音」にもCNNが使える 5 W. Dai et al. Very Deep Convolutional Neural Networks for Raw Waveforms, ICASSP 2017. 16kHzの音声だと 約2秒の音声 カーネルサイズ: 80 フィルタ数: 256 カーネルサイズ: 3 フィルタ数: 256 音声波形は1次元の時系列データ Conv2dではなく Conv1dを使う
  • 6. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. 音の表現 (2) メルスペクトログラム  メルスペクトログラム(mel spectrogram) ⁃ 波形に対してSTFT(短時間フーリエ変換)を適用 ⁃ 人の聴覚知覚に合うように周波数軸をメルスケールに変換 ⁃ 横軸が時間、縦軸が周波数の2次元データとして表せる 6 時間(単位: フレーム) 周波数(メルスケール) Audio features for web-based ML https://towardsdatascience.com/audio-features-for-web-based-ml-555776733bae
  • 7. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. DEEP LEARNINGにおけるメルスペクトログラムの処理方法 (1) 7  Convolutional Neural Network(CNN) ⁃ Conv1D or Conv2D ⁃ メルスペクトログラムを2次元の画像とみなす ⁃ カーネルのサイズはさまざま 時間(単位: フレーム) 周波数(メルスケール) 3 3 3 3 1 3 1 Audio features for web-based ML https://towardsdatascience.com/audio-features-for-web-based-ml-555776733bae
  • 8. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. DEEP LEARNINGにおけるメルスペクトログラムの処理方法 (2)  Recurrent Neural Network(RNN) ⁃ メルスペクトログラムを1次元ベクトルの時系列データとみなす ⁃ 文章を埋め込み単語ベクトルの系列とみなすのと似ている ⁃ 系列長が長くなりRNNで学習できない 8 周波数(メルスケール) 時間(単位: フレーム) Audio features for web-based ML https://towardsdatascience.com/audio-features-for-web-based-ml-555776733bae
  • 9. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. Convolutional Recurrent Neural Network (CRNN) = CNN + RNN 9 K. Choi et al. Convolutional Recurrent Neural Networks for Music Classification, ICASSP 2017. メルスペクトログラム Conv2D
  • 10. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. NIPS2017の「音」関連研究の概要 (1) 10 Speech Audio Music 認識 Speech Recognition Speech Emotion Recognition Gender/Age Recognition Speaker Identification Language Identification Audio Classification Environmental Sound Recognition Scene Recognition Music Tagging Mood Recognition Song Identification 生成 Speech Synthesis Emotional Speech Synthesis Singing Voice Synthesis Voice Conversion Environmental Sound Generation Audio Style Transfer Music Generation Music Style Transfer 検出 Voice Activity Detection Keyword Spotting Singing Voice Detection Audio Event Detection Melody Tracking Beat Tracking BGM detection その他 Speech Enhancement Sound Source Separation Singing Voice Separation Noise Reduction Sound Representation Music Information Retrieval Music Recommendation Hit prediction 赤: 本会議 緑: ワークショップ
  • 11. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. NIPS2017の「音」関連研究の概要 (1) 11 Speech Audio Music 認識 Speech Recognition Speech Emotion Recognition Gender/Age Recognition Speaker Identification Language Identification Audio Classification Environmental Sound Recognition Scene Recognition Music Tagging Mood Recognition Song Identification 生成 Speech Synthesis Emotional Speech Synthesis Singing Voice Synthesis Voice Conversion Environmental Sound Generation Audio Style Transfer Music Generation Music Style Transfer 検出 Voice Activity Detection Keyword Spotting Singing Voice Detection Audio Event Detection Melody Tracking Beat Tracking BGM detection その他 Speech Enhancement Sound Source Separation Singing Voice Separation Noise Reduction Sound Representation Music Information Retrieval Music Recommendation Hit prediction Analyzing Hidden Representations in End-to- End Automatic Speech Recognition End-to-end音声認識における内部表現の可視化 音声からテキストへのマッピングを直接学習 従来の「音素」という概念は隠れ層のどこかでモデ ル化されているのだろうか? 低レイヤで音素がモデル化されていることを確認! Deep Voice 2 End-to-end音声合成において話者の埋め込みベクトル を用いることで1つのニューラルネットから複数話者 の音声を合成することに成功! Uncovering Latent Style Factors for Expressive Speech Synthesis Tacotronに潜在変数を導入して韻律スタイルを制御で きるように拡張。スタイルは教師なしで学習するた め人による解釈は必要 赤: 本会議 緑: ワークショップ
  • 12. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. NIPS2017の「音」関連研究の概要 (2) 12 Speech Audio Music 認識 Speech Recognition Speech Emotion Recognition Gender/Age Recognition Speaker Identification Language Identification Audio Classification Environmental Sound Recognition Scene Recognition Music Tagging Mood Recognition Song Identification 生成 Speech Synthesis Emotional Speech Synthesis Singing Voice Synthesis Voice Conversion Environmental Sound Generation Audio Style Transfer Music Generation Music Style Transfer 検出 Voice Activity Detection Keyword Spotting Singing Voice Detection Audio Event Detection Melody Tracking Beat Tracking BGM detection その他 Speech Enhancement Sound Source Separation Singing Voice Separation Noise Reduction Sound Representation Music Information Retrieval Music Recommendation Hit prediction Utilizing Domain Knowledge in End-to-End Audio Processing 波形からメルスペクトログラムへ変換する高速な CNNネットワークを提案 Raw Waveform based Audio Classification Using Sample Level CNN Architecture 音声認識、楽曲分類、環境音分類の3つのタスクにお いて波形入力のCNNアーキテクチャでSOTAに近い精 度が出た Imaginary Soundcape 景色のシーン画像を入力するとそのシーンに適した 音声を再生するシステムを提案。 NELS: Never Ending Learner of Sounds YouTubeから動画をクローリングして半教師あり学習 の枠組みで600以上の音声クラスにインデキシングす るシステムを提案 赤: 本会議 緑: ワークショップ
  • 13. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. NIPS2017の「音」関連研究の概要 (3) 13 Speech Audio Music 認識 Speech Recognition Speech Emotion Recognition Gender/Age Recognition Speaker Identification Language Identification Audio Classification Environmental Sound Recognition Scene Recognition Music Tagging Mood Recognition Song Identification 生成 Speech Synthesis Emotional Speech Synthesis Singing Voice Synthesis Voice Conversion Environmental Sound Generation Audio Style Transfer Music Generation Music Style Transfer 検出 Voice Activity Detection Keyword Spotting Singing Voice Detection Audio Event Detection Melody Tracking Beat Tracking BGM detection その他 Speech Enhancement Sound Source Separation Singing Voice Separation Noise Reduction Sound Representation Music Information Retrieval Music Recommendation Hit prediction End-to-end learning for music audio tagging at scale Pandoraの120万曲の大規模データを使って楽曲タギ ングの実験。入力が波形とメルスペクトログラムの どちらがよいかを比較実験 Neural Translation of Music Style 楽譜を入力として音楽ジャンルのスタイル(ダイナ ミクス)を出力するGenreNetを提案 赤: 本会議 緑: ワークショップ
  • 14. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. SPEECH & SOUND @ NIPS2017  本会議 ⁃ Deep Voice 2: Multi-Speaker Neural Text-to-Speech  WORKSHOP - Machine Learning for Creativity and Design ⁃ Imaginary soundscape: cross-modal approach to generate pseudo sound environments 14 SPEECH AUDIO
  • 15. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. Deep Voice 2: Multi-Speaker Neural Text-to-Speech S. O. Arik, G. Diamos, A. Gibiansky, J. Miller, K. Peng, W. Ping, J. Raiman and Y. Zhou Baidu Silicon Valley Artificial Intelligence Lab 15
  • 16. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. DeepVoice1(Baidu) (音声合成の主要モジュールを すべてNNに置き換えよう!) 音声合成の主要モジュールと主な音声合成アーキテクチャ 16 テキス ト解析 テキスト 言語 特徴量 合成音声 音響 モデル ボコーダー 音響 特徴量 F0(音の高さ) 時間長(音の長さ) メルケプストラム(声の個人性、音韻) 周期非周期性指標(声のかすれ具合) 音素、トライフォン(しゃべる内容) アクセント型 品詞 文章中での位置 Char2Wav (人手の言語特徴量を排除しよう!) WaveNet(Google) (人手の音響特徴量を排除しよう!) WaveNet vocoder Tacotron(Google) (人手の言語特徴量も音響特徴量を排除しよう! 真のEnd-to-End音声合成を目指すのだ!) J. Sotelo et al. Char2Wav: End-to-end speech synthesis, ICLR 2017 Y. Wang et al. Tacotron: Towards End-to-End Speech Synthesis, Interspeech 2017 A. Oord et al. WaveNet: A Generative Model for Raw Audio, arXiv:1609.03499 S. O. Arik et al. Deep Voice: Real-time Neural Text-to-speech, ICML 2017
  • 17. Copyright (C) DeNA Co.,Ltd. All Rights Reserved.  複数話者モデルへの拡張 ⁃ 学習した話者の埋め込みベクトルを入力とすることで一つの (ニューラルネットワーク)モデルから複数話者の音声を合成でき るようにした!  比較手法として Tacotron(Google)を拡張した! ⁃ ボコーダーにWaveNetを導入 ⁃ 話者の埋め込みベクトルで複数話者の音声を合成可能に Deep Voice2 の貢献 17
  • 18. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. Single-speaker model と Multi-speaker model (1/2) 18 Aさんの 収録音声 Bさんの 収録音声 Aさん モデル Bさん モデル Aさんの合成音声 Bさんの合成音声 各話者で独立したニューラルネットのモデルを 学習する必要があるため話者ごとに大量の音声を 収録しないといけない テキスト (例)これはテストです。 テキスト(例)これはテストです。
  • 19. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. Single-speaker model と Multi-speaker model (2/2) 19 Aさんの 収録音声 Bさんの 収録音声 複数 話者 モデル Aさんの合成音声 Bさんの合成音声 複数話者の音声を使うことでモデルパラメータを 共有できるため各話者の音声は少量でもOK テキスト + Aさんの埋め込みベクトル テキスト + Bさんの埋め込みベクトル 話者の埋め込みベクトルを入力することで 1つのモデルで異なる話者の音声を合成できる (モデルとともに訓練される!)
  • 20. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. DeepVoice2の全体構成 20 RNNの 初期値に 使用 入力を拡張 Embeddingも BPによる学習対象 RNNの 初期値 正規化されている 出力をF0に戻す 有声・無声の判定 SpeakerのEmbeddingを どこにどのように入れるかが 複数話者化のキー! Duration(音素の長さ)を予測するネットワーク F0(声の高さ)を予測するネットワーク 声の高さ 音素の長さ 音素系列 音素系列 話者 この3つがそれぞれ独立したニューラルネット
  • 21. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. Speech synthesis (Vocal) model (from DeepVoice1) 21 F0(声の高さ)音声サンプル(自己回帰入力) Speaker DeepVoiceのVocoderはWaveNetの亜種 音声サンプル 言語特徴量もここから入力 話者
  • 22. Copyright (C) DeNA Co.,Ltd. All Rights Reserved.  複数話者モデルへの拡張 ⁃ 学習した話者の埋め込みベクトルを入力とすることで一つの (ニューラルネットワーク)モデルから複数話者の音声を合成でき るようにした!  比較手法として Tacotron(Google)を拡張した! ⁃ ボコーダーにWaveNetを導入 ⁃ 話者の埋め込みベクトルで複数話者の音声を合成可能に Deep Voice2 の貢献 22
  • 23. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. Tacotron も複数話者対応モデルに拡張 23 TacotronはEncoder-Decoder型の音声合成手法 入力は文字で出力はスペクトログラム 入力は文字 最終出力は スペクトログラム Tacotronによる 合成音声 WaveNet による合成音声 Speaker Embedding メルスペクトログラム
  • 24. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. 実験結果 24 MOS (Mean Opinion Score) 合成音声の品質の主観評価(1-5点) 話者の分類精度 Inception Score っぽい指標 原音で学習した話者分類モデル(CNN)で 合成音声の話者を正しく分類できるか? 108話者 各話者400発話 477話者 各話者30分
  • 25. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. まとめ 25 DeepVoice1 DeepVoice2 Tacotron DeepVoice3 Baidu Google 音声合成の個別モジュールを すべてニューラルネットに 置き換え 1つのモデルで 複数話者に対応 Tacotron’ WaveNet導入 Tacotron’’ 1つのモデルで 複数話者に対応 結論:DeepVoice2はTacotron’’より合成音声の品質がよい! GOOD!!! End-to-EndのTTS Tactron2 W. Ping et al. Deep Voice 3: 2000-Speaker Neural Text-to- Speech, arXiv:1710.07654 submitted to ICLR 2018 J. Shen et al. Neural TTS Synthesisby Conditioning WaveNet on Mel Spectrogram Predictions, arXiv:1712.05884 submitted to ICASSP 2018
  • 26. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. Imaginary soundscape: cross-modal approach to generate pseudo sound environments Y. Kajihara, S. Dozono and N. Tokui Qosmo inc. & The Univ. of Tokyo 26 create with AI http://createwith.ai/
  • 27. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. Imaginary Soundscape の貢献  シーンの画像を入力するとそのシーンの(疑似)環境音 (Soundscape)を再生するシステムを作った!  Google Street Viewの街中探検で音まで聞こえてくる!  シーン画像と環境音のマルチモーダル技術 27 http://imaginarysoundscape.qosmo.jp/
  • 28. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. 画像と音のマルチモーダル 28  マルチモーダルDEEP LEARNING ⁃ 異なるモーダル(画像と音声)を同じ潜在空間に写像する ⁃ 画像をVisual CNNで特徴量に変換 ⁃ 音声をAudio CNNで同じ潜在空間の特徴量に変換 ⁃ 画像と音声の間で距離(KL-divergence)を求められる! SoundNet
  • 29. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. SoundNet: 音の深層表現を学習済みの画像分類モデルから学習 29 音声波形入力 (1次元時系列) Conv1D Global Average Pooling 1000次元 401次元 1401次元 最終的に音の深層表現として出力層ではなく 隠れ層の出力を用いる Teacher Model Student Model Flickrからタグ検索して200万ビデオを収集 ここから画像と音声のペアを抽出 (例)Beach, Forest, Club, Engine 画像入力 Y. Aytar et al. SoundNet: Learning Sound Representations from Unlabeled Video, NIPS 2016. Image Networkの出力分布と Sound Networkの出力分布が 近くなるようにパラメータを学習
  • 30. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. SoundNet の実験結果 30 SoundNetで抽出した音声特徴量を 用いて50カテゴリの環境音認識タスクを 評価したらSOTAの精度を達成できた!
  • 31. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. まとめ 31 ImageNetではなく Places365のデータセット(シーンに特化)で学習した SqueezeNetモデル(Webで軽量に動かせる)を使用 Places http://places2.csail.mit.edu/ freesound.orgからCreative Commons で公開されている環境音を15000 ほど収集して検索対象に 任意のシーン画像入力 画像の特徴量にもっとも近い 音声特徴量を検索して音声を再生! 画像から環境音を生成する技術まででてきた! Y. Zhou et al. Visual to Sound: Generating Natural Sound for Videos in the Wild, arXiv:1712.01393 http://bvision11.cs.unc.edu/bigpen/yipin/visual2sound_webpage/visual2sound.html
  • 32. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. おわりに:「音」に関する研究はこれから面白くなる?  AudioSet (Google) • YouTubeから収集した200万規模の音声(特徴量)データセット • 各音声は10秒 632のAudio Eventクラスに分類 • 「音」研究における “ImageNet” • 画像分類のVGGの音声分類版であるVGGish(VGGっぽい)も提案 32
  • 33. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. マルチモーダル: 言語 x 画像 x 音声 x 制御 33 TEXTSPEECHAUDIO MUSIC IMAGE CONTROL Speech Recognition Text-to-Speech Synthesis Image Captioning (Show and Tell) Text-to-Image Synthesis Imaginary Soundscape Talking Head Visual QA VIDEO Visual-to- sound TAG Music Tagging Image TaggingSoundNet NL Guided RL See and Listen See, Hear, and Read

Editor's Notes

  1. 株式会社ディー・エヌ・エー AIシステム部の森と申します。 会社の国際会議参加制度を利用してNIPS2017に聴講参加してきました。 今回はテーマ発表ということでNIPSにおける音声関連の発表について報告します。
  2. プライベートではaidiaryというハンドルネームでTwitterとブログをやってます ブログは2002年くらいから人工知能に関する調査などを記事にまとめてます
  3. NIPSは音声・音楽関連の研究がとても少ない! INTERSPEECH, ICASSP, ISMIR
  4. まずは基本的なところから 音の波形は1次元時系列データとみなせます これはDeepMindのWaveNetのページから引用してきた図ですが音声波形を拡大していくとサンプル点の集合からなるのがよくわかります 波形のフォーマットはサンプリング周波数と量子化ビット数
  5. このような音声波形を直接Deep Learningで処理する方法ですが画像で使われているCNNが音声にも使えます 画像の場合は2次元のデータなので2次元のConvolutionやPoolingをしますが、音声の場合は1次元データなので1次元のConvolutionやPoolingになります その他にもWaveNetで使われているDilated Convolutionなどもある
  6. 【メル尺度】 低周波ほど細かく 高周波ほど粗く 人は低周波の方が聞き分けられる
  7. 先のRNNの問題を解決するためにCNNとRNNを組み合わせたCRNNもよく使われています これはConvで時間と特徴量を圧縮し、RNNで時間方向の変化をモデル化するアプローチです
  8. 【ここまで6分以内】 これで音をDEEP LEARNINGで扱う基本的な方法は紹介したのでここからNIPSの音関連研究を見ていきます。 NIPS2017の「音」関連の研究を整理するために下の図のような表に整理しました。 横軸は、音を Speech(人の音声) Audio(環境音や鳥の鳴き声などの音) Music(音楽)にわけました。 縦軸は、一般的なタスクです 画像の認識、生成(GAN)、物体検出に相当する研究分野が音声にもあるのでそれぞれ割り当てました。 【各タスクを簡単に紹介】 音の研究は「音声認識」と「音声合成」だけじゃない! さまざまな「音」のタスクにDEEP LEARNINGが使われはじめている
  9. 赤字が本会議であった論文です 緑がワークショップであった論文です
  10. あまり一般的な傾向は見えない あえて言うならこれまでのタスクをEnd-to-endの枠組みでDeep Learningで解き直した
  11. ここから2本の論文の詳細を説明します 本会議から音声合成の論文、ワークショップからマルチモーダルな環境音の生成に関する研究です 個人的に面白いと思ったものを選びました
  12. Deep Voiceは音響特徴量のうちF0と時間長のみ使用 メルケプストラムやBAPは使わない Tacotromはボコーダーフリー(End-to-end) テキストからスペクトログラム(音響特徴量とは言わない)のでボコーダーは使わないシステム 音声の直前のスペクトログラムまで飛ばすイメージ WaveNetは言語特徴量とともにF0もいれる(入れ方はレイヤの途中から) WaveNet vocoderは音響特徴量から波形に
  13. Tacotronの論文でもWaveNet使えるとの言及はあったが実装はしていない Speaker EmbeddingをEncoderだけでなくDecoderにもいれる オリジナルのTacotronではDecoderの出力のスペクトログラムに対してGriffin-Limで位相を復元し、逆短時間フーリエ変換(ISTFT)で波形に戻していた それとは別にDeepVoiceで提案したWaveNet型のVocal Modelで復元する方法も試した
  14. サンプリングレートが低いにもかかわらずTacotron音質はよいと判断された
  15. 著者のTokuiさんはcreate with aiというサイトを運営しています 人工知能技術を応用したアート・創作・マルチモーダル関連の論文やデータセットがまとめられていてとてもおもしろいです
  16. NIPS2016 画像と音声の関係を大量のラベルなしビデオから学習 音声の深層表現を学習するのが目的 Student-Teacher型の画像から音声への転移学習 SoundNetは画像ネットワークの1401カテゴリを使って学習している しかし、音声が同じカテゴリとは限らない => SoundNetの出力層はそのまま使わずに隠れ層の出力を深層表現として使う 分類はこれらの深層表現を用いてSVMで分類した 既存のSound Classification Taskで人手で抽出した特徴量よりよい性能が出た
  17. GoogleがAudioSetを公開! Visual to SoundもAudioSetのデータを使用 最近、人の音声と音楽はこれまでも研究が盛んだったが、最近熱いのは環境音の分野(監視、見守り、ロボット、マルチモーダルなど)