Submit Search
Upload
20180609 chainer meetup_es_pnet
•
Download as PPTX, PDF
•
4 likes
•
6,076 views
Jiro Nishitoba
Follow
2018年6月9日のChainer Meetupで話した資料です。 ESPnetの紹介です。
Read less
Read more
Software
Report
Share
Report
Share
1 of 27
Download now
Recommended
[EMM20200127] 音響信号の非現実ミックスの検出
[EMM20200127] 音響信号の非現実ミックスの検出
Kotaro Sonoda
IPSJ-ONE 2018 (騙し騙され音声合成)
IPSJ-ONE 2018 (騙し騙され音声合成)
Shinnosuke Takamichi
人口知能で色々試してみた
人口知能で色々試してみた
Yuji Shimada
私がPowerAppsで楽器アプリを作り続ける理由
私がPowerAppsで楽器アプリを作り続ける理由
Junichi Kodama
思考表現「手で書く」「PC打つ」「スマホ音声入力」「動画で話す」
思考表現「手で書く」「PC打つ」「スマホ音声入力」「動画で話す」
新潟コンサルタント横田秀珠
我々はどこから来たのか 我々は何者か 我々はどこに行くのか
我々はどこから来たのか 我々は何者か 我々はどこに行くのか
wizstargaer
だいたい分かるEvernote概要pecha kucha
だいたい分かるEvernote概要pecha kucha
asagaku_ksg
パーソナルスペースで利用する磁気誘導ループ
パーソナルスペースで利用する磁気誘導ループ
Takahiro Komatsu
Recommended
[EMM20200127] 音響信号の非現実ミックスの検出
[EMM20200127] 音響信号の非現実ミックスの検出
Kotaro Sonoda
IPSJ-ONE 2018 (騙し騙され音声合成)
IPSJ-ONE 2018 (騙し騙され音声合成)
Shinnosuke Takamichi
人口知能で色々試してみた
人口知能で色々試してみた
Yuji Shimada
私がPowerAppsで楽器アプリを作り続ける理由
私がPowerAppsで楽器アプリを作り続ける理由
Junichi Kodama
思考表現「手で書く」「PC打つ」「スマホ音声入力」「動画で話す」
思考表現「手で書く」「PC打つ」「スマホ音声入力」「動画で話す」
新潟コンサルタント横田秀珠
我々はどこから来たのか 我々は何者か 我々はどこに行くのか
我々はどこから来たのか 我々は何者か 我々はどこに行くのか
wizstargaer
だいたい分かるEvernote概要pecha kucha
だいたい分かるEvernote概要pecha kucha
asagaku_ksg
パーソナルスペースで利用する磁気誘導ループ
パーソナルスペースで利用する磁気誘導ループ
Takahiro Komatsu
20190509 gnn public
20190509 gnn public
Jiro Nishitoba
Retrieva seminar jelinek_20180822
Retrieva seminar jelinek_20180822
Jiro Nishitoba
全体セミナー20180124 final
全体セミナー20180124 final
Jiro Nishitoba
深層学習による自然言語処理勉強会2章前半
深層学習による自然言語処理勉強会2章前半
Jiro Nishitoba
深層学習による自然言語処理勉強会3章前半
深層学習による自然言語処理勉強会3章前半
Jiro Nishitoba
全体セミナー20170629
全体セミナー20170629
Jiro Nishitoba
Hessian free
Hessian free
Jiro Nishitoba
ChainerでDeep Learningを試す為に必要なこと
ChainerでDeep Learningを試す為に必要なこと
Jiro Nishitoba
Icml読み会 deep speech2
Icml読み会 deep speech2
Jiro Nishitoba
全体セミナーWfst
全体セミナーWfst
Jiro Nishitoba
Emnlp読み会資料
Emnlp読み会資料
Jiro Nishitoba
Chainer meetup20151014
Chainer meetup20151014
Jiro Nishitoba
More Related Content
More from Jiro Nishitoba
20190509 gnn public
20190509 gnn public
Jiro Nishitoba
Retrieva seminar jelinek_20180822
Retrieva seminar jelinek_20180822
Jiro Nishitoba
全体セミナー20180124 final
全体セミナー20180124 final
Jiro Nishitoba
深層学習による自然言語処理勉強会2章前半
深層学習による自然言語処理勉強会2章前半
Jiro Nishitoba
深層学習による自然言語処理勉強会3章前半
深層学習による自然言語処理勉強会3章前半
Jiro Nishitoba
全体セミナー20170629
全体セミナー20170629
Jiro Nishitoba
Hessian free
Hessian free
Jiro Nishitoba
ChainerでDeep Learningを試す為に必要なこと
ChainerでDeep Learningを試す為に必要なこと
Jiro Nishitoba
Icml読み会 deep speech2
Icml読み会 deep speech2
Jiro Nishitoba
全体セミナーWfst
全体セミナーWfst
Jiro Nishitoba
Emnlp読み会資料
Emnlp読み会資料
Jiro Nishitoba
Chainer meetup20151014
Chainer meetup20151014
Jiro Nishitoba
More from Jiro Nishitoba
(12)
20190509 gnn public
20190509 gnn public
Retrieva seminar jelinek_20180822
Retrieva seminar jelinek_20180822
全体セミナー20180124 final
全体セミナー20180124 final
深層学習による自然言語処理勉強会2章前半
深層学習による自然言語処理勉強会2章前半
深層学習による自然言語処理勉強会3章前半
深層学習による自然言語処理勉強会3章前半
全体セミナー20170629
全体セミナー20170629
Hessian free
Hessian free
ChainerでDeep Learningを試す為に必要なこと
ChainerでDeep Learningを試す為に必要なこと
Icml読み会 deep speech2
Icml読み会 deep speech2
全体セミナーWfst
全体セミナーWfst
Emnlp読み会資料
Emnlp読み会資料
Chainer meetup20151014
Chainer meetup20151014
20180609 chainer meetup_es_pnet
1.
ESPnet: End-to-End Speech Processing
Toolkitの紹介 株式会社レトリバ 西鳥羽 二郎
2.
西鳥羽 二郎 • 研究開発@株式会社レトリバ •
音声認識 • 自然言語処理 • 趣味 • 全都道府県を旅行 • 日本の世界遺産を観光
3.
音声認識 テキスト化 テキスト化 こんにちは… もしもし…
4.
音声認識の活用例 • 音声アシスタント • 音声検索 •
スマートスピーカー • ロボット操作 • etc…
5.
6.
便利なシチュエーショ ン • 「
少し 寝たっ ぽいから 、 テレビつけてみよ」 ( し ばし し て) 「 あら 、 泣き はじ めた…!」 ( 抱っ こ ) ( テレビ消し たい…が、 手がふさ がっ ている…!) 「 オッ ケーグーグル、 テレビ消し て!」 Kei Shiratsuchi, レトリバセミナー
7.
Kei Shiratsuchi, レトリバセミナー
8.
音声認識の精度 10年間の停滞 Li Deng, Deep
Learning from Speech Analysis/Recognition to Language/Multimodal Processing Deep Learningによ り劇的な精度向上
9.
標準的な音声認識の処理の流れ 音声データ 特徴ベクトル 特徴抽出 HMMの状態 単語列 Gaussian Mixture Model(GMM)による推定 デコード
10.
Kaldi • オープンソースの音声認識ソフトウェア • データの取得から音声認識後の精度測定までを一気通貫して行える •
話し言葉コーパス(CSJ)もあり、日本語も試せる • 各ステップで様々な手法が用意されており、組み合わせることが可能 • 音声認識の研究では標準ツール
11.
音声認識とDeep Learning 第一世代 音声データ 特徴ベクトル 特徴抽出 HMMの状態 単語列 GMMによる推定
DNNによる推定 デコード Kaldiに独自にDeep Learningフレームワー クが搭載される
12.
音声認識とDeep Learning 第二世代 音声データ 特徴ベクトル 特徴抽出 HMMの状態 単語列 DNNによる推定 デコード(N-gram言語モデル
RNN言語モデル) KaldiにRNN言語モデル が搭載される
13.
音声認識とDeep Learning 第三世代 音声データ 特徴ベクトル 特徴抽出 HMMの状態 単語列 DNNによる推定 デコード(RNN言語モデル) 音声データ 特徴ベクトル 特徴抽出 単語列 (Bi-)LSTMによる推定 文字(音素)の 推定 デコード KaldiのDeep
Learning フレームワークでは対 応できなくなってくる
14.
音声認識とDeep Learning 第四世代 音声データ 特徴ベクトル 特徴抽出 単語列 (Bi-)LSTMによる推定 文字(音素)の 推定 デコード 音声データ 特徴ベクトル 特徴抽出 単語列 Encoder-Decoderモデルに よるEnd-to-Endなシステム KaldiのDeep
Learning フレームワークでは対 応できなくなってくる
15.
Deep Learningフレームワークで音声認識 ここまでニューラルネットワークならばDeep Learningフレームワークで実装したら良いのでは? Deep Learningフレームワークでは 対応できない処理が煩雑
16.
学習データの煩雑さ 音声データ 特徴ベクトル 特徴抽出 単語列 Encoder-Decoder モデルによるEnd- to-endなシステム 一つの音声データから数十~数百の学習データ が作成される 数秒~20秒程度に区切るため特徴ベクトル及び 正解ラベルともに長さ不揃いの系列データが大 量に作成される
17.
前処理の煩雑さ 音声データ 特徴ベクトル 特徴抽出 単語列 Encoder-Decoder モデルによるEnd- to-endなシステム 1. 音声ファイル(WAV, mp3)の読み込み 2.
プリエンファシスフィルタの適用 3. Short term Fourier transform 1. フレームの分割 2. 窓関数の適用 3. Fast Fourier Transformの適用 4. メルフィルタバンクの適用 5. ケプストラム分析 6. 離散コサイン変換 • その他 必要に応じて信号処理多数
18.
ESPnet: End-to-End Speech
Processing Toolkit • Kaldiと連携 • データ取得 • データ加工 • 特徴抽出 • Deep Learning framework • Chainer • Pytorch
19.
KaldiとChainer(及びPytorch)との連携
20.
Chainer and Pytorch
support Chainer Pytorch Performance ◎ ○ Speed ○ ◎ Multi-GPU 対応 対応 VGG-like encoder 対応 非対応 RNN言語モデル 対応 対応 Attention types 3種(no attention, dot, location) 12種 (multihead attention 含む)
21.
サポートしているデータセット • 英語 • Wall
Street Journal読み上げコーパス • Librispeech • etc. • 日本語 • 日本語話し言葉コーパス(CSJ) • 中国語 • HKUST Telephone speech • その他含め全16データセット
22.
日本語話し言葉コーパス(CSJ)での音声認識 • git clone
http://github.com/espnet/espnet.git • cd espnet/tools • make • cd ../egs/csj/asr1 • (エディタでCSJのおいてあるディレクトリ設定を修正) • ./run.sh • 精度の算出 • 個別の結果出力
23.
結果の表示例 間違っている 場所の表示 正解 推測 正解及び、置換、 削除、挿入による エラーの数
24.
詳しく知りたい方へ ※arxivにもあります https://arxiv.org/abs/1804.00015
25.
詳しく知りたい方へ • githubのレポジトリ: https://github.com/espnet/espnet •
ドキュメント: https://espnet.github.io/espnet/
26.
まとめ • Chainerな方へ • Chainerで組んだモデルで音声認識を試せます •
音声認識な方へ • Kaldiと同じ感覚でEncoder-Decoderモデルの音声認識が試せます
27.
We are hiring! •
音声認識の研究開発をしたい人を募集しています!!
Download now