SlideShare a Scribd company logo
1 of 151
Download to read offline
世界一わかりやすい音声認識入門
Hakamata Tomohiro
袴田 智博
Lightning Talk
Siri is not Speech Recognition
自称
学生時代は
音声認識
やっていました
いきなりですが
質問です。
音声認識
とは
何でしょうか?
音声認識システム?
初音ミク
(Vocaloid)
音声認識システム?
FROM
HAL9000
音声認識システム?
K.I.T.T
音声認識システム?
Siri
全て
違います。
音声認識
とは、
音声認識とは
音声認識
こんにちは
音声を 文字 に変換する技術のこと
答え合わせ
正解は
初音ミク
(Vocaloid)
音声合成
(歌声合成)
正解は
HAL9000 Siri K.I.T.T
音声対話
全て
以前
こんな記事を
見かけました。
!?
本当に
止めてほしい。
導入編終了。
アウトライン
歴史 音声認識の登場と発展
仕組 音声認識のメカニズム
応用 音声認識の利用と応用
歴史
IBM Shoebox
1962
数字認識機
via http://www-03.ibm.com/ibm/history/exhibits/specialprod1/specialprod1_7.html
70∼80年代までは
研究分野止まり
90年代に入り
実用化され始める
SANYO
EXCEDIO NV-1V
1993
音声認識機能付きのカーナビ
※定価なんと 50 万円弱
NINTENDO
ピカチュウげんきでちゅう
1998
エンターテインメント業界に進出
SEGA
シーマン
1999
エンターテインメント業界に進出
IBM ViaVoice
1999
初の有償・音声認識ソフトウェア発売
単語だけでなく、文章が認識できる画期的なソフトウェア。
「音声入力は使えない」
イメージが浸透…
2000年代は
音声業界の氷河期
そして2010年代に入り
突如現れた
APPLE
Siri
2011
スマートフォンの音声操作
NTT Docomo
しゃべってコンシェル
2012
スマートフォンの音声操作
GOOGLE
Speech API
2013
ブラウザが音声認識をサポート
音声入力が
だんだん
受け入れられてきた
技術的には
どのような
発展があったのか?
音声言語処理ロードマップ from 70年代
TIMELINE
ハードウェアの性能向上
統計的機械学習の手法確立と進化
1970 1980 1990 2000 2010 ∼
音声符号化
孤立
単語
音声認識
大語彙
連続
音声認識
超大語彙
連続
音声認識
連続
音声認識
メルケプストラム
分析
数万語彙に対応 数十∼数百万語に対応単語のみ認識 数百語彙での文章認識
リアルタイム処理
語彙数増加&認識精度の向上
ただし制限あり
理想は
アナウンサー
原稿の読み上げ
綺麗な発音
良質な録音環境
音声認識が苦手なもの
複数人の同時発話
会議
ガヤ
砕けた話し方
話し言葉
方言
ラップ
言い澱み
雑音
騒音
機械音
風切り音
なぜなのか?
音声認識の
仕組みが分かれば
謎が解けます!
アウトライン
歴史 音声認識の登場と発展
仕組 音声認識のメカニズム
応用 音声認識の利用と応用
仕組
おさらいです
音声認識とは
音声認識
こんにちは
音声を 文字 に変換する技術のこと
ものすごく
ざっくり言うと
音声認識は
パターンマッチング
音声認識とは
こんにちは
音声認識
音声を パターンマッチング により
文字 に変換する技術のこと
こんばんはこんにちはおはよう
照合
つまり
データベースに
存在しない単語は
認識不可能
どういうことか?
こうなります
こんにちは
音声認識
佐藤近藤安西
照合
近藤??
そのため
砕けた話し方
話し言葉
方言
ラップ
言い澱み
これは難しい
では、どうやって
パターンマッチング
しているのか?
音声波形で比較?
こんにちは
佐藤
近藤
安西
違います
なぜでしょうか?
複雑さ
マイク、音程、スピード、話し方など、
あらゆる条件を一致させなければならない。
原点に
立ち戻りましょう
そもそも
音声
とは?
人間の調音器官により
生成される
音波のこと
調音器官?
この辺一帯です
調音器官
1.外唇
2.内唇
3.歯
4.歯茎
5.歯茎後部
6.硬口蓋前部
7.硬口蓋
8.軟口蓋
9.口蓋垂
10.咽頭壁
11.声門
12.喉頭蓋
13.舌根
14.後舌
15.前舌
16.舌端
17.舌尖
18.舌端裏
これだけの部位を
複雑に動かして
音声は生成されます
人間すごい
ではなくて
パターンマッチングの
話です
調音器官の
動きをパターン化する
のでしょうか?
それも違います
そういうアプローチの音声合成はありますが
正解は
音素
( ゚д゚)ポカーン
音素?
音素とは
音声言語の最小単位
日本語の場合
母音 アイウエオ
撥音 ン
子音 23種類
日本語音素(子音)
調音位置調音位置 口唇口唇 歯,歯茎歯,歯茎 口蓋口蓋 声門
調音
方法
調音
方法
調音
方法
調音
方法
調音
方法
調音
方法
音源 有声 無声 有声 無声 有声 無声 無声
摩擦音 β z s ʒ ʃ h
破擦音 dz ts dʒ tʃ
破裂音 b p d t g k
半母音 w r j
鼻音 m n ŋ
音素の単位で
音声をパターン化
(モデル化)します
音素単位での
音響的特徴は
音の高さ、大きさの
影響を受けないため
です!!
※ささやきは全てが無声音になるので例外
ちなみに
日本人の英語の発音が
ジャパニーズイングリッシュ
になるのは
調音器官の使い方が
日本語のままだからです
発音矯正
それすなわち
筋トレ
話を戻すと
音素単位で
固有パターン
単語は?
単語 → 音素の並び
こんにちは k - o - N - n - i - ch - i - w - a
こんばんは k - o - N - b - a - N - w - a
コンバイン k - o - N - b - a - i - N
共通の部分があるぞ?
こんにちは k - o - N - n - i - ch - i - w - a
こんばんは k - o - N - b - a - N - w - a
コンバイン k - o - N - b - a - i - N
ネットワーク化
こんにちは
こんばんは
コンバイン
k o N b a N w a
i N
n i ch i aw
こんにちは
あとは…
こんにちは
あとは…
こんにちは
区間と音素をマッピング
k N n ch i w ao i
ネットワーク上の
解の探索問題になる
こんにちは
こんばんは
コンバイン
k o N b a N w a
i N
n i ch i aw
文章は?
単語の並びですね
ネットワーク化します
は
元気
です
私
。
は
元気
です
私
。
は
元気
です
私
。
元気
これを音素単位で
マッチングします
しかし
単語の組み合わせは
膨大な数になります
語彙が10単語でも、
3語の組み合わせは
10の3乗…
無謀
そこで
制約
文法を規定
は
元気 です
貝 に なり たい
アイドル 。
私 。
。
僕 ドラえもん 。
組み合わせに確率を付与
は
待つ
私 たち
の
ドラえもん
60%
10%
10%
10%
0%
N-gram
設定された制約から
単語の並びを生成し、
入力音声に音素が
マッチするか?
という探索問題
音声認識は
こんなメカニズムです。
よって
複数人の同時発話
会議
ガヤ
砕けた話し方
話し言葉
方言
ラップ
言い澱み
雑音
騒音
機械音
風切り音
難しいのです。
アウトライン
歴史 音声認識の登場と発展
仕組 音声認識のメカニズム
応用 音声認識の利用と応用
応用
音声認識
単品
NHK
ハイブリッド字幕放送
via http://www.nhk.or.jp/seikatsu-blog/800/112861.html
Health Care in USA
アメリカの医療業界
メインは
組み合わせ
Vocollect
音声によるピッキングシステム
SG PRO
英語音声認識を利用した英語発音練習ソフト
iRemocon
音声認識を用いた家電操作用ガジェット
SHARP COCOROBO
関西弁版ルンバ
CINEMA PHONE
上映案内テレホンガイド
他にも
MMDAgent
学内情報案内端末
NICT VoiceTra
音声翻訳アプリ
その他
飛び道具っぽいもの
KAYAC kageroi
キーワード検索&表示によるアイデア出し支援
PVI
パーキンソン病の診断を音声認識で
などなど
さらに
盛り上がっていくはず!
最後に
音声認識とは
音声認識
こんにちは
音声を 文字 に変換する技術のこと
音声認識は
複数人の同時発話
会議
ガヤ
砕けた話し方
話し言葉
方言
ラップ
言い澱み
雑音
騒音
機械音
風切り音
苦手。
使えねー!!
と怒る前に
綺麗に発音
してみてください!
自称・世界一わかりやすい音声認識入門

More Related Content

What's hot

やさしく音声分析法を学ぶ: ケプストラム分析とLPC分析
やさしく音声分析法を学ぶ: ケプストラム分析とLPC分析やさしく音声分析法を学ぶ: ケプストラム分析とLPC分析
やさしく音声分析法を学ぶ: ケプストラム分析とLPC分析Shinnosuke Takamichi
 
深層学習を利用した音声強調
深層学習を利用した音声強調深層学習を利用した音声強調
深層学習を利用した音声強調Yuma Koizumi
 
5分で分かる自己組織化マップ
5分で分かる自己組織化マップ5分で分かる自己組織化マップ
5分で分かる自己組織化マップDaisuke Takai
 
Crfと素性テンプレート
Crfと素性テンプレートCrfと素性テンプレート
Crfと素性テンプレートKei Uchiumi
 
研究分野をサーベイする
研究分野をサーベイする研究分野をサーベイする
研究分野をサーベイするTakayuki Itoh
 
大学3年生の僕に伝えたいことをつらつらと
大学3年生の僕に伝えたいことをつらつらと大学3年生の僕に伝えたいことをつらつらと
大学3年生の僕に伝えたいことをつらつらとToshinori Sato
 
先端技術とメディア表現1 #FTMA15
先端技術とメディア表現1 #FTMA15先端技術とメディア表現1 #FTMA15
先端技術とメディア表現1 #FTMA15Yoichi Ochiai
 
GAN-based statistical speech synthesis (in Japanese)
GAN-based statistical speech synthesis (in Japanese)GAN-based statistical speech synthesis (in Japanese)
GAN-based statistical speech synthesis (in Japanese)Yuki Saito
 
最近のSingle Shot系の物体検出のアーキテクチャまとめ
最近のSingle Shot系の物体検出のアーキテクチャまとめ最近のSingle Shot系の物体検出のアーキテクチャまとめ
最近のSingle Shot系の物体検出のアーキテクチャまとめYusuke Uchida
 
WaveNetが音声合成研究に与える影響
WaveNetが音声合成研究に与える影響WaveNetが音声合成研究に与える影響
WaveNetが音声合成研究に与える影響NU_I_TODALAB
 
Anaconda navigatorのアップデートが終わらないときの対処方法メモ
Anaconda navigatorのアップデートが終わらないときの対処方法メモAnaconda navigatorのアップデートが終わらないときの対処方法メモ
Anaconda navigatorのアップデートが終わらないときの対処方法メモayohe
 
異常音検知に対する深層学習適用事例
異常音検知に対する深層学習適用事例異常音検知に対する深層学習適用事例
異常音検知に対する深層学習適用事例NU_I_TODALAB
 
いいからベイズ推定してみる
いいからベイズ推定してみるいいからベイズ推定してみる
いいからベイズ推定してみるMakoto Hirakawa
 
強化学習における好奇心
強化学習における好奇心強化学習における好奇心
強化学習における好奇心Shota Imai
 
Fisher線形判別分析とFisher Weight Maps
Fisher線形判別分析とFisher Weight MapsFisher線形判別分析とFisher Weight Maps
Fisher線形判別分析とFisher Weight MapsTakao Yamanaka
 
文献調査をどのように行うべきか?
文献調査をどのように行うべきか?文献調査をどのように行うべきか?
文献調査をどのように行うべきか?Yuichi Goto
 
実践 Amazon Mechanical Turk ※下記の注意点をご覧ください(回答の質の悪化・報酬額の相場の変化・仕様変更)
実践 Amazon Mechanical Turk ※下記の注意点をご覧ください(回答の質の悪化・報酬額の相場の変化・仕様変更)実践 Amazon Mechanical Turk ※下記の注意点をご覧ください(回答の質の悪化・報酬額の相場の変化・仕様変更)
実践 Amazon Mechanical Turk ※下記の注意点をご覧ください(回答の質の悪化・報酬額の相場の変化・仕様変更)Ayako_Hasegawa
 
SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜
SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜
SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜SSII
 
異音検知プラットフォーム開発におけるMLOpsの実際と考察 - MLOps コミュニティ #3
異音検知プラットフォーム開発におけるMLOpsの実際と考察 - MLOps コミュニティ #3 異音検知プラットフォーム開発におけるMLOpsの実際と考察 - MLOps コミュニティ #3
異音検知プラットフォーム開発におけるMLOpsの実際と考察 - MLOps コミュニティ #3 Shota Saitoh
 
深層学習と音響信号処理
深層学習と音響信号処理深層学習と音響信号処理
深層学習と音響信号処理Yuma Koizumi
 

What's hot (20)

やさしく音声分析法を学ぶ: ケプストラム分析とLPC分析
やさしく音声分析法を学ぶ: ケプストラム分析とLPC分析やさしく音声分析法を学ぶ: ケプストラム分析とLPC分析
やさしく音声分析法を学ぶ: ケプストラム分析とLPC分析
 
深層学習を利用した音声強調
深層学習を利用した音声強調深層学習を利用した音声強調
深層学習を利用した音声強調
 
5分で分かる自己組織化マップ
5分で分かる自己組織化マップ5分で分かる自己組織化マップ
5分で分かる自己組織化マップ
 
Crfと素性テンプレート
Crfと素性テンプレートCrfと素性テンプレート
Crfと素性テンプレート
 
研究分野をサーベイする
研究分野をサーベイする研究分野をサーベイする
研究分野をサーベイする
 
大学3年生の僕に伝えたいことをつらつらと
大学3年生の僕に伝えたいことをつらつらと大学3年生の僕に伝えたいことをつらつらと
大学3年生の僕に伝えたいことをつらつらと
 
先端技術とメディア表現1 #FTMA15
先端技術とメディア表現1 #FTMA15先端技術とメディア表現1 #FTMA15
先端技術とメディア表現1 #FTMA15
 
GAN-based statistical speech synthesis (in Japanese)
GAN-based statistical speech synthesis (in Japanese)GAN-based statistical speech synthesis (in Japanese)
GAN-based statistical speech synthesis (in Japanese)
 
最近のSingle Shot系の物体検出のアーキテクチャまとめ
最近のSingle Shot系の物体検出のアーキテクチャまとめ最近のSingle Shot系の物体検出のアーキテクチャまとめ
最近のSingle Shot系の物体検出のアーキテクチャまとめ
 
WaveNetが音声合成研究に与える影響
WaveNetが音声合成研究に与える影響WaveNetが音声合成研究に与える影響
WaveNetが音声合成研究に与える影響
 
Anaconda navigatorのアップデートが終わらないときの対処方法メモ
Anaconda navigatorのアップデートが終わらないときの対処方法メモAnaconda navigatorのアップデートが終わらないときの対処方法メモ
Anaconda navigatorのアップデートが終わらないときの対処方法メモ
 
異常音検知に対する深層学習適用事例
異常音検知に対する深層学習適用事例異常音検知に対する深層学習適用事例
異常音検知に対する深層学習適用事例
 
いいからベイズ推定してみる
いいからベイズ推定してみるいいからベイズ推定してみる
いいからベイズ推定してみる
 
強化学習における好奇心
強化学習における好奇心強化学習における好奇心
強化学習における好奇心
 
Fisher線形判別分析とFisher Weight Maps
Fisher線形判別分析とFisher Weight MapsFisher線形判別分析とFisher Weight Maps
Fisher線形判別分析とFisher Weight Maps
 
文献調査をどのように行うべきか?
文献調査をどのように行うべきか?文献調査をどのように行うべきか?
文献調査をどのように行うべきか?
 
実践 Amazon Mechanical Turk ※下記の注意点をご覧ください(回答の質の悪化・報酬額の相場の変化・仕様変更)
実践 Amazon Mechanical Turk ※下記の注意点をご覧ください(回答の質の悪化・報酬額の相場の変化・仕様変更)実践 Amazon Mechanical Turk ※下記の注意点をご覧ください(回答の質の悪化・報酬額の相場の変化・仕様変更)
実践 Amazon Mechanical Turk ※下記の注意点をご覧ください(回答の質の悪化・報酬額の相場の変化・仕様変更)
 
SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜
SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜
SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜
 
異音検知プラットフォーム開発におけるMLOpsの実際と考察 - MLOps コミュニティ #3
異音検知プラットフォーム開発におけるMLOpsの実際と考察 - MLOps コミュニティ #3 異音検知プラットフォーム開発におけるMLOpsの実際と考察 - MLOps コミュニティ #3
異音検知プラットフォーム開発におけるMLOpsの実際と考察 - MLOps コミュニティ #3
 
深層学習と音響信号処理
深層学習と音響信号処理深層学習と音響信号処理
深層学習と音響信号処理
 

Recently uploaded

論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A survey論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A surveyToru Tamaki
 
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)Hiroki Ichikura
 
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略Ryo Sasaki
 
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介Yuma Ohgami
 
SOPを理解する 2024/04/19 の勉強会で発表されたものです
SOPを理解する       2024/04/19 の勉強会で発表されたものですSOPを理解する       2024/04/19 の勉強会で発表されたものです
SOPを理解する 2024/04/19 の勉強会で発表されたものですiPride Co., Ltd.
 
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...Toru Tamaki
 
論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNet論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNetToru Tamaki
 
スマートフォンを用いた新生児あやし動作の教示システム
スマートフォンを用いた新生児あやし動作の教示システムスマートフォンを用いた新生児あやし動作の教示システム
スマートフォンを用いた新生児あやし動作の教示システムsugiuralab
 
TSAL operation mechanism and circuit diagram.pdf
TSAL operation mechanism and circuit diagram.pdfTSAL operation mechanism and circuit diagram.pdf
TSAL operation mechanism and circuit diagram.pdftaisei2219
 

Recently uploaded (9)

論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A survey論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A survey
 
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
 
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
 
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
 
SOPを理解する 2024/04/19 の勉強会で発表されたものです
SOPを理解する       2024/04/19 の勉強会で発表されたものですSOPを理解する       2024/04/19 の勉強会で発表されたものです
SOPを理解する 2024/04/19 の勉強会で発表されたものです
 
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
 
論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNet論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNet
 
スマートフォンを用いた新生児あやし動作の教示システム
スマートフォンを用いた新生児あやし動作の教示システムスマートフォンを用いた新生児あやし動作の教示システム
スマートフォンを用いた新生児あやし動作の教示システム
 
TSAL operation mechanism and circuit diagram.pdf
TSAL operation mechanism and circuit diagram.pdfTSAL operation mechanism and circuit diagram.pdf
TSAL operation mechanism and circuit diagram.pdf
 

自称・世界一わかりやすい音声認識入門