自称・世界一わかりやすい音声認識入門

世界一わかりやすい音声認識入門
Hakamata Tomohiro
袴田智博
Lightning Talk
Siri is not Speech Recognition
自称

学生時代は
音声認識
やっていました

いきなりですが
質問です。

音声認識
とは
何でしょうか？

音声認識システム？
初音ミク
（Vocaloid）

FROM
HAL9000

K.I.T.T

Siri

音声認識とは
音声認識
こんにちは
音声を文字に変換する技術のこと

正解は
初音ミク
（Vocaloid）
音声合成
(歌声合成)

正解は
HAL9000 Siri K.I.T.T
音声対話
全て

こんな記事を
見かけました。

本当に
止めてほしい。

アウトライン
歴史音声認識の登場と発展
仕組音声認識のメカニズム
応用音声認識の利用と応用

IBM Shoebox
1962
数字認識機
via http://www-03.ibm.com/ibm/history/exhibits/specialprod1/specialprod1_7.html

70∼80年代までは
研究分野止まり

90年代に入り
実用化され始める

SANYO
EXCEDIO NV-1V
1993
音声認識機能付きのカーナビ
※定価なんと 50 万円弱

NINTENDO
ピカチュウげんきでちゅう
1998
エンターテインメント業界に進出

SEGA
シーマン
1999
エンターテインメント業界に進出

IBM ViaVoice
1999
初の有償・音声認識ソフトウェア発売
単語だけでなく、文章が認識できる画期的なソフトウェア。

「音声入力は使えない」
イメージが浸透…

2000年代は
音声業界の氷河期

そして2010年代に入り
突如現れた

APPLE
Siri
2011
スマートフォンの音声操作

NTT Docomo
しゃべってコンシェル
2012
スマートフォンの音声操作

GOOGLE
Speech API
2013
ブラウザが音声認識をサポート

音声入力が
だんだん
受け入れられてきた

技術的には
どのような
発展があったのか？

音声言語処理ロードマップ from 70年代
TIMELINE
ハードウェアの性能向上
統計的機械学習の手法確立と進化
1970 1980 1990 2000 2010 ∼
音声符号化
孤立
単語
音声認識
大語彙
連続
音声認識
超大語彙
連続
音声認識
連続
音声認識
メルケプストラム
分析
数万語彙に対応数十∼数百万語に対応単語のみ認識数百語彙での文章認識
リアルタイム処理
語彙数増加＆認識精度の向上

理想は
アナウンサー
原稿の読み上げ
綺麗な発音
良質な録音環境

音声認識が苦手なもの

複数人の同時発話
会議
ガヤ

砕けた話し方
話し言葉
方言
ラップ
言い澱み

雑音
騒音
機械音
風切り音

音声認識の
仕組みが分かれば
謎が解けます！

ものすごく
ざっくり言うと

音声認識は
パターンマッチング

音声認識とは
こんにちは
音声認識
音声をパターンマッチングにより
文字に変換する技術のこと
こんばんはこんにちはおはよう
照合

データベースに
存在しない単語は
認識不可能

こうなります
こんにちは
音声認識
佐藤近藤安西
照合
近藤？？

では、どうやって
パターンマッチング
しているのか？

音声波形で比較？
こんにちは
佐藤
近藤
安西

複雑さ
マイク、音程、スピード、話し方など、
あらゆる条件を一致させなければならない。

原点に
立ち戻りましょう

人間の調音器官により
生成される
音波のこと

調音器官
1.外唇
2.内唇
3.歯
4.歯茎
5.歯茎後部
6.硬口蓋前部
7.硬口蓋
8.軟口蓋
9.口蓋垂
10.咽頭壁
11.声門
12.喉頭蓋
13.舌根
14.後舌
15.前舌
16.舌端
17.舌尖
18.舌端裏

これだけの部位を
複雑に動かして
音声は生成されます

パターンマッチングの
話です

調音器官の
動きをパターン化する
のでしょうか？

それも違います
そういうアプローチの音声合成はありますが

( ﾟдﾟ)ﾎﾟｶｰﾝ
音素？

音素とは
音声言語の最小単位

日本語の場合
母音アイウエオ
撥音ン
子音 23種類

日本語音素（子音）
調音位置調音位置口唇口唇歯,歯茎歯,歯茎口蓋口蓋声門
調音
方法
調音
方法
調音
方法
調音
方法
調音
方法
調音
方法
音源有声無声有声無声有声無声無声
摩擦音 β z s ʒ ʃ h
破擦音 dz ts dʒ tʃ
破裂音 b p d t g k
半母音 w r j
鼻音 m n ŋ

音素の単位で
音声をパターン化
（モデル化）します

音素単位での
音響的特徴は
音の高さ、大きさの
影響を受けないため
です！！
※ささやきは全てが無声音になるので例外

日本人の英語の発音が
ジャパニーズイングリッシュ
になるのは

調音器官の使い方が
日本語のままだからです

発音矯正
それすなわち

音素単位で
固有パターン

単語 → 音素の並び
こんにちは k - o - N - n - i - ch - i - w - a
こんばんは k - o - N - b - a - N - w - a
コンバイン k - o - N - b - a - i - N

共通の部分があるぞ？
こんにちは k - o - N - n - i - ch - i - w - a
こんばんは k - o - N - b - a - N - w - a
コンバイン k - o - N - b - a - i - N

ネットワーク化
こんにちは
こんばんは
コンバイン
k o N b a N w a
i N
n i ch i aw

こんにちは
区間と音素をマッピング
k N n ch i w ao i

ネットワーク上の
解の探索問題になる
こんにちは
こんばんは
コンバイン
k o N b a N w a
i N
n i ch i aw

ネットワーク化します
は
元気
です
私
。
は
元気
です
私
。
は
元気
です
私
。
元気

これを音素単位で
マッチングします

しかし
単語の組み合わせは
膨大な数になります

語彙が10単語でも、
3語の組み合わせは
10の3乗…

文法を規定
は
元気です
貝になりたい
アイドル。
私。
。
僕ドラえもん。

組み合わせに確率を付与
は
待つ
私たち
の
ドラえもん
60%
10%
10%
10%
0%
N-gram

設定された制約から
単語の並びを生成し、
入力音声に音素が
マッチするか？

音声認識は
こんなメカニズムです。

NHK
ハイブリッド字幕放送
via http://www.nhk.or.jp/seikatsu-blog/800/112861.html

Health Care in USA
アメリカの医療業界

Vocollect
音声によるピッキングシステム

SG PRO
英語音声認識を利用した英語発音練習ソフト

iRemocon
音声認識を用いた家電操作用ガジェット

SHARP COCOROBO
関西弁版ルンバ

CINEMA PHONE
上映案内テレホンガイド

MMDAgent
学内情報案内端末

NICT VoiceTra
音声翻訳アプリ

その他
飛び道具っぽいもの

KAYAC kageroi
キーワード検索＆表示によるアイデア出し支援

PVI
パーキンソン病の診断を音声認識で

さらに
盛り上がっていくはず！

自称・世界一わかりやすい音声認識入門

自称・世界一わかりやすい音声認識入門

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Recently uploaded

Recently uploaded (9)

自称・世界一わかりやすい音声認識入門