ロボットの音声コミュニケーション技術：言葉や能力の壁を越えるデータ指向知能に向けて

ロボットの音声コミュニケーション技術
～言葉や能力の壁を越えるデータ指向知能に向けて～
国立研究開発法人情報通信研究機構
杉浦孔明

音声コミュニケーション技術はここ１０年で身近になった
今後、Google Home, Apple HomePod, LINE Clova Smart Speaker
などの発売が予定されている
Apple Siri
NTT Docomo
しゃべってコンシェル
Amazon Echo Dot NICT VoiceTra
応用成果は長期・地道な基礎研究活動の
うえに得られた賜物

取り巻く背景：
データ指向知能アプローチによるイノベーション
3
近年のデータ指向アプローチの２つのカギ
• 「ロケットエンジン」
– DNN-HMM, CTC, GoogLeNet, …
• 「ロケット燃料」＝高品質な大規模データ
– 音声（1000-10000H書起こし）、画像、対訳、行動データ等
→ロボティクスでも同様のアプローチでイノベーションを起こせるはず
A. Ng: http://www.slideshare.net/ExtractConf/andrew-
ng-chief-scientist-at-baidu
データ量
性能
以前
深層学習以降

Q. 実ユーザとコミュニケーションを行うロボットにおいて
音声信号処理に何が求められているか？その１
耐雑音音声認識
（聞き取ってもらえない）
実世界情報に基づく音声対話
（動作実行までに１分もかかる ）

Q. 何を目指す研究か？
A. 人を支援するシステムに関わる音声対話基盤技術を構築します
現在の社会課題
• 少子高齢化社会における生産性向上
（G7全てで高齢化率20%を超えるまで
残り１２年【国連調査】）
• ポテンシャルユーザのなかで、介助犬
の利用者≒0.5%
外出が難しい。
運ぶのが重い介助犬は世
話できない
これから
家族の世話
を分担して
ほしい

言葉の壁を超えるための音声対話技術：
クラウド基盤ROSPEEX

対話ロボットへの取り組み：
音声対話機能の開発を容易にするツールrospeex
• 想定するタスク
– サービスロボットとのインタラク
ション
• ロボット開発者が直面する壁
– コストと比較して、音声認識・合成の性能が悪い
XIMERA 3
（読み上げ）
声優

Rospeex：多言語音声対話のためのクラウドロボティクス基盤*
• ４万ユニークユーザ
• ロボット向けに特化した音声合成 [Sugiura+ 2014]
• 多言語の音声認識および合成
Python & C++のサンプ
ルを公開中
rospeex Search
* 研究開発目的の利用に限る

ネットワーク接続を前提とすれば音声対話に関する
問題を解決できる
10
クラウドAPI型
（Google, Microsoft, IBM,
NTT docomo, Wit.ai,など）
フリーソフト
商用ソフト
OpenHRI,
PocketSphinx, Festival
クラウド型
スタンドアロン型
ロボットミドル
ウェア対応
対応無
低スペックなマシン
では非合理的 
ロボット関連ログ
が埋もれる 
要認証
品質に問題 
価格が疑問 
rospeexユーザの分布
rospeexの利活用事例（４万ユニークユーザ*）
高齢者施設での会話活性化、サービスロボット
への音声指示、ヒューマノイド、対話エージェ
ント、カーナビ・スマートホーム向け音声イン
タフェース、など

rospeexが提供する機能
rospeex core
Dialogue
management
(written by user)
Speech
synthesis
Speech
Output
Speech
recognition
Rospeex cloud TTS
Noise
reduction
Voice activity
detection
Third party’s ASR API
Browser UI
OR
Smarphones On-board mic
Task management
Rospeex cloud ASR
What
time is it? It’s 6 pm.
Third party’s TTS API
Speech synthesis
designed for robots
WER = 7.9% for IWSLT tst2011
(1st Place Winner: IWSLT12, 13, 14)

「NICT声優対話コーパス」を公開しました（2016/6）
• 規模：14,179発話
– 日本語音声合成用コーパスとして世界最大級の公開コーパス
• 利用例
– 非モノローグ音声合成[Sugiura, ICRA14], 文選択[Nose,
Interspeech15]
• ALAGIN会員は無料でダウンロード可
– ALAGIN会員＝大学関係者は無料、企業は有料
NICT声優対話コーパス Search
●書き起こしファイル
例: だいたい予算が三千円ぐらいになるんです。
それから店構えがこのようなものなんですけれども。
●自動生成した読み
例:ダイタイヨサンガサンゼンエング'ライニナ'ルンデス
ソレカラミセガ'マエガコノヨ'ーナモノ'ナンデスケレドモ

非モノローグ音声合成により、対話に適した音声
合成が可能
• 声優の掛け合い対話コーパスを構築
– 約10時間（16,538文）
• サービスロボットタスクでは上限に近い品質
• NICT声優対話コーパスを公開
Sugiura, K.et al, ICRA14 13
分析合成
読み上げ
提案手法

実世界知識を扱う音声対話技術
14

Q. 実ユーザとコミュニケーションを行うロボットにおいて
音声信号処理に何が求められているか？その２
• 前提
– 「スマートスピーカ型」の音声アシスタントや音声対話システム一般と同様に、
音声認識精度、言語理解精度向上は言うまでもなく重要
• ユースケース①：ロボットに向けて発話する場合
– 思想：実体があればそれに向けて発話することが自然
– 想定状況：ユーザとマイクの距離は最短でも50cm（1.5m程度にしたい）
– ボトルネック：発話区間検出、耐雑音音声認識
– 特殊事情：マイク移動するなかでの音源方向推定
• ユースケース②：スマホを通してロボットに指示を送る場合
– 思想：要支援者の平時ユースケースでは手元に端末があると考えて良い
– ボトルネック：不完全情報や記号接地を含む音声言語理解が重要
• 音声合成
– 対話調の合成音声の需要は大きい

現在でも難しい課題：
実世界情報に基づいた言語処理は困難である
• 現状では難しい例
– 「シリアルと牛乳取ってきて」 ≒「棚にあるシリア
ルを取ってきてから、テーブルの上にある牛乳を取っ
てきて」
– 「あれ持ってきて」
16
「あれ」：傘，リモコン，飲み物，…
シリアルと牛乳
取ってきて
片付けとい
て
??
??

ロボットとの音声コミュニケーションで
何が技術的困難か？
• 不完全情報への対応
– 「どれを・どこに・どうやって」、開始終了条件、
をユーザが明示的に指定しなければ動作できない
• 記号接地問題への対応
– 例：「シリアル」画像のモデル化、「取る」動作の
モデル化、等
• 上記２つの動的環境への対応
Pass me
the
hammer

予測軌道をどう求めるか？
模倣学習による記号接地の関連研究
手法 References
制御ベース Dynamic Motion Primitives [Ijspeert 2002]
ニューラルネット
＆強化学習
• RNNPB [Sugita 2005, Ogata 2007]
• 深層強化学習[Levine 2015]
確率モデル • ガウス過程 [Lawrence 2004], ガウス回帰[Calinon 2010]
• 隠れマルコフモデル（HMM; Hidden Markov Model）
[Inamura 2004, Niwase 2005]
• 確率最適制御 [松原 2015]
HMMのメリット
• 学習、認識、生成に高速なアルゴリズムが整備
されている
模倣学習 ≒ 動作学習＋動作認識＋動作生成

物体操作の模倣学習[Sugiura+ 2007, 2011]
• 難しさ：世界座標系における軌道のクラスタリングは有効でない
• 提案手法
– 入力：全オブジェクトの位置時系列
– EMアルゴリズムによる参照点・座標系の推定
– cross-validationによる状態数の推定
“AをBにのせる”
19

参照点に依存したHMMによる模倣学習
[Sugiura+ 07][Sugiura+ 11]
デルタパラメータの物理的意味
＝速度・加速度の２次精度中心差分近似
: 時刻 tにおける位置
最尤の座標系の探索
参照オブジェクトID
HMM
パラメータ
座標系タイプ
* Sugiura, K. et al, “Learning, Recognition, and Generation of Motion by …”, Advanced Robotics, Vol.25, No.17, 2011
: 位置・速度・加速度の時系列
特徴量
AをBにのせる

[Tokuda 2000]の手法で音声と同様に動作軌道生成が可能
最尤軌道生成: 位置・速度・加速度の時系列
AをBにのせる
: 差分近似係数の行列
*Tokuda, K. et al, “Speech parameter generation algorithms for HMM-based speech synthesis”, 2000

ビデオ
Place-on
Move-awayRotate

能力の壁を超える技術：
インテリジェントホームロボティクス
23

少子高齢化社会における生活支援ロボット
これから
ホームロボットによる生活支援
およびQoL向上
現在、介助犬が担っているタス
クをロボットが分担
（現状の介助犬ユーザ≒ポテン
シャルユーザの0.5%）
【背景】あと12年で主要７ヶ国（G7）全
てで高齢化率が20%を超える [総務省]
社会課題：少子高齢化
家族の世話
を分担して
ほしい
簡単なことは人
に頼みにくい…
介助犬は世
話できない
2030
片付けてお
きます
何をとってきま
しょうか？
いつもの洗剤、
なくなりそうで
すよ。
※介助犬育成費用は1頭300万円以上

ロボカップ＠ホームの概要
• 生活支援ロボットの競技会として世界最大*
– ロボカップのリーグのひとつ
– 中心課題：移動マニピュレーション・ヒューマンロボットインタラクション
– ８個の規定タスクと３つのデモタスクにより評価される
• 技術的難しさ
– 未知環境での移動（実店舗）、日用品の把持、騒音化での音声対話
25

規定タスク（2017年）
Stage タスク名内容
1
Cocktail Party
複数の人物がいる状況で、呼んでいる人物を認識し注文を聞
く
General Purpose
Service Robot (GPSR)
ランダムに生成される文を理解または曖昧性解消し、指示を
実行する
Help-me-carry 買い物袋を認識し、車のトランクから家の中への運搬を行う
Speech and Person
Recognition
音声認識・音源方向推定/人検出を行い、質問に答える
Storing Groceries 棚の中の複数の種類の日用品の種類を認識・整頓する
2
Enhanced
Endurance GPSR
ランダムに生成される文を理解または曖昧性解消し、指示を
実行する。30-45分間の連続動作が必要
Open Challenge 自由に選んだテーマに沿ったデモ
Restaurant
未知環境で地図作成を行い、注文されたものをテーブルに届
ける
Set a table and clean it up
テーブルに食事を運ぶとともに、食器を認識し配置を修正す
る
決勝 Final 自由に選んだテーマに沿ったデモ

Restaurantタスクにおける発話区間検出と自己位置推定

ロボカップ世界大会 2017/7/27-30＠名古屋
2016世界大会まとめビデオ 2017世界大会PRビデオ

World Robotics x AI Seminar：ロボカップ併催でロボット
工学x機械学習に関する世界最高峰セミナーを開催します
会期
2017年7月27日（木）10:00～18:00
10:00～14:30 テクニカルツアー、15:00～18:00 セミナー
会場：名古屋市国際展示場
招待講演者
• Prof. Daniel Lee, NIPS 2016 General Chair
• Dr. Joey Durham, Amazon Robotics研究開発マネージャ, Amazon Robotics
Challenge実行委員長
• Prof. Manuela Veloso, カーネギーメロン大学機械学習部長
• Prof. Peter Stone, Cogitai創設者（ソニー資本参加）
スケジュール 2017年7月27日（木）10:00～18:00
前半テクニカルツアー、後半セミナー
会場名古屋市国際展示場
招待講演者 • Prof. Daniel Lee, NIPS 2016 General Chair
• Dr. Joey Durham, Amazon Robotics研究開発マネージャ,
Amazon Robotics Challenge実行委員長
• Prof. Manuela Veloso, カーネギーメロン大学機械学習部長
• Prof. Peter Stone, Cogitai創設者（ソニー資本参加）
ウェブサイト http://robocup-seminar.jp

応用対話システム：
評価グリッド対話およびLESSONS LEARNED

観光スポット探しに必要な労力を削減する[杉浦+ 2014]
京のおすすめ（2011）
• 提案手法
– 「癒されたい」などの曖昧な嗜好に合うスポットを推薦（重みつ
きナイーブベイズモデル）
– 評価グリッド法による嗜好の構造化・定量化
• 社会展開
– スマートホンアプリ（2011年公開）、京都市観光局のウェブサ
イト（月間訪問者386,000）へのアルゴリズムの導入
対話システムHANNA
（2011）

デモ：ブラウザから利用可能
• 京都観光Navi：月間訪問者数 38万6000人
京都観光Navi（京都市観光局）

Lessons learned:
研究者がクラウドサービスを作るときに気をつけること
• プラス面
– 学習済みモデル等の知財を公開する必要がない
– ロボット以外もアクセス可能にすれば潜在ユーザ層を大きくできる
– アクティブユーザ数を測れる。⇔オープンソースのダウンロード数は不十分
• マイナス面
– 知名度が高くなると、攻撃やAbuseの対象になる恐れがある
– サーバ監視者にインセンティブを与えにくい
• これからクラウドサービスを作りたい人へ
– 成功をどうやって計測するか？（何年でユーザ何人？）
– ユーザのインセンティブを本気で考えたか？
– 「Google/Microsoft/..が作るかもしれないよ」を気にしすぎないこと
VoiceTra京都観光Navi

これまでに杉浦が受けたツッコミの例
（敢えて無視したほうがよい状況もあります）
コミュニケーションロボットのユースケースを探す際
ツッコミに耐えられるか思考実験してみてはいかがでしょう？
客寄せを敢えて狙うのか？
それとも社会実装を目指すの
か？
音声対話の本質的
研究か？（例:Siriで
十分では？）
レコメンドや音声翻訳機能
のみではダメか？
（＝対話がMinimum Viable
Productに含まれるか？）
タッチパネルではダメか？
（例：回転寿司屋）
リモートプレゼンスロボット
ではダメか（＝家族や傾聴ボ
ランティアではダメか？）
CGではダメか？
（安いし故障しない）

分野同士の関係：
実世界の意味を扱う理論・機械知能の構築と社会的インパクト
Cyber world（ウェブ知識源）
推薦予測
音声
対話
行動
認識
Physical world
（実世界）
サービス例
Human society
（人間/社会）
生活
支援
マルチモーダル
センサ統合
社会的インパクト
広域データを用い
た時系列予測
実世界意味の言語化理論
データ指向
ロボティクス
環境データ
動作理解
ユーザモデルの
推定と利用
何か食べたい台所のシリアル
取ってきますね
生活支援ロボット

37
1. クラウドロボティクス基盤rospeex
2. インテリジェントホームロボティクス
3. 実世界知識を扱う音声対話技術
4. 応用対話システム
謝辞：本研究にサポートをいただきました※５０音順
• 研究助成（JSPS科研費、JST CREST、立石財団）
• 共同研究機関（NII、玉川大、電気通信大、東京都立産業技術研究所、
東北大、トヨタ自動車、パナソニック株式会社）
NICTでは、ポスドク研究員を募集しています
生活支援ロボットのための言語・非言語情報に基づく音声言語理解お
よび行動生成（CRESTプロジェクトの一部）

ロボットの音声コミュニケーション技術：言葉や能力の壁を越えるデータ指向知能に向けて

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Similar to ロボットの音声コミュニケーション技術：言葉や能力の壁を越えるデータ指向知能に向けて

Similar to ロボットの音声コミュニケーション技術：言葉や能力の壁を越えるデータ指向知能に向けて (20)

More from Komei Sugiura

More from Komei Sugiura (14)

Recently uploaded

Recently uploaded (9)

ロボットの音声コミュニケーション技術：言葉や能力の壁を越えるデータ指向知能に向けて