ロボカップ＠ホーム入門

ロボカップ＠ホーム入門
～サービスロボットの音声対話技術～
情報通信研究機構（NICT）ユニバーサルコミュニケーション研究所
杉浦孔明
komei.sugiura@nict.go.jp
2013/07/09

自己紹介：経歴
• 委員
– RoboCup@Home Executive Committee、ロボカップジャパン
オープン @Homeリーグ実行委員
• 受賞
– RoboCup世界大会優勝（2008, 2010）、準優勝（2009, 2012）
• 専門
– 知能ロボティクス、ロボット対話、機械学習
1998-2002 京都大学工学部電気電子工学科
2002-2007 京都大学情報学研究科修士課程・博士課程
2006-2008 学術振興会特別研究員
2008- 情報通信研究機構研究員

ロボカップ＠ホームの概要
• 生活支援ロボットの競技会として世界最大*
– ロボカップのリーグのひとつ
– 中心課題：モバイルマニピュレーション・ヒューマンロボットインタ
ラクション
– ７個の規定タスクと３つのデモタスクにより評価される
• 参加チーム
– 約１５か国の大学・研究機関から２００人以上の参加者
– ６～１０人程度のチームが多い
＊同様の競技会として、Mobile Manipulation ChallengeやSemantic Robot Visionがある 3

ロボカップ＠ホーム関連文献（解説）
References Focus
大橋健, “RoboCup@Homeにおける課題設定と技術開発”, 計測と制御,
Vol. 52, No. 6, pp. 481-486, 2013.
移動
杉浦孔明, 長井隆行, "ロボカップ＠ホームにおける日用品マニピュ
レーション", 日本ロボット学会誌, Vol. 31, No. 4, pp. 370-375, 2013.
2012タスク
杉浦孔明, "ロボカップ道しるべ第８回「ロボカップ＠ホームリー
グ」", 情報処理, Vol. 53, No. 3, pp. 250-261, 2012.
音声処理
岡田浩之，大森隆司，“ロボカップ@ホーム: 人とロボットの共存
を目指して，” 人工知能学会誌，vol.25，no.2，pp.229-236，2010.
2009タスク
J. Stuckler, D. Holz, and S. Behnke, “RoboCup@Home: Demonstrating
Everyday Manipulation Skills in RoboCup@Home,” Robotics &
Automation Magazine, IEEE, vol.19, no.2, pp.34–42, 2012.
日用品把持
L. Iocchi, and T. van der Zant, “RoboCup@Home: Adaptive Benchmarking
of Robot Bodies and Minds,” Proc. of SIMPAR, pp.171–182, 2010.
得点分布

チーム数の推移
場所事前登録チーム
（書類選考前）
世界大会
参加チーム
日本大会
参加チーム
2006 ドイツ 20 11 -
2007 アメリカ 16 11 -
2008 中国 18 14 2
2009 オーストリア 25 18 2
2010 シンガポール 31 24 2
2011 トルコ 30 19 6
2012 メキシコ 22 20 10
2013 オランダ 22 21 10

タスクの難しさ
• モバイルマニピュレーション
– 未知環境における地図作成・移動
– 観客（移動障害物）の存在
– 実際の店舗の利用
– 日用品の物体認識・把持
• ヒューマンロボットインタラクション
– 高騒音環境（Leq=75dB）
– 頑健な対話処理
– ジェスチャ認識
8

規定タスク（2013年）
Stage Task name Abstract 場所
1
Robot Inspection
and Poster Session
競技形式で移動機能・停止スイッチ等の動作を確認するフィールド
Follow Me 人混みやエレベータの中で未知ユーザを追従する外部
Clean Up ２０個のオブジェクトを指定された場所に移動させるフィールド
Cocktail Party
ロボットを呼んでいる３人を見つけて注文を聞き、飲み物を取り
に行く
フィールド
Emergency 煙と要救助者を探索してマップにまとめるフィールド
Open Challenge ロボットの性能に関する，研究面で優れている点のデモフィールド
2
Enduring General Purpose
Service Robot
複文の指示の解釈、曖昧な指示を明確化（例：「何の飲み物を
持ってきますか」）し，指示を実行する
フィールド
Restaurant
未知環境（実際の店舗）で棚から３個のオブジェクトを持ってく
る
外部
Demo Challenge 毎年変更されるテーマに沿ったデモフィールド
決勝 Final 自由に選んだテーマに沿ったデモフィールド

規定タスク例：Cocktail Party
項目配点項目毎最高点平均点
呼んでいる人を発見 150 x 3 300 95
人名・飲み物名を復唱 100 x 3 300 108
オブジェクトを把持 200 x 3 400 32
• ロボットを呼んでいる３人を見つけて注文を聞き、飲み物を取りに
行く

規定タスク例：Restaurant
項目配点項目毎最高点平均点
Guide phaseで５箇所移動 50 x 5 250 143
Navigation phaseで４箇所移動 100 x 4 200 50
オブジェクトを把持 250 x 3 500 45
• 未知環境（実際の店舗）で棚から３個のオブジェクトを持ってくる
• ロボットを別の会場（実際の店舗）に輸送してタスクを行う

規定タスク例：Enduring General Purpose Service Robots
NimbRo（ボン大学）
12

Finalデモ例: 家事動作の模倣学習
模倣学習モジュールの内部構成「捨てる」動作の模倣学習例
「捨てる」と発話しながら空き缶を捨てる動作を数回見せる
空き缶とゴミ箱が「捨てる」に関連することを自動推定。空き缶の移動軌道
を一般化して「捨てる」という音声と対応づける
教師：
ロボット：
「ペットボトルをゴミ箱に捨てる」と指示
他の場所にあるペットボトルとゴミ箱を探し、「捨てる」軌道を実行
利用者：
ロボット：
対話例

ルールは、いつ誰がどうやって決めるのか？
• When?
– ２年ごとにタスクを大改正
– ドラフト版は２～３月にリリース（e.g. 2011/3/13, 2010/2/12)
• Who?
– EC(Executive Committee)：ルール執筆
– TC(Technical Committee)：ルール執筆
– OC(Organizing Committee)：事前審査
• How?
– Google groupsで意見を募る
– http://groups.google.com/group/athome2012
– TCは方向性の決定・投票・執筆を行う

音声認識は難しい：今までの失敗例
• 「eR@sers, start!」という号令でモジュールが再起動
– 音声でリスタートできるようにしていた
• 音声でスタートできるようにしたら、音声認識失敗し続
ける
– タイムアウトが入っていなかった
• ２単語認識を３連続で失敗
– 日本人の”R”の発音は認識されにくい

音声対話機能の標準的構成
• 上位５チームの音声認識・合成ソフトウェア
– ATRASR, Loqendo, MS & CSLU Toolkit, pocket sphinx
– XIMERA, Loquendo TTS, MAC OS X Leopard Speech Synthesis API,
festival
音声モジュール
音声認識発話理解応答生成
タスクシナリオ管理
システム
音声応答
音声入力
他モジュールからの入力
（センサ、画像認識結果
等）
他モジュールへの出力
（アクチュエータ、
表示、学習等）

雑音抑圧前雑音抑圧後
60dBA
70dBA
80dBA
75dBA環境では50cmの距離での音声認識すら難しい
• eR@sersの騒音環境への対処法
– （指向性マイクロホン）
– パーティクルフィルタによるノイズの逐次推定[Fujimoto+06]
– noisy 音響モデルの利用
Fujimoto, M et al, “Sequetial non-stationary noise tracking using particle filtering with switching dynamical system, ICASSP,
2006

未知語学習[Nakamura&Sugiura,et al 2011]
• 未知語学習の難しさ：音素認識の精度は高くない
• 提案手法
– 音素列（認識用）
– EigenVoice Gaussian Mixture Modelによる声質変換（合成）
Nakamura, T., Sugiura, K.et al, Learning Novel Objects for …", Journal of Intelligent and Robotic Systems, 2011
CMOS（２者の比較）を評価尺度として比較
• ベースライン手法（音素列を合成）より
提案手法が好まれた

非モノローグコーパスによるHMM音声合成
• 一般的な合成音声のデメリット
– 自然な声・親しみやすい声でない
– 質問されたことに気づかない
• 既存研究
– 読み上げ用途は自然性が高いが、対話用途では
自然性が低い
XIMERA
（読み上げ）
Sugiura, K.et al, “Non-monologue Speech Synthesis for Service Robots”, Proc. of 5th Workshop on Gaze in HRI, 2013

まとめ
• 背景
• ＠ホームタスク例
– Cocktail party, Restaurant, E-GPSR
• eR@sersの音声対話機能
– 雑音抑圧、未知語学習、音声合成
ジャパンオープン2013出場ロボット世界大会2013出場ロボット

ロボカップ＠ホーム入門

Recommended

Recommended

More Related Content

More from Komei Sugiura

More from Komei Sugiura (15)

Recently uploaded

Recently uploaded (8)

ロボカップ＠ホーム入門