Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.
高橋 城志(Kuniyuki Takahashi)
Preferred Networks, Inc.
実社会・実環境におけるロボットの機械学習
IBIS 2017, 11月9日(木):ワークショップ
実社会への機械学習の応用
自己紹介:高橋城志 (Kuniyuki Takahashi)
<経歴>
- 2007.4 - 2017.3
早稲田大学 総合機械工学科 (B.S., M.S., Ph.D.),菅野研究室&尾形研研究室
- 2015.2 - 2016.3, 20...
Preferred Networks, Inc. (PFN)
• 設立:2014年3月
• 所在地:東京都千代田区大手町(日本)、カリフォルニア州サンマテオ(米国)
• 従業員数:100名(エンジニア&リサーチャー)
• 出資者:NTT(201...
実社会・実環境ロボットにおける機械学習
- これまでのロボット制御
- 機械学習による認識を用いたロボット制御
- 機械学習を用いたロボットの運動生成
本日の内容
4
実社会・実環境ロボットにおける機械学習
- これまでのロボット制御
- 機械学習による認識を用いたロボット制御
- 機械学習を用いたロボットの運動生成
本日の内容
5
従来のロボット制御のプロセス
認識
計画実行
e.g. 工業用ロボット
軌道計画
逆運動学
…
実物
ロボットが
持つモデル
比較
センサ
6
引用:http://www.appraccel.com/blog/2017/1/4/freeing-...
物体操作 & 自由度(Degree of Freedom (DOF))
物体の位置を一意に決める情報:
物体の座標: x, y, z
物体の姿勢: α, β, γ
物体を操作するための
最小の自由度は6
*必要とされる自由度はタスクに依存
e....
人間の腕の自由度
人間の腕の自由度はいくつか?
A. 7
肩: 3
肘: 2
手首: 2
必要最低限以上の自由度
= 冗長自由度
8
順運動学(Forward Kinematics)
x = L1cosθ1+ L2cos(θ1 + θ2)
y = L1sinθ1 + L2sin(θ1 + θ2)
L1
L2
θ1
θ2
(x, y)
三角関数により,一意に定まる
手先座標関節...
逆運動学(Inverse Kinematics)
L1
L2
(x, y)
θ1 , θ2:余弦定理で計算可能
複数解
θ1 = tan-1(y / x) + β
θ2 = π - α
手先座標関節角度
(θ1, θ2) (x, y)
10
L1
L2
(x, y)
θ1 , θ2 , θ3 : ???
4自由度以上になると解析的に解くのは困難.
特に冗長自由度があると解は定まらない.
(θ1, θ2 , θ3)
L3
逆運動学(Inverse Kinematics)
手先座標関節...
L1
L2
(x, y)L3
Obstacle
θ1 , θ2 , θ3 : ???
(θ1, θ2 , θ3)
手先座標関節角度
(x, y)
4自由度以上になると解析的に解くのは困難.
特に冗長自由度があると解は定まらない.
逆運動学(In...
逆運動学 -数値解析-
L1
L2
q1
q2
(x, y)
(r1, r2)
1. 順運動学の計算
r = f(q)
2. 目標とするrとの差分からqを更新
q’ = q - J(q)-1(r-rref)
J = ∂r / ∂q
↑ Jaco...
従来のロボット制御のプロセス
認識
計画実行
e.g. 工業用ロボット
軌道計画
逆運動学
…
実物
ロボットが
持つモデル
比較
センサ
14
引用:http://www.appraccel.com/blog/2017/1/4/freeing...
従来のロボット制御の考え方
実世界の
ハードウェア
ロボットと環境の
“完璧”なモデル
モデルと現実の世界
との差異
15
ロボット分野の成功と失敗
https://www.youtube.com/watch?v=JzlsvFN_5HIhttps://www.youtube.com/watch?v=42MJg1W_B74
https://www.youtube.co...
従来のロボット制御による課題
速さ, 正確さ, コスト効率化…
< 課題 >
モデル化が困難なもの&センサ情報をどのように扱うか
e.g. ) 不定形物体,高次元なセンサデータ
環境変化への対応が困難
< これまでの工業用ロボット > < これ...
実社会・実環境ロボットにおける機械学習
- これまでのロボット制御
- 機械学習による認識を用いたロボット制御
- 機械学習を用いたロボットの運動生成
本日の内容
18
機械学習による認識を用いたロボット制御プロセス
認識
計画実行
e.g. ビンピッキング
軌道計画
逆運動学
…
センサ
経験による
把持箇所の獲得
19
認識部分の機械学習
Amazon Picking Challenge 2016, 7月 ICRA 2017, 6月
20
https://www.youtube.com/watch?v=w7NgejZMSsA
PFN PFN
認識部分の機械学習:複数の物体(モデル概要)
画像
- セグメンテーション
- (40)クラス分類
把持位置
21
各ピクセルに対してsoftmax
“End-to-End Learning of Object Grasp Poses in t...
Amazon Pick Test Results
Place
1
2
3
4
5
6
7
8
Team
Delft
PFN (Preferred Networks)
NimbRo Picking
MIT
Team K
ACRV
CMU-HARP...
従来のロボット制御の考え方
実世界の
ハードウェア
ロボットと環境の
“完璧”なモデル
モデルと現実の世界
との差異
23
身体性人工知能(Embodied Artificial Intelligence)
環境
身体
モデル 相互作用
モータ
センサ
センサ情報から
モデルの更新
順逆モデル
(Forward/inverse model)
身体と知能は
不可分
24
e.g. Roomba
単純化
モータ
センサ
Subsumption architecture[1] (行動規範型A. I.)
[1] R. Brooks, “A robust layered control system for a mob...
実社会・実環境ロボットにおける機械学習
- これまでのロボット制御
- 機械学習による認識を用いたロボット制御
- 機械学習を用いたロボットの運動生成
本日の内容
26
機械学習を用いたロボットの運動生成
研究事例紹介
- 機械学習をロボットに適応するときの課題とその対応
27
機械学習をロボットに適応するときの課題
- 方策を獲得するまでの試行回数の多さ
->実際のロボットで行うと壊れる
- シミュレーションと実機との差異
->シミュレーション後の再学習の必要性
- 未知な環境への低適応性
->再学習では即時対応が困...
Input
Output
...
Recovered
image
32 x 24 pixels
Input
Output
M(t-
W+1)
I(t-W+1)
M(t-1)
I(t-1)
・・・
M(t)
I(t)
M(t-
W+1)
I(t-...
<実際の画像>
<予測画像>
<外部カメラからの画像>
PR2を用いた実験結果
“深層学習を用いた多自由度ロボットによる柔軟物の折り畳み動作生成, ” IPSJ2016
“Repeatable Folding Task by Humanoid ...
実機での試行回数の削減(シミュレーション+実機)
実機とシミュレーションを交互に
学習することで,実機での試行回数
を大幅に削減
@CEATEC2016
31
https://www.youtube.com/watch?v=9R_pXpKbUh...
“Learning Complex Dexterous Manipulation with Deep Reinforcement Learning and Demonstrations,” 2017
https://arxiv.org/abs/...
シミュレーションと実験との差異の低減
“Domain Randomization for Transferring Deep Neural Networks from Simulation to the Real World,” IROS201...
未知な環境への即時対応能力
"Map-based Multi-Policy Reinforcement Learning: Enhancing Adaptability of Robots by Deep Reinforcement Learn...
まとめ
速さ, 正確さ, コスト効率化…
環境変化への対応が困難
< これまでの工業用ロボット > < これからのロボット >
環境のモデル化
複雑なモデル,少量多品種
環境のモデル化が困難なもの
センサ情報との融合
ソフトウェアとハードウェア...
今後の展望:マルチモーダル学習
"Interactively Picking Real-World Objects with Unconstrained Spoken Language Instructions,” 2017,
https://...
まとめ
速さ, 正確さ, コスト効率化…
環境変化への対応が困難
< これまでの工業用ロボット > < これからのロボット >
環境のモデル化
複雑なモデル,少量多品種
環境のモデル化が困難なもの
センサ情報との融合
ソフトウェアとハードウェア...
Upcoming SlideShare
Loading in …5
×

実社会・実環境におけるロボットの機械学習

2,678 views

Published on

IBIS2017ワークショップで使用した講演スライド
企画セッション:実社会への機械学習の応用
タイトル:実社会・実環境におけるロボットの機械学習
講演者:髙橋城志(Kuniyuki Takahashi)
https://sites.google.com/site/kuniyukitakahashi/
所属:Preferred Networks, Inc.
https://www.preferred-networks.jp/ja/
概要:本講演では実社会・実環境で動作しているロボットに機械学習がどのように利用されているのかを紹介する.従来のロボットの制御方法での課題に対する現在の産業界での取り組み,さらに,今後どのようなタスクが求められ,それに対して最先端の機械学習研究をどのように応用していくのか,について具体的な事例を交えながら解説する.
http://ibisml.org/ibis2017/session2/

Published in: Technology
  • Login to see the comments

実社会・実環境におけるロボットの機械学習

  1. 1. 高橋 城志(Kuniyuki Takahashi) Preferred Networks, Inc. 実社会・実環境におけるロボットの機械学習 IBIS 2017, 11月9日(木):ワークショップ 実社会への機械学習の応用
  2. 2. 自己紹介:高橋城志 (Kuniyuki Takahashi) <経歴> - 2007.4 - 2017.3 早稲田大学 総合機械工学科 (B.S., M.S., Ph.D.),菅野研究室&尾形研研究室 - 2015.2 - 2016.3, 2017.2-2017.3 ミュンヘン工科大学, ドイツ; (external Ph.D.),Prof. Gordon - 2017.4 Preferred Networks, Inc., リサーチャー <研究内容> - ロボットの運動生成のための機械学習(RNN, deep learning) https://sites.google.com/site/kuniyukitakahashi/home 2
  3. 3. Preferred Networks, Inc. (PFN) • 設立:2014年3月 • 所在地:東京都千代田区大手町(日本)、カリフォルニア州サンマテオ(米国) • 従業員数:100名(エンジニア&リサーチャー) • 出資者:NTT(2014年), FANUC(2015年), Toyota(2015, 2017年) • ミッション:IoT時代に向けた新しいコンピュータを創造する あらゆるモノに知能をもたせ、分散知能を実現する • 事業内容:IoT (Internet of Things) + 分散機械学習 - 自動運転 - バイオヘルスケア - 産業用ロボット Deep learning Industrial IoT Manufacturing Automotive Healthcare We are hiring! 3
  4. 4. 実社会・実環境ロボットにおける機械学習 - これまでのロボット制御 - 機械学習による認識を用いたロボット制御 - 機械学習を用いたロボットの運動生成 本日の内容 4
  5. 5. 実社会・実環境ロボットにおける機械学習 - これまでのロボット制御 - 機械学習による認識を用いたロボット制御 - 機械学習を用いたロボットの運動生成 本日の内容 5
  6. 6. 従来のロボット制御のプロセス 認識 計画実行 e.g. 工業用ロボット 軌道計画 逆運動学 … 実物 ロボットが 持つモデル 比較 センサ 6 引用:http://www.appraccel.com/blog/2017/1/4/freeing-up-humans-to-do-meaningful-work 引用:http://toyota.jp/mirai/grade/引用:http://toyota.jp/mirai/grade/
  7. 7. 物体操作 & 自由度(Degree of Freedom (DOF)) 物体の位置を一意に決める情報: 物体の座標: x, y, z 物体の姿勢: α, β, γ 物体を操作するための 最小の自由度は6 *必要とされる自由度はタスクに依存 e.g. 書字: 3自由度 (q1, q2, q3, q4, q5, q6) α β γ x y z X Y Z O O’ X’ Y’Z’ 7 q1 q6 q3 q4 q5 q2
  8. 8. 人間の腕の自由度 人間の腕の自由度はいくつか? A. 7 肩: 3 肘: 2 手首: 2 必要最低限以上の自由度 = 冗長自由度 8
  9. 9. 順運動学(Forward Kinematics) x = L1cosθ1+ L2cos(θ1 + θ2) y = L1sinθ1 + L2sin(θ1 + θ2) L1 L2 θ1 θ2 (x, y) 三角関数により,一意に定まる 手先座標関節角度 (θ1, θ2) (x, y) 9
  10. 10. 逆運動学(Inverse Kinematics) L1 L2 (x, y) θ1 , θ2:余弦定理で計算可能 複数解 θ1 = tan-1(y / x) + β θ2 = π - α 手先座標関節角度 (θ1, θ2) (x, y) 10
  11. 11. L1 L2 (x, y) θ1 , θ2 , θ3 : ??? 4自由度以上になると解析的に解くのは困難. 特に冗長自由度があると解は定まらない. (θ1, θ2 , θ3) L3 逆運動学(Inverse Kinematics) 手先座標関節角度 (x, y) 11
  12. 12. L1 L2 (x, y)L3 Obstacle θ1 , θ2 , θ3 : ??? (θ1, θ2 , θ3) 手先座標関節角度 (x, y) 4自由度以上になると解析的に解くのは困難. 特に冗長自由度があると解は定まらない. 逆運動学(Inverse Kinematics) 12
  13. 13. 逆運動学 -数値解析- L1 L2 q1 q2 (x, y) (r1, r2) 1. 順運動学の計算 r = f(q) 2. 目標とするrとの差分からqを更新 q’ = q - J(q)-1(r-rref) J = ∂r / ∂q ↑ Jacobian: qを微小量動かしたときのrへの影響量 3. rが小さくなるまで繰り返し ダイナミクスを考え始めると… 13
  14. 14. 従来のロボット制御のプロセス 認識 計画実行 e.g. 工業用ロボット 軌道計画 逆運動学 … 実物 ロボットが 持つモデル 比較 センサ 14 引用:http://www.appraccel.com/blog/2017/1/4/freeing-up-humans-to-do-meaningful-work 引用:http://toyota.jp/mirai/grade/引用:http://toyota.jp/mirai/grade/
  15. 15. 従来のロボット制御の考え方 実世界の ハードウェア ロボットと環境の “完璧”なモデル モデルと現実の世界 との差異 15
  16. 16. ロボット分野の成功と失敗 https://www.youtube.com/watch?v=JzlsvFN_5HIhttps://www.youtube.com/watch?v=42MJg1W_B74 https://www.youtube.com/watch?v=0LTn4mFZITE https://www.youtube.com/watch?v=fpF-3orhnjg 16
  17. 17. 従来のロボット制御による課題 速さ, 正確さ, コスト効率化… < 課題 > モデル化が困難なもの&センサ情報をどのように扱うか e.g. ) 不定形物体,高次元なセンサデータ 環境変化への対応が困難 < これまでの工業用ロボット > < これからのロボット > 環境のモデル化 複雑なモデル,少量多品種 環境のモデル化が困難なもの センサ情報との融合 17 引用:http://www.appraccel.com/blog/2017/1/4/freeing-up-humans-to-do-meaningful-work
  18. 18. 実社会・実環境ロボットにおける機械学習 - これまでのロボット制御 - 機械学習による認識を用いたロボット制御 - 機械学習を用いたロボットの運動生成 本日の内容 18
  19. 19. 機械学習による認識を用いたロボット制御プロセス 認識 計画実行 e.g. ビンピッキング 軌道計画 逆運動学 … センサ 経験による 把持箇所の獲得 19
  20. 20. 認識部分の機械学習 Amazon Picking Challenge 2016, 7月 ICRA 2017, 6月 20 https://www.youtube.com/watch?v=w7NgejZMSsA PFN PFN
  21. 21. 認識部分の機械学習:複数の物体(モデル概要) 画像 - セグメンテーション - (40)クラス分類 把持位置 21 各ピクセルに対してsoftmax “End-to-End Learning of Object Grasp Poses in the Amazon Robotics Challenge, ” ICRA2017 workshop
  22. 22. Amazon Pick Test Results Place 1 2 3 4 5 6 7 8 Team Delft PFN (Preferred Networks) NimbRo Picking MIT Team K ACRV CMU-HARP C^2M Score 105 105 97 67 49 42 33 21 22
  23. 23. 従来のロボット制御の考え方 実世界の ハードウェア ロボットと環境の “完璧”なモデル モデルと現実の世界 との差異 23
  24. 24. 身体性人工知能(Embodied Artificial Intelligence) 環境 身体 モデル 相互作用 モータ センサ センサ情報から モデルの更新 順逆モデル (Forward/inverse model) 身体と知能は 不可分 24
  25. 25. e.g. Roomba 単純化 モータ センサ Subsumption architecture[1] (行動規範型A. I.) [1] R. Brooks, “A robust layered control system for a mobile robot,” 1986. 身体性人工知能(Embodied Artificial Intelligence) Credit: iRobot Corporation 25
  26. 26. 実社会・実環境ロボットにおける機械学習 - これまでのロボット制御 - 機械学習による認識を用いたロボット制御 - 機械学習を用いたロボットの運動生成 本日の内容 26
  27. 27. 機械学習を用いたロボットの運動生成 研究事例紹介 - 機械学習をロボットに適応するときの課題とその対応 27
  28. 28. 機械学習をロボットに適応するときの課題 - 方策を獲得するまでの試行回数の多さ ->実際のロボットで行うと壊れる - シミュレーションと実機との差異 ->シミュレーション後の再学習の必要性 - 未知な環境への低適応性 ->再学習では即時対応が困難 28
  29. 29. Input Output ... Recovered image 32 x 24 pixels Input Output M(t- W+1) I(t-W+1) M(t-1) I(t-1) ・・・ M(t) I(t) M(t- W+1) I(t-W+1) M(t-1) I(t-1) ・・・ M(t) I(t) Joint angle (8 dims) 12 layers 1140 dims W = 30 steps Image feature (30 dims) (a) (b) ・Deep Autoencoder ・・・ (a) ⇒画像特徴量の抽出 ⇒画像特徴量から画像の復元 ・Deep Time-Delay Autoencoder ・・・ (b) ⇒関節角度と画像特徴量の関係性の学習 ... ...... 深層学習を用いた動作生成(模倣学習) 29
  30. 30. <実際の画像> <予測画像> <外部カメラからの画像> PR2を用いた実験結果 “深層学習を用いた多自由度ロボットによる柔軟物の折り畳み動作生成, ” IPSJ2016 “Repeatable Folding Task by Humanoid Robot Worker using Deep Learning, ” RA-L2017 30 https://www.youtube.com/watch?v=LU2nsiz6ISU&list=PLD1ZLEZBjjjPivyK7U-htnL37dqCSJq_b
  31. 31. 実機での試行回数の削減(シミュレーション+実機) 実機とシミュレーションを交互に 学習することで,実機での試行回数 を大幅に削減 @CEATEC2016 31 https://www.youtube.com/watch?v=9R_pXpKbUhU PFN
  32. 32. “Learning Complex Dexterous Manipulation with Deep Reinforcement Learning and Demonstrations,” 2017 https://arxiv.org/abs/1709.10087 試行回数の削減(教師あり+強化学習) 人の実演データから次の動作 を真似るポリシーを学習し,そ こから強化学習すると学習時 間と試行回数を大幅に削減 32 https://www.youtube.com/watch?v=jJtBll8l_OM
  33. 33. シミュレーションと実験との差異の低減 “Domain Randomization for Transferring Deep Neural Networks from Simulation to the Real World,” IROS2017 シミュレーション時に画像の色情報を 複数変更することで,実世界でも対応 課題: 環境との相互作用を行うようなもので はシミュレーションとの差異が顕著に 出る e.g. 把持,二足歩行 33
  34. 34. 未知な環境への即時対応能力 "Map-based Multi-Policy Reinforcement Learning: Enhancing Adaptability of Robots by Deep Reinforcement Learning,” 2017, https://arxiv.org/abs/1710.06117 Under review in ICRA2017 未知な環境,身体モデルの 変更で対して即時に対応 異なる方策を保存しておくことで実現 34 https://www.youtube.com/watch?v=qcCepAKL32U PFN
  35. 35. まとめ 速さ, 正確さ, コスト効率化… 環境変化への対応が困難 < これまでの工業用ロボット > < これからのロボット > 環境のモデル化 複雑なモデル,少量多品種 環境のモデル化が困難なもの センサ情報との融合 ソフトウェアとハードウェアは不可分(身体性) - 認知部分に機械学習への適応(工業でのホットトピック) - 制御部分に機械学習への適応(研究でのホットトピック) - マルチモーダル学習(今後の展望) e.g. 触覚,音,自然言語,... 35
  36. 36. 今後の展望:マルチモーダル学習 "Interactively Picking Real-World Objects with Unconstrained Spoken Language Instructions,” 2017, https://arxiv.org/abs/1710.06280 Under review in ICRA2017 e.g. 自然言語+ロボット 曖昧な言語指示に対して, 聞き返しを行うアプローチ 36 https://www.youtube.com/watch?v=_Uyv1XIUqhk&t=19s PFN
  37. 37. まとめ 速さ, 正確さ, コスト効率化… 環境変化への対応が困難 < これまでの工業用ロボット > < これからのロボット > 環境のモデル化 複雑なモデル,少量多品種 環境のモデル化が困難なもの センサ情報との融合 ソフトウェアとハードウェアは不可分(身体性) - 認知部分に機械学習への適応(工業でのホットトピック) - 制御部分に機械学習への適応(研究でのホットトピック) - マルチモーダル学習(今後の展望) e.g. 触覚,音,自然言語,... 37Thank you!!

×