博士論文本審査スライド

State-Action Map Compression
by using Vector Quantization
for Decision Making
of Autonomous Robots
自律ロボットの行動決定のための
状態行動地図のベクトル量子化圧縮 

東京大学大学院工学系研究科
精密機械工学専攻
助手　上田隆一

指導教員：新井民夫

2
予備審査からの主な変更点
¢  他手法との比較を追加
l  動的計画法（DP）を使用する理由
l  計算量評価
•  関数近似手法
•  木構造による圧縮手法

¢  各例題の性質に関する議論
l  歪み測度から読み取れる性質

博士論文審査 2007年2月9日

3
1章ロボットの実時間行動決定
¢  例：ロボットサッカー 
のゴールキーパー
l  なるべく速く行動決定
l  ロボット（自律）のCPUは 
速くない（200MHz）

※２倍速
どうやって実現したか？
 
別の計算機で動的計画法による行動則（=方策）を作成 
→実装

4
動的計画法による方策作成と利用
¢  動的計画法[Bellman 57]
(dynamic programming, DP)
l  最適制御問題の解法
ボールの位置
（2次元）

ロボットの位置・向き
l  適用方法（前述のキーパー）
（3次元）
1.  考慮すべき状態変数を選択
2.  状態空間を張る
3.  格子状に状態空間を離散化
4.  評価関数を最大化する行動を全離散状態に記述

ロボットは状態からとるべき行動を反射的に選択可能

5
DPの適用方法 
（連続空間の最適制御→有限マルコフ決定過程）
¢  有限個の行動集合 A = {a , a ,... , a }
x
1 2 M
¢  状態変数 x1, x2,... , xn で状態空間 X を張る
l  格子状に離散化 S = {s1, s2,... , sN}

¢  状態方程式 dx/dt = f (x, a) 離散
l  時間の離散化→状態遷移確率 Pss'a 状態
¢  評価関数 g(x,u)（例：時間消費，失点リスク等）
l  時間の離散化→Rss'a xf
¢  評価汎関数 J =∫g(x,u) dt = Σ Rss'a

評価 J の最大化

6

DPから得られるデータ
x

¢  終端状態までの評価 J （sの価値）
l  状態価値関数 V(s) = 価値
¢  価値を最大化する行動

l  方策 π(s) = a

xf

¢  与えられた制御問題や離散化方法に対して最適
l  連続系では離散化が細かいほど最適に
•  Hamilton-Jacobi-Bellman方程式の解に近づく


7
DPによる全状態に対する方策計算
¢  方策作成時に大きな計算コスト

¢  最適性が保証されない場合がある
l  状態観測に誤差(改善方法については[上田07]参照)
l  状態方程式が制御対象の性質を表していない場合

実機を使った学習的アプローチ
との優劣がしばしば議論となる


8
強化学習[Sutton 98等]との対比
DP（単純離散化）
強化学習
解の収束性
確実
十分な「経験」が必要
解の範囲
全状態空間をカバー
経験の多い
状態のみ学習
計算量・大きい
解の収束性・範囲の広さを
メモリ消費
重視しなければ小さい
離散化の高い
低い
自由度
人間の手間
ロボットの挙動の忠実学習中のロボットの世話
な数式モデル化が必要

モデル化の困難はあるが，状態空間
全域にわたって利用できる方策を得たい
博士論文審査
2007年2月9日

9
メモリ消費と方策性能のトレードオフ
¢  メモリ消費-性能グラフ

性能劣化

単純な格子状の離散化 
で得られる方策のグラフ

連続空間で
最適な方策 
小
メモリ消費
大
の性能


10
メモリ消費削減の従来研究
¢  離散化を工夫し，低メモリ消費で方策作成
l  木構造による状態空間分割[Munos 98, 02]

¢  状態価値関数の表現を工夫，少ないメモリで表現
→状態価値関数を行動決定に利用
l  強化学習で主に用いられるがDPにも応用可能
•  ニューラルネットワーク[Tesauro 95]，
動径基底関数[Broomhead 88, Moody 89]，タイルコーディング
[Watkins 89, Sutton 95, Albus 71, ...]，内挿[Takahashi 01] ...


11
従来研究のメモリ利用方法

性能劣化
単純な格子状の離散化 
目標性能
で得られる方策のグラフ

小
メモリ消費
大
ロボットのメモリ量

この範囲で問題を解こうとする
¢  利点：単純離散化DPよりも大規模な問題を扱える
¢  ロボットの他に単純離散化DPが実行可能な計算機がある場合に
あえて適用すると発散や性能低下の懸念が増大

12
提案：方策の圧縮
¢  大容量メモリ，高速CPUを有する計算機を使ってDP実行
→ロボットに方策を圧縮実装

性能劣化
格子状に離散化した場合

目標
性能

メモリ消費
ロボットのメモリ量
計算機（PC）のメモリ量

¢  詳細な状態価値関数・方策が既知
l  方策の冗長性等が分かった上でメモリ節約可能

13
研究の目的
¢  方策圧縮の概念を導入
l  状態空間を格子状に離散化して作成した方策を 
圧縮するアルゴリズムの開発
•  格子状の離散化方策＝状態行動地図（地図）

l  状態行動地図の圧縮
• 有限マルコフ決定過程に適したアルゴリズムの提案
• ベクトル量子化を利用[Gersho 92等]
• 方策を得た後に圧縮することの利点を示す


14
本論文で扱う例題
¢  水たまり問題，アクロボットの制御，ロボットサッカー
l  共通点：いずれも有限マルコフ決定過程としてDPで解ける
l  違い：次元，行動の種類，離散化の粒度，冗長性

水たまり問題の地図
アクロボット制御の地図
ロボットサッカーの地図
（２次元）
（４次元地図の抜粋）
（８次元地図の抜粋）


15
発表の構成
l  1章：序論
¢  手法の説明（水たまり問題）
l  2章：状態行動地図の作成
l  3章：状態行動地図の圧縮
l  4章：圧縮率の向上

¢  例題
l  5章：アクロボット
l  6章：ロボカップ

¢  評価
l  7章：比較，議論
l  8章：結論


16
２章：状態行動地図
¢  DPによる作成方法の例を示す

¢  メモリ消費-性能グラフの例を示す
性能劣化

メモリ消費


17
例題：水たまり問題[Sutton]
1
¢  エージェントが水たまりを  0.1
避けてゴールまで移動
l  環境：広さ１×１のxy平面

エージェント
・平面状の点
・行動：上下左右の4種類 
（平均移動距離0.05，ふらつく）

¢  評価関数
l  一歩につき 1[step]
l  水たまりに入った場合：岸からの距離×400[step]
¢  ゴールまでの評価関数の和を最小化するマルコフ決定過程

18
離散化
¢  状態変数：ロボットの位置(x,y)
l  状態空間：2次元
•  状態価値関数，地図も2次元

¢  離散化
(x,y)
l  状態空間をN分割（一辺√
N 区間）
•  S = {s0, s1, s2,..., sN-1} 離散状態
l  行動: A = {上,下,左,右} （最初から量子化されている）

¢  状態遷移（s∈Sで行動a∈A→ s' ∈S に遷移）に対し以下を計算
l  状態遷移確率：Pss'a
l  評価関数：Rss'a DP適用可能になる


19
DP(価値反復アルゴリズム)の適用
¢  状態価値関数V の計算
l  V を適当に初期化（ゴールではV =0）
l  局所演算の繰り返し
•  V(s) := Σ Pss'a [Rss'a + V(s')]

•  状態遷移に対し，遷移先の評価
+価値の期待値を求めて代入

¢  V から方策π の作成
l  π (s) := argmaxa Σ Pss'a [Rss'a + V(s')]

配列上の方策 
=状態行動地図
（実際はバイナリ列）

20
水たまり問題でのDP結果

状態価値
関数
最
割適
10×10 40×40 200×200
当行
動

状態行動 
地図

10×10 40×40 200×200

21
メモリ消費-性能グラフの作成
¢  メモリを多く使うと性能が上がることの一例
¢  シミュレーション手順
l  100万点の初期状態からそれぞれ試行
•  評価（歩数+水たまりの罰）の平均値を取る → その方策の性能

21.8
良い←性能[step]→悪い

10×10 の
21.6
離散化
メモリ消費が指数乗的に増加 
21.4
21.2 →性能は漸近的に向上
202
21.0
20.8 402
20.6 1002 2002
20.4 4002
20.2
20.0
1. 1
10
E+01 1. 2
10
E+02 1. 3
10
E+03 1. 4
10
E+04 1. 5
10
E+05 1. 6
10
E+06
地図のメモリ消費[bit]

22
2章のまとめ
¢  状態行動地図
l  状態空間を格子状に離散化して各離散状態に 
適切な行動を記述した配列

l  離散化を細かくすることで性能を向上させることが 
できる一方，メモリ消費が大きくなる


23
3章：状態行動地図の圧縮
¢  高い圧縮率を得るために不可逆圧縮を適用 
（=地図を変化させる）
l  課題：一つの行動の変化のみで地図全体に影響

到達不可能
（破壊）

¢  ベクトル量子化（VQ）[Gersho 92等]
l  配列状のデータ（映像，音声） 
圧縮に用いられる
l  状態行動地図に適用する利点
•  圧縮したまま任意の離散状態の行動が取り出せる

24
ベクトル量子化（VQ）
¢  手順
1.  配列を均等に切ってブロック（ベクトル）を作成
2.  似たベクトルを分類（クラスタリング）
•  「歪み測度」でベクトルの差異を数値化
3.  各クラスタのベクトルを代表ベクトルで置き換え
•  「歪み測度」が最小になる代表ベクトル

1 2 3
1 2 3
圧 2 0 3
0 0 0 0 0 1
再
縮

0 0 0 0
1 0 0 1 生
0 1 0 1 0 0
2 0 1 0
3 1 0 0

例）２値画像の圧縮・再生
データの変化

ü 状態行動地図の場合，歪み測度の定義が難しい

25
状態価値歪みの提案
¢  状態価値関数を使用して歪み測度を定義
l  d(s,a) = V(s) - Σs' Pss'a [Rss'a -V(s') ]
•  地図中の状態sの行動が別の行動aに変わった場合の価値の減少
l  地図の歪み： d(s,a) の総和
等価な行動
地図上の行動

状態価値関数
変換に適さない行動

ü 状態価値歪みを最小化するように地図を変化させる

26
状態価値歪みを利用したVQ
クラスタリング・ 
地図を分割
代表ベクトル計算
（ブロック化・（状態価値歪み最小化）
ベクトル化）
※一対法による最近傍
ベクトル数：100 クラスタリング [Equitz 89]
代表ベクトル数：Nc = 50 Nc = 10 Nc = 4

圧縮
圧縮
圧縮

圧縮地図 
の作成

各ベクトルの同一番目の要素が
博士論文審査
行動決定上の「同じ状態」とみなされる
2007年2月9日

27
圧縮地図のビット数計算

100×4個の行動の配列：符号帳 
100×4×2 = 800[bit]

代表ベクトルの配置：量子化テーブル 
100×2 = 200[bit]
圧縮地図

¢  メモリ消費
l  圧縮前：1002×2 = 20000[bit]
l  圧縮後：1000[bit]
l  圧縮率：0.05


28
3章まとめ
¢  VQで作成された圧縮地図は 
符号帳と量子化テーブルで構成される

¢  状態価値関数から歪み測度（状態価値歪み）を定義
l  行動の変化がタスクに与える影響を考慮して 
地図を不可逆圧縮


29
５章：アクロボットの振り上がり
¢  アクロボット
目標の高さ

l  劣駆動ロボットの一種[美多 00]

1.9[m]
¢  振り上がりタスク（height task）
重力
l  目標の高さまで最小時間で 
ロボットを振り上げ

¢  地図中の隣接状態の行動（トルク）
トルクは 
が異なっている割合が大きい
リンク1
第二関節のみ
（1m）

リンク2
（1m）


30
パラメータ設定・DPの適用
¢  [Sutton 98]より
. .
l  θ1 θ2 θ1 θ2 空間の定義
. .
θ1

•  角速度に制限：|θ1| < 4π, |θ2| < 9π [rad/s] τ

l  行動（トルク τ）
θ2

•  -1,0, or 1[Nm]に限定
•  周期: 0.2[s]
両リンクのパラメータ  
¢  離散化
[Sutton 98]
• 長さ: 1m
l  各軸を10[deg] or 10[deg/s]毎
• 重量: 1kg
•  30,233,088状態に離散化
• 重心: リンク中央
• 慣性モーメント: 1kgm2

¢  1.5GHz CPUで17時間計算

31
作成した地図
.
θ1

黒：1[Nm] 720[deg/s] 144×324分割
白：-1[Nm]
灰：0[Nm] -1620 1620 .
θ2

-720
θ
180[deg] 1

36×18分割

θ2

0[deg] 360[deg]


32

地図の圧縮
¢  手順
1.  地図をθ1，θ2 軸に垂直に切断
•  4D地図→648個の2Dベクトル
2.  Nc個のクラスタに分類
•  一般化Lloydアルゴリズム[Lloyd 82]を使用
•  状態価値歪みを利用

648 ブロック


33
圧縮地図（代表ベクトル数：Nc=16）


34
圧縮地図（代表ベクトル数：Nc=1）

¢  角速度のみを考慮した2次元状態行動地図
l  圧縮により4次元地図から2次元地図が生成

¢  圧縮率：0.0015

35
圧縮地図によるアクロボットの動作
¢  低角速度のとき
l  順方向にトルクを加える
•  振り子運動
¢  高角速度のとき
l  逆方向にトルクを加える
•  まっすぐになろうとする

振りあがるための動作が 
保存されている

36

性能評価シミュレーション
¢  手順
損失：2.44[s]
圧縮率：0.0015
l  14,167通りの初期状態から試行
•  初期位置を3[deg]刻みで選択
•  初期速度はゼロ
Nc=1
Nc=16

¢  評価指標

時間消費[s]
l  タスク終了までの平均時間
圧縮前の 
l  角速度の制限超過→失敗
地図
※全試行で成功


37
5章のまとめ
¢  状態行動地図の作成
l  計算時間：17 時間（1.5GHz CPU）

¢  圧縮地図
l  圧縮率0.0015で2.44[s] の時間ロス

¢  4次元地図を2次元に落とした


38
６章：ロボットサッカー

¢  ロボット研究の標準問題
l  ロボカップ4足ロボットリーグ

¢  DPにとって大規模な問題への手法適用
l  2台のロボットの行動の同時計画

¢  ロボットのメモリ量（16[MB]） 
を超える状態行動地図の圧縮
使用されるロボット：ERS-210


39
2台のロボットによる得点タスク 
（シミュレーション）
¢  ロボット2台（ERS-210を仮定）
が最少時間で得点する地図を作成

シュ
ート

l  ロボットは自己の位置・向き，ボールの位置を計測
→無線LANで情報交換
（行動決定より高頻度，遅れなし）


40
有限マルコフ決定過程化，DP実行
¢  状態空間（8次元）
l  各ロボット位置・向き
l  ボール位置
l  610,829,100状態に離散化

¢  ロボットの行動： 73通り
l  2台の行動の組み合わせ
•  各ロボット：歩行14種類・飛距離2[m]のキック3種類

¢  評価関数：行動ごとに1[step]
¢  10日間計算（Pentium D 3.2GHz）
Fig. 歩行行動


41
得られた状態行動地図による行動例

¢  ゴールまでの歩数減少のための工夫が見られる
l  同時に２台のロボットがボールを蹴りに行かない
l  縦パスのような行動
•  ボールを蹴るロボットと受け手となるロボットの役割分担

圧縮後の地図も歩数減少に寄与する行動を保持できるか？


42
ベクトル量子化の適用
¢  状態行動地図（610,829,100要素，8次元）
を8.2[MB]まで圧縮
¢  計算時間： Lloydアルゴリズムで21時間（Pentium D 3.2GHz）

¢  蹴る順番や回数が変化
l  （良く解釈すれば）メモリ量減少に対して
2台のロボットの行動則が柔軟に変化している

43

圧縮前後の地図の定量的比較
¢  1万の初期状態からシミュレーション
¢  比較対象
l  1) 状態行動地図（圧縮前） 
2) 圧縮地図 
3) 他機を無視（自己位置+ボール位置の5次元地図）
l  平均ステップ数
l  タスク成功率（失敗の例：デッドロック）
平均step数
成功率
圧縮前
37.5 [step] 97.4% l  ステップ数が増加→劣化
圧縮地図
40.4 [step] 97.4% l  成功率は減少せず
他機を無視
42.8 [step] 93.8% →デッドロックは増加しない


44

6章のまとめ

¢  42億[bit]（500[MB]）の状態行動地図を作成

¢  圧縮率0.016までVQ圧縮
l  2.9[step]の劣化
l  圧縮によるデッドロックの増加はほとんどない


45
7章：評価と議論
①  圧縮結果のまとめ

②  状態価値歪みの評価
l  他に有効な歪み測度の定義はないか？？
l  各例題における状態価値歪みの性質

③  本手法と他手法の比較
l  地図を得るまでの計算時間
l  圧縮率
l  性能

46
① 圧縮結果のまとめ
¢  水たまり問題のメモリ消費-性能グラフ
21.8
性能（歩数+水たまり）[step]

21.6
青：状態行動地図（圧縮前）
21.4 オレンジ：10×10地図からの圧縮地図
21.2 赤：40×40地図からの圧縮地図
21.0 緑：400×400地図からの圧縮地図
20.8
20.6
20.4
20.2
20.0
101
1.
E+01 102
1.
E+02 103
1.
E+03 104
1.
E+04 105
1.
E+05 106
1.
E+06


¢  以下のような圧縮地図が得られていることを確認
l  粗い非圧縮地図と同性能でメモリ消費が小さい
l  粗い非圧縮地図と同じメモリ消費で性能が良い

47

¢  アクロボットのメモリ消費-性能グラフ

粒度の細かい地図から
青：状態行動地図（圧縮前）
得られた圧縮地図
16
赤：圧縮地図
14
12
時間消費[s]

10 粒度の粗い
8 地図
6 1:0.0031
4
2
0
104 105 106 107 108 109

¢  DPで離散化が粗いと性能が落ちる

¢  DPで細かく離散化して圧縮することが有効な例

48
② 状態価値歪みの評価
¢  他に考えられる歪み測度の定義
l  変化数歪み（change count distortion）
•  圧縮により変化した行動の個数を歪みと定義

l  制御入力歪み（control input distortion）
•  行動（制御入力）のパラメータ空間での距離を歪みとする
•  水たまり問題：移動距離の差
•  アクロボット：トルクの差


49
比較結果
21.1 青:状態価値歪み
18
赤:変化数歪み
20.9 緑:制御入力歪み
16
性能 [step]

時間[秒]
20.7 14

20.5 12

20.3 10
103 104 105 106 107 108
メモリ消費[bit] メモリ消費[bit]
水たまり問題 (離散化：N =1002) アクロボット

歪み測度
平均step数
成功率
状態価値歪み
41.5 [step] 97.4%
ロボカップの得点タスク
変化数歪み
42.0 [step] 98.1%

50
行動価値歪み評価のまとめ
¢  状態価値歪みに汎用性，他と同等以上の効率維持

¢  ３つの例題を比べると水たまり問題で特に有効
l  状態価値歪みは水たまりに入る行動を強く抑制できる
•  最大の状態価値歪み：40[step]程度と，
タスクを通じて得られる評価（21[step]程度）と比較して大きい
l  他の例題の場合
•  アクロボット：各状態価値歪み（タイムロス）は
タスクにかかる時間と比較して大きくない
•  得点タスク：限界まで圧縮していない
状態価値歪みには，圧縮率を高くした際に，
不利な行動選択をなるべく抑制する働きがある

51
③ 他手法との比較
¢  良く用いられる手法を水たまり問題で比較
l  DPの計算時間も比較

l  状態価値関数の表現の工夫
•  タイルコーディング[Watkins 89, Sutton 95, Albus 71, ...]
•  内挿

l  方策圧縮
•  木構造を用いた圧縮
•  [Munos 98, 02]の方法を方策圧縮に応用


52
状態価値関数の表現の工夫
¢  タイルコーティング
l  数種類の離散化方法をずらして重ねる
離散状態の合計数よりも多くの
擬似離散状態を作成できる
l  適用方法
•  各格子空間（5枚）に対してDPを実行
タイルコーティング
•  ある状態の価値は5枚の価値関数の平均値

¢  内挿
l  離散的な状態価値関数を 
内挿
平滑化


53
状態価値関数のメモリ消費-性能グラフ
※状態価値関数からの行動決定法： 

モンテカルロ法（100サンプル）による価値予測
21.4
21.2 赤：TC上の状態価値関数
21.0 オレンジ：内挿した状態価値関数
性能 [step]

青：単純な配列上の状態価値関数
20.8

※価値は16ビット表現
20.6 黒：圧縮前の状態行動地図

20.4
20.2
102 103 104 105 106 107
メモリ消費[bit]
¢  TCや内挿では工夫に見合った性能が得られない
l  適用方法を改良しないとメモリ消費に関しては無駄 
→問題依存，実装依存

54
DPの計算時間-性能グラフ
21.4 赤：TC上の状態価値関数
21.2 オレンジ：内挿した状態価値関数
青：単純な配列上の状態価値関数
21 黒：圧縮前の状態行動地図
性能 [step]

20.8
タイルコーティング
20.6 （2102 4枚＋2002 1枚）
計算時間：3480[s]
20.4
20.2 通常のDP（N =4002 ）
10-1 100 101 102 103
計算時間[s] 計算時間：1260[s]

¢  TCをDPに適用すると計算量が大きくなる
l  理由：状態遷移の計算が複雑になるため
•  離散状態の形状が均一でなくなる
2007年2月9日
博士論文審査

55 ノード
木構造による方策表現
枝（ブランチ）

¢  2分木で方策を表現（2分木地図）
葉（リーフ）
l  状態空間の2分割と行動の割り当て 
を繰り返し，離散状態の粒度を可変に

状態価値 
歪み計算

歪み最大の
領域を分割
状態価値関数
277分割
1913分割


56
2分木地図とVQ圧縮地図の比較結果
21.8
21.6
21.4 VQ圧縮地図（赤）
21.2 2分木地図（黒）
性能 [step]

21.0 非圧縮状態行動地図（青）
20.8
20.6
20.4
20.2
20.0
1. 1 1. 2 3 E+044 E+055 E+066
10
E+01
10
E+02
10
1.
E+03
10
1.
10
1.
10
1.

¢  木構造による方策圧縮は詳細な状態価値関数が必要
l  正確な状態価値関数なしで良い分割方法を発見することは困難
l  DPの段階で分割することは難しい

¢  木構造は，自身の構造の表現にメモリを多く消費
博士論文審査
l  離散状態の分割数は少ないがメモリ消費はVQと同等
2007年2月9日

57
圧縮地図作成のための計算量
圧縮に DPを含め容量
同効率の地図（20.31[step]）
かかる時間
た時間
VQ地図 (N =2002, Nc = 36) 33[s]
124[s]
9676[bit]
- PNN→Lloyd→再圧縮
２分木地図 (N =4002, 1913分割)
30[s]
1296[s]
12240[bit]

¢  時間計算量
l  O(MNN' ) 　（N' ：状態遷移先の数）
l  VQのアルゴリズム
•  PNN：O(MN 3/ Nε2 )，Lloyd： O(NNc )
l  2分木圧縮：O(MN )
¢  VQは粗い地図からも適用可能なため，
DPを含めた計算時間を考えると木構造より有利

58
８章：結論
¢  方策圧縮の概念を導入（3章）
l  動的計画法（DP）で作成された状態行動地図を， 
ベクトル量子化（VQ）で圧縮する手法を開発
•  状態価値歪みの導入（＝状態価値関数の利用）
•  地図の変化時に適切な代替行動を割り当て
•  高い圧縮率でも不適切な行動を抑制

¢  ロボットのメモリ量を超える地図の圧縮（6章）
l  6億状態の地図を圧縮し，デッドロックを増加させずに
ERS-210のメモリ搭載量（16[MB]）より小さな（8.2[MB]）
圧縮地図を作成


59
結論（続き）
¢  他手法との比較・方策圧縮の概念の有効性（3,5,7章）
l  状態価値関数の表現の工夫によるメモリ量削減は，
以下の点で不利（水たまり問題の場合）
•  得られる方策の性能が低い
•  状態遷移の計算が複雑になり，計算量が増加する場合がある

l  木構造による方策圧縮は詳細な状態価値関数が必要
•  正確な状態価値関数なしで最適な分割方法を発見することは難しい
→DP後のVQ圧縮の有効性


60
今後の展望
¢  実機実験

¢  メモリ消費-性能-計算時間グラフで方策を3元評価
l  探索手法も統一的に評価できる

性能

時間
計算

メモリ消
費


61
今後の展望（続き）
¢  身体性に関する話題との関連づけ
l  身体性=制御問題や行動決定問題を 
　　　　　簡単にすること

¢  強化学習への応用


62
参考資料


63

アクロボットに関する従来研究
¢  強化学習 [Sutton 96]
l  ダイナミクスが未知の場合
l  全状態空間で解を作成することは困難

¢  解析的手法 [Spong 94,95]

l  力学的エネルギーを考慮した動作設計 [Xin 02,04]
¢  数値計算
l  力学的エネルギーを考慮したDP [Boone 97]

ü  ヒューリスティックを用いず動的計画法で解いた例が 
　見られないが，可能であると考えられる


64
VQ地図の再最適化
¢  符号帳の内容を価値反復によって書き換え

c0 再計算
c1
c2
符号帳（書き換える）
00111222222222000000
量子化テーブル（そのまま）
状態価値関数
VQ地図
符号帳更新

再最適化
修復


65
VQ地図の圧縮
¢  各代表ベクトルには冗長性が残る
→もう一度のベクトル量子化（可逆圧縮）でサイズ減少
¢  例
一度目の 
VQ

二度目の 
VQ
VQ地図

l  圧縮前: 2*202=800[bit]
l  VQ圧縮: 2*20 + 3*2*20 = 160[bit] (1:0.2)
l  再VQ圧縮: 2*20 + 3*20 + 2*21 = 142[bit] (1:0.18)


66
ボールへの接近タスク

攻撃方向

¢  行動決定の目的
l  ボールに触れず最小歩数でボールに到達
l  相手ゴール向きでボール確保

¢  フィールドのサイズ：4.2×2.7[m] Fig. 歩行行動
¢  行動：移動量固定の歩行（38種類）


67
価値反復の適用
¢  765,450状態に離散化（終端状態：8,175状態）
l  ロボットの位置・姿勢
•  位置(x, y)：21×15に分割，方向θ：18分割
l  ロボットからのボールの位置
•  距離方向r :9分割，角度方向ϕ :15分割
¢  終端状態の設定
l  条件１: 150 ≤ r < 250[mm]
l  条件２： |ϕ | ≤ 35[deg]

l  条件３： |θ | ≤ 40[deg] or
ロボットから見たゴールの 
方向が40[deg]以内


68
価値反復結果
¢  状態価値関数が全く変化しなくなるまで計算
l  収束までの時間:1.3×103[s]（Pentium4 3.6 GHz）

ゴール
終端状態
ボール
Fig. 地図の一部 (フィールド上の各位置でロボット
がボールの方向を向いているときの行動)


69
圧縮
¢  ５次元の状態行動地図を405状態を含むブロックに分割
¢  一対法による最近傍クラスタリングアルゴリズム[Equitz 89]で
圧縮
l  計算時間：54分（Pentium4 3.6 GHz）, 圧縮率：0.015[%]

Fig. VQ地図の一部 (単純化が見られる)


70
得られる行動の例


71
実機実験
¢  圧縮前後の地図を比較
¢  右図の3通りの初期状態から 
タスク成功までの歩数を計測
ロボットの初期位置
l  タスク成功：終端状態後， 
ロボットに前進させて 
ボールが前に転がった場合

¢  各初期状態から50回試行

l  歩数の平均値
l  成功率


72
実機実験結果

圧縮前
圧縮後
成功率
歩数
成功率
歩数
条件1 100[%] 21.1 100[%] 21.1
条件2 96[%] 30.0 94[%] 29.2
条件3 68[%] 28.5 68[%] 27.2

¢  圧縮率0.015まで圧縮されたVQ地図で同等の性能
l  実機では自己位置推定やボール位置の計測ミス等， 
他の要因の方が支配的
•  計画に必要な離散化と利用時に必要な離散化の粒度が異なる


73
４章：圧縮率の向上
¢  圧縮率，効率を向上させる手法群の提案
l  良いベクトル化方法を見つけるための 
情報エントロピー関数

l  他
•  VQ地図のための価値反復
•  VQ地図の圧縮
•  パーティショニング


74
ベクトル化（地図の分割方法）の選定方法
ベクトル
ベクトル

良い例
悪い例

¢  上記の良し悪しを数値化できないか
→エントロピーによる事前評価
l  情報エントロピー関数 H = -Σ i=1...M P(Xi) log2 P(Xi)　
（Xi, i=1,2,...M:事象）


75
エントロピーの計算方法
ベクトル
ベクトル

¢  要素ごとに行動の偏りを
エントロピーHとして計算
→平均Hを求める

・・・
¢  Hが小さい
ー
ー

ー

計計計
算算算 l  分布に偏りが存在し，
圧縮に有利と考えられる

平均をとる


76
４章のまとめ
¢  圧縮に適したベクトルを作成するために
エントロピー関数を導入

¢  使用は５章，６章，７章で行う


77

各軸で垂直に地図を切って
ベクトルを作成した場合のエントロピー
. .
軸 θ1

θ2

θ1

θ2

H
0.66
0.79
0.84
0.87

各軸で垂直に地図を切ってベクトルを作成した場合のエントロピー

軸
x1

x2

y1
y2
θ1

θ2

r

ϕ

H
1.08
1.41
0.95
1.19
1.59
1.90
1.79
2.08


78
研究の目的（つづき）
¢  複数の例題で開発手法を評価
l  メモリ消費-性能グラフの左側に 
評価点が来ることを確認する
性能劣化

圧縮

圧縮

メモリ消費


79
各例題での圧縮率と冗長性の関係
圧縮率
隣接状態の冗長性
（行動が同じである確率）
水たまり問題（N=4002）
0.016
97%
アクロボット
0.0015
61%
得点タスク
0.016
34%

¢  隣接状態の冗長性と圧縮率の関連性は見られない
l  隣接状態の冗長性を減らす手法との違い
¢  状態空間を構成する軸の一つが冗長であればよい
l  アクロボット： θ1軸， θ2軸

l  得点タスク：ボールから遠い方のロボットの位置


博士論文本審査スライド

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Similar to 博士論文本審査スライド

Similar to 博士論文本審査スライド (20)

More from Ryuichi Ueda

More from Ryuichi Ueda (20)

Recently uploaded

Recently uploaded (12)

博士論文本審査スライド