More Related Content
More from Ryuichi Ueda (20)
確率ロボティクス第八回
- 13. Sarsa
• 方策ON型TD学習
• 行動価値を学習
– Q(s,a) ← (1-a)Q(s,a) + a[r + gQ(s',a')]
• 手順
– Q(s,a)を初期化
– eグリーディ方策等から行動aを選択
– 行動aをとり、s'に移った後、次の行動a'を選択
– 上の式でQ(s,a)を更新
Oct. 7, 2015 確率ロボティクスと移動ロボットの行動生成 13
- 14. Q学習
• 方策オフ型TD学習
• 次の式を使う
• Q(s,a) ← (1-a)Q(s,a) + a[r + gmaxa'Q(s',a')]
• eグリーディ方策を使っても非グリーディな行動が
価値関数に影響を与えない
Oct. 7, 2015 確率ロボティクスと移動ロボットの行動生成 14
- 15. 課題
• 次のページの問題について、プログラムを
組むか、紙に解法を書いて提出のこと
– 期日: 14回目の講義前まで
– 提出方法(紙の場合): 上田まで
• 学籍番号と名前を記載のこと
• (TeXなりWordなり手書きなりなんでも)
– 電子データの場合
• 電子メールに学籍番号と名前を明記の上、
コードとREADMEのありか(GitHub等)を教えてください
• コードを固めて送って頂いても構いません
• READMEには、アルゴリズムの概説と実行方法を
Oct. 7, 2015 確率ロボティクスと移動ロボットの行動生成 15
- 16. 問題
• 以下のようなタスクを考えます
• 状態:エージェントはどこかの状態にいます(5状態)
– Sgはゴールです。この状態に入るとタスクが終わります
• 行動: エージェントは、行動として「右」か「左」を選びます。
その後、サイコロ(つまり1〜6の一様乱数)の数だけ右あるいは
左の状態に移動します。
– 端ではその状態に留まります
• 報酬(制御の目的): -1x行動数(つまり行動の回数を最小に)
• 問題: 各行動価値関数をなんらかの方法で解いてみましょう
Oct. 7, 2015 確率ロボティクスと移動ロボットの行動生成 16
Sg
ゴール
S1 S2 S3 S4