SlideShare a Scribd company logo
1 of 17
Download to read offline
Gunosy Inc.
吉田 宏司
2017.4
Gunosy DM #118
1.5 部分観測マルコフ決定過程と強化学習
2©Gunosy Inc.
この資料について
Gunosyデータマイニング研究会 #118 https://gunosy-dm.connpass.com/event/54124/
の発表資料です
これからの強化学習の1.5節についての内容です
3©Gunosy Inc.
1.5節でやること
前節までで扱っていたMDP(マルコフ決定過程 : Markov Decisioll Process)は、エージェン
トが状態を完全に観測可能であると仮定していた
しかし、実問題では、センサの性能不足やノイズなどから、状態の観測は不確実(部分的)と
なってしまう
● エージェントから見ると同一の状態でも、実際には異なった状態が存在するため、
エージェントから見るとマルコフ性を仮定出来なくなる
本節では、この不確実性を考慮したPOMDP(部分観測マルコフ過程 : Patially Observable
Markov Decisioll Process)における強化学習について学ぶ
4©Gunosy Inc.
Kaelbingらの部分観測マルコフ決定過程の定義
● <S, A, T, R, Ω, O> の組
— S : 状態集合
— A : 行動集合
— T : 状態遷移関数(状態遷移確率を記述する関数)
● T(s, a, s’) = P(s’ | s, a)
— R : 報酬集合
— Ω : 観測集合(エージェントの観測を要素にもつ有限な集合)
— O : 観測関数(エージェントの観測を記述する関数)
● O(s’, a, o) = P(o | a, s’)
● o : sの部分的な観測
部分観測マルコフ決定過程の定義
5©Gunosy Inc.
野鳥の保護に対するPOMDPの適用可能性の検討
● 状態 : 巣らしき場所に取りが住んでいるか・いないか
● 行動 : 調査活動を行うか・通常の行動を行うか
— 調査にはコストがかかる
— 通常の行動は利益が出るが、野鳥がいるのに通常の行動を取ると大きな不利
益が出る
● 制約 : 観測を行っても、巣らしき場所に鳥がいるのかどうかは確実ではない
部分観測マルコフ決定過程の応用事例
6©Gunosy Inc.
環境に対するモデルの事前知識の利用有無の観点
● 有 : モデルベースド
— モデル(状態遷移確率や観測関数)を推定してから、方策を学習する
● 無 : モデルフリー
— モデル推定なしに、方策を学習する
— Q-learning等
価値や方策を求めるタイミングの観点
● オンライン
— 価値・方策を求めながら、その時点で得られた方策を実行していく
● オフライン
— 価値・方策を求めてから、得られた方策を実行していく
部分観測マルコフ決定過程下の強化学習の解法の分類
7©Gunosy Inc.
『信念状態とは、どの状態にいるかを表す確率を並べてつくる「状態」である.』
● 信念 b は状態空間 S 上の確率分布
● b(s) ∈ [0,1] は環境が状態 s ∈ S にいる確率
信念状態
8©Gunosy Inc.
2つのドアのどちらかを開けるとトラがいて、ドアを開けるたびにトラは移動する
● 状態
— s_l : 左のドアにトラがいる
— s_r : 右のドアにトラがいる
● 報酬
— ドアを開けて、トラがいると大きな負の報酬
— いないと正の報酬
● 行動
— left : 左のドアを開ける
— right : 右のドアを開ける
— listen : 音を聞く
信念状態の例Tiger
9©Gunosy Inc.
信念状態の例Tiger
10©Gunosy Inc.
belief update(信念状態の更新 )
信念状態 b は、POMDPの要素である、状態遷移関数 T 、観測関数 O を用いて更新でき
る
● 状態遷移関数 : T(s, a, s’) = P(s’ | s, a)
● 観測関数 : O(s’, a, o) = P(o | a, s’)
11©Gunosy Inc.
信念状態 b を状態と考えれば、POMDPはMDPのように扱うことができるようになり、この
MDPをbelief MDPと呼ぶ
● エージェントにとって信念は既知のため、belief MDPは部分観測ではなくなる
● <B, A, τ, r > の組
— B : 信念状態空間
— A : 行動集合
— T : 状態遷移関数
— R : 報酬関数
● 信念は無限に存在しうるので、belief MDPは連続状態空間上に存在する
— 計算が大変
belief MDP
12©Gunosy Inc.
モデルベースドな手法 = 状態信念空間上のMDPのモデルが分かっているとして、行動価値
や方策を求める手法
● 以下について紹介する
— belief MDP上の価値関数の表現
— exact value iteration(価値関数を求める厳密解法)
— Point-Based Value Iteration(PBVI、価値反復の近似解法)
— Point-Based Policy Iteration(PBPI、方策反復の近似解法、省略されてる)
モデルベースドな手法
13©Gunosy Inc.
belief MDP上の価値関数の表現
価値反復法 = 繰り返し計算でベルマン最適方程式の解を求める手法
● 式(1.5.5) : 状態価値関数に関するベルマン最適方程式
● 式(1.5.6) : 価値反復法で行うバックアップという操作
● 式(1.5.7), (1.5.8) : belief MDP版
14©Gunosy Inc.
belief MDP上の価値関数の表現(αベクトルを使用)
価値関数 V(s) は、信念状態 b(s) と s の価値関数を表す α ベクトルの線形和で表される
(ことが知られている)
● (直感的には)信念状態空間の中央付近は、エージェントが状態観測が上手くいって
いない状況なので、適切な行動選択ができず、価値関数は低くなり、下に凸となる
15©Gunosy Inc.
(よく分かっていない)αベクトル数が指数的に増えてしまう
● 「直感的には、現在知っている深さ k 以下の行動決定木に対応する α ベクトルをも
とにして、新しい根ノードを組み合わせることで深さ k+1 の行動決定木に対応する α
ベクトルのすべてを生成するプロセスと捉えることができる」
exact value iteration(価値関数の厳密解法)
16©Gunosy Inc.
Point-Based Value Iteration(価値関数の厳密解法)
PBVI = 計算量を減らすために、信念状態空間 B の部分集合においてのみ価値反復を行う
手法
● ある一つの信念状態 b に関する backup(b) を用いて、αベクトルを更新する
17©Gunosy Inc.
強化学習とは?(What is Reinforcement Learning?)
強化学習 その4
部分観測マルコフ決定過程 - Wikipedia
参考文献

More Related Content

Viewers also liked

“確率的最適化”を読む前に知っておくといいかもしれない関数解析のこと
“確率的最適化”を読む前に知っておくといいかもしれない関数解析のこと“確率的最適化”を読む前に知っておくといいかもしれない関数解析のこと
“確率的最適化”を読む前に知っておくといいかもしれない関数解析のことHiroaki Kudo
 
記事分類における教師データおよびモデルの管理
記事分類における教師データおよびモデルの管理記事分類における教師データおよびモデルの管理
記事分類における教師データおよびモデルの管理圭輔 大曽根
 
Gunosy における AWS 上での自然言語処理・機械学習の活用事例
Gunosy における AWS 上での自然言語処理・機械学習の活用事例Gunosy における AWS 上での自然言語処理・機械学習の活用事例
Gunosy における AWS 上での自然言語処理・機械学習の活用事例圭輔 大曽根
 
論文紹介@ Gunosyデータマイニング研究会 #97
論文紹介@ Gunosyデータマイニング研究会 #97論文紹介@ Gunosyデータマイニング研究会 #97
論文紹介@ Gunosyデータマイニング研究会 #97圭輔 大曽根
 
マイクロサービスとABテスト
マイクロサービスとABテストマイクロサービスとABテスト
マイクロサービスとABテスト圭輔 大曽根
 
WebDB Forum 2016 gunosy
WebDB Forum 2016 gunosyWebDB Forum 2016 gunosy
WebDB Forum 2016 gunosyHiroaki Kudo
 
いまさら聞けない機械学習の評価指標
いまさら聞けない機械学習の評価指標いまさら聞けない機械学習の評価指標
いまさら聞けない機械学習の評価指標圭輔 大曽根
 
Apache Kuduは何がそんなに「速い」DBなのか? #dbts2017
Apache Kuduは何がそんなに「速い」DBなのか? #dbts2017Apache Kuduは何がそんなに「速い」DBなのか? #dbts2017
Apache Kuduは何がそんなに「速い」DBなのか? #dbts2017Cloudera Japan
 

Viewers also liked (8)

“確率的最適化”を読む前に知っておくといいかもしれない関数解析のこと
“確率的最適化”を読む前に知っておくといいかもしれない関数解析のこと“確率的最適化”を読む前に知っておくといいかもしれない関数解析のこと
“確率的最適化”を読む前に知っておくといいかもしれない関数解析のこと
 
記事分類における教師データおよびモデルの管理
記事分類における教師データおよびモデルの管理記事分類における教師データおよびモデルの管理
記事分類における教師データおよびモデルの管理
 
Gunosy における AWS 上での自然言語処理・機械学習の活用事例
Gunosy における AWS 上での自然言語処理・機械学習の活用事例Gunosy における AWS 上での自然言語処理・機械学習の活用事例
Gunosy における AWS 上での自然言語処理・機械学習の活用事例
 
論文紹介@ Gunosyデータマイニング研究会 #97
論文紹介@ Gunosyデータマイニング研究会 #97論文紹介@ Gunosyデータマイニング研究会 #97
論文紹介@ Gunosyデータマイニング研究会 #97
 
マイクロサービスとABテスト
マイクロサービスとABテストマイクロサービスとABテスト
マイクロサービスとABテスト
 
WebDB Forum 2016 gunosy
WebDB Forum 2016 gunosyWebDB Forum 2016 gunosy
WebDB Forum 2016 gunosy
 
いまさら聞けない機械学習の評価指標
いまさら聞けない機械学習の評価指標いまさら聞けない機械学習の評価指標
いまさら聞けない機械学習の評価指標
 
Apache Kuduは何がそんなに「速い」DBなのか? #dbts2017
Apache Kuduは何がそんなに「速い」DBなのか? #dbts2017Apache Kuduは何がそんなに「速い」DBなのか? #dbts2017
Apache Kuduは何がそんなに「速い」DBなのか? #dbts2017
 

Gunosy DM #118 1.5 部分観測マルコフ決定過程と強化学習