SlideShare a Scribd company logo
1 of 162
Download to read offline
안.전.제.일. 강화학습!
이동민
1st 함께하는 딥러닝 컨퍼런스
Jun 28, 2018
이동민
• 한양대학교 컴퓨터공학 전공
• RLI Study 리더
- 2017.12 : 김성훈 교수님의 ‘모두의 RL’
- 2018. 1 ~ 3 : ‘파이썬과 케라스로 배우는 강화학습’
- 2018. 4 ~ 6 : ‘Reinforcement Learning: An Introduction’
written by Richard S. Sutton and Andrew G. Barto
• RL KOREA, 피지여행 프로젝트
- REINFORCE 부터 PPO 까지 7개의 논문 정리
요즘 연애하느라 잠을 많이 못자고 있습니다..
강화학습과 연애중입니다! ㅎㅎㅎ
(밀당을 엄청 잘하더라구요..)
그리고 어릴 때부터 친했던 친구를 소개해드리겠습니다!
그래도 알고 보면 재미있는 친구입니다.
너무 미워하지 말아주세요!
수학입니다..!
그래서 저는 강화학습에 나오는 이론과 수식을 굉장히 좋아합니다!
1. What is Artificial Intelligence?
2. What is Reinforcement Learning?
3. What is Artificial General Intelligence?
4. Planning and Learning
5. Safe Reinforcement Learning
안.전.제.일. 강화학습!
Outline
1. What is Artificial Intelligence?
2. What is Reinforcement Learning?
3. What is Artificial General Intelligence?
4. Planning and Learning
5. Safe Reinforcement Learning
Outline
제가 왜 강화학습을 공부하는지
or
왜 강화학습을 알아야 하는지
1. What is Artificial Intelligence?
2. What is Reinforcement Learning?
3. What is Artificial General Intelligence?
4. Planning and Learning
5. Safe Reinforcement Learning
Outline
최근에는 어디에 집중하고 있는지
What is Artificial Intelligence?
딥러닝을 공부하다가 문뜩 이런 생각을 하게 되었습니다.
‘나는 이 분야를 왜 공부할까?’, ‘단지 학습되는 것이 재밌기 때문일까?’,
‘AI의 궁극적인 목적은 무엇일까?’,
’이 분야에 계시는 분들은 왜 AI에 대해서 공부하고 연구할까?’,
‘이 분야에서 내가 할 수 있는 것은 무엇일까?’
그래서 많은 자료를 찾아보던 중에
Reference
- YouTube 영상
https://www.youtube.com/watch?v=eKA4EPpLCIU&t=871s
- SlideShare 자료
https://www.slideshare.net/NaverEngineering/deepmind-starcraft-ii-ai
NAVER AI Research Engineer이신 송호연님의 영상과 자료를
6개월 동안 보면서 이 분야에 대해 많은 생각을 하게 되었습니다.
인공지능에 대한 3가지 정의
출처 : Deepmind StarCraft 2 AI
이미지 출처 : https://www.slideshare.net/NaverEngineering/deepmind-starcraft-ii-ai
인공지능에 대한 3가지 정의
출처 : Deepmind StarCraft 2 AI
이미지 출처 : https://www.slideshare.net/NaverEngineering/deepmind-starcraft-ii-ai
출처 : Deepmind StarCraft 2 AI
이미지 출처 : https://www.slideshare.net/NaverEngineering/deepmind-starcraft-ii-ai
The Turing Test
The Turing Test
출처 : Deepmind StarCraft 2 AI
이미지 출처 : https://www.slideshare.net/NaverEngineering/deepmind-starcraft-ii-ai
인공지능에 대한 3가지 정의
출처 : Deepmind StarCraft 2 AI
이미지 출처 : https://www.slideshare.net/NaverEngineering/deepmind-starcraft-ii-ai
Model of The Mind
출처 : Deepmind StarCraft 2 AI
이미지 출처 : https://www.slideshare.net/NaverEngineering/deepmind-starcraft-ii-ai
인공지능에 대한 3가지 정의
출처 : Deepmind StarCraft 2 AI
이미지 출처 : https://www.slideshare.net/NaverEngineering/deepmind-starcraft-ii-ai
‘너무 추상적인데..좀 더 명확한 정의가 없을까?’
인공지능에 대한 3가지 정의
출처 : Deepmind StarCraft 2 AI
이미지 출처 : https://www.slideshare.net/NaverEngineering/deepmind-starcraft-ii-ai
Optimal Decision Maker
출처 : Deepmind StarCraft 2 AI
이미지 출처 : https://www.slideshare.net/NaverEngineering/deepmind-starcraft-ii-ai
Optimal Decision Maker
출처 : Deepmind StarCraft 2 AI
이미지 출처 : https://www.slideshare.net/NaverEngineering/deepmind-starcraft-ii-ai
‘나도 지능을 얻을 때 어떠한 환경이 있었고,
그 환경과 계속 상호작용하면서
특정한 값(or anything good)을 최대화하는 것 같은데..?!’
Optimal Decision Maker
출처 : Deepmind StarCraft 2 AI
이미지 출처 : https://www.slideshare.net/NaverEngineering/deepmind-starcraft-ii-ai
이 정의가 바로 강화학습!
What is Reinforcement Learning?
강화학습이란?
이미지 출처 : http://blog.naver.com/PostView.nhn?blogId=magnking&logNo=221124537501, https://insightcampus.co.kr/rl02/
강화학습이란?
출처 : [카카오AI리포트]알파고를 탄생시킨 강화학습의 비밀
이미지 출처 : https://brunch.co.kr/@kakao-it/73
강화학습이란?
출처 : [카카오AI리포트]알파고를 탄생시킨 강화학습의 비밀
이미지 출처 : https://brunch.co.kr/@kakao-it/73
- Agent는 환경의 상태(State)를 통해 행동(Action)을 한다.
- 환경은 Agent에게 그 행동에 대한 다음 상태와 보상(Reward)을 준다.
- Agent는 행동의 결과로 나타나는 보상을 통해 학습한다.
- 따라서 Agent는 보상을 얻게 하는 행동을 점점 많이 하도록 학습한다.
강화학습이란?
출처 : [카카오AI리포트]알파고를 탄생시킨 강화학습의 비밀
이미지 출처 : https://brunch.co.kr/@kakao-it/73
- Agent는 환경의 상태(State)를 통해 행동(Action)을 한다.
- 환경은 Agent에게 그 행동에 대한 다음 상태와 보상(Reward)을 준다.
- Agent는 행동의 결과로 나타나는 보상을 통해 학습한다.
- 따라서 Agent는 보상을 얻게 하는 행동을 점점 많이 하도록 학습한다.
강화학습이란?
출처 : [카카오AI리포트]알파고를 탄생시킨 강화학습의 비밀
이미지 출처 : https://brunch.co.kr/@kakao-it/73
- Agent는 환경의 상태(State)를 통해 행동(Action)을 한다.
- 환경은 Agent에게 그 행동에 대한 다음 상태와 보상(Reward)을 준다.
- Agent는 행동의 결과로 나타나는 보상을 통해 학습한다.
- 따라서 Agent는 보상을 얻게 하는 행동을 점점 많이 하도록 학습한다.
강화학습이란?
출처 : [카카오AI리포트]알파고를 탄생시킨 강화학습의 비밀
이미지 출처 : https://brunch.co.kr/@kakao-it/73
- Agent는 환경의 상태(State)를 통해 행동(Action)을 한다.
- 환경은 Agent에게 그 행동에 대한 다음 상태와 보상(Reward)을 준다.
- Agent는 행동의 결과로 나타나는 보상을 통해 학습한다.
- 따라서 Agent는 보상을 얻게 하는 행동을 점점 많이 하도록 학습한다.
출처 : [카카오AI리포트]알파고를 탄생시킨 강화학습의 비밀
이미지 출처 : https://brunch.co.kr/@kakao-it/73
강화학습이란?
- 상태(State) : 정적인 요소 + 동적인 요소(ex. 속도, 가속도 등)
- 행동(Action) : 어떠한 상태에서 취할 수 있는 행동(ex. 상, 하, 좌, 우)
- 보상(Reward) : Agent가 학습할 수 있는 유일한 정보
(다른 머신러닝 기법과 다르게 만들어주는 가장 핵심적인 요소!)
- 정책(Policy) : 모든 상태에 대해 Agent가 어떤 행동을 해야 하는지 정해놓은 것
강화학습의 목적 : 최적의(Optimal) 정책을 찾는 것!
강화학습 자랑
Link
강화학습 자랑
Link Link
What is Artificial General Intelligence?
Artificial General Intelligence(AGI)를
생각하고 연구하는 대표적인 세 그룹
Artificial General Intelligence(AGI)를
생각하고 연구하는 대표적인 세 그룹
“강화학습은 범용인공지능으로
가기 위한 단계 중 하나이다.”
Google DeepMind CEO
Demis Hassabis
DeepMind Mission
1. Solve intelligence
2. Use it to solve everything else
DeepMind Mission
1. 지능을 해결하자.
2. 그것을 그 밖의 다른 모든 것을 해결하는 데에 사용하자.
다시 말해
“하나의 알고리즘을 통해서 모든 문제를 해결할 수 있는
Meta-solution을 얻겠다.”
이미지 출처 : https://m.blog.naver.com/PostView.nhn?blogId=blogstock&logNo=220417224514&proxyReferer=https%3A%2F%2Fwww.google.co.kr%2F
네.
그래서
지금까지는 조금 일반적인 내용을 다뤄 봤습니다.
(봤죠? 강화학습 짱이죠?ㅎㅎ)
본격적인 내용에 앞서 오늘 발표 주제가 왜
“안.전.제.일. 강화학습!”인지를 말씀드리자면..
https://www.alexirpan.com/2018/02/14/rl-hard.html
강화학습 너무
뭐라하지마요
ㅠㅠ
그래서 생각해본 것이 바로
“어떻게 하면 강화학습을 더 안전하고 빠르게 학습할 수 있을까?”
“어떻게 하면 강화학습을 더 안전하고 빠르게 학습할 수 있을까?”
“결국 이 문제 때문에 강화학습을 여러 task에 적용하기가 힘든 것이 아닐까?”
“어떠한 연구들이 진행되고 있을까?”
논문읽자
동마나!!!
Planning and Learning
여러분들은 어떠한 일을 할 때 미리 머리속으로 계획을 세워 두고 하시나요?
여러분들은 어떠한 일을 할 때 미리 머리속으로 계획을 세워 두고 하시나요?
Ex. 공부할 때, 운동할 때, 요리할 때 등
여러분들은 어떠한 일을 할 때 미리 머리속으로 계획을 세워 두고 하시나요?
Ex. 공부할 때, 운동할 때, 요리할 때 등
상상을 통해 계획을 세운다.
Imagination
상상(Imagination)이란?
- 실제로 경험하지 않은 현상이나 사물에 대하여 마음속으로 그려 봄.
- 외부 자극에 의하지 않고 기억된 생각이나 새로운 심상을 떠올리는 일.
Imagination-based Planning
계획을 설정
Imagination-based Planning
계획을 설정
↓
계획을 평가
Imagination-based Planning
계획을 설정
↓
계획을 평가
↓
계획을 실행
Reinforcement Learning(RL)의 두 가지 관점
Model-based RL Model-free RL
Reinforcement Learning(RL)의 두 가지 관점
Model-based RL Model-free RL
Model-based RL
Model
Model-based RL
Model
환경이 어떻게 agent의 행동(action)에 반응할 것인지를 예측하기 위해 만든 것.
다시 말해 imagination(simulation)을 하기 위해 만든 것.
Model-based RL
환경이 어떻게 agent의 행동(action)에 반응할 것인지를 예측하기 위해 만든 것.
다시 말해 imagination(simulation)을 하기 위해 만든 것.
Transition function : 𝑷(𝒔′
|𝒔, 𝒂)
Reward function : 𝑹(𝒔, 𝒂, 𝒔′
)
Model
Model-based RL
낙하한 거리 ℎ =
1
2
𝑔𝑡2 (𝑔: 중력가속도 9.81 𝑚/𝑠2, 𝑡: 시간 sec)
공의 초기 높이가 50m이다. 공을 낙하시키는 경우 2초 뒤 공의 높이는??
50𝑚 − 0.5 × 9.81𝑚/𝑠2
× 2𝑠 2
≈ 30.38𝑚
공을 직접 낙하시키지 않아도 높이를 알 수 있다!
Ex) 공의 자유 낙하 운동
Model-based RL
Planning
Model을 통해 imagination(simulation)하여
어떠한 policy를 만들고 향상시키는 과정.
Model-based RL
Planning
Model을 통해 imagination(simulation)하여
어떠한 policy를 만들고 향상시키는 과정.
Model-based RL
Model + Planning
Ex. Q-Planning, Rollout Algorithms, Monte-Carlo Tree Search
Reinforcement Learning(RL)의 두 가지 관점
Model-based RL Model-free RL
Model-free RL
Learning
Model-free RL
Learning
실제로 행동(Acting)하여 시행착오(Trial and Error)를 통해 학습하는 것.
Model-free RL
Learning
실제로 행동(Acting)하여 시행착오(Trial and Error)를 통해 학습하는 것.
Ex. Q-Learning, DQN, A3C
대표적인 Model-free RL Algorithm
출처 : 파이썬과 케라스로 배우는 강화학습 저자특강, RLCode와 A3C 쉽고 깊게 이해하기
이미지 출처 : https://www.slideshare.net/WoongwonLee/ss-78783597, https://www.slideshare.net/WoongwonLee/rlcode-a3c
DQN(Deep Q-Network)
A3C
(Asynchronous Advantage
Actor-Critic)
Model-free RL Algorithm
DQN(Deep Q-Network)
A3C
(Asynchronous Advantage
Actor-Critic)
Double DQN
Prioritized DQN
Dueling DQN
Noisy DQN
Distributional DQN
Rainbow
.
.
.
REINFORCE
A2C
ACER
ACKTR
DDPG
TRPO
PPO
.
.
.
Model-based RL vs. Model-free RL
Model-based RL Model-free RL
Good 같은 환경에서 다양한 task 가능
Sample efficiency
No Model
Complex task에 대한 해결 능력
Bad Model Error
Planning을 함으로써
Computation cost 증가
엄청난 양의 training data
같은 환경에서 다양한 task의 어려움
Reinforcement Learning(RL)의 두 가지 관점
Model-based RL Model-free RL
Model-based RL Model-free RL+
‘두 가지를 상호보완하기 위해 합칠 수는 없을까?’
Model-based RL Model-free RL+
“Fusion Ha!”
Model-based RL Model-free RL+
“찌요오오오오옹오오옹~!!!”
이 논문에서 우리가 알아야 할 Neural Network
Convolutional Neural Network (CNN)
출처 : Deep Learning CNN’s in Tensorflow with GPUs
이미지 출처 : https://hackernoon.com/deep-learning-cnns-in-tensorflow-with-gpus-cba6efe0acc2
Recurrent Neural Network (RNN)
출처 : LSTM(RNN) 소개
이미지 출처 : https://brunch.co.kr/@chris-song/9
Long Short Term Memory Network (LSTM)
출처 : LSTM(RNN) 소개
이미지 출처 : https://brunch.co.kr/@chris-song/9
총 3가지의 Neural Network를 안다는 가정하에 설명을 해보겠습니다.
전체 architecture를 살펴봅시다..!
출처 : Imagination-Augmented Agents for Deep Reinforcement Learning
이미지 출처 : https://arxiv.org/pdf/1707.06203.pdf
크게 3가지 architecture로 구성
1. Imagination core
2. Single Imagination rollout
3. Full I2A Architecture
출처 : Imagination-Augmented Agents for Deep Reinforcement Learning
이미지 출처 : https://arxiv.org/pdf/1707.06203.pdf
하나씩 설명해 보겠습니다.
1. Imagination core
무엇을 input으로 받고,
무엇이 output으로 나오는가?
input
Model
Transition function : 𝑷(𝒔′
|𝒔, 𝒂)
Reward function : 𝑹(𝒔, 𝒂, 𝒔′
)
output
Model
Transition function : 𝑷(𝒔′
|𝒔, 𝒂)
Reward function : 𝑹(𝒔, 𝒂, 𝒔′
)
Policy Net?
실제로 관찰한 것
실제로 관찰한 것
Imagination을 통해 관찰한 것
A2C 기반 Network
(논문에서 어떠한 Algorithm을
사용했는지에 대한 언급은 없었습니다.)
출처 : RLCode와 A3C 쉽고 깊게 이해하기
이미지 출처 : https://www.slideshare.net/WoongwonLee/rlcode-a3c
A2C 기반 Network
A2C 기반 Network
Distillation strategy 사용
Distillation strategy
“Imagination-augmented policy를 증류(distillation)하여
Model-free policy를 만든다.”
“Imagination-augmented policy를 증류(distillation)..?하여
Model-free policy를 만든다.”
‘증류가 뭐지..뭘까..알고싶다..하..
내가 증류되는 기분이다..’
증류(distillation)란,
기존의 policy에서 불필요한 부분을 증류하여 더 나은 policy를 만드는 것.
Distillation strategy
Imagination-augmented policy를 증류(distillation)하여
Model-free policy를 만든다.
다시 말해 imagination-augmented policy와
model-free policy 사이의 전체의 loss를
Cross entropy auxiliary loss에 추가한다.
1. Imagination core
2. Single Imagination rollout
2. Single Imagination rollout?
Rollout
‘레드카펫..?! ’
Rollout Algorithm
출처 : TRPO (Trust Region Policy Optimization) : In depth Research Paper Review
이미지 출처 : https://www.youtube.com/watch?v=CKaN5PgkSBc
Rollout Algorithm
출처 : TRPO (Trust Region Policy Optimization) : In depth Research Paper Review
이미지 출처 : https://www.youtube.com/watch?v=CKaN5PgkSBc
Rollout Algorithm의 목적
‘내가 지금 있는 상태에서 어떠한 행동을 해야 좋을까?’를
Simulation을 통해 구하는 것.
출처 : TRPO (Trust Region Policy Optimization) : In depth Research Paper Review
이미지 출처 : https://www.youtube.com/watch?v=CKaN5PgkSBc
Rollout Algorithm
출처 : TRPO (Trust Region Policy Optimization) : In depth Research Paper Review
이미지 출처 : https://www.youtube.com/watch?v=CKaN5PgkSBc
Monte-Carlo control 기반으로써
레드카펫을 쭉 밀어서 끝까지 펴는 것과 같다.
Simulated trajectories의 return 값들을
평균을 냄으로써 각각의 행동의 가치를 평가한다.
최적의 policy를 찾는 것이 아니라 그저
빠르게 simulation을 하는 것이 목적이다.
Rollout Algorithm
출처 : TRPO (Trust Region Policy Optimization) : In depth Research Paper Review
이미지 출처 : https://www.youtube.com/watch?v=CKaN5PgkSBc
Monte-Carlo control 기반으로써
레드카펫을 쭉 밀어서 끝까지 펴는 것과 같다.
Simulated trajectories의 return 값들을
평균을 냄으로써 각각의 행동의 가치를 평가한다.
최적의 policy를 찾는 것이 아니라 그저
빠르게 simulation을 하는 것이 목적이다.
Rollout Algorithm
출처 : TRPO (Trust Region Policy Optimization) : In depth Research Paper Review
이미지 출처 : https://www.youtube.com/watch?v=CKaN5PgkSBc
Monte-Carlo control 기반으로써
레드카펫을 쭉 밀어서 끝까지 펴는 것과 같다.
Simulated trajectories의 return 값들을
평균을 냄으로써 각각의 행동의 가치를 평가한다.
최적의 policy를 찾는 것이 아니라 그저
빠르게 simulation을 하는 것이 목적이다.
𝐺𝑡 = 𝑅𝑡+1 + 𝛾𝑅𝑡+2 + 𝛾2 𝑅𝑡+3 + ⋯ = σ 𝑘=0
∞
𝛾 𝑘 𝑅𝑡+𝑘+1
Rollout Algorithm
출처 : TRPO (Trust Region Policy Optimization) : In depth Research Paper Review
이미지 출처 : https://www.youtube.com/watch?v=CKaN5PgkSBc
Monte-Carlo control 기반으로써
레드카펫을 쭉 밀어서 끝까지 펴는 것과 같다.
Simulated trajectories의 return 값들을
평균을 냄으로써 각각의 행동의 가치를 평가한다.
최적의 policy를 찾는 것이 아니라 그저
빠르게 simulation을 하는 것이 목적이다.
2. Single Imagination rollout
2-1. imagine future
Unsupervised 방식의 recurrent한 architecture
Rollout
출처 : TRPO (Trust Region Policy Optimization) : In depth Research Paper Review
이미지 출처 : https://www.youtube.com/watch?v=CKaN5PgkSBc
기존의 Rollout I2A의 Rollout
Rollout
출처 : TRPO (Trust Region Policy Optimization) : In depth Research Paper Review
이미지 출처 : https://www.youtube.com/watch?v=CKaN5PgkSBc
기존의 Rollout I2A의 Rollout
차이점!
2-2. encode
CNN + LSTM 사용
2-1. imagine future
Unsupervised 방식의 recurrent한 architecture
CNN + LSTM 사용
각각의 Encoder는 하나의 imagined trajectory를
순차적으로 다루는 LSTM Cell을 사용한다.
각각의 Encoder는 Bellman backup operation을 흉내 내듯이
반대순서로 LSTM에 넣어진다.
imagined rollout을 처리하는 rollout encoder를 사용하여
“learn to interpret”(해석하여 학습)을 한다.
다시 말해 agent의 결정에 대해 어떠한 유용한 정보들을
추출하거나 or 필요하다면 그 정보를 무시한다.
CNN + LSTM 사용
각각의 Encoder는 하나의 imagined trajectory를
순차적으로 다루는 LSTM Cell을 사용한다.
각각의 Encoder는 Bellman backup operation을 흉내 내듯이
반대순서로 LSTM에 넣어진다.
imagined rollout을 처리하는 rollout encoder를 사용하여
“learn to interpret”(해석하여 학습)을 한다.
다시 말해 agent의 결정에 대해 어떠한 유용한 정보들을
추출하거나 or 필요하다면 그 정보를 무시한다.
CNN + LSTM 사용
각각의 Encoder는 하나의 imagined trajectory를
순차적으로 다루는 LSTM Cell을 사용한다.
각각의 Encoder는 Bellman backup operation(?)을 흉내 내듯이
반대순서로 LSTM에 넣어진다.
imagined rollout을 처리하는 rollout encoder를 사용하여
“learn to interpret”(해석하여 학습)을 한다.
다시 말해 agent의 결정에 대해 어떠한 유용한 정보들을
추출하거나 or 필요하다면 그 정보를 무시한다.
Bellman backup operation
Bellman backup operation
코딩에서의 등호의 의미와 같이
오른쪽의 식을 왼쪽에 대입한다는 개념이다.
다시 말해 미래의 값(nest state-value function)
으로 현재의 value function을 구한다는 것이다.
CNN + LSTM 사용
각각의 Encoder는 하나의 imagined trajectory를
순차적으로 다루는 LSTM Cell을 사용한다.
각각의 Encoder는 Bellman backup operation을 흉내 내듯이
반대순서로 LSTM에 넣어진다.
imagined rollout을 처리하는 rollout encoder를 사용하여
“learn to interpret”(해석하여 학습)을 한다.
다시 말해 agent의 결정에 대해 어떠한 유용한 정보들을
추출하거나 or 필요하다면 그 정보를 무시한다.
CNN + LSTM 사용
각각의 Encoder는 하나의 imagined trajectory를
순차적으로 다루는 LSTM Cell을 사용한다.
각각의 Encoder는 Bellman backup operation을 흉내 내듯이
반대순서로 LSTM에 넣어진다.
imagined rollout을 처리하는 rollout encoder를 사용하여
“learn to interpret”(해석하여 학습)을 한다.
다시 말해 agent의 결정에 대해 어떠한 유용한 정보들을
추출하거나 or 필요하다면 그 정보를 무시한다.
2-2. encode
CNN + LSTM 사용
2-1. imagine future
Unsupervised 방식의 RNN 사용
2. Single Imagination rollout
3. Full I2A Architecture
Aggregator는 서로 다른 rollout encoder에서 나온 encoded value들을 concatenate
3-1. Model-based path
A3C 기반 Network
3-2. Model-free path3-1. Model-based path
Aggregator
출처 : RLCode와 A3C 쉽고 깊게 이해하기
이미지 출처 : https://www.slideshare.net/WoongwonLee/rlcode-a3c
A3C 기반 Network
3. Full I2A Architecture
A3C 기반 Network
3-2. Model-free path3-1. Model-based path
Aggregator
실험과 성능
Sokoban Experiment
Sokoban은 agent가 주어진 target 위치로 box들을 밀어야 하는 고전 planning 게임!
Box를 미는 것 밖에 안되기 때문에 action을 되돌릴 수 없다.
새로운 단계마다 random한 episode를 생성하기 때문에
구체적인 puzzle의 위치를 기억할 수 없다.
사람도 해결하기 힘들다..
Sokoban Experiment
Sokoban은 agent가 주어진 target 위치로 box들을 밀어야 하는 고전 planning 게임!
Box가 벽에 닿아있거나 2개가 연속으로 있을 경우 Box를 밀지 못한다.
새로운 단계마다 random한 episode를 생성하기 때문에
구체적인 puzzle의 위치를 기억할 수 없다.
사람도 해결하기 힘들다..
Sokoban Experiment
Sokoban은 agent가 주어진 target 위치로 box들을 밀어야 하는 고전 planning 게임!
Box가 벽에 닿아있거나 2개가 연속으로 있을 경우 Box를 밀지 못한다.
새로운 단계마다 random한 episode를 생성하기 때문에
구체적인 target의 위치를 기억할 수 없다.
사람도 해결하기 힘들다..
Sokoban Experiment
Sokoban은 agent가 주어진 target 위치로 box들을 밀어야 하는 고전 planning 게임!
Box가 벽에 닿아있거나 2개가 연속으로 있을 경우 Box를 밀지 못한다.
새로운 단계마다 random한 episode를 생성하기 때문에
구체적인 target의 위치를 기억할 수 없다.
∴ 사람도 해결하기 힘들다..
Sokoban Experiment
https://drive.google.com/drive/folders/0B4tKsKnCCZtQY2tTOThucHVxUTQ
4boxes 7boxes
하지만 I2A는 잘 해결했다고 합니다!
I2A의 성능
우왕 I2A 짱짱! +_+!!
I2A의 장단점
I2A의 장점
1. 단독으로 쓰인 Model-free baseline들보다 성능이 우수하다.
2. Imagination을 통해 agent가 좀 더 나은 길을 갈 수 있도록 한다.
3. “learn to interpret”하기 때문에 불완전한 환경의 모델도 다룰 수 있다.
4. 하나의 환경의 모델로 여러 task들을 해결하는 데에 사용될 수 있다.
I2A의 단점
1. 환경과 상호작용을 할 때마다 simulation을 하기 때문에
model-free baseline보다 느리다.
2. Imagination의 계산량은 rollout의 깊이와 수에 linear하게 증가한다.
3. Simulation을 할 수 없는 환경이라면 I2A를 쓸 수 없다.
4. 굳이 환경의 모델을 Network로 써야 될 필요가 없을 수도 있다.
더 자세한 내용은 제 블로그를 참고 해주세요!
http://dongminlee.tistory.com/6
Safe Reinforcement Learning
“어떻게 하면 강화학습을 더 안전하고 빠르게 학습할 수 있을까?”
“어떻게 하면 강화학습을 더 안전하고 빠르게 학습할 수 있을까?”
“다른 연구들은 어떤 것들이 있을까?”
Safe RL과 관련된 총 10개의 논문을 찾았습니다!
그래서 현재 팀을 만들어서 논문을 차근차근 리뷰하고 있습니다.
제일 먼저 접한 Survey 논문입니다. 무려 44페이지 ㄷㄷ..
그래서 전반적인 Safe RL에 대해서 말씀드리려고 했지만..
시간 관계상 다음 기회에..ㅠㅠ
추후에 정리하여 공유하도록 하겠습니다!
References
- DeepMind StarCraft 2 AI (YouTube Link, SlideShare Link)
- 딥러닝 ‘DQN’ 알고리즘의 놀라운 학습 능력 (Link)
- 파이썬과 케라스로 배우는 강화학습 저자특강 (Link)
- RLCode와 A3C 쉽고 깊게 이해하기 (Link)
- Reinforcement Learning: An Introduction (Link)
- Planning and Learning with Tabular Methods (reviewed by D. Lee, Link)
- Paper: Imagination-Augmented Agents for Deep Reinforcement Learning (Link)
- Paper: A Comprehensive Survey on Safe Reinforcement Learning (Link)
끝으로
강화학습이 아직은 많이 연구되어야 하는 보석같은 아이지만..
그래도 강화학습 많이 사랑해주세요!
더불어 RL KOREA도 많이 사랑해주세요!
감사합니다!

More Related Content

What's hot

강화학습 해부학 교실: Rainbow 이론부터 구현까지 (2nd dlcat in Daejeon)
강화학습 해부학 교실: Rainbow 이론부터 구현까지 (2nd dlcat in Daejeon)강화학습 해부학 교실: Rainbow 이론부터 구현까지 (2nd dlcat in Daejeon)
강화학습 해부학 교실: Rainbow 이론부터 구현까지 (2nd dlcat in Daejeon)Kyunghwan Kim
 
Alphastar page 8 , Meaning of multi-agent in alphastar
Alphastar page 8 , Meaning of multi-agent in alphastarAlphastar page 8 , Meaning of multi-agent in alphastar
Alphastar page 8 , Meaning of multi-agent in alphastarKyoungman Lee
 
Reinforcement Learning with Deep Energy-Based Policies
Reinforcement Learning with Deep Energy-Based PoliciesReinforcement Learning with Deep Energy-Based Policies
Reinforcement Learning with Deep Energy-Based PoliciesSangwoo Mo
 
오토인코더의 모든 것
오토인코더의 모든 것오토인코더의 모든 것
오토인코더의 모든 것NAVER Engineering
 
Safe Reinforcement Learning
Safe Reinforcement LearningSafe Reinforcement Learning
Safe Reinforcement LearningDongmin Lee
 
[기초개념] Recurrent Neural Network (RNN) 소개
[기초개념] Recurrent Neural Network (RNN) 소개[기초개념] Recurrent Neural Network (RNN) 소개
[기초개념] Recurrent Neural Network (RNN) 소개Donghyeon Kim
 
boosting 기법 이해 (bagging vs boosting)
boosting 기법 이해 (bagging vs boosting)boosting 기법 이해 (bagging vs boosting)
boosting 기법 이해 (bagging vs boosting)SANG WON PARK
 
지적 대화를 위한 깊고 넓은 딥러닝 PyCon APAC 2016
지적 대화를 위한 깊고 넓은 딥러닝 PyCon APAC 2016지적 대화를 위한 깊고 넓은 딥러닝 PyCon APAC 2016
지적 대화를 위한 깊고 넓은 딥러닝 PyCon APAC 2016Taehoon Kim
 
딥 러닝 자연어 처리를 학습을 위한 파워포인트. (Deep Learning for Natural Language Processing)
딥 러닝 자연어 처리를 학습을 위한 파워포인트. (Deep Learning for Natural Language Processing)딥 러닝 자연어 처리를 학습을 위한 파워포인트. (Deep Learning for Natural Language Processing)
딥 러닝 자연어 처리를 학습을 위한 파워포인트. (Deep Learning for Natural Language Processing)WON JOON YOO
 
딥러닝의 기본
딥러닝의 기본딥러닝의 기본
딥러닝의 기본deepseaswjh
 
파이썬으로 나만의 강화학습 환경 만들기
파이썬으로 나만의 강화학습 환경 만들기파이썬으로 나만의 강화학습 환경 만들기
파이썬으로 나만의 강화학습 환경 만들기정주 김
 
Introduction of Deep Reinforcement Learning
Introduction of Deep Reinforcement LearningIntroduction of Deep Reinforcement Learning
Introduction of Deep Reinforcement LearningNAVER Engineering
 
東京都市大学 データ解析入門 2 行列分解 1
東京都市大学 データ解析入門 2 行列分解 1東京都市大学 データ解析入門 2 行列分解 1
東京都市大学 データ解析入門 2 行列分解 1hirokazutanaka
 
Transformer xl
Transformer xlTransformer xl
Transformer xlSan Kim
 
딥러닝 - 역사와 이론적 기초
딥러닝 - 역사와 이론적 기초딥러닝 - 역사와 이론적 기초
딥러닝 - 역사와 이론적 기초Hyungsoo Ryoo
 
내가 이해하는 SVM(왜, 어떻게를 중심으로)
내가 이해하는 SVM(왜, 어떻게를 중심으로)내가 이해하는 SVM(왜, 어떻게를 중심으로)
내가 이해하는 SVM(왜, 어떻게를 중심으로)SANG WON PARK
 
Soft Actor-Critic Algorithms and Applications 한국어 리뷰
Soft Actor-Critic Algorithms and Applications 한국어 리뷰Soft Actor-Critic Algorithms and Applications 한국어 리뷰
Soft Actor-Critic Algorithms and Applications 한국어 리뷰태영 정
 
딥러닝과 강화 학습으로 나보다 잘하는 쿠키런 AI 구현하기 DEVIEW 2016
딥러닝과 강화 학습으로 나보다 잘하는 쿠키런 AI 구현하기 DEVIEW 2016딥러닝과 강화 학습으로 나보다 잘하는 쿠키런 AI 구현하기 DEVIEW 2016
딥러닝과 강화 학습으로 나보다 잘하는 쿠키런 AI 구현하기 DEVIEW 2016Taehoon Kim
 
[DL輪読会]Deep Reinforcement Learning that Matters
[DL輪読会]Deep Reinforcement Learning that Matters[DL輪読会]Deep Reinforcement Learning that Matters
[DL輪読会]Deep Reinforcement Learning that MattersDeep Learning JP
 
초단타매매 전략 소개 및 트렌드
초단타매매 전략 소개 및 트렌드초단타매매 전략 소개 및 트렌드
초단타매매 전략 소개 및 트렌드NAVER Engineering
 

What's hot (20)

강화학습 해부학 교실: Rainbow 이론부터 구현까지 (2nd dlcat in Daejeon)
강화학습 해부학 교실: Rainbow 이론부터 구현까지 (2nd dlcat in Daejeon)강화학습 해부학 교실: Rainbow 이론부터 구현까지 (2nd dlcat in Daejeon)
강화학습 해부학 교실: Rainbow 이론부터 구현까지 (2nd dlcat in Daejeon)
 
Alphastar page 8 , Meaning of multi-agent in alphastar
Alphastar page 8 , Meaning of multi-agent in alphastarAlphastar page 8 , Meaning of multi-agent in alphastar
Alphastar page 8 , Meaning of multi-agent in alphastar
 
Reinforcement Learning with Deep Energy-Based Policies
Reinforcement Learning with Deep Energy-Based PoliciesReinforcement Learning with Deep Energy-Based Policies
Reinforcement Learning with Deep Energy-Based Policies
 
오토인코더의 모든 것
오토인코더의 모든 것오토인코더의 모든 것
오토인코더의 모든 것
 
Safe Reinforcement Learning
Safe Reinforcement LearningSafe Reinforcement Learning
Safe Reinforcement Learning
 
[기초개념] Recurrent Neural Network (RNN) 소개
[기초개념] Recurrent Neural Network (RNN) 소개[기초개념] Recurrent Neural Network (RNN) 소개
[기초개념] Recurrent Neural Network (RNN) 소개
 
boosting 기법 이해 (bagging vs boosting)
boosting 기법 이해 (bagging vs boosting)boosting 기법 이해 (bagging vs boosting)
boosting 기법 이해 (bagging vs boosting)
 
지적 대화를 위한 깊고 넓은 딥러닝 PyCon APAC 2016
지적 대화를 위한 깊고 넓은 딥러닝 PyCon APAC 2016지적 대화를 위한 깊고 넓은 딥러닝 PyCon APAC 2016
지적 대화를 위한 깊고 넓은 딥러닝 PyCon APAC 2016
 
딥 러닝 자연어 처리를 학습을 위한 파워포인트. (Deep Learning for Natural Language Processing)
딥 러닝 자연어 처리를 학습을 위한 파워포인트. (Deep Learning for Natural Language Processing)딥 러닝 자연어 처리를 학습을 위한 파워포인트. (Deep Learning for Natural Language Processing)
딥 러닝 자연어 처리를 학습을 위한 파워포인트. (Deep Learning for Natural Language Processing)
 
딥러닝의 기본
딥러닝의 기본딥러닝의 기본
딥러닝의 기본
 
파이썬으로 나만의 강화학습 환경 만들기
파이썬으로 나만의 강화학습 환경 만들기파이썬으로 나만의 강화학습 환경 만들기
파이썬으로 나만의 강화학습 환경 만들기
 
Introduction of Deep Reinforcement Learning
Introduction of Deep Reinforcement LearningIntroduction of Deep Reinforcement Learning
Introduction of Deep Reinforcement Learning
 
東京都市大学 データ解析入門 2 行列分解 1
東京都市大学 データ解析入門 2 行列分解 1東京都市大学 データ解析入門 2 行列分解 1
東京都市大学 データ解析入門 2 行列分解 1
 
Transformer xl
Transformer xlTransformer xl
Transformer xl
 
딥러닝 - 역사와 이론적 기초
딥러닝 - 역사와 이론적 기초딥러닝 - 역사와 이론적 기초
딥러닝 - 역사와 이론적 기초
 
내가 이해하는 SVM(왜, 어떻게를 중심으로)
내가 이해하는 SVM(왜, 어떻게를 중심으로)내가 이해하는 SVM(왜, 어떻게를 중심으로)
내가 이해하는 SVM(왜, 어떻게를 중심으로)
 
Soft Actor-Critic Algorithms and Applications 한국어 리뷰
Soft Actor-Critic Algorithms and Applications 한국어 리뷰Soft Actor-Critic Algorithms and Applications 한국어 리뷰
Soft Actor-Critic Algorithms and Applications 한국어 리뷰
 
딥러닝과 강화 학습으로 나보다 잘하는 쿠키런 AI 구현하기 DEVIEW 2016
딥러닝과 강화 학습으로 나보다 잘하는 쿠키런 AI 구현하기 DEVIEW 2016딥러닝과 강화 학습으로 나보다 잘하는 쿠키런 AI 구현하기 DEVIEW 2016
딥러닝과 강화 학습으로 나보다 잘하는 쿠키런 AI 구현하기 DEVIEW 2016
 
[DL輪読会]Deep Reinforcement Learning that Matters
[DL輪読会]Deep Reinforcement Learning that Matters[DL輪読会]Deep Reinforcement Learning that Matters
[DL輪読会]Deep Reinforcement Learning that Matters
 
초단타매매 전략 소개 및 트렌드
초단타매매 전략 소개 및 트렌드초단타매매 전략 소개 및 트렌드
초단타매매 전략 소개 및 트렌드
 

Similar to 안.전.제.일. 강화학습!

링크드인의 Big Data Recommendation Products - 어제의 데이터를 통해 내일을 예측한다
링크드인의 Big Data Recommendation Products - 어제의 데이터를 통해 내일을 예측한다링크드인의 Big Data Recommendation Products - 어제의 데이터를 통해 내일을 예측한다
링크드인의 Big Data Recommendation Products - 어제의 데이터를 통해 내일을 예측한다Evion Kim
 
딥러닝 세계에 입문하기 위반 분투
딥러닝 세계에 입문하기 위반 분투딥러닝 세계에 입문하기 위반 분투
딥러닝 세계에 입문하기 위반 분투Ubuntu Korea Community
 
Searching for magic formula by deep learning
Searching for magic formula by deep learningSearching for magic formula by deep learning
Searching for magic formula by deep learningJames Ahn
 
강화학습 & Unity ML Agents
강화학습 & Unity ML Agents강화학습 & Unity ML Agents
강화학습 & Unity ML AgentsHyunjong Lee
 
Alpha Go Introduction
Alpha Go IntroductionAlpha Go Introduction
Alpha Go IntroductionIldoo Kim
 
Workshop 210417 dhlee
Workshop 210417 dhleeWorkshop 210417 dhlee
Workshop 210417 dhleeDongheon Lee
 
강화학습 기초부터 DQN까지 (Reinforcement Learning from Basics to DQN)
강화학습 기초부터 DQN까지 (Reinforcement Learning from Basics to DQN)강화학습 기초부터 DQN까지 (Reinforcement Learning from Basics to DQN)
강화학습 기초부터 DQN까지 (Reinforcement Learning from Basics to DQN)Curt Park
 
파이썬으로 익히는 딥러닝 기본 (18년)
파이썬으로 익히는 딥러닝 기본 (18년)파이썬으로 익히는 딥러닝 기본 (18년)
파이썬으로 익히는 딥러닝 기본 (18년)SK(주) C&C - 강병호
 
[강화학습 입문] RL korea와 함께 성장하기 [케라스&캐글&강화학습 전국콘서트 with GDG광주]
[강화학습 입문] RL korea와 함께 성장하기 [케라스&캐글&강화학습 전국콘서트 with GDG광주][강화학습 입문] RL korea와 함께 성장하기 [케라스&캐글&강화학습 전국콘서트 with GDG광주]
[강화학습 입문] RL korea와 함께 성장하기 [케라스&캐글&강화학습 전국콘서트 with GDG광주]ashley ryu
 
2018 06-11-active-question-answering
2018 06-11-active-question-answering2018 06-11-active-question-answering
2018 06-11-active-question-answeringWoong won Lee
 
[222]딥러닝을 활용한 이미지 검색 포토요약과 타임라인 최종 20161024
[222]딥러닝을 활용한 이미지 검색 포토요약과 타임라인 최종 20161024[222]딥러닝을 활용한 이미지 검색 포토요약과 타임라인 최종 20161024
[222]딥러닝을 활용한 이미지 검색 포토요약과 타임라인 최종 20161024NAVER D2
 
NDC 2016, [슈판워] 맨땅에서 데이터 분석 시스템 만들어나가기
NDC 2016, [슈판워] 맨땅에서 데이터 분석 시스템 만들어나가기NDC 2016, [슈판워] 맨땅에서 데이터 분석 시스템 만들어나가기
NDC 2016, [슈판워] 맨땅에서 데이터 분석 시스템 만들어나가기Wonha Ryu
 
모두를 위한 PG 여행 가이드
모두를 위한 PG 여행 가이드모두를 위한 PG 여행 가이드
모두를 위한 PG 여행 가이드RLKorea
 
효율적 데이터 과학을 위한 7가지 팁
효율적 데이터 과학을 위한 7가지 팁효율적 데이터 과학을 위한 7가지 팁
효율적 데이터 과학을 위한 7가지 팁Jaimie Kwon (권재명)
 
RUCK 2017 권재명 효율적 데이터 과학과 데이터 조직을 위한 7가지 요인
RUCK 2017 권재명 효율적 데이터 과학과 데이터 조직을 위한 7가지 요인RUCK 2017 권재명 효율적 데이터 과학과 데이터 조직을 위한 7가지 요인
RUCK 2017 권재명 효율적 데이터 과학과 데이터 조직을 위한 7가지 요인r-kor
 
Deep Learning for AI (1)
Deep Learning for AI (1)Deep Learning for AI (1)
Deep Learning for AI (1)Dongheon Lee
 
CS294-112 Lecture 13
CS294-112 Lecture 13CS294-112 Lecture 13
CS294-112 Lecture 13Gyubin Son
 

Similar to 안.전.제.일. 강화학습! (20)

링크드인의 Big Data Recommendation Products - 어제의 데이터를 통해 내일을 예측한다
링크드인의 Big Data Recommendation Products - 어제의 데이터를 통해 내일을 예측한다링크드인의 Big Data Recommendation Products - 어제의 데이터를 통해 내일을 예측한다
링크드인의 Big Data Recommendation Products - 어제의 데이터를 통해 내일을 예측한다
 
딥러닝 세계에 입문하기 위반 분투
딥러닝 세계에 입문하기 위반 분투딥러닝 세계에 입문하기 위반 분투
딥러닝 세계에 입문하기 위반 분투
 
Searching for magic formula by deep learning
Searching for magic formula by deep learningSearching for magic formula by deep learning
Searching for magic formula by deep learning
 
강화학습 & Unity ML Agents
강화학습 & Unity ML Agents강화학습 & Unity ML Agents
강화학습 & Unity ML Agents
 
Alpha Go Introduction
Alpha Go IntroductionAlpha Go Introduction
Alpha Go Introduction
 
Workshop 210417 dhlee
Workshop 210417 dhleeWorkshop 210417 dhlee
Workshop 210417 dhlee
 
MachineLearning
MachineLearningMachineLearning
MachineLearning
 
강화학습 기초부터 DQN까지 (Reinforcement Learning from Basics to DQN)
강화학습 기초부터 DQN까지 (Reinforcement Learning from Basics to DQN)강화학습 기초부터 DQN까지 (Reinforcement Learning from Basics to DQN)
강화학습 기초부터 DQN까지 (Reinforcement Learning from Basics to DQN)
 
파이썬으로 익히는 딥러닝 기본 (18년)
파이썬으로 익히는 딥러닝 기본 (18년)파이썬으로 익히는 딥러닝 기본 (18년)
파이썬으로 익히는 딥러닝 기본 (18년)
 
[강화학습 입문] RL korea와 함께 성장하기 [케라스&캐글&강화학습 전국콘서트 with GDG광주]
[강화학습 입문] RL korea와 함께 성장하기 [케라스&캐글&강화학습 전국콘서트 with GDG광주][강화학습 입문] RL korea와 함께 성장하기 [케라스&캐글&강화학습 전국콘서트 with GDG광주]
[강화학습 입문] RL korea와 함께 성장하기 [케라스&캐글&강화학습 전국콘서트 with GDG광주]
 
2018 06-11-active-question-answering
2018 06-11-active-question-answering2018 06-11-active-question-answering
2018 06-11-active-question-answering
 
[222]딥러닝을 활용한 이미지 검색 포토요약과 타임라인 최종 20161024
[222]딥러닝을 활용한 이미지 검색 포토요약과 타임라인 최종 20161024[222]딥러닝을 활용한 이미지 검색 포토요약과 타임라인 최종 20161024
[222]딥러닝을 활용한 이미지 검색 포토요약과 타임라인 최종 20161024
 
Deeplearning conf
Deeplearning confDeeplearning conf
Deeplearning conf
 
Running ai
Running aiRunning ai
Running ai
 
NDC 2016, [슈판워] 맨땅에서 데이터 분석 시스템 만들어나가기
NDC 2016, [슈판워] 맨땅에서 데이터 분석 시스템 만들어나가기NDC 2016, [슈판워] 맨땅에서 데이터 분석 시스템 만들어나가기
NDC 2016, [슈판워] 맨땅에서 데이터 분석 시스템 만들어나가기
 
모두를 위한 PG 여행 가이드
모두를 위한 PG 여행 가이드모두를 위한 PG 여행 가이드
모두를 위한 PG 여행 가이드
 
효율적 데이터 과학을 위한 7가지 팁
효율적 데이터 과학을 위한 7가지 팁효율적 데이터 과학을 위한 7가지 팁
효율적 데이터 과학을 위한 7가지 팁
 
RUCK 2017 권재명 효율적 데이터 과학과 데이터 조직을 위한 7가지 요인
RUCK 2017 권재명 효율적 데이터 과학과 데이터 조직을 위한 7가지 요인RUCK 2017 권재명 효율적 데이터 과학과 데이터 조직을 위한 7가지 요인
RUCK 2017 권재명 효율적 데이터 과학과 데이터 조직을 위한 7가지 요인
 
Deep Learning for AI (1)
Deep Learning for AI (1)Deep Learning for AI (1)
Deep Learning for AI (1)
 
CS294-112 Lecture 13
CS294-112 Lecture 13CS294-112 Lecture 13
CS294-112 Lecture 13
 

More from Dongmin Lee

Causal Confusion in Imitation Learning
Causal Confusion in Imitation LearningCausal Confusion in Imitation Learning
Causal Confusion in Imitation LearningDongmin Lee
 
Character Controllers using Motion VAEs
Character Controllers using Motion VAEsCharacter Controllers using Motion VAEs
Character Controllers using Motion VAEsDongmin Lee
 
Causal Confusion in Imitation Learning
Causal Confusion in Imitation LearningCausal Confusion in Imitation Learning
Causal Confusion in Imitation LearningDongmin Lee
 
Efficient Off-Policy Meta-Reinforcement Learning via Probabilistic Context Va...
Efficient Off-Policy Meta-Reinforcement Learning via Probabilistic Context Va...Efficient Off-Policy Meta-Reinforcement Learning via Probabilistic Context Va...
Efficient Off-Policy Meta-Reinforcement Learning via Probabilistic Context Va...Dongmin Lee
 
PRM-RL: Long-range Robotics Navigation Tasks by Combining Reinforcement Learn...
PRM-RL: Long-range Robotics Navigation Tasks by Combining Reinforcement Learn...PRM-RL: Long-range Robotics Navigation Tasks by Combining Reinforcement Learn...
PRM-RL: Long-range Robotics Navigation Tasks by Combining Reinforcement Learn...Dongmin Lee
 
Exploration Strategies in Reinforcement Learning
Exploration Strategies in Reinforcement LearningExploration Strategies in Reinforcement Learning
Exploration Strategies in Reinforcement LearningDongmin Lee
 
Maximum Entropy Reinforcement Learning (Stochastic Control)
Maximum Entropy Reinforcement Learning (Stochastic Control)Maximum Entropy Reinforcement Learning (Stochastic Control)
Maximum Entropy Reinforcement Learning (Stochastic Control)Dongmin Lee
 
Let's do Inverse RL
Let's do Inverse RLLet's do Inverse RL
Let's do Inverse RLDongmin Lee
 
모두를 위한 PG여행 가이드
모두를 위한 PG여행 가이드모두를 위한 PG여행 가이드
모두를 위한 PG여행 가이드Dongmin Lee
 
Planning and Learning with Tabular Methods
Planning and Learning with Tabular MethodsPlanning and Learning with Tabular Methods
Planning and Learning with Tabular MethodsDongmin Lee
 
Multi-armed Bandits
Multi-armed BanditsMulti-armed Bandits
Multi-armed BanditsDongmin Lee
 
강화학습의 흐름도 Part 1
강화학습의 흐름도 Part 1강화학습의 흐름도 Part 1
강화학습의 흐름도 Part 1Dongmin Lee
 

More from Dongmin Lee (12)

Causal Confusion in Imitation Learning
Causal Confusion in Imitation LearningCausal Confusion in Imitation Learning
Causal Confusion in Imitation Learning
 
Character Controllers using Motion VAEs
Character Controllers using Motion VAEsCharacter Controllers using Motion VAEs
Character Controllers using Motion VAEs
 
Causal Confusion in Imitation Learning
Causal Confusion in Imitation LearningCausal Confusion in Imitation Learning
Causal Confusion in Imitation Learning
 
Efficient Off-Policy Meta-Reinforcement Learning via Probabilistic Context Va...
Efficient Off-Policy Meta-Reinforcement Learning via Probabilistic Context Va...Efficient Off-Policy Meta-Reinforcement Learning via Probabilistic Context Va...
Efficient Off-Policy Meta-Reinforcement Learning via Probabilistic Context Va...
 
PRM-RL: Long-range Robotics Navigation Tasks by Combining Reinforcement Learn...
PRM-RL: Long-range Robotics Navigation Tasks by Combining Reinforcement Learn...PRM-RL: Long-range Robotics Navigation Tasks by Combining Reinforcement Learn...
PRM-RL: Long-range Robotics Navigation Tasks by Combining Reinforcement Learn...
 
Exploration Strategies in Reinforcement Learning
Exploration Strategies in Reinforcement LearningExploration Strategies in Reinforcement Learning
Exploration Strategies in Reinforcement Learning
 
Maximum Entropy Reinforcement Learning (Stochastic Control)
Maximum Entropy Reinforcement Learning (Stochastic Control)Maximum Entropy Reinforcement Learning (Stochastic Control)
Maximum Entropy Reinforcement Learning (Stochastic Control)
 
Let's do Inverse RL
Let's do Inverse RLLet's do Inverse RL
Let's do Inverse RL
 
모두를 위한 PG여행 가이드
모두를 위한 PG여행 가이드모두를 위한 PG여행 가이드
모두를 위한 PG여행 가이드
 
Planning and Learning with Tabular Methods
Planning and Learning with Tabular MethodsPlanning and Learning with Tabular Methods
Planning and Learning with Tabular Methods
 
Multi-armed Bandits
Multi-armed BanditsMulti-armed Bandits
Multi-armed Bandits
 
강화학습의 흐름도 Part 1
강화학습의 흐름도 Part 1강화학습의 흐름도 Part 1
강화학습의 흐름도 Part 1
 

안.전.제.일. 강화학습!

  • 1. 안.전.제.일. 강화학습! 이동민 1st 함께하는 딥러닝 컨퍼런스 Jun 28, 2018
  • 2. 이동민 • 한양대학교 컴퓨터공학 전공 • RLI Study 리더 - 2017.12 : 김성훈 교수님의 ‘모두의 RL’ - 2018. 1 ~ 3 : ‘파이썬과 케라스로 배우는 강화학습’ - 2018. 4 ~ 6 : ‘Reinforcement Learning: An Introduction’ written by Richard S. Sutton and Andrew G. Barto • RL KOREA, 피지여행 프로젝트 - REINFORCE 부터 PPO 까지 7개의 논문 정리
  • 3. 요즘 연애하느라 잠을 많이 못자고 있습니다..
  • 5. 그리고 어릴 때부터 친했던 친구를 소개해드리겠습니다!
  • 6. 그래도 알고 보면 재미있는 친구입니다. 너무 미워하지 말아주세요! 수학입니다..!
  • 7. 그래서 저는 강화학습에 나오는 이론과 수식을 굉장히 좋아합니다!
  • 8. 1. What is Artificial Intelligence? 2. What is Reinforcement Learning? 3. What is Artificial General Intelligence? 4. Planning and Learning 5. Safe Reinforcement Learning 안.전.제.일. 강화학습! Outline
  • 9. 1. What is Artificial Intelligence? 2. What is Reinforcement Learning? 3. What is Artificial General Intelligence? 4. Planning and Learning 5. Safe Reinforcement Learning Outline 제가 왜 강화학습을 공부하는지 or 왜 강화학습을 알아야 하는지
  • 10. 1. What is Artificial Intelligence? 2. What is Reinforcement Learning? 3. What is Artificial General Intelligence? 4. Planning and Learning 5. Safe Reinforcement Learning Outline 최근에는 어디에 집중하고 있는지
  • 11. What is Artificial Intelligence?
  • 12. 딥러닝을 공부하다가 문뜩 이런 생각을 하게 되었습니다. ‘나는 이 분야를 왜 공부할까?’, ‘단지 학습되는 것이 재밌기 때문일까?’, ‘AI의 궁극적인 목적은 무엇일까?’, ’이 분야에 계시는 분들은 왜 AI에 대해서 공부하고 연구할까?’, ‘이 분야에서 내가 할 수 있는 것은 무엇일까?’
  • 13. 그래서 많은 자료를 찾아보던 중에
  • 14. Reference - YouTube 영상 https://www.youtube.com/watch?v=eKA4EPpLCIU&t=871s - SlideShare 자료 https://www.slideshare.net/NaverEngineering/deepmind-starcraft-ii-ai NAVER AI Research Engineer이신 송호연님의 영상과 자료를 6개월 동안 보면서 이 분야에 대해 많은 생각을 하게 되었습니다.
  • 15. 인공지능에 대한 3가지 정의 출처 : Deepmind StarCraft 2 AI 이미지 출처 : https://www.slideshare.net/NaverEngineering/deepmind-starcraft-ii-ai
  • 16. 인공지능에 대한 3가지 정의 출처 : Deepmind StarCraft 2 AI 이미지 출처 : https://www.slideshare.net/NaverEngineering/deepmind-starcraft-ii-ai
  • 17. 출처 : Deepmind StarCraft 2 AI 이미지 출처 : https://www.slideshare.net/NaverEngineering/deepmind-starcraft-ii-ai The Turing Test
  • 18. The Turing Test 출처 : Deepmind StarCraft 2 AI 이미지 출처 : https://www.slideshare.net/NaverEngineering/deepmind-starcraft-ii-ai
  • 19. 인공지능에 대한 3가지 정의 출처 : Deepmind StarCraft 2 AI 이미지 출처 : https://www.slideshare.net/NaverEngineering/deepmind-starcraft-ii-ai
  • 20. Model of The Mind 출처 : Deepmind StarCraft 2 AI 이미지 출처 : https://www.slideshare.net/NaverEngineering/deepmind-starcraft-ii-ai
  • 21. 인공지능에 대한 3가지 정의 출처 : Deepmind StarCraft 2 AI 이미지 출처 : https://www.slideshare.net/NaverEngineering/deepmind-starcraft-ii-ai ‘너무 추상적인데..좀 더 명확한 정의가 없을까?’
  • 22. 인공지능에 대한 3가지 정의 출처 : Deepmind StarCraft 2 AI 이미지 출처 : https://www.slideshare.net/NaverEngineering/deepmind-starcraft-ii-ai
  • 23. Optimal Decision Maker 출처 : Deepmind StarCraft 2 AI 이미지 출처 : https://www.slideshare.net/NaverEngineering/deepmind-starcraft-ii-ai
  • 24. Optimal Decision Maker 출처 : Deepmind StarCraft 2 AI 이미지 출처 : https://www.slideshare.net/NaverEngineering/deepmind-starcraft-ii-ai ‘나도 지능을 얻을 때 어떠한 환경이 있었고, 그 환경과 계속 상호작용하면서 특정한 값(or anything good)을 최대화하는 것 같은데..?!’
  • 25. Optimal Decision Maker 출처 : Deepmind StarCraft 2 AI 이미지 출처 : https://www.slideshare.net/NaverEngineering/deepmind-starcraft-ii-ai 이 정의가 바로 강화학습!
  • 27. 강화학습이란? 이미지 출처 : http://blog.naver.com/PostView.nhn?blogId=magnking&logNo=221124537501, https://insightcampus.co.kr/rl02/
  • 28. 강화학습이란? 출처 : [카카오AI리포트]알파고를 탄생시킨 강화학습의 비밀 이미지 출처 : https://brunch.co.kr/@kakao-it/73
  • 29. 강화학습이란? 출처 : [카카오AI리포트]알파고를 탄생시킨 강화학습의 비밀 이미지 출처 : https://brunch.co.kr/@kakao-it/73 - Agent는 환경의 상태(State)를 통해 행동(Action)을 한다. - 환경은 Agent에게 그 행동에 대한 다음 상태와 보상(Reward)을 준다. - Agent는 행동의 결과로 나타나는 보상을 통해 학습한다. - 따라서 Agent는 보상을 얻게 하는 행동을 점점 많이 하도록 학습한다.
  • 30. 강화학습이란? 출처 : [카카오AI리포트]알파고를 탄생시킨 강화학습의 비밀 이미지 출처 : https://brunch.co.kr/@kakao-it/73 - Agent는 환경의 상태(State)를 통해 행동(Action)을 한다. - 환경은 Agent에게 그 행동에 대한 다음 상태와 보상(Reward)을 준다. - Agent는 행동의 결과로 나타나는 보상을 통해 학습한다. - 따라서 Agent는 보상을 얻게 하는 행동을 점점 많이 하도록 학습한다.
  • 31. 강화학습이란? 출처 : [카카오AI리포트]알파고를 탄생시킨 강화학습의 비밀 이미지 출처 : https://brunch.co.kr/@kakao-it/73 - Agent는 환경의 상태(State)를 통해 행동(Action)을 한다. - 환경은 Agent에게 그 행동에 대한 다음 상태와 보상(Reward)을 준다. - Agent는 행동의 결과로 나타나는 보상을 통해 학습한다. - 따라서 Agent는 보상을 얻게 하는 행동을 점점 많이 하도록 학습한다.
  • 32. 강화학습이란? 출처 : [카카오AI리포트]알파고를 탄생시킨 강화학습의 비밀 이미지 출처 : https://brunch.co.kr/@kakao-it/73 - Agent는 환경의 상태(State)를 통해 행동(Action)을 한다. - 환경은 Agent에게 그 행동에 대한 다음 상태와 보상(Reward)을 준다. - Agent는 행동의 결과로 나타나는 보상을 통해 학습한다. - 따라서 Agent는 보상을 얻게 하는 행동을 점점 많이 하도록 학습한다.
  • 33. 출처 : [카카오AI리포트]알파고를 탄생시킨 강화학습의 비밀 이미지 출처 : https://brunch.co.kr/@kakao-it/73 강화학습이란? - 상태(State) : 정적인 요소 + 동적인 요소(ex. 속도, 가속도 등) - 행동(Action) : 어떠한 상태에서 취할 수 있는 행동(ex. 상, 하, 좌, 우) - 보상(Reward) : Agent가 학습할 수 있는 유일한 정보 (다른 머신러닝 기법과 다르게 만들어주는 가장 핵심적인 요소!) - 정책(Policy) : 모든 상태에 대해 Agent가 어떤 행동을 해야 하는지 정해놓은 것 강화학습의 목적 : 최적의(Optimal) 정책을 찾는 것!
  • 36. What is Artificial General Intelligence?
  • 37. Artificial General Intelligence(AGI)를 생각하고 연구하는 대표적인 세 그룹
  • 38. Artificial General Intelligence(AGI)를 생각하고 연구하는 대표적인 세 그룹
  • 39. “강화학습은 범용인공지능으로 가기 위한 단계 중 하나이다.” Google DeepMind CEO Demis Hassabis
  • 40. DeepMind Mission 1. Solve intelligence 2. Use it to solve everything else
  • 41. DeepMind Mission 1. 지능을 해결하자. 2. 그것을 그 밖의 다른 모든 것을 해결하는 데에 사용하자.
  • 42. 다시 말해 “하나의 알고리즘을 통해서 모든 문제를 해결할 수 있는 Meta-solution을 얻겠다.”
  • 43. 이미지 출처 : https://m.blog.naver.com/PostView.nhn?blogId=blogstock&logNo=220417224514&proxyReferer=https%3A%2F%2Fwww.google.co.kr%2F
  • 44. 네.
  • 46. 지금까지는 조금 일반적인 내용을 다뤄 봤습니다. (봤죠? 강화학습 짱이죠?ㅎㅎ)
  • 47. 본격적인 내용에 앞서 오늘 발표 주제가 왜 “안.전.제.일. 강화학습!”인지를 말씀드리자면..
  • 50. “어떻게 하면 강화학습을 더 안전하고 빠르게 학습할 수 있을까?”
  • 51. “어떻게 하면 강화학습을 더 안전하고 빠르게 학습할 수 있을까?” “결국 이 문제 때문에 강화학습을 여러 task에 적용하기가 힘든 것이 아닐까?”
  • 52. “어떠한 연구들이 진행되고 있을까?” 논문읽자 동마나!!!
  • 54. 여러분들은 어떠한 일을 할 때 미리 머리속으로 계획을 세워 두고 하시나요?
  • 55. 여러분들은 어떠한 일을 할 때 미리 머리속으로 계획을 세워 두고 하시나요? Ex. 공부할 때, 운동할 때, 요리할 때 등
  • 56. 여러분들은 어떠한 일을 할 때 미리 머리속으로 계획을 세워 두고 하시나요? Ex. 공부할 때, 운동할 때, 요리할 때 등 상상을 통해 계획을 세운다.
  • 57. Imagination 상상(Imagination)이란? - 실제로 경험하지 않은 현상이나 사물에 대하여 마음속으로 그려 봄. - 외부 자극에 의하지 않고 기억된 생각이나 새로운 심상을 떠올리는 일.
  • 61. Reinforcement Learning(RL)의 두 가지 관점 Model-based RL Model-free RL
  • 62. Reinforcement Learning(RL)의 두 가지 관점 Model-based RL Model-free RL
  • 64. Model-based RL Model 환경이 어떻게 agent의 행동(action)에 반응할 것인지를 예측하기 위해 만든 것. 다시 말해 imagination(simulation)을 하기 위해 만든 것.
  • 65. Model-based RL 환경이 어떻게 agent의 행동(action)에 반응할 것인지를 예측하기 위해 만든 것. 다시 말해 imagination(simulation)을 하기 위해 만든 것. Transition function : 𝑷(𝒔′ |𝒔, 𝒂) Reward function : 𝑹(𝒔, 𝒂, 𝒔′ ) Model
  • 66. Model-based RL 낙하한 거리 ℎ = 1 2 𝑔𝑡2 (𝑔: 중력가속도 9.81 𝑚/𝑠2, 𝑡: 시간 sec) 공의 초기 높이가 50m이다. 공을 낙하시키는 경우 2초 뒤 공의 높이는?? 50𝑚 − 0.5 × 9.81𝑚/𝑠2 × 2𝑠 2 ≈ 30.38𝑚 공을 직접 낙하시키지 않아도 높이를 알 수 있다! Ex) 공의 자유 낙하 운동
  • 67. Model-based RL Planning Model을 통해 imagination(simulation)하여 어떠한 policy를 만들고 향상시키는 과정.
  • 68. Model-based RL Planning Model을 통해 imagination(simulation)하여 어떠한 policy를 만들고 향상시키는 과정.
  • 69. Model-based RL Model + Planning Ex. Q-Planning, Rollout Algorithms, Monte-Carlo Tree Search
  • 70. Reinforcement Learning(RL)의 두 가지 관점 Model-based RL Model-free RL
  • 72. Model-free RL Learning 실제로 행동(Acting)하여 시행착오(Trial and Error)를 통해 학습하는 것.
  • 73. Model-free RL Learning 실제로 행동(Acting)하여 시행착오(Trial and Error)를 통해 학습하는 것. Ex. Q-Learning, DQN, A3C
  • 74. 대표적인 Model-free RL Algorithm 출처 : 파이썬과 케라스로 배우는 강화학습 저자특강, RLCode와 A3C 쉽고 깊게 이해하기 이미지 출처 : https://www.slideshare.net/WoongwonLee/ss-78783597, https://www.slideshare.net/WoongwonLee/rlcode-a3c DQN(Deep Q-Network) A3C (Asynchronous Advantage Actor-Critic)
  • 75. Model-free RL Algorithm DQN(Deep Q-Network) A3C (Asynchronous Advantage Actor-Critic) Double DQN Prioritized DQN Dueling DQN Noisy DQN Distributional DQN Rainbow . . . REINFORCE A2C ACER ACKTR DDPG TRPO PPO . . .
  • 76. Model-based RL vs. Model-free RL Model-based RL Model-free RL Good 같은 환경에서 다양한 task 가능 Sample efficiency No Model Complex task에 대한 해결 능력 Bad Model Error Planning을 함으로써 Computation cost 증가 엄청난 양의 training data 같은 환경에서 다양한 task의 어려움
  • 77. Reinforcement Learning(RL)의 두 가지 관점 Model-based RL Model-free RL
  • 78. Model-based RL Model-free RL+ ‘두 가지를 상호보완하기 위해 합칠 수는 없을까?’
  • 79. Model-based RL Model-free RL+ “Fusion Ha!”
  • 80. Model-based RL Model-free RL+ “찌요오오오오옹오오옹~!!!”
  • 81.
  • 82. 이 논문에서 우리가 알아야 할 Neural Network
  • 83. Convolutional Neural Network (CNN) 출처 : Deep Learning CNN’s in Tensorflow with GPUs 이미지 출처 : https://hackernoon.com/deep-learning-cnns-in-tensorflow-with-gpus-cba6efe0acc2
  • 84. Recurrent Neural Network (RNN) 출처 : LSTM(RNN) 소개 이미지 출처 : https://brunch.co.kr/@chris-song/9
  • 85. Long Short Term Memory Network (LSTM) 출처 : LSTM(RNN) 소개 이미지 출처 : https://brunch.co.kr/@chris-song/9
  • 86. 총 3가지의 Neural Network를 안다는 가정하에 설명을 해보겠습니다.
  • 88. 출처 : Imagination-Augmented Agents for Deep Reinforcement Learning 이미지 출처 : https://arxiv.org/pdf/1707.06203.pdf
  • 92. 3. Full I2A Architecture
  • 93. 출처 : Imagination-Augmented Agents for Deep Reinforcement Learning 이미지 출처 : https://arxiv.org/pdf/1707.06203.pdf 하나씩 설명해 보겠습니다.
  • 95. 무엇을 input으로 받고, 무엇이 output으로 나오는가?
  • 96. input Model Transition function : 𝑷(𝒔′ |𝒔, 𝒂) Reward function : 𝑹(𝒔, 𝒂, 𝒔′ )
  • 97. output Model Transition function : 𝑷(𝒔′ |𝒔, 𝒂) Reward function : 𝑹(𝒔, 𝒂, 𝒔′ )
  • 99.
  • 101. 실제로 관찰한 것 Imagination을 통해 관찰한 것
  • 102. A2C 기반 Network (논문에서 어떠한 Algorithm을 사용했는지에 대한 언급은 없었습니다.)
  • 103. 출처 : RLCode와 A3C 쉽고 깊게 이해하기 이미지 출처 : https://www.slideshare.net/WoongwonLee/rlcode-a3c A2C 기반 Network
  • 105. Distillation strategy “Imagination-augmented policy를 증류(distillation)하여 Model-free policy를 만든다.”
  • 106. “Imagination-augmented policy를 증류(distillation)..?하여 Model-free policy를 만든다.” ‘증류가 뭐지..뭘까..알고싶다..하.. 내가 증류되는 기분이다..’
  • 107. 증류(distillation)란, 기존의 policy에서 불필요한 부분을 증류하여 더 나은 policy를 만드는 것.
  • 108. Distillation strategy Imagination-augmented policy를 증류(distillation)하여 Model-free policy를 만든다. 다시 말해 imagination-augmented policy와 model-free policy 사이의 전체의 loss를 Cross entropy auxiliary loss에 추가한다.
  • 113. Rollout Algorithm 출처 : TRPO (Trust Region Policy Optimization) : In depth Research Paper Review 이미지 출처 : https://www.youtube.com/watch?v=CKaN5PgkSBc
  • 114. Rollout Algorithm 출처 : TRPO (Trust Region Policy Optimization) : In depth Research Paper Review 이미지 출처 : https://www.youtube.com/watch?v=CKaN5PgkSBc
  • 115. Rollout Algorithm의 목적 ‘내가 지금 있는 상태에서 어떠한 행동을 해야 좋을까?’를 Simulation을 통해 구하는 것. 출처 : TRPO (Trust Region Policy Optimization) : In depth Research Paper Review 이미지 출처 : https://www.youtube.com/watch?v=CKaN5PgkSBc
  • 116. Rollout Algorithm 출처 : TRPO (Trust Region Policy Optimization) : In depth Research Paper Review 이미지 출처 : https://www.youtube.com/watch?v=CKaN5PgkSBc Monte-Carlo control 기반으로써 레드카펫을 쭉 밀어서 끝까지 펴는 것과 같다. Simulated trajectories의 return 값들을 평균을 냄으로써 각각의 행동의 가치를 평가한다. 최적의 policy를 찾는 것이 아니라 그저 빠르게 simulation을 하는 것이 목적이다.
  • 117. Rollout Algorithm 출처 : TRPO (Trust Region Policy Optimization) : In depth Research Paper Review 이미지 출처 : https://www.youtube.com/watch?v=CKaN5PgkSBc Monte-Carlo control 기반으로써 레드카펫을 쭉 밀어서 끝까지 펴는 것과 같다. Simulated trajectories의 return 값들을 평균을 냄으로써 각각의 행동의 가치를 평가한다. 최적의 policy를 찾는 것이 아니라 그저 빠르게 simulation을 하는 것이 목적이다.
  • 118. Rollout Algorithm 출처 : TRPO (Trust Region Policy Optimization) : In depth Research Paper Review 이미지 출처 : https://www.youtube.com/watch?v=CKaN5PgkSBc Monte-Carlo control 기반으로써 레드카펫을 쭉 밀어서 끝까지 펴는 것과 같다. Simulated trajectories의 return 값들을 평균을 냄으로써 각각의 행동의 가치를 평가한다. 최적의 policy를 찾는 것이 아니라 그저 빠르게 simulation을 하는 것이 목적이다. 𝐺𝑡 = 𝑅𝑡+1 + 𝛾𝑅𝑡+2 + 𝛾2 𝑅𝑡+3 + ⋯ = σ 𝑘=0 ∞ 𝛾 𝑘 𝑅𝑡+𝑘+1
  • 119. Rollout Algorithm 출처 : TRPO (Trust Region Policy Optimization) : In depth Research Paper Review 이미지 출처 : https://www.youtube.com/watch?v=CKaN5PgkSBc Monte-Carlo control 기반으로써 레드카펫을 쭉 밀어서 끝까지 펴는 것과 같다. Simulated trajectories의 return 값들을 평균을 냄으로써 각각의 행동의 가치를 평가한다. 최적의 policy를 찾는 것이 아니라 그저 빠르게 simulation을 하는 것이 목적이다.
  • 121. 2-1. imagine future Unsupervised 방식의 recurrent한 architecture
  • 122. Rollout 출처 : TRPO (Trust Region Policy Optimization) : In depth Research Paper Review 이미지 출처 : https://www.youtube.com/watch?v=CKaN5PgkSBc 기존의 Rollout I2A의 Rollout
  • 123. Rollout 출처 : TRPO (Trust Region Policy Optimization) : In depth Research Paper Review 이미지 출처 : https://www.youtube.com/watch?v=CKaN5PgkSBc 기존의 Rollout I2A의 Rollout 차이점!
  • 124. 2-2. encode CNN + LSTM 사용 2-1. imagine future Unsupervised 방식의 recurrent한 architecture
  • 125. CNN + LSTM 사용 각각의 Encoder는 하나의 imagined trajectory를 순차적으로 다루는 LSTM Cell을 사용한다. 각각의 Encoder는 Bellman backup operation을 흉내 내듯이 반대순서로 LSTM에 넣어진다. imagined rollout을 처리하는 rollout encoder를 사용하여 “learn to interpret”(해석하여 학습)을 한다. 다시 말해 agent의 결정에 대해 어떠한 유용한 정보들을 추출하거나 or 필요하다면 그 정보를 무시한다.
  • 126. CNN + LSTM 사용 각각의 Encoder는 하나의 imagined trajectory를 순차적으로 다루는 LSTM Cell을 사용한다. 각각의 Encoder는 Bellman backup operation을 흉내 내듯이 반대순서로 LSTM에 넣어진다. imagined rollout을 처리하는 rollout encoder를 사용하여 “learn to interpret”(해석하여 학습)을 한다. 다시 말해 agent의 결정에 대해 어떠한 유용한 정보들을 추출하거나 or 필요하다면 그 정보를 무시한다.
  • 127. CNN + LSTM 사용 각각의 Encoder는 하나의 imagined trajectory를 순차적으로 다루는 LSTM Cell을 사용한다. 각각의 Encoder는 Bellman backup operation(?)을 흉내 내듯이 반대순서로 LSTM에 넣어진다. imagined rollout을 처리하는 rollout encoder를 사용하여 “learn to interpret”(해석하여 학습)을 한다. 다시 말해 agent의 결정에 대해 어떠한 유용한 정보들을 추출하거나 or 필요하다면 그 정보를 무시한다.
  • 129. Bellman backup operation 코딩에서의 등호의 의미와 같이 오른쪽의 식을 왼쪽에 대입한다는 개념이다. 다시 말해 미래의 값(nest state-value function) 으로 현재의 value function을 구한다는 것이다.
  • 130. CNN + LSTM 사용 각각의 Encoder는 하나의 imagined trajectory를 순차적으로 다루는 LSTM Cell을 사용한다. 각각의 Encoder는 Bellman backup operation을 흉내 내듯이 반대순서로 LSTM에 넣어진다. imagined rollout을 처리하는 rollout encoder를 사용하여 “learn to interpret”(해석하여 학습)을 한다. 다시 말해 agent의 결정에 대해 어떠한 유용한 정보들을 추출하거나 or 필요하다면 그 정보를 무시한다.
  • 131. CNN + LSTM 사용 각각의 Encoder는 하나의 imagined trajectory를 순차적으로 다루는 LSTM Cell을 사용한다. 각각의 Encoder는 Bellman backup operation을 흉내 내듯이 반대순서로 LSTM에 넣어진다. imagined rollout을 처리하는 rollout encoder를 사용하여 “learn to interpret”(해석하여 학습)을 한다. 다시 말해 agent의 결정에 대해 어떠한 유용한 정보들을 추출하거나 or 필요하다면 그 정보를 무시한다.
  • 132. 2-2. encode CNN + LSTM 사용 2-1. imagine future Unsupervised 방식의 RNN 사용 2. Single Imagination rollout
  • 133. 3. Full I2A Architecture
  • 134. Aggregator는 서로 다른 rollout encoder에서 나온 encoded value들을 concatenate 3-1. Model-based path
  • 135. A3C 기반 Network 3-2. Model-free path3-1. Model-based path Aggregator
  • 136. 출처 : RLCode와 A3C 쉽고 깊게 이해하기 이미지 출처 : https://www.slideshare.net/WoongwonLee/rlcode-a3c A3C 기반 Network
  • 137. 3. Full I2A Architecture A3C 기반 Network 3-2. Model-free path3-1. Model-based path Aggregator
  • 139. Sokoban Experiment Sokoban은 agent가 주어진 target 위치로 box들을 밀어야 하는 고전 planning 게임! Box를 미는 것 밖에 안되기 때문에 action을 되돌릴 수 없다. 새로운 단계마다 random한 episode를 생성하기 때문에 구체적인 puzzle의 위치를 기억할 수 없다. 사람도 해결하기 힘들다..
  • 140. Sokoban Experiment Sokoban은 agent가 주어진 target 위치로 box들을 밀어야 하는 고전 planning 게임! Box가 벽에 닿아있거나 2개가 연속으로 있을 경우 Box를 밀지 못한다. 새로운 단계마다 random한 episode를 생성하기 때문에 구체적인 puzzle의 위치를 기억할 수 없다. 사람도 해결하기 힘들다..
  • 141. Sokoban Experiment Sokoban은 agent가 주어진 target 위치로 box들을 밀어야 하는 고전 planning 게임! Box가 벽에 닿아있거나 2개가 연속으로 있을 경우 Box를 밀지 못한다. 새로운 단계마다 random한 episode를 생성하기 때문에 구체적인 target의 위치를 기억할 수 없다. 사람도 해결하기 힘들다..
  • 142. Sokoban Experiment Sokoban은 agent가 주어진 target 위치로 box들을 밀어야 하는 고전 planning 게임! Box가 벽에 닿아있거나 2개가 연속으로 있을 경우 Box를 밀지 못한다. 새로운 단계마다 random한 episode를 생성하기 때문에 구체적인 target의 위치를 기억할 수 없다. ∴ 사람도 해결하기 힘들다..
  • 144. I2A의 성능 우왕 I2A 짱짱! +_+!!
  • 146. I2A의 장점 1. 단독으로 쓰인 Model-free baseline들보다 성능이 우수하다. 2. Imagination을 통해 agent가 좀 더 나은 길을 갈 수 있도록 한다. 3. “learn to interpret”하기 때문에 불완전한 환경의 모델도 다룰 수 있다. 4. 하나의 환경의 모델로 여러 task들을 해결하는 데에 사용될 수 있다.
  • 147. I2A의 단점 1. 환경과 상호작용을 할 때마다 simulation을 하기 때문에 model-free baseline보다 느리다. 2. Imagination의 계산량은 rollout의 깊이와 수에 linear하게 증가한다. 3. Simulation을 할 수 없는 환경이라면 I2A를 쓸 수 없다. 4. 굳이 환경의 모델을 Network로 써야 될 필요가 없을 수도 있다.
  • 148. 더 자세한 내용은 제 블로그를 참고 해주세요! http://dongminlee.tistory.com/6
  • 150. “어떻게 하면 강화학습을 더 안전하고 빠르게 학습할 수 있을까?”
  • 151. “어떻게 하면 강화학습을 더 안전하고 빠르게 학습할 수 있을까?” “다른 연구들은 어떤 것들이 있을까?”
  • 152. Safe RL과 관련된 총 10개의 논문을 찾았습니다!
  • 153. 그래서 현재 팀을 만들어서 논문을 차근차근 리뷰하고 있습니다.
  • 154. 제일 먼저 접한 Survey 논문입니다. 무려 44페이지 ㄷㄷ..
  • 155. 그래서 전반적인 Safe RL에 대해서 말씀드리려고 했지만.. 시간 관계상 다음 기회에..ㅠㅠ
  • 157. References - DeepMind StarCraft 2 AI (YouTube Link, SlideShare Link) - 딥러닝 ‘DQN’ 알고리즘의 놀라운 학습 능력 (Link) - 파이썬과 케라스로 배우는 강화학습 저자특강 (Link) - RLCode와 A3C 쉽고 깊게 이해하기 (Link) - Reinforcement Learning: An Introduction (Link) - Planning and Learning with Tabular Methods (reviewed by D. Lee, Link) - Paper: Imagination-Augmented Agents for Deep Reinforcement Learning (Link) - Paper: A Comprehensive Survey on Safe Reinforcement Learning (Link)
  • 159. 강화학습이 아직은 많이 연구되어야 하는 보석같은 아이지만..
  • 160. 그래도 강화학습 많이 사랑해주세요!
  • 161. 더불어 RL KOREA도 많이 사랑해주세요!