안.전.제.일. 강화학습!

안.전.제.일. 강화학습!
이동민
1st 함께하는 딥러닝 컨퍼런스
Jun 28, 2018

이동민
• 한양대학교 컴퓨터공학 전공
• RLI Study 리더
- 2017.12 : 김성훈 교수님의 ‘모두의 RL’
- 2018. 1 ~ 3 : ‘파이썬과 케라스로 배우는 강화학습’
- 2018. 4 ~ 6 : ‘Reinforcement Learning: An Introduction’
written by Richard S. Sutton and Andrew G. Barto
• RL KOREA, 피지여행 프로젝트
- REINFORCE 부터 PPO 까지 7개의 논문 정리

요즘 연애하느라 잠을 많이 못자고 있습니다..

강화학습과 연애중입니다! ㅎㅎㅎ
(밀당을 엄청 잘하더라구요..)

그리고 어릴 때부터 친했던 친구를 소개해드리겠습니다!

그래도 알고 보면 재미있는 친구입니다.
너무 미워하지 말아주세요!
수학입니다..!

그래서 저는 강화학습에 나오는 이론과 수식을 굉장히 좋아합니다!

1. What is Artificial Intelligence?
2. What is Reinforcement Learning?
3. What is Artificial General Intelligence?
4. Planning and Learning
5. Safe Reinforcement Learning
안.전.제.일. 강화학습!
Outline

Outline
제가 왜 강화학습을 공부하는지
or
왜 강화학습을 알아야 하는지

Outline
최근에는 어디에 집중하고 있는지

What is Artificial Intelligence?

딥러닝을 공부하다가 문뜩 이런 생각을 하게 되었습니다.
‘나는 이 분야를 왜 공부할까?’, ‘단지 학습되는 것이 재밌기 때문일까?’,
‘AI의 궁극적인 목적은 무엇일까?’,
’이 분야에 계시는 분들은 왜 AI에 대해서 공부하고 연구할까?’,
‘이 분야에서 내가 할 수 있는 것은 무엇일까?’

그래서 많은 자료를 찾아보던 중에

Reference
- YouTube 영상
https://www.youtube.com/watch?v=eKA4EPpLCIU&t=871s
- SlideShare 자료
https://www.slideshare.net/NaverEngineering/deepmind-starcraft-ii-ai
NAVER AI Research Engineer이신 송호연님의 영상과 자료를
6개월 동안 보면서 이 분야에 대해 많은 생각을 하게 되었습니다.

인공지능에 대한 3가지 정의
출처 : Deepmind StarCraft 2 AI
이미지 출처 : https://www.slideshare.net/NaverEngineering/deepmind-starcraft-ii-ai

The Turing Test

Model of The Mind

인공지능에 대한 3가지 정의
‘너무 추상적인데..좀 더 명확한 정의가 없을까?’

Optimal Decision Maker

‘나도 지능을 얻을 때 어떠한 환경이 있었고,
그 환경과 계속 상호작용하면서
특정한 값(or anything good)을 최대화하는 것 같은데..?!’

이 정의가 바로 강화학습!

What is Reinforcement Learning?

강화학습이란?
이미지 출처 : http://blog.naver.com/PostView.nhn?blogId=magnking&logNo=221124537501, https://insightcampus.co.kr/rl02/

강화학습이란?
출처 : [카카오AI리포트]알파고를 탄생시킨 강화학습의 비밀
이미지 출처 : https://brunch.co.kr/@kakao-it/73

강화학습이란?
- Agent는 환경의 상태(State)를 통해 행동(Action)을 한다.
- 환경은 Agent에게 그 행동에 대한 다음 상태와 보상(Reward)을 준다.
- Agent는 행동의 결과로 나타나는 보상을 통해 학습한다.
- 따라서 Agent는 보상을 얻게 하는 행동을 점점 많이 하도록 학습한다.

강화학습이란?
- 상태(State) : 정적인 요소 + 동적인 요소(ex. 속도, 가속도 등)
- 행동(Action) : 어떠한 상태에서 취할 수 있는 행동(ex. 상, 하, 좌, 우)
- 보상(Reward) : Agent가 학습할 수 있는 유일한 정보
(다른 머신러닝 기법과 다르게 만들어주는 가장 핵심적인 요소!)
- 정책(Policy) : 모든 상태에 대해 Agent가 어떤 행동을 해야 하는지 정해놓은 것
강화학습의 목적 : 최적의(Optimal) 정책을 찾는 것!

What is Artificial General Intelligence?

Artificial General Intelligence(AGI)를
생각하고 연구하는 대표적인 세 그룹

“강화학습은 범용인공지능으로
가기 위한 단계 중 하나이다.”
Google DeepMind CEO
Demis Hassabis

DeepMind Mission
1. Solve intelligence
2. Use it to solve everything else

DeepMind Mission
1. 지능을 해결하자.
2. 그것을 그 밖의 다른 모든 것을 해결하는 데에 사용하자.

다시 말해
“하나의 알고리즘을 통해서 모든 문제를 해결할 수 있는
Meta-solution을 얻겠다.”

이미지 출처 : https://m.blog.naver.com/PostView.nhn?blogId=blogstock&logNo=220417224514&proxyReferer=https%3A%2F%2Fwww.google.co.kr%2F

지금까지는 조금 일반적인 내용을 다뤄 봤습니다.
(봤죠? 강화학습 짱이죠?ㅎㅎ)

본격적인 내용에 앞서 오늘 발표 주제가 왜
“안.전.제.일. 강화학습!”인지를 말씀드리자면..

https://www.alexirpan.com/2018/02/14/rl-hard.html
강화학습 너무
뭐라하지마요
ㅠㅠ

그래서 생각해본 것이 바로

“어떻게 하면 강화학습을 더 안전하고 빠르게 학습할 수 있을까?”

“결국 이 문제 때문에 강화학습을 여러 task에 적용하기가 힘든 것이 아닐까?”

“어떠한 연구들이 진행되고 있을까?”
논문읽자
동마나!!!

여러분들은 어떠한 일을 할 때 미리 머리속으로 계획을 세워 두고 하시나요?

Ex. 공부할 때, 운동할 때, 요리할 때 등

Ex. 공부할 때, 운동할 때, 요리할 때 등
상상을 통해 계획을 세운다.

Imagination
상상(Imagination)이란?
- 실제로 경험하지 않은 현상이나 사물에 대하여 마음속으로 그려 봄.
- 외부 자극에 의하지 않고 기억된 생각이나 새로운 심상을 떠올리는 일.

Imagination-based Planning
계획을 설정

계획을 설정
↓
계획을 평가

계획을 설정
↓
계획을 평가
↓
계획을 실행

Reinforcement Learning(RL)의 두 가지 관점
Model-based RL Model-free RL

Model-based RL
Model
환경이 어떻게 agent의 행동(action)에 반응할 것인지를 예측하기 위해 만든 것.
다시 말해 imagination(simulation)을 하기 위해 만든 것.

Model-based RL
환경이 어떻게 agent의 행동(action)에 반응할 것인지를 예측하기 위해 만든 것.
다시 말해 imagination(simulation)을 하기 위해 만든 것.
Transition function : 𝑷(𝒔′
|𝒔, 𝒂)
Reward function : 𝑹(𝒔, 𝒂, 𝒔′
)
Model

Model-based RL
낙하한 거리 ℎ =
1
2
𝑔𝑡2 (𝑔: 중력가속도 9.81 𝑚/𝑠2, 𝑡: 시간 sec)
공의 초기 높이가 50m이다. 공을 낙하시키는 경우 2초 뒤 공의 높이는??
50𝑚 − 0.5 × 9.81𝑚/𝑠2
× 2𝑠 2
≈ 30.38𝑚
공을 직접 낙하시키지 않아도 높이를 알 수 있다!
Ex) 공의 자유 낙하 운동

Model-based RL
Planning
Model을 통해 imagination(simulation)하여
어떠한 policy를 만들고 향상시키는 과정.

Model-based RL
Model + Planning
Ex. Q-Planning, Rollout Algorithms, Monte-Carlo Tree Search

Model-free RL
Learning
실제로 행동(Acting)하여 시행착오(Trial and Error)를 통해 학습하는 것.

Model-free RL
Learning
실제로 행동(Acting)하여 시행착오(Trial and Error)를 통해 학습하는 것.
Ex. Q-Learning, DQN, A3C

대표적인 Model-free RL Algorithm
출처 : 파이썬과 케라스로 배우는 강화학습 저자특강, RLCode와 A3C 쉽고 깊게 이해하기
이미지 출처 : https://www.slideshare.net/WoongwonLee/ss-78783597, https://www.slideshare.net/WoongwonLee/rlcode-a3c
DQN(Deep Q-Network)
A3C
(Asynchronous Advantage
Actor-Critic)

Model-free RL Algorithm
DQN(Deep Q-Network)
A3C
(Asynchronous Advantage
Actor-Critic)
Double DQN
Prioritized DQN
Dueling DQN
Noisy DQN
Distributional DQN
Rainbow
.
.
.
REINFORCE
A2C
ACER
ACKTR
DDPG
TRPO
PPO
.
.
.

Model-based RL vs. Model-free RL
Model-based RL Model-free RL
Good 같은 환경에서 다양한 task 가능
Sample efficiency
No Model
Complex task에 대한 해결 능력
Bad Model Error
Planning을 함으로써
Computation cost 증가
엄청난 양의 training data
같은 환경에서 다양한 task의 어려움

Model-based RL Model-free RL+
‘두 가지를 상호보완하기 위해 합칠 수는 없을까?’

“Fusion Ha!”

“찌요오오오오옹오오옹~!!!”

이 논문에서 우리가 알아야 할 Neural Network

Convolutional Neural Network (CNN)
출처 : Deep Learning CNN’s in Tensorflow with GPUs
이미지 출처 : https://hackernoon.com/deep-learning-cnns-in-tensorflow-with-gpus-cba6efe0acc2

Recurrent Neural Network (RNN)
출처 : LSTM(RNN) 소개
이미지 출처 : https://brunch.co.kr/@chris-song/9

Long Short Term Memory Network (LSTM)
출처 : LSTM(RNN) 소개
이미지 출처 : https://brunch.co.kr/@chris-song/9

총 3가지의 Neural Network를 안다는 가정하에 설명을 해보겠습니다.

전체 architecture를 살펴봅시다..!

출처 : Imagination-Augmented Agents for Deep Reinforcement Learning
이미지 출처 : https://arxiv.org/pdf/1707.06203.pdf

크게 3가지 architecture로 구성

출처 : Imagination-Augmented Agents for Deep Reinforcement Learning
이미지 출처 : https://arxiv.org/pdf/1707.06203.pdf
하나씩 설명해 보겠습니다.

무엇을 input으로 받고,
무엇이 output으로 나오는가?

input
Model
|𝒔, 𝒂)
)

output
Model
|𝒔, 𝒂)
)

실제로 관찰한 것
Imagination을 통해 관찰한 것

A2C 기반 Network
(논문에서 어떠한 Algorithm을
사용했는지에 대한 언급은 없었습니다.)

출처 : RLCode와 A3C 쉽고 깊게 이해하기
이미지 출처 : https://www.slideshare.net/WoongwonLee/rlcode-a3c
A2C 기반 Network

A2C 기반 Network
Distillation strategy 사용

Distillation strategy
“Imagination-augmented policy를 증류(distillation)하여
Model-free policy를 만든다.”

“Imagination-augmented policy를 증류(distillation)..?하여
Model-free policy를 만든다.”
‘증류가 뭐지..뭘까..알고싶다..하..
내가 증류되는 기분이다..’

증류(distillation)란,
기존의 policy에서 불필요한 부분을 증류하여 더 나은 policy를 만드는 것.

Distillation strategy
Imagination-augmented policy를 증류(distillation)하여
Model-free policy를 만든다.
다시 말해 imagination-augmented policy와
model-free policy 사이의 전체의 loss를
Cross entropy auxiliary loss에 추가한다.

2. Single Imagination rollout?

Rollout
‘레드카펫..?! ’

Rollout Algorithm
출처 : TRPO (Trust Region Policy Optimization) : In depth Research Paper Review
이미지 출처 : https://www.youtube.com/watch?v=CKaN5PgkSBc

Rollout Algorithm의 목적
‘내가 지금 있는 상태에서 어떠한 행동을 해야 좋을까?’를
Simulation을 통해 구하는 것.

Rollout Algorithm
Monte-Carlo control 기반으로써
레드카펫을 쭉 밀어서 끝까지 펴는 것과 같다.
Simulated trajectories의 return 값들을
평균을 냄으로써 각각의 행동의 가치를 평가한다.
최적의 policy를 찾는 것이 아니라 그저
빠르게 simulation을 하는 것이 목적이다.

Rollout Algorithm
Monte-Carlo control 기반으로써
레드카펫을 쭉 밀어서 끝까지 펴는 것과 같다.
Simulated trajectories의 return 값들을
평균을 냄으로써 각각의 행동의 가치를 평가한다.
최적의 policy를 찾는 것이 아니라 그저
빠르게 simulation을 하는 것이 목적이다.
𝐺𝑡 = 𝑅𝑡+1 + 𝛾𝑅𝑡+2 + 𝛾2 𝑅𝑡+3 + ⋯ = σ 𝑘=0
∞
𝛾 𝑘 𝑅𝑡+𝑘+1

2-1. imagine future
Unsupervised 방식의 recurrent한 architecture

Rollout
기존의 Rollout I2A의 Rollout

Rollout
기존의 Rollout I2A의 Rollout
차이점!

2-2. encode
CNN + LSTM 사용
2-1. imagine future
Unsupervised 방식의 recurrent한 architecture

CNN + LSTM 사용
각각의 Encoder는 하나의 imagined trajectory를
순차적으로 다루는 LSTM Cell을 사용한다.
각각의 Encoder는 Bellman backup operation을 흉내 내듯이
반대순서로 LSTM에 넣어진다.
imagined rollout을 처리하는 rollout encoder를 사용하여
“learn to interpret”(해석하여 학습)을 한다.
다시 말해 agent의 결정에 대해 어떠한 유용한 정보들을
추출하거나 or 필요하다면 그 정보를 무시한다.

CNN + LSTM 사용
각각의 Encoder는 하나의 imagined trajectory를
순차적으로 다루는 LSTM Cell을 사용한다.
각각의 Encoder는 Bellman backup operation(?)을 흉내 내듯이
반대순서로 LSTM에 넣어진다.
imagined rollout을 처리하는 rollout encoder를 사용하여
“learn to interpret”(해석하여 학습)을 한다.
다시 말해 agent의 결정에 대해 어떠한 유용한 정보들을
추출하거나 or 필요하다면 그 정보를 무시한다.

Bellman backup operation
코딩에서의 등호의 의미와 같이
오른쪽의 식을 왼쪽에 대입한다는 개념이다.
다시 말해 미래의 값(nest state-value function)
으로 현재의 value function을 구한다는 것이다.

2-2. encode
CNN + LSTM 사용
2-1. imagine future
Unsupervised 방식의 RNN 사용
2. Single Imagination rollout

Aggregator는 서로 다른 rollout encoder에서 나온 encoded value들을 concatenate
3-1. Model-based path

A3C 기반 Network
3-2. Model-free path3-1. Model-based path
Aggregator

출처 : RLCode와 A3C 쉽고 깊게 이해하기
이미지 출처 : https://www.slideshare.net/WoongwonLee/rlcode-a3c
A3C 기반 Network

3. Full I2A Architecture
A3C 기반 Network
3-2. Model-free path3-1. Model-based path
Aggregator

Sokoban Experiment
Sokoban은 agent가 주어진 target 위치로 box들을 밀어야 하는 고전 planning 게임!
Box를 미는 것 밖에 안되기 때문에 action을 되돌릴 수 없다.
새로운 단계마다 random한 episode를 생성하기 때문에
구체적인 puzzle의 위치를 기억할 수 없다.
사람도 해결하기 힘들다..

Sokoban Experiment
Box가 벽에 닿아있거나 2개가 연속으로 있을 경우 Box를 밀지 못한다.
구체적인 puzzle의 위치를 기억할 수 없다.

Sokoban Experiment
구체적인 target의 위치를 기억할 수 없다.

Sokoban Experiment
구체적인 target의 위치를 기억할 수 없다.
∴ 사람도 해결하기 힘들다..

Sokoban Experiment
https://drive.google.com/drive/folders/0B4tKsKnCCZtQY2tTOThucHVxUTQ
4boxes 7boxes
하지만 I2A는 잘 해결했다고 합니다!

I2A의 성능
우왕 I2A 짱짱! +_+!!

I2A의 장점
1. 단독으로 쓰인 Model-free baseline들보다 성능이 우수하다.
2. Imagination을 통해 agent가 좀 더 나은 길을 갈 수 있도록 한다.
3. “learn to interpret”하기 때문에 불완전한 환경의 모델도 다룰 수 있다.
4. 하나의 환경의 모델로 여러 task들을 해결하는 데에 사용될 수 있다.

I2A의 단점
1. 환경과 상호작용을 할 때마다 simulation을 하기 때문에
model-free baseline보다 느리다.
2. Imagination의 계산량은 rollout의 깊이와 수에 linear하게 증가한다.
3. Simulation을 할 수 없는 환경이라면 I2A를 쓸 수 없다.
4. 굳이 환경의 모델을 Network로 써야 될 필요가 없을 수도 있다.

더 자세한 내용은 제 블로그를 참고 해주세요!
http://dongminlee.tistory.com/6

“다른 연구들은 어떤 것들이 있을까?”

Safe RL과 관련된 총 10개의 논문을 찾았습니다!

그래서 현재 팀을 만들어서 논문을 차근차근 리뷰하고 있습니다.

제일 먼저 접한 Survey 논문입니다. 무려 44페이지 ㄷㄷ..

그래서 전반적인 Safe RL에 대해서 말씀드리려고 했지만..
시간 관계상 다음 기회에..ㅠㅠ

추후에 정리하여 공유하도록 하겠습니다!

References
- DeepMind StarCraft 2 AI (YouTube Link, SlideShare Link)
- 딥러닝 ‘DQN’ 알고리즘의 놀라운 학습 능력 (Link)
- 파이썬과 케라스로 배우는 강화학습 저자특강 (Link)
- RLCode와 A3C 쉽고 깊게 이해하기 (Link)
- Reinforcement Learning: An Introduction (Link)
- Planning and Learning with Tabular Methods (reviewed by D. Lee, Link)
- Paper: Imagination-Augmented Agents for Deep Reinforcement Learning (Link)
- Paper: A Comprehensive Survey on Safe Reinforcement Learning (Link)

강화학습이 아직은 많이 연구되어야 하는 보석같은 아이지만..

그래도 강화학습 많이 사랑해주세요!

더불어 RL KOREA도 많이 사랑해주세요!

안.전.제.일. 강화학습!

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Similar to 안.전.제.일. 강화학습!

Similar to 안.전.제.일. 강화학습! (20)

More from Dongmin Lee

More from Dongmin Lee (12)

안.전.제.일. 강화학습!