인공지능 슈퍼마리오의 거의 모든 것( Pycon 2018 정원석)

인공지능 슈퍼마리오의 거의 모든 것
Reinforcement Learning
Wonseok Jung

정원석 
Wonseok Jung
City University of New York - Baruch College (Data Science Major)
ConnexionAI A.I Researcher
DeepLearningCollege Reinforcement Learning Researcher
모두의연구소 CTRL (Contest in RL) Leader
Reinforcement Learning, Object Detection, Chatbot
Github:
https://github.com/wonseokjung
Facebook:
https://www.facebook.com/ws.jung.798
Blog:
https://wonseokjung.github.io/

목차
1. How Animals Learn
2. How Humans Learn
3. Reinforcement Learning
4. SuperMario with Reinforcement Learning
REINFORCEMENT LEARNING

PREVIEW
Animal Human SuperMario
A
A
Env
R AtRt
SSt
Rt+1
St+1
Reinforcement
Learning
Agent
Environment

ALL ANIMALS HAVE THE ABILITY TO LEARN
- 모든 동물은 학습능력이 있다.
- 300여개의 신경세포만을 갖고 있는 예쁜꼬마선충 또한 학습능력이 있다.
- 머리철수반사 head withdraws reflex : 위험한 물체가 있을것이라 판단에 따른 반사행동
- 예쁜꼬마선충의 머리를 건드리면 일정 거리를 뒤로 간다.
HOW ANIMALS LEARN

HABITUATION
HOW ANIMALS LEARN
First try
Second try
Third try

LAW OF EFFECT
- Edward Thorndike(1898)
- Law of effect : 어떤 행동의 결과가 만족스러우면 다음에도 그 행동을 반복한다.
반대로 만족하지 않으면 그 행동을 하지 않는다.
- Reinforcement(강화) : 이전에 일어난 행동을 반복하게 만드는 자극
- Punishment(처벌) : 이전에 일어난 행동을 피하게 만드는 자극
HOW ANIMALS LEARN

EXAMPLE OF THE LAW OF EFFECT
HOW ANIMALS LEARN

INTERACTION WITH ENVIRONMENT
Environment Experience
LearnInteraction
HOW HUMANS LEARN

HOW HUMANS LEARN?
- Reinforcement : 이전에 일어난 행동을 반복하게 만드는 자극
- Punishment : 이전에 일어난 행동을 피하게 만드는 자극
HOW HUMANS LEARN

HOW HUMANS LEARN
Experiment Using Tap ball
HOW HUMANS LEARN
https://www.youtube.com/watch?v=2sicukP34fk

HOW HUMANS LEARN -TAP BALL
Day 1 Day 2 Day 3 Day 4
최고점수 : 3 
맞은횟수 : 2
최고점수 : 23 
맞은횟수 : 0
최고점수 : 30 
맞은횟수 : 0
최고점수 : 38
맞은횟수 : 1
HOW HUMANS LEARN

TAP BALL DAY 5
Day 5
최고점수 : 79
맞은횟수 : 0
HOW HUMANS LEARN

SIMILAR LEARNING METHODS B/W ANIMALS AND HUMANS
HOW HUMANS LEARN
Punishment Punishment Punishment

Environment Experience
Learn
Interaction

LEARNING
- Reinforcement learning은 Reward(보상)을 최대화 하는 action(행동)을 선택한다.
- Learner(배우는자)는 여러 action을 해보며, reward를 가장 높게 받는 action을 찾는다.
-선택된 action이 당장의 reward 뿐만 아닌, 다음의 상황 또는 다음 일어나게 될
reward에도 영향을 끼칠수도 있다.
Action
당장의
상황 변화
미래의 상황Reward 미래의 Reward

Agent
Exploitation Exploration
?
EXPLOITATION AND EXPLORATION

IMPORTANCE OF EXPLORATION
셀이
RussianBlue
2살
Curiosity 
풀이
Munchkin
1살
Food

IMPORTANCE OF EXPLORATION-2
풀이 셀이
Zero 
exploration
Exploration

IMPORTANCE OF EXPLORATION-3
풀이 셀이
Fail

MARKOV DECISION PROCESS
Action
Agent
Environment
Reward
AtRt
State
St
Rt+1
St+1

Environment
Reward
AtRtSt
Rt+1
St+1
Tap the ball
Positive Reward

STATE-VALUE FUNCTION
State-value

STATE-ACTION VALUE FUNCTION
State-Action value

OPTIMAL POLICY
Optimal State-Value function
Optimal State-Action value function

SUPERMARIO WITH REINFORCEMENT LEARNING

Action
Agent
Environment
Reward
AtRt
State
St
Rt+1
St+1
SUPERMARIO WITH R.L
Reward: +1
Penalty: -1

SUPERMARIO WITH R.L
https://github.com/wonseokjung/gym-super-mario-bros
pip install gym-super-mario-bros 
import gym_super_mario_bros 
env = gym_super_mario_bros.make(‘SuperMarioBros-v0')
env.reset()
env.render()
INSTALL AND IMPORT ENVIRONMENT

WORLDS & LEVELS ( WORLD 1~4)
SUPERMARIO WITH R.L
World 1 World 3
World 2 World 4
env = gym_super_mario_bros.make('SuperMarioBros-<world>-<level>-v<version>')

WORLDS & LEVELS ( WORLD 5~8)
SUPERMARIO WITH R.L
World 5 World 7
World 6 World 8

ALL WORLDS AND LEVELS
SUPERMARIO WITH R.L
1
2
3
4
5
6
7
8

ALL WORLDS AND LEVELS
SUPERMARIO WITH R.L
1
2
3
4
5
6
7
8
1 2 3 4 1 2 3 4

WORLDS & LEVELS
SUPERMARIO WITH R.L
Version 1
Version 2 Version 3 Version 4

REWARD AND PENALTY
SUPERMARIO WITH R.L
Reward
Penalty
깃발에 가까워지면 +
목표에 도착하면 +
목표달성하지 못하면 -
시간이 지날때마다 -
깃발에서 멀어지면 -

STATE, ACTION
SUPERMARIO WITH R.L
env.observation_space.shape
(240, 256, 3) # [ height, weight, channel ]
env.action_space.n
256
SIMPLE_MOVEMENT = [
[‘nop’],
[‘right’],
[‘right’,’A’],
[‘right’,’B’],
[‘right’,’A’,’B’],
[‘A’],
[‘left’],
]
 
 
from nes_py.wrappers import BinarySpaceToDiscreteSpaceEnv
env = gym_super_mario_bros.make(‘SuperMarioBros-v0’)
env =BinarySpaceToDiscreteSpaceEnv(env, SIMPLE_MOVEMENT)

OBSERVATION SPACE
SUPERMARIO WITH R.L
env.action_space.n
256
SIMPLE_MOVEMENT = [
[‘nop’],
[‘right’],
[‘right’,’A’,’B’],
[‘A’],
[‘left’],
]
 
 

ACTION SPACE
SUPERMARIO WITH R.L
env.action_space.n
256
SIMPLE_MOVEMENT = [
[‘nop’],
[‘right’],
[‘right’,’A’,’B’],
[‘A’],
[‘left’],
]
 
 

ACTION AFTER WRAPPER
SUPERMARIO WITH R.L
env.action_space.n
256
SIMPLE_MOVEMENT = [
[‘nop’],
[‘right’],
[‘right’,’A’,’B’],
[‘A’],
[‘left’],
]
 
 

EXPLOITATION AND EXPLORATION
SUPERMARIO WITH R.L
next_state, reward, done, info = env.step(action)
else :  
action = np.argmax(output)
def epsilon_greedy(q_value,step):
if np.random.rand() < epsilon :
action=np.random.randint(output)
?

EXPLORATION
SUPERMARIO WITH R.L
else :  
Exploitation Explorationif np.random.rand() < epsilon :
?

EXPLOITATION
SUPERMARIO WITH R.L
else :  
?

ENV.STEP( )
SUPERMARIO WITH R.L
else :  

EXPLORATION RATE AND REPLAY MEMORY BUFFER
SUPERMARIO WITH R.L
memory = deque([],maxlen=1000000)
memory.append(state,action,reward,next_state)
(St, At, Rt+1, St+1)
eps_max = 1
eps_min = 0.1
eps_decay_steps = 200000

REPLAY MEMORY BUFFER
SUPERMARIO WITH R.L
eps_max = 1
eps_min = 0.1

SUPERMARIO WITH R.L
eps_max = 1
eps_min = 0.1

MINIMIZE LOSS
SUPERMARIO WITH R.L
import tensorflow as tf
loss = tf.reduce_mean(tf.squre( y - Q_action ) )
Optimizer =tf.train.AdamsOptimizer(learning_rate)
training_op = optimizer.minize(loss)
(Rt+1 + γt+1maxa′qθ(St+1, a′
) − qθ(St, At))2

MINIMIZE LOSS
SUPERMARIO WITH R.L
) − qθ(St, At))2

APPROXIMATE ACTION-VALUE
SUPERMARIO WITH R.L

DOUBLE DQN
SUPERMARIO WITH R.L
input
Action
value EnvQ-Network s’
s
Replay memory
Q(s,a)
a
r

1000EPISODE, 3000EPISODE, TRAINING
SUPERMARIO WITH R.L
1000 episode 3000 episode

5000 EPISODE
SUPERMARIO WITH R.L
5000 episode
4 Days

SUMMARY
1. How Animals Learn
2. How Humans Learn
3. Reinforcement Learning
4. SuperMario with Reinforcement Learning

OTHER ENVIRONMENTS
OpenAI Deepmind Lab Starcraft
Supermario Sonic Minecraft

OTHER LEARNING METHODS
 
DQN
 
DDQN(tuned) Rainbow DQN(tuned) DDPG

CURRICULUM LEARNING
Goal
Wall
Agent
Action3Action2
Action1

IMITATION LEARNING
Imitation Learning
Teacher Student

How about making your own A.I SuperMario?

Github:
https://github.com/wonseokjung
Facebook:
https://www.facebook.com/ws.jung.798
Blog:
https://wonseokjung.github.io/
감사합니다.
 
Thank you

*참고 용어 기호
Time step
Action
Transition Function
Reward
Set of states
Set of actions
Start state
Discount factor
t
a
P(s′, r ∣ s, a)
r
A
S
S0
γ
Set of reward 
 
Policy
Reward
State
R
π
r
s

REFERENCES
1. Habituation The Birth of Intelligence
2. Law of effect : The Birth of Intelligence ,p.171
3. Thorndike, E. L. (1905). The elements of psychology. New York: A. G. Seiler.
4. Thorndike, E. L. (1898). Animal intelligence: An experimental study of the associative
processes in animals. Psychological Monographs: General and Applied, 2(4), i-109.
5. SuperMario environment  
https://github.com/Kautenja/gym-super-mario-bros
6. http://faculty.coe.uh.edu/smcneil/cuin6373/idhistory/thorndike_extra.html

인공지능 슈퍼마리오의 거의 모든 것( Pycon 2018 정원석)

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Recently uploaded

Recently uploaded (20)

인공지능 슈퍼마리오의 거의 모든 것( Pycon 2018 정원석)