SlideShare a Scribd company logo
1 of 172
딥러닝과 강화 학습으로
나보다 잘하는
쿠키런 AI 구현하기
김태훈
저는
졸업
병특
EMNLP, DataCom, IJBDI 논문 게재
http://carpedm20.github.io
딥러닝 + 강화 학습
Playing Atari with Deep Reinforcement Learning (2013)
https://deepmind.com/research/dqn/
Mastering the game of Go with deep neural networks and tree search (2016)
https://deepmind.com/research/alphago/
(2016)
http://vizdoom.cs.put.edu.pl/
딥러닝 + 강화 학습
딥러닝 + 강화 학습
“뉴럴뉴럴”한 뉴럴 네트워크
딥러닝 + 강화 학습?
Reinforcement Learning
Machine Learning
지도 학습
비지도 학
습
지도 학습
비지도 학
습
지도 학습
강화 학습
비지도 학
습
강화 학습
지도 학습
동전
음식
동
전
음
식
지도 학습
동전
음식
?
?
지도 학습
지도 학습
동전
음식
?
?
분류
Classification
비지도 학
습
지도 학습
강화 학습
?
?
?
?
비지도 학습
비지도 학습
비지도 학습
군집화
Clustering
비지도 학
습
지도 학습
강화 학습
분류도 아니고 군집화도 아닌것?
?
?
로봇를 걷게 하려면?
처음에는 학습할 데이터가 없다
(처음에는 아무것도 모르니 랜덤으로)
조금씩 관절을 움직여 보면서
(정답이 없기 때문에 학습 결과는 다양함)
시행 착오로부터 배운다
강화 학습
(Reinforcement Learning)
목표
목표
목표
목표
Agent
Environment
Agent
Environment
Agent
State 𝑠𝑡
Environment
Agent
State 𝑠𝑡
0 0 0 0 0 0 0 0
0 0 0 0 0 0 0 0
0 0 0 0 0 0 0 0
0 1 1 3 3 0 0 0
0 1 1 3 3 0 0 0
0 1 1 0 0 0 0 0
-
1
-
1
-
1
-
1
-
1
-
1
-
1
-
1
Environment
Agent
State 𝑠𝑡 Action 𝑎 𝑡 = 2
점프
Environment
Agent
Action 𝑎 𝑡 = 2
점프
State 𝑠𝑡
Environment
Agent
Action 𝑎 𝑡 = 2State 𝑠𝑡
Reward 𝑟𝑡 =
1
Environment
Agent
Action 𝑎 𝑡 = 2State 𝑠𝑡
Reward 𝑟𝑡 =
1
Environment
Agent
State 𝑠𝑡
Environment
Agent
Action 𝑎 𝑡 = 0State 𝑠𝑡
가만
히
Environment
Agent
Action 𝑎 𝑡 = 0State 𝑠𝑡 Reward 𝑟𝑡 = −1
즉, 강화 학습은
• Agent가 action을 결정하는 방법을 학습시키는 것
• 각 action은 그 다음 state에 영향을 끼친다
• 성공한 정도는 reward로 측정
• 목표 : 미래의 reward가 최대가 되도록 action을 취하는 것
Environment
Agent
Action atState st Reward rt
Reinforcement Learning
그래서,
DL+RL 로 무엇을 했나?
AlphaRun
+
쿠키가 스스로 달릴 수 있으면?
게임 밸런싱을
자동으로 할 수 있지 않을까?
쿠키 30개 (평균 8레벨)
펫 30개
보물 9개 (2개씩 장착)
맵 7개
평균 플레이 4분
30 × 8 × 30 ×9 𝐶2 × 7 × 4=
5,040일
평균 플레이 4초
1대 × 6개 프로세스
30 × 8 × 30 ×9 𝐶2 × 7 × 4
6
=
14일
AlphaRun
쿠키런 A.I.를 지탱하는 기술들
쿠키런 AI를 지탱하는 8가지 기술
1. Deep Q-Network (2013)
2. Double Q-Learning (2015)
3. Dueling Network (2015)
4. Prioritized Experience Replay (2015)
5. Model-free Episodic Control (2016)
6. Asynchronous Advantageous Actor-Critic method (2016)
7. Human Checkpoint Replay (2016)
8. Gradient Descent with Restart (2016)
쿠키런 AI를 지탱하는 8가지 기술
1. Deep Q-Network (2013)
2. Double Q-Learning (2015)
3. Dueling Network (2015)
4. Prioritized Experience Replay (2015)
5. Model-free Episodic Control (2016)
6. Asynchronous Advantageous Actor-Critic method (2016)
7. Human Checkpoint Replay (2016)
8. Gradient Descent with Restart (2016)
1. Deep Q-Network
State 𝑠𝑡
0 0 0 0 0 0 0 0
0 0 0 0 0 0 0 0
0 0 0 0 0 0 0 0
0 1 1 3 3 0 -
1
-
1
0 1 1 3 3 -
1
-
1
-
1
0 1 1 0 0 -
1
-
1
-
1
-
1
-
1
-
1
-
1
-
1
-
1
-
1
-
1
Action 𝑎 𝑡 = ?
0 0 0 0 0 0 0 0
0 0 0 0 0 0 0 0
0 0 0 0 0 0 0 0
0 1 1 3 3 0 -
1
-
1
0 1 1 3 3 -
1
-
1
-
1
0 1 1 0 0 -
1
-
1
-
1
-
1
-
1
-
1
-
1
-
1
-
1
-
1
-
1
Action 𝑎 𝑡
None 슬라이드 점프
0
? ??
Action 𝑎 𝑡 = ?
0 0 0 0 0 0 0 0
0 0 0 0 0 0 0 0
0 0 0 0 0 0 0 0
0 1 1 3 3 0 -
1
-
1
0 1 1 3 3 -
1
-
1
-
1
0 1 1 0 0 -
1
-
1
-
1
-
1
-
1
-
1
-
1
-
1
-
1
-
1
-
1
𝑠𝑡
가장 좋은 행동
Action 𝑎 𝑡 = ?
0 0 0 0 0 0 0 0
0 0 0 0 0 0 0 0
0 0 0 0 0 0 0 0
0 1 1 3 3 0 -
1
-
1
0 1 1 3 3 -
1
-
1
-
1
0 1 1 0 0 -
1
-
1
-
1
-
1
-
1
-
1
-
1
-
1
-
1
-
1
-
1
𝑠𝑡
Q
Q
State s 에서
Action a 를 했을 때
기대되는 미래 가치 Q
s, a
s Q s, 슬라이드
Q s, 가만히
Q s, 점프
s Q s, 슬라이드 = 5
Q s, 가만히 = 0
Q s, 점프 = 1
0
점프 슬라이드가만히
s Q s, 슬라이드 = 5
Q s, 가만히 = 0
Q s, 점프 = 1
0
점프 슬라이드가만히
Q : 기대되는 미래 가치
’s 가치 = 점수
’s 가치 = 점수
미래에 얻을 점수들의 합
Q
점프 슬라이드 가만히
+1+1+5+…
+1+1+…
+0+1+…
Q
점프 슬라이드 가만히
-1-1-1+…
+1+1+…
-1+1-1+…
Q
𝑙𝑜𝑠𝑠 = 𝑄 𝑠, 𝑎 − r + 𝛾 max
𝑎`
𝑄 𝑠, 𝑎`
2
결과는?
하지만 #1...
• 왜 하나씩 놓치고, 이상한 행동을 하는 걸까
2. Double Q-Learning
핵심은,
미래의 가치를 나타내는 𝑄가
낙관적 예측 or 발산하는 것을 막음
𝑙𝑜𝑠𝑠 = 𝑄 𝑠, 𝑎 − r + 𝛾 max
𝑎`
𝑄 𝑠, 𝑎`
2
𝑙𝑜𝑠𝑠 = 𝑄 𝑠, 𝑎 − r + 𝛾 max
𝑎`
𝑄 𝑠, 𝑎`
2
𝑙𝑜𝑠𝑠 = 예측 − 정답 2
𝑙𝑜𝑠𝑠 = 𝑄 𝑠, 𝑎 − r + 𝛾 max
𝑎`
𝑄 𝑠, 𝑎`
2
예측 정답−
𝑙𝑜𝑠𝑠 = 𝑄 𝑠, 𝑎 − r + 𝛾 max
𝑎`
𝑄 𝑠, 𝑎`
2
예측 정답−
0
𝑙𝑜𝑠𝑠 = 𝑄 𝑠, 𝑎 − r + 𝛾 max
𝑎`
𝑄 𝑠, 𝑎`
2
예측 정답−
0
𝑙𝑜𝑠𝑠 = 𝑄 𝑠, 𝑎 − r + 𝛾 max
𝑎`
𝑄 𝑠, 𝑎`
2
예측 정답−
0
𝑙𝑜𝑠𝑠 = 𝑄 𝑠, 𝑎 − r + 𝛾 max
𝑎`
𝑄 𝑠, 𝑎`
2
𝑄
예측 정답−
0
𝑙𝑜𝑠𝑠 = 𝑄 𝑠, 𝑎 − r + 𝛾 max
𝑎`
𝑄 𝑠, 𝑎`
2
= 𝑄 𝑠, 𝑎 − r + 𝛾 𝑄 𝑠, arg max
𝑎`
𝑄 𝑠, 𝑎`
2DQN
Double
DQN
𝑙𝑜𝑠𝑠 = 𝑄 𝑠, 𝑎 − r + 𝛾 𝑄 𝑠, arg max
𝑎`
𝑄(𝑠, 𝑎`)
2
Double Q가 Q 값은 작지만
− : Deep Q-learning − : Double Q-learning
− : Deep Q-learning − : Double Q-learning
Double Q가 Q 값은 작지만 점수는 훨씬 높다!
무려 60만점 차이!
결과는?
“아, 다했다.”
하지만 #2...
• 단조로운 land 1이 아닌 land 3를 가보니...
하지만 #2...
• 그리고 충격과 공포의 보너스 타임...
3. Dueling Network
𝑄 𝑠, 𝑎 의 값은?
0 0 0 0 0 0 0 0
0 0 0 0 0 0 0 0
0 0 0 0 0 0 0 0
0 1 1 3 3 0 0 0
0 1 1 3 3 0 0 0
0 1 1 0 0 0 0 0
-
1
-
1
-
1
-
1
-
1
-
1
-
1
-
1
기대되는 미래 가치
0 0 0 0 0 0 0 0
0 0 0 0 0 0 0 0
0 0 0 0 0 0 0 0
0 1 1 3 3 0 0 0
0 1 1 3 3 0 0 0
0 1 1 0 0 0 0 0
-
1
-
1
-
1
-
1
-
1
-
1
-
1
-
1
앞에 젤리가 많은지,
+1+1+1…
0 0 0 0 0 0
0 0 0 0 0 0
0 0 0 0 0 0
3 3 3 3 0 0
3 3 3 3 0 0
0 0 0 0 0 0
-1 -1 -1 -1 -1 -1
0 0 0 0 0 0 0 0
0 0 0 0 0 0 0 0
0 0 0 0 0 0 0 0
0 1 1 3 3 0 0 0
0 1 1 3 3 0 0 0
0 1 1 0 0 0 0 0
-
1
-
1
-
1
-
1
-
1
-
1
-
1
-
1
앞에 젤리가 많은지, 장애물이 많은지 전혀 알 수 없음
+1+1+1… +0-1-1+…
0 0 0 0 0 0
0 0 0 -1 -1 0
0 0 0 -1 -1 0
-1 -1 0 -1 -1 0
-1 -1 0 -1 -1 0
-1 -1 0 -1 -1 0
-1 -1 -1 -1 -1 -1
점프 : 10? 8?
슬라이드 : -2? 1?
가만히 : 5? 12?
0 0 0 0 0 0 0 0
0 0 0 0 0 0 0 0
0 0 0 0 0 0 0 0
0 1 1 3 3 0 0 0
0 1 1 3 3 0 0 0
0 1 1 0 0 0 0 0
-
1
-
1
-
1
-
1
-
1
-
1
-
1
-
1
?
정확한 𝑄 예측이 어렵다
하지만!
0 0 0 0 0 0 0 0
0 0 0 0 0 0 0 0
0 0 0 0 0 0 0 0
0 1 1 3 3 0 0 0
0 1 1 3 3 0 0 0
0 1 1 0 0 0 0 0
-
1
-
1
-
1
-
1
-
1
-
1
-
1
-
1
𝑄를 정확하게 예측할 필요가 있을
까?
0 0 0 0 0 0 0 0
0 0 0 0 0 0 0 0
0 0 0 0 0 0 0 0
0 1 1 3 3 0 0 0
0 1 1 3 3 0 0 0
0 1 1 0 0 0 0 0
-
1
-
1
-
1
-
1
-
1
-
1
-
1
-
1
슬라이드 : 𝑥 (기준)
점프 : 𝑥+1? 𝑥+3?
가만히 : 𝑥+1? 𝑥+2?
0 0 0 0 0 0 0 0
0 0 0 0 0 0 0 0
0 0 0 0 0 0 0 0
0 1 1 3 3 0 0 0
0 1 1 3 3 0 0 0
0 1 1 0 0 0 0 0
-
1
-
1
-
1
-
1
-
1
-
1
-
1
-
1
0 (기준)
+1? +3?
-1? -2?
10? 20?
0? 1?
14? 32?
Q
어느 것이 예측하기 더 쉬울까?
0 (기준)
+1? +3?
-1? -2?
Q
당연히 차이를 배우는 것이 쉽다
Q(s,a)=V(s)+A(s,a)
Q(s,a)=V(s)+A(s,a)
Value
기준점 𝑥
Q(s,a)=V(s)+A(s,a)
상대적인 Q값의 차이
AdvantageValue
기준점 𝑥
𝑄(𝑠, 𝑎1)
𝑄(𝑠, 𝑎2)
𝑄(𝑠, 𝑎3)
𝑠
Deep Q-Network
𝑉(𝑠)
𝐴(𝑠, 𝑎1)
𝐴(𝑠, 𝑎2)
𝐴(𝑠, 𝑎3)
𝑠
Dueling Network
𝑠
Q
𝑉
𝐴
Dueling Network
Q
𝑉
𝐴
Sum : 𝑄 𝑠, 𝑎; 𝜃, 𝛼, 𝛽 = 𝑉 𝑠; 𝜃, 𝛽 + 𝐴(𝑠, 𝑎; 𝜃, 𝛼)
Max : 𝑄 𝑠, 𝑎; 𝜃, 𝛼, 𝛽 = 𝑉 𝑠; 𝜃, 𝛽 + 𝐴 𝑠, 𝑎; 𝜃, 𝛼 − 𝑚𝑎𝑥
𝑎`∈𝒜
𝐴(𝑠, 𝑎`; 𝜃, 𝛼)
Average: 𝑄 𝑠, 𝑎; 𝜃, 𝛼, 𝛽 = 𝑉 𝑠; 𝜃, 𝛽 + 𝐴 𝑠, 𝑎; 𝜃, 𝛼 −
1
𝒜 𝑎` 𝐴(𝑠, 𝑎`; 𝜃, 𝛼)
3. Dueling network
− : DQN − : Sum − : Max
60만점 차이
3. Dueling network
− : DQN − : Sum − : Max
60만점 차이 100만점!!! 차이
쿠키런 AI를 지탱하는 8가지 기술
1. Deep Q-Network (2013)
2. Double Q-Learning (2015)
3. Dueling Network (2015)
4. Prioritized Experience Replay (2015)
5. Model-free Episodic Control (2016)
6. Asynchronous Advantageous Actor-Critic method (2016)
7. Human Checkpoint Replay (2016)
8. Gradient Descent with Restart (2016)
쿠키런 AI를 지탱하는 8가지 기술
1. Deep Q-Network (2013)
2. Double Q-Learning (2015)
3. Dueling Network (2015)
4. Prioritized Experience Replay (2015)
5. Model-free Episodic Control (2016)
6. Asynchronous Advantageous Actor-Critic method (2016)
7. Human Checkpoint Replay (2016)
8. Gradient Descent with Restart (2016)
강화에 계속해서 실패한다면?
논문 8개나 갈아 넣었는데 안된다고..?
엔지니어링이라고 쓰고 노가다라고 부른다
1. Hyperparameter tuning
2. Debugging
3. Pretrained model
4. Ensemble method
1. Hyperparameter tuning
네트워크 바꾸기
Optimizer 바꾸기
reward 식 바꾸기
…
총 70+개
Network
Training methodExperience memory
Environment
1. activation_fn : activation function (relu, tanh, elu,
leaky)
2. initializer : weight initializer (xavier)
3. regularizer : weight regularizer (None, l1, l2)
4. apply_reg : layers where regularizer is applied
5. regularizer_scale : scale of regularizer
6. hidden_dims : dimension of network
7. kernel_size : kernel size of CNN network
8. stride_size : stride size of CNN network
9. dueling : whether to use dueling network
10.double_q : whether to use double Q-learning
11.use_batch_norm : whether to use batch normalization
1. optimizer : type of optimizer (adam, adagrad, rmsprop)
2. batch_norm : whether to use batch normalization
3. max_step : maximum step to train
4. target_q_update_step : # of step to update target
network
5. learn_start_step : # of step to begin a training
6. learning_rate_start : the maximum value of learning rate
7. learning_rate_end : the minimum value of learning rate
8. clip_grad : value for a max gradient
9. clip_delta : value for a max delta
10. clip_reward : value for a max reward
11. learning_rate_restart : whether to use learning rate
restart
1. history_length : the length of history
2. memory_size : size of experience memory
3. priority : whether to use prioritized experience
memory
4. preload_memory : whether to preload a saved memory
5. preload_batch_size : batch size of preloaded
memory
6. preload_prob : probability of sampling from pre-mem
7. alpha : alpha of prioritized experience memory
8. beta_start: beta of prioritized experience memory
9. beta_end_t: beta of prioritized experience memory
1. screen_height : # of rows for a grid state
2. screen_height_to_use : actual # of rows for a state
3. screen_width : # of columns for a grid state
4. screen_width_to_us : actual # of columns for a state
5. screen_expr : actual # of row for a state
• c : cookie
• p : platform
• s : score of cells
• p : plain jelly
ex) (c+2*p)-s,i+h+m,[rj,sp], ((c+2*p)-
s)/2.,i+h+m,[rj,sp,hi]
6. action_repeat : # of reapt of an action (frame skip)
• i : plain item
• h : heal
• m : magic
• hi : height
• sp : speed
• rj : remained
jump
過猶不及
과유불급
성능은 올릴 수는 있지만,
그만큼 끊임없는 실험을 해야한
다
고정시킬 변수들을 정해서
한동안 건드리지 않는다!
for land in range(3, 7):
for cookie in cookies:
options = []
option = {
'hidden_dims': ["[800, 400, 200]", "[1000, 800, 200]"],
'double_q': [True, False],
'start_land': land,
'cookie': cookie,
}
options.append(option.copy())
array_run(options, ’double_q_test')
실험, 실험, 실험, 실험, 실
험, 실험, 실험, 실험, 실험,
실험, 실험, 실험, 실험, 실
험, 실험,실험, 실험, 실험,
실험, 실험, 실험, 실험, 실
험, 실험, 실험, 실험, 실험,
실험, 실험, 실험,
2. Debugging
“쿠키가 이상하게 행동하는데
이유라도 알려줬으면...”
History
Q-value
Dueling
Network
V(s)
A(s,a)
도움이 된 순간
도움이 된 순간
• 모든 action에 대해서 Q 값이 0
• State 값을 조금 바꿔서 출력해도 여전히 0
• Tensorflow의 fully_connected 함수에 activation function의
default값이 nn.relu로 설정되어 있음
• Activation function을 None으로 지정하니 해결!
tensorflow/contrib/layers/python/layers/layers.py
시도해 봤다면 좋았을 디버깅
• State를 실시간으로 수정하면서 Q 변화 보기
ex) 젤리를 쿠키 앞에 그려보면서 변화 확인
• Exploration을 어떻게 하고 있는지
• reward는 제대로 학습 될 수 있도록 정해져 있었는지?
3. Pretrained model
하나의 모델을 처음부터 학습하기 위해선
“반복된 실험의 학습 시간
을
단축시켜야 한다.”
모든 네트워크의 weight를 저장하
고,
새로운 실험을 할 때
비슷한 실험의 weight를 처음부터
사용
더 높은 점수를 얻을 확률이 높다
Max: 3,586,503Max: 3,199,324
4. Ensemble methods
Experiment #1
Experiment #2
Experiment #3
Experiment #4
점
프
점
프
𝑆
가만
히
점
프
점프
“하나의 실험에서 만들어
진
여러 weight들을
동시에 로드 하려면?”
Ex) 가장 잘했던 weight는
보너스 타임은 잘하는데,
두번째로 잘하는 weight는
젤리를 잘 먹는다
Session
Session
Graph
Session
Graph
Session
Graph
Session
Graph
같은 이름의 node는
하나의 그래프에
두개 이상 존재할 수 없
다
Session
Graph Graph
한 세션에는
하나의 그래프만 존재
Session
Graph Graph
Session
핵심은,
with tf.session() as sess:
network = Network()
sess.run(network.output)
평소처럼 이렇게 선언하지 마시고
sessions = []
g = tf.Graph()
with g.as_default():
network = Network()
sess = tf.Session(graph=g)
sessions.append(sess)
sessions[0].run(network.output)
이렇게 Session을 살려서 선언하시면 됩니다
같은 방식으로
보너스 타임도 학습!
쿠키런 A.I.로 밸런싱 자동화 하
기밸런스를 360배 빠르게 해 봅시다
학습된 A.I.로 모든 쿠키의 평균적인 점수를 계산하거나
펫을 바꿔 보면서 성능 차이를 확인하거나
네,
“알파런 잘 뜁니다.”
감사합니다

More Related Content

What's hot

[NDC 2018] 유체역학 엔진 개발기
[NDC 2018] 유체역학 엔진 개발기[NDC 2018] 유체역학 엔진 개발기
[NDC 2018] 유체역학 엔진 개발기Chris Ohk
 
[RLKorea] <하스스톤> 강화학습 환경 개발기
[RLKorea] <하스스톤> 강화학습 환경 개발기[RLKorea] <하스스톤> 강화학습 환경 개발기
[RLKorea] <하스스톤> 강화학습 환경 개발기Chris Ohk
 
[study] pointer networks
[study] pointer networks[study] pointer networks
[study] pointer networksGyuhyeon Nam
 
자습해도 모르겠던 딥러닝, 머리속에 인스톨 시켜드립니다.
자습해도 모르겠던 딥러닝, 머리속에 인스톨 시켜드립니다.자습해도 모르겠던 딥러닝, 머리속에 인스톨 시켜드립니다.
자습해도 모르겠던 딥러닝, 머리속에 인스톨 시켜드립니다.Yongho Ha
 
스타트업은 데이터를 어떻게 바라봐야 할까? (개정판)
스타트업은 데이터를 어떻게 바라봐야 할까? (개정판)스타트업은 데이터를 어떻게 바라봐야 할까? (개정판)
스타트업은 데이터를 어떻게 바라봐야 할까? (개정판)Yongho Ha
 
파이썬으로 나만의 강화학습 환경 만들기
파이썬으로 나만의 강화학습 환경 만들기파이썬으로 나만의 강화학습 환경 만들기
파이썬으로 나만의 강화학습 환경 만들기정주 김
 
머신러닝 + 주식 삽질기
머신러닝 + 주식 삽질기머신러닝 + 주식 삽질기
머신러닝 + 주식 삽질기HoChul Shin
 
서비스 기획자를 위한 데이터분석 시작하기
서비스 기획자를 위한 데이터분석 시작하기서비스 기획자를 위한 데이터분석 시작하기
서비스 기획자를 위한 데이터분석 시작하기승화 양
 
[NDC 2009] 행동 트리로 구현하는 인공지능
[NDC 2009] 행동 트리로 구현하는 인공지능[NDC 2009] 행동 트리로 구현하는 인공지능
[NDC 2009] 행동 트리로 구현하는 인공지능Yongha Kim
 
고려대학교 컴퓨터학과 특강 - 대학생 때 알았더라면 좋았을 것들
고려대학교 컴퓨터학과 특강 - 대학생 때 알았더라면 좋았을 것들고려대학교 컴퓨터학과 특강 - 대학생 때 알았더라면 좋았을 것들
고려대학교 컴퓨터학과 특강 - 대학생 때 알았더라면 좋았을 것들Chris Ohk
 
성장을 좋아하는 사람이, 성장하고 싶은 사람에게
성장을 좋아하는 사람이, 성장하고 싶은 사람에게성장을 좋아하는 사람이, 성장하고 싶은 사람에게
성장을 좋아하는 사람이, 성장하고 싶은 사람에게Seongyun Byeon
 
BigQuery의 모든 것(기획자, 마케터, 신입 데이터 분석가를 위한) 입문편
BigQuery의 모든 것(기획자, 마케터, 신입 데이터 분석가를 위한) 입문편BigQuery의 모든 것(기획자, 마케터, 신입 데이터 분석가를 위한) 입문편
BigQuery의 모든 것(기획자, 마케터, 신입 데이터 분석가를 위한) 입문편Seongyun Byeon
 
인공지능 슈퍼마리오의 거의 모든 것( Pycon 2018 정원석)
인공지능 슈퍼마리오의 거의 모든 것( Pycon 2018 정원석)인공지능 슈퍼마리오의 거의 모든 것( Pycon 2018 정원석)
인공지능 슈퍼마리오의 거의 모든 것( Pycon 2018 정원석)wonseok jung
 
TF에서 팀 빌딩까지 9개월의 기록 : 성장하는 조직을 만드는 여정
TF에서 팀 빌딩까지 9개월의 기록 : 성장하는 조직을 만드는 여정TF에서 팀 빌딩까지 9개월의 기록 : 성장하는 조직을 만드는 여정
TF에서 팀 빌딩까지 9개월의 기록 : 성장하는 조직을 만드는 여정Seongyun Byeon
 
알파고 풀어보기 / Alpha Technical Review
알파고 풀어보기 / Alpha Technical Review알파고 풀어보기 / Alpha Technical Review
알파고 풀어보기 / Alpha Technical Review상은 박
 
데이터가 흐르는 조직 만들기 - 마이리얼트립
데이터가 흐르는 조직 만들기 - 마이리얼트립데이터가 흐르는 조직 만들기 - 마이리얼트립
데이터가 흐르는 조직 만들기 - 마이리얼트립승화 양
 
Introduction of Deep Reinforcement Learning
Introduction of Deep Reinforcement LearningIntroduction of Deep Reinforcement Learning
Introduction of Deep Reinforcement LearningNAVER Engineering
 
[IGC] 엔씨소프트 이경종 - 강화 학습을 이용한 NPC AI 구현
[IGC] 엔씨소프트 이경종 - 강화 학습을 이용한 NPC AI 구현[IGC] 엔씨소프트 이경종 - 강화 학습을 이용한 NPC AI 구현
[IGC] 엔씨소프트 이경종 - 강화 학습을 이용한 NPC AI 구현강 민우
 
게임 인공지능 설계
게임 인공지능 설계게임 인공지능 설계
게임 인공지능 설계ByungChun2
 
홍성우, 게임 서버의 목차 - 시작부터 출시까지, NDC2019
홍성우, 게임 서버의 목차 - 시작부터 출시까지, NDC2019홍성우, 게임 서버의 목차 - 시작부터 출시까지, NDC2019
홍성우, 게임 서버의 목차 - 시작부터 출시까지, NDC2019devCAT Studio, NEXON
 

What's hot (20)

[NDC 2018] 유체역학 엔진 개발기
[NDC 2018] 유체역학 엔진 개발기[NDC 2018] 유체역학 엔진 개발기
[NDC 2018] 유체역학 엔진 개발기
 
[RLKorea] <하스스톤> 강화학습 환경 개발기
[RLKorea] <하스스톤> 강화학습 환경 개발기[RLKorea] <하스스톤> 강화학습 환경 개발기
[RLKorea] <하스스톤> 강화학습 환경 개발기
 
[study] pointer networks
[study] pointer networks[study] pointer networks
[study] pointer networks
 
자습해도 모르겠던 딥러닝, 머리속에 인스톨 시켜드립니다.
자습해도 모르겠던 딥러닝, 머리속에 인스톨 시켜드립니다.자습해도 모르겠던 딥러닝, 머리속에 인스톨 시켜드립니다.
자습해도 모르겠던 딥러닝, 머리속에 인스톨 시켜드립니다.
 
스타트업은 데이터를 어떻게 바라봐야 할까? (개정판)
스타트업은 데이터를 어떻게 바라봐야 할까? (개정판)스타트업은 데이터를 어떻게 바라봐야 할까? (개정판)
스타트업은 데이터를 어떻게 바라봐야 할까? (개정판)
 
파이썬으로 나만의 강화학습 환경 만들기
파이썬으로 나만의 강화학습 환경 만들기파이썬으로 나만의 강화학습 환경 만들기
파이썬으로 나만의 강화학습 환경 만들기
 
머신러닝 + 주식 삽질기
머신러닝 + 주식 삽질기머신러닝 + 주식 삽질기
머신러닝 + 주식 삽질기
 
서비스 기획자를 위한 데이터분석 시작하기
서비스 기획자를 위한 데이터분석 시작하기서비스 기획자를 위한 데이터분석 시작하기
서비스 기획자를 위한 데이터분석 시작하기
 
[NDC 2009] 행동 트리로 구현하는 인공지능
[NDC 2009] 행동 트리로 구현하는 인공지능[NDC 2009] 행동 트리로 구현하는 인공지능
[NDC 2009] 행동 트리로 구현하는 인공지능
 
고려대학교 컴퓨터학과 특강 - 대학생 때 알았더라면 좋았을 것들
고려대학교 컴퓨터학과 특강 - 대학생 때 알았더라면 좋았을 것들고려대학교 컴퓨터학과 특강 - 대학생 때 알았더라면 좋았을 것들
고려대학교 컴퓨터학과 특강 - 대학생 때 알았더라면 좋았을 것들
 
성장을 좋아하는 사람이, 성장하고 싶은 사람에게
성장을 좋아하는 사람이, 성장하고 싶은 사람에게성장을 좋아하는 사람이, 성장하고 싶은 사람에게
성장을 좋아하는 사람이, 성장하고 싶은 사람에게
 
BigQuery의 모든 것(기획자, 마케터, 신입 데이터 분석가를 위한) 입문편
BigQuery의 모든 것(기획자, 마케터, 신입 데이터 분석가를 위한) 입문편BigQuery의 모든 것(기획자, 마케터, 신입 데이터 분석가를 위한) 입문편
BigQuery의 모든 것(기획자, 마케터, 신입 데이터 분석가를 위한) 입문편
 
인공지능 슈퍼마리오의 거의 모든 것( Pycon 2018 정원석)
인공지능 슈퍼마리오의 거의 모든 것( Pycon 2018 정원석)인공지능 슈퍼마리오의 거의 모든 것( Pycon 2018 정원석)
인공지능 슈퍼마리오의 거의 모든 것( Pycon 2018 정원석)
 
TF에서 팀 빌딩까지 9개월의 기록 : 성장하는 조직을 만드는 여정
TF에서 팀 빌딩까지 9개월의 기록 : 성장하는 조직을 만드는 여정TF에서 팀 빌딩까지 9개월의 기록 : 성장하는 조직을 만드는 여정
TF에서 팀 빌딩까지 9개월의 기록 : 성장하는 조직을 만드는 여정
 
알파고 풀어보기 / Alpha Technical Review
알파고 풀어보기 / Alpha Technical Review알파고 풀어보기 / Alpha Technical Review
알파고 풀어보기 / Alpha Technical Review
 
데이터가 흐르는 조직 만들기 - 마이리얼트립
데이터가 흐르는 조직 만들기 - 마이리얼트립데이터가 흐르는 조직 만들기 - 마이리얼트립
데이터가 흐르는 조직 만들기 - 마이리얼트립
 
Introduction of Deep Reinforcement Learning
Introduction of Deep Reinforcement LearningIntroduction of Deep Reinforcement Learning
Introduction of Deep Reinforcement Learning
 
[IGC] 엔씨소프트 이경종 - 강화 학습을 이용한 NPC AI 구현
[IGC] 엔씨소프트 이경종 - 강화 학습을 이용한 NPC AI 구현[IGC] 엔씨소프트 이경종 - 강화 학습을 이용한 NPC AI 구현
[IGC] 엔씨소프트 이경종 - 강화 학습을 이용한 NPC AI 구현
 
게임 인공지능 설계
게임 인공지능 설계게임 인공지능 설계
게임 인공지능 설계
 
홍성우, 게임 서버의 목차 - 시작부터 출시까지, NDC2019
홍성우, 게임 서버의 목차 - 시작부터 출시까지, NDC2019홍성우, 게임 서버의 목차 - 시작부터 출시까지, NDC2019
홍성우, 게임 서버의 목차 - 시작부터 출시까지, NDC2019
 

Viewers also liked

[222]딥러닝을 활용한 이미지 검색 포토요약과 타임라인 최종 20161024
[222]딥러닝을 활용한 이미지 검색 포토요약과 타임라인 최종 20161024[222]딥러닝을 활용한 이미지 검색 포토요약과 타임라인 최종 20161024
[222]딥러닝을 활용한 이미지 검색 포토요약과 타임라인 최종 20161024NAVER D2
 
텐서플로우 설치도 했고 튜토리얼도 봤고 기초 예제도 짜봤다면 TensorFlow KR Meetup 2016
텐서플로우 설치도 했고 튜토리얼도 봤고 기초 예제도 짜봤다면 TensorFlow KR Meetup 2016텐서플로우 설치도 했고 튜토리얼도 봤고 기초 예제도 짜봤다면 TensorFlow KR Meetup 2016
텐서플로우 설치도 했고 튜토리얼도 봤고 기초 예제도 짜봤다면 TensorFlow KR Meetup 2016Taehoon Kim
 
웨일 보안 이야기
웨일 보안 이야기웨일 보안 이야기
웨일 보안 이야기NAVER D2
 
서버리스(Serverless) 웹 애플리케이션 구축하기
서버리스(Serverless) 웹 애플리케이션 구축하기서버리스(Serverless) 웹 애플리케이션 구축하기
서버리스(Serverless) 웹 애플리케이션 구축하기Amazon Web Services Korea
 
서버리스(Serverless)를 위한 Zombie Microservices Workshop 실습 가이드 :: 윤석찬 (AWS 테크에반젤...
서버리스(Serverless)를 위한 Zombie Microservices Workshop 실습  가이드 ::  윤석찬 (AWS 테크에반젤...서버리스(Serverless)를 위한 Zombie Microservices Workshop 실습  가이드 ::  윤석찬 (AWS 테크에반젤...
서버리스(Serverless)를 위한 Zombie Microservices Workshop 실습 가이드 :: 윤석찬 (AWS 테크에반젤...Amazon Web Services Korea
 
텐서플로우 기초 이해하기
텐서플로우 기초 이해하기 텐서플로우 기초 이해하기
텐서플로우 기초 이해하기 Yong Joon Moon
 
[2017 AWS Startup Day] VC가 바라보는 스타트업의 기술과 개발역량
[2017 AWS Startup Day] VC가 바라보는 스타트업의 기술과 개발역량[2017 AWS Startup Day] VC가 바라보는 스타트업의 기술과 개발역량
[2017 AWS Startup Day] VC가 바라보는 스타트업의 기술과 개발역량Amazon Web Services Korea
 
The Future of Everything
The Future of EverythingThe Future of Everything
The Future of EverythingMichael Ducy
 
인공지능개론 (머신러닝 중심)
인공지능개론 (머신러닝 중심)인공지능개론 (머신러닝 중심)
인공지능개론 (머신러닝 중심)SK(주) C&C - 강병호
 

Viewers also liked (9)

[222]딥러닝을 활용한 이미지 검색 포토요약과 타임라인 최종 20161024
[222]딥러닝을 활용한 이미지 검색 포토요약과 타임라인 최종 20161024[222]딥러닝을 활용한 이미지 검색 포토요약과 타임라인 최종 20161024
[222]딥러닝을 활용한 이미지 검색 포토요약과 타임라인 최종 20161024
 
텐서플로우 설치도 했고 튜토리얼도 봤고 기초 예제도 짜봤다면 TensorFlow KR Meetup 2016
텐서플로우 설치도 했고 튜토리얼도 봤고 기초 예제도 짜봤다면 TensorFlow KR Meetup 2016텐서플로우 설치도 했고 튜토리얼도 봤고 기초 예제도 짜봤다면 TensorFlow KR Meetup 2016
텐서플로우 설치도 했고 튜토리얼도 봤고 기초 예제도 짜봤다면 TensorFlow KR Meetup 2016
 
웨일 보안 이야기
웨일 보안 이야기웨일 보안 이야기
웨일 보안 이야기
 
서버리스(Serverless) 웹 애플리케이션 구축하기
서버리스(Serverless) 웹 애플리케이션 구축하기서버리스(Serverless) 웹 애플리케이션 구축하기
서버리스(Serverless) 웹 애플리케이션 구축하기
 
서버리스(Serverless)를 위한 Zombie Microservices Workshop 실습 가이드 :: 윤석찬 (AWS 테크에반젤...
서버리스(Serverless)를 위한 Zombie Microservices Workshop 실습  가이드 ::  윤석찬 (AWS 테크에반젤...서버리스(Serverless)를 위한 Zombie Microservices Workshop 실습  가이드 ::  윤석찬 (AWS 테크에반젤...
서버리스(Serverless)를 위한 Zombie Microservices Workshop 실습 가이드 :: 윤석찬 (AWS 테크에반젤...
 
텐서플로우 기초 이해하기
텐서플로우 기초 이해하기 텐서플로우 기초 이해하기
텐서플로우 기초 이해하기
 
[2017 AWS Startup Day] VC가 바라보는 스타트업의 기술과 개발역량
[2017 AWS Startup Day] VC가 바라보는 스타트업의 기술과 개발역량[2017 AWS Startup Day] VC가 바라보는 스타트업의 기술과 개발역량
[2017 AWS Startup Day] VC가 바라보는 스타트업의 기술과 개발역량
 
The Future of Everything
The Future of EverythingThe Future of Everything
The Future of Everything
 
인공지능개론 (머신러닝 중심)
인공지능개론 (머신러닝 중심)인공지능개론 (머신러닝 중심)
인공지능개론 (머신러닝 중심)
 

Similar to 딥러닝과 강화 학습으로 나보다 잘하는 쿠키런 AI 구현하기

딥 러닝 자연어 처리를 학습을 위한 파워포인트. (Deep Learning for Natural Language Processing)
딥 러닝 자연어 처리를 학습을 위한 파워포인트. (Deep Learning for Natural Language Processing)딥 러닝 자연어 처리를 학습을 위한 파워포인트. (Deep Learning for Natural Language Processing)
딥 러닝 자연어 처리를 학습을 위한 파워포인트. (Deep Learning for Natural Language Processing)WON JOON YOO
 
딥 러닝 자연어 처리 학습을 위한 PPT! (Deep Learning for Natural Language Processing)
딥 러닝 자연어 처리 학습을 위한 PPT! (Deep Learning for Natural Language Processing)딥 러닝 자연어 처리 학습을 위한 PPT! (Deep Learning for Natural Language Processing)
딥 러닝 자연어 처리 학습을 위한 PPT! (Deep Learning for Natural Language Processing)WON JOON YOO
 
알파고 (바둑 인공지능)의 작동 원리
알파고 (바둑 인공지능)의 작동 원리알파고 (바둑 인공지능)의 작동 원리
알파고 (바둑 인공지능)의 작동 원리Shane (Seungwhan) Moon
 
GAN with Mathematics
GAN with MathematicsGAN with Mathematics
GAN with MathematicsHyeongmin Lee
 
Chapter 7 Regularization for deep learning - 2
Chapter 7 Regularization for deep learning - 2Chapter 7 Regularization for deep learning - 2
Chapter 7 Regularization for deep learning - 2KyeongUkJang
 
인공지능, 기계학습 그리고 딥러닝
인공지능, 기계학습 그리고 딥러닝인공지능, 기계학습 그리고 딥러닝
인공지능, 기계학습 그리고 딥러닝Jinwon Lee
 
Low Price, High Quality: 적은 비용으로 모델 성능 높이기 (Naver Deview 2020)
Low Price, High Quality: 적은 비용으로 모델 성능 높이기 (Naver Deview 2020) Low Price, High Quality: 적은 비용으로 모델 성능 높이기 (Naver Deview 2020)
Low Price, High Quality: 적은 비용으로 모델 성능 높이기 (Naver Deview 2020) Jihwan Bang
 
20160409 microsoft 세미나 머신러닝관련 발표자료
20160409 microsoft 세미나 머신러닝관련 발표자료20160409 microsoft 세미나 머신러닝관련 발표자료
20160409 microsoft 세미나 머신러닝관련 발표자료JungGeun Lee
 
알파고 해부하기 3부
알파고 해부하기 3부알파고 해부하기 3부
알파고 해부하기 3부Donghun Lee
 
박기헌 NDC12 초보 클라이언트 프로그래머의 병렬 프로그래밍 도전기
박기헌 NDC12 초보 클라이언트 프로그래머의 병렬 프로그래밍 도전기박기헌 NDC12 초보 클라이언트 프로그래머의 병렬 프로그래밍 도전기
박기헌 NDC12 초보 클라이언트 프로그래머의 병렬 프로그래밍 도전기Kiheon Park
 
안.전.제.일. 강화학습!
안.전.제.일. 강화학습!안.전.제.일. 강화학습!
안.전.제.일. 강화학습!Dongmin Lee
 
강화학습 해부학 교실: Rainbow 이론부터 구현까지 (2nd dlcat in Daejeon)
강화학습 해부학 교실: Rainbow 이론부터 구현까지 (2nd dlcat in Daejeon)강화학습 해부학 교실: Rainbow 이론부터 구현까지 (2nd dlcat in Daejeon)
강화학습 해부학 교실: Rainbow 이론부터 구현까지 (2nd dlcat in Daejeon)Kyunghwan Kim
 
T ka kr_4th
T ka kr_4thT ka kr_4th
T ka kr_4thSubin An
 
2021년 3월 20일 개발자 이야기
2021년 3월 20일 개발자 이야기2021년 3월 20일 개발자 이야기
2021년 3월 20일 개발자 이야기Jay Park
 
나도하고 너도하는 데이터분석, AWSKRUG #Datascience
나도하고 너도하는 데이터분석, AWSKRUG #Datascience 나도하고 너도하는 데이터분석, AWSKRUG #Datascience
나도하고 너도하는 데이터분석, AWSKRUG #Datascience Young Kim
 
Deepcheck, 딥러닝 기반의 얼굴인식 출석체크
Deepcheck, 딥러닝 기반의 얼굴인식 출석체크Deepcheck, 딥러닝 기반의 얼굴인식 출석체크
Deepcheck, 딥러닝 기반의 얼굴인식 출석체크지운 배
 
Deep Check, 딥러닝 기반의 얼굴인식 출석체크
Deep Check, 딥러닝 기반의 얼굴인식 출석체크Deep Check, 딥러닝 기반의 얼굴인식 출석체크
Deep Check, 딥러닝 기반의 얼굴인식 출석체크Jiun Bae
 
Workshop 210417 dhlee
Workshop 210417 dhleeWorkshop 210417 dhlee
Workshop 210417 dhleeDongheon Lee
 

Similar to 딥러닝과 강화 학습으로 나보다 잘하는 쿠키런 AI 구현하기 (20)

딥 러닝 자연어 처리를 학습을 위한 파워포인트. (Deep Learning for Natural Language Processing)
딥 러닝 자연어 처리를 학습을 위한 파워포인트. (Deep Learning for Natural Language Processing)딥 러닝 자연어 처리를 학습을 위한 파워포인트. (Deep Learning for Natural Language Processing)
딥 러닝 자연어 처리를 학습을 위한 파워포인트. (Deep Learning for Natural Language Processing)
 
딥 러닝 자연어 처리 학습을 위한 PPT! (Deep Learning for Natural Language Processing)
딥 러닝 자연어 처리 학습을 위한 PPT! (Deep Learning for Natural Language Processing)딥 러닝 자연어 처리 학습을 위한 PPT! (Deep Learning for Natural Language Processing)
딥 러닝 자연어 처리 학습을 위한 PPT! (Deep Learning for Natural Language Processing)
 
알파고 (바둑 인공지능)의 작동 원리
알파고 (바둑 인공지능)의 작동 원리알파고 (바둑 인공지능)의 작동 원리
알파고 (바둑 인공지능)의 작동 원리
 
GAN with Mathematics
GAN with MathematicsGAN with Mathematics
GAN with Mathematics
 
알고리즘
알고리즘알고리즘
알고리즘
 
Chapter 7 Regularization for deep learning - 2
Chapter 7 Regularization for deep learning - 2Chapter 7 Regularization for deep learning - 2
Chapter 7 Regularization for deep learning - 2
 
인공지능, 기계학습 그리고 딥러닝
인공지능, 기계학습 그리고 딥러닝인공지능, 기계학습 그리고 딥러닝
인공지능, 기계학습 그리고 딥러닝
 
Low Price, High Quality: 적은 비용으로 모델 성능 높이기 (Naver Deview 2020)
Low Price, High Quality: 적은 비용으로 모델 성능 높이기 (Naver Deview 2020) Low Price, High Quality: 적은 비용으로 모델 성능 높이기 (Naver Deview 2020)
Low Price, High Quality: 적은 비용으로 모델 성능 높이기 (Naver Deview 2020)
 
20160409 microsoft 세미나 머신러닝관련 발표자료
20160409 microsoft 세미나 머신러닝관련 발표자료20160409 microsoft 세미나 머신러닝관련 발표자료
20160409 microsoft 세미나 머신러닝관련 발표자료
 
알파고 해부하기 3부
알파고 해부하기 3부알파고 해부하기 3부
알파고 해부하기 3부
 
박기헌 NDC12 초보 클라이언트 프로그래머의 병렬 프로그래밍 도전기
박기헌 NDC12 초보 클라이언트 프로그래머의 병렬 프로그래밍 도전기박기헌 NDC12 초보 클라이언트 프로그래머의 병렬 프로그래밍 도전기
박기헌 NDC12 초보 클라이언트 프로그래머의 병렬 프로그래밍 도전기
 
안.전.제.일. 강화학습!
안.전.제.일. 강화학습!안.전.제.일. 강화학습!
안.전.제.일. 강화학습!
 
강화학습 해부학 교실: Rainbow 이론부터 구현까지 (2nd dlcat in Daejeon)
강화학습 해부학 교실: Rainbow 이론부터 구현까지 (2nd dlcat in Daejeon)강화학습 해부학 교실: Rainbow 이론부터 구현까지 (2nd dlcat in Daejeon)
강화학습 해부학 교실: Rainbow 이론부터 구현까지 (2nd dlcat in Daejeon)
 
T ka kr_4th
T ka kr_4thT ka kr_4th
T ka kr_4th
 
2021년 3월 20일 개발자 이야기
2021년 3월 20일 개발자 이야기2021년 3월 20일 개발자 이야기
2021년 3월 20일 개발자 이야기
 
강화학습 살사 알고리즘
강화학습 살사 알고리즘강화학습 살사 알고리즘
강화학습 살사 알고리즘
 
나도하고 너도하는 데이터분석, AWSKRUG #Datascience
나도하고 너도하는 데이터분석, AWSKRUG #Datascience 나도하고 너도하는 데이터분석, AWSKRUG #Datascience
나도하고 너도하는 데이터분석, AWSKRUG #Datascience
 
Deepcheck, 딥러닝 기반의 얼굴인식 출석체크
Deepcheck, 딥러닝 기반의 얼굴인식 출석체크Deepcheck, 딥러닝 기반의 얼굴인식 출석체크
Deepcheck, 딥러닝 기반의 얼굴인식 출석체크
 
Deep Check, 딥러닝 기반의 얼굴인식 출석체크
Deep Check, 딥러닝 기반의 얼굴인식 출석체크Deep Check, 딥러닝 기반의 얼굴인식 출석체크
Deep Check, 딥러닝 기반의 얼굴인식 출석체크
 
Workshop 210417 dhlee
Workshop 210417 dhleeWorkshop 210417 dhlee
Workshop 210417 dhlee
 

More from NAVER D2

[211] 인공지능이 인공지능 챗봇을 만든다
[211] 인공지능이 인공지능 챗봇을 만든다[211] 인공지능이 인공지능 챗봇을 만든다
[211] 인공지능이 인공지능 챗봇을 만든다NAVER D2
 
[233] 대형 컨테이너 클러스터에서의 고가용성 Network Load Balancing: Maglev Hashing Scheduler i...
[233] 대형 컨테이너 클러스터에서의 고가용성 Network Load Balancing: Maglev Hashing Scheduler i...[233] 대형 컨테이너 클러스터에서의 고가용성 Network Load Balancing: Maglev Hashing Scheduler i...
[233] 대형 컨테이너 클러스터에서의 고가용성 Network Load Balancing: Maglev Hashing Scheduler i...NAVER D2
 
[215] Druid로 쉽고 빠르게 데이터 분석하기
[215] Druid로 쉽고 빠르게 데이터 분석하기[215] Druid로 쉽고 빠르게 데이터 분석하기
[215] Druid로 쉽고 빠르게 데이터 분석하기NAVER D2
 
[245]Papago Internals: 모델분석과 응용기술 개발
[245]Papago Internals: 모델분석과 응용기술 개발[245]Papago Internals: 모델분석과 응용기술 개발
[245]Papago Internals: 모델분석과 응용기술 개발NAVER D2
 
[236] 스트림 저장소 최적화 이야기: 아파치 드루이드로부터 얻은 교훈
[236] 스트림 저장소 최적화 이야기: 아파치 드루이드로부터 얻은 교훈[236] 스트림 저장소 최적화 이야기: 아파치 드루이드로부터 얻은 교훈
[236] 스트림 저장소 최적화 이야기: 아파치 드루이드로부터 얻은 교훈NAVER D2
 
[235]Wikipedia-scale Q&A
[235]Wikipedia-scale Q&A[235]Wikipedia-scale Q&A
[235]Wikipedia-scale Q&ANAVER D2
 
[244]로봇이 현실 세계에 대해 학습하도록 만들기
[244]로봇이 현실 세계에 대해 학습하도록 만들기[244]로봇이 현실 세계에 대해 학습하도록 만들기
[244]로봇이 현실 세계에 대해 학습하도록 만들기NAVER D2
 
[243] Deep Learning to help student’s Deep Learning
[243] Deep Learning to help student’s Deep Learning[243] Deep Learning to help student’s Deep Learning
[243] Deep Learning to help student’s Deep LearningNAVER D2
 
[234]Fast & Accurate Data Annotation Pipeline for AI applications
[234]Fast & Accurate Data Annotation Pipeline for AI applications[234]Fast & Accurate Data Annotation Pipeline for AI applications
[234]Fast & Accurate Data Annotation Pipeline for AI applicationsNAVER D2
 
Old version: [233]대형 컨테이너 클러스터에서의 고가용성 Network Load Balancing
Old version: [233]대형 컨테이너 클러스터에서의 고가용성 Network Load BalancingOld version: [233]대형 컨테이너 클러스터에서의 고가용성 Network Load Balancing
Old version: [233]대형 컨테이너 클러스터에서의 고가용성 Network Load BalancingNAVER D2
 
[226]NAVER 광고 deep click prediction: 모델링부터 서빙까지
[226]NAVER 광고 deep click prediction: 모델링부터 서빙까지[226]NAVER 광고 deep click prediction: 모델링부터 서빙까지
[226]NAVER 광고 deep click prediction: 모델링부터 서빙까지NAVER D2
 
[225]NSML: 머신러닝 플랫폼 서비스하기 & 모델 튜닝 자동화하기
[225]NSML: 머신러닝 플랫폼 서비스하기 & 모델 튜닝 자동화하기[225]NSML: 머신러닝 플랫폼 서비스하기 & 모델 튜닝 자동화하기
[225]NSML: 머신러닝 플랫폼 서비스하기 & 모델 튜닝 자동화하기NAVER D2
 
[224]네이버 검색과 개인화
[224]네이버 검색과 개인화[224]네이버 검색과 개인화
[224]네이버 검색과 개인화NAVER D2
 
[216]Search Reliability Engineering (부제: 지진에도 흔들리지 않는 네이버 검색시스템)
[216]Search Reliability Engineering (부제: 지진에도 흔들리지 않는 네이버 검색시스템)[216]Search Reliability Engineering (부제: 지진에도 흔들리지 않는 네이버 검색시스템)
[216]Search Reliability Engineering (부제: 지진에도 흔들리지 않는 네이버 검색시스템)NAVER D2
 
[214] Ai Serving Platform: 하루 수 억 건의 인퍼런스를 처리하기 위한 고군분투기
[214] Ai Serving Platform: 하루 수 억 건의 인퍼런스를 처리하기 위한 고군분투기[214] Ai Serving Platform: 하루 수 억 건의 인퍼런스를 처리하기 위한 고군분투기
[214] Ai Serving Platform: 하루 수 억 건의 인퍼런스를 처리하기 위한 고군분투기NAVER D2
 
[213] Fashion Visual Search
[213] Fashion Visual Search[213] Fashion Visual Search
[213] Fashion Visual SearchNAVER D2
 
[232] TensorRT를 활용한 딥러닝 Inference 최적화
[232] TensorRT를 활용한 딥러닝 Inference 최적화[232] TensorRT를 활용한 딥러닝 Inference 최적화
[232] TensorRT를 활용한 딥러닝 Inference 최적화NAVER D2
 
[242]컴퓨터 비전을 이용한 실내 지도 자동 업데이트 방법: 딥러닝을 통한 POI 변화 탐지
[242]컴퓨터 비전을 이용한 실내 지도 자동 업데이트 방법: 딥러닝을 통한 POI 변화 탐지[242]컴퓨터 비전을 이용한 실내 지도 자동 업데이트 방법: 딥러닝을 통한 POI 변화 탐지
[242]컴퓨터 비전을 이용한 실내 지도 자동 업데이트 방법: 딥러닝을 통한 POI 변화 탐지NAVER D2
 
[212]C3, 데이터 처리에서 서빙까지 가능한 하둡 클러스터
[212]C3, 데이터 처리에서 서빙까지 가능한 하둡 클러스터[212]C3, 데이터 처리에서 서빙까지 가능한 하둡 클러스터
[212]C3, 데이터 처리에서 서빙까지 가능한 하둡 클러스터NAVER D2
 
[223]기계독해 QA: 검색인가, NLP인가?
[223]기계독해 QA: 검색인가, NLP인가?[223]기계독해 QA: 검색인가, NLP인가?
[223]기계독해 QA: 검색인가, NLP인가?NAVER D2
 

More from NAVER D2 (20)

[211] 인공지능이 인공지능 챗봇을 만든다
[211] 인공지능이 인공지능 챗봇을 만든다[211] 인공지능이 인공지능 챗봇을 만든다
[211] 인공지능이 인공지능 챗봇을 만든다
 
[233] 대형 컨테이너 클러스터에서의 고가용성 Network Load Balancing: Maglev Hashing Scheduler i...
[233] 대형 컨테이너 클러스터에서의 고가용성 Network Load Balancing: Maglev Hashing Scheduler i...[233] 대형 컨테이너 클러스터에서의 고가용성 Network Load Balancing: Maglev Hashing Scheduler i...
[233] 대형 컨테이너 클러스터에서의 고가용성 Network Load Balancing: Maglev Hashing Scheduler i...
 
[215] Druid로 쉽고 빠르게 데이터 분석하기
[215] Druid로 쉽고 빠르게 데이터 분석하기[215] Druid로 쉽고 빠르게 데이터 분석하기
[215] Druid로 쉽고 빠르게 데이터 분석하기
 
[245]Papago Internals: 모델분석과 응용기술 개발
[245]Papago Internals: 모델분석과 응용기술 개발[245]Papago Internals: 모델분석과 응용기술 개발
[245]Papago Internals: 모델분석과 응용기술 개발
 
[236] 스트림 저장소 최적화 이야기: 아파치 드루이드로부터 얻은 교훈
[236] 스트림 저장소 최적화 이야기: 아파치 드루이드로부터 얻은 교훈[236] 스트림 저장소 최적화 이야기: 아파치 드루이드로부터 얻은 교훈
[236] 스트림 저장소 최적화 이야기: 아파치 드루이드로부터 얻은 교훈
 
[235]Wikipedia-scale Q&A
[235]Wikipedia-scale Q&A[235]Wikipedia-scale Q&A
[235]Wikipedia-scale Q&A
 
[244]로봇이 현실 세계에 대해 학습하도록 만들기
[244]로봇이 현실 세계에 대해 학습하도록 만들기[244]로봇이 현실 세계에 대해 학습하도록 만들기
[244]로봇이 현실 세계에 대해 학습하도록 만들기
 
[243] Deep Learning to help student’s Deep Learning
[243] Deep Learning to help student’s Deep Learning[243] Deep Learning to help student’s Deep Learning
[243] Deep Learning to help student’s Deep Learning
 
[234]Fast & Accurate Data Annotation Pipeline for AI applications
[234]Fast & Accurate Data Annotation Pipeline for AI applications[234]Fast & Accurate Data Annotation Pipeline for AI applications
[234]Fast & Accurate Data Annotation Pipeline for AI applications
 
Old version: [233]대형 컨테이너 클러스터에서의 고가용성 Network Load Balancing
Old version: [233]대형 컨테이너 클러스터에서의 고가용성 Network Load BalancingOld version: [233]대형 컨테이너 클러스터에서의 고가용성 Network Load Balancing
Old version: [233]대형 컨테이너 클러스터에서의 고가용성 Network Load Balancing
 
[226]NAVER 광고 deep click prediction: 모델링부터 서빙까지
[226]NAVER 광고 deep click prediction: 모델링부터 서빙까지[226]NAVER 광고 deep click prediction: 모델링부터 서빙까지
[226]NAVER 광고 deep click prediction: 모델링부터 서빙까지
 
[225]NSML: 머신러닝 플랫폼 서비스하기 & 모델 튜닝 자동화하기
[225]NSML: 머신러닝 플랫폼 서비스하기 & 모델 튜닝 자동화하기[225]NSML: 머신러닝 플랫폼 서비스하기 & 모델 튜닝 자동화하기
[225]NSML: 머신러닝 플랫폼 서비스하기 & 모델 튜닝 자동화하기
 
[224]네이버 검색과 개인화
[224]네이버 검색과 개인화[224]네이버 검색과 개인화
[224]네이버 검색과 개인화
 
[216]Search Reliability Engineering (부제: 지진에도 흔들리지 않는 네이버 검색시스템)
[216]Search Reliability Engineering (부제: 지진에도 흔들리지 않는 네이버 검색시스템)[216]Search Reliability Engineering (부제: 지진에도 흔들리지 않는 네이버 검색시스템)
[216]Search Reliability Engineering (부제: 지진에도 흔들리지 않는 네이버 검색시스템)
 
[214] Ai Serving Platform: 하루 수 억 건의 인퍼런스를 처리하기 위한 고군분투기
[214] Ai Serving Platform: 하루 수 억 건의 인퍼런스를 처리하기 위한 고군분투기[214] Ai Serving Platform: 하루 수 억 건의 인퍼런스를 처리하기 위한 고군분투기
[214] Ai Serving Platform: 하루 수 억 건의 인퍼런스를 처리하기 위한 고군분투기
 
[213] Fashion Visual Search
[213] Fashion Visual Search[213] Fashion Visual Search
[213] Fashion Visual Search
 
[232] TensorRT를 활용한 딥러닝 Inference 최적화
[232] TensorRT를 활용한 딥러닝 Inference 최적화[232] TensorRT를 활용한 딥러닝 Inference 최적화
[232] TensorRT를 활용한 딥러닝 Inference 최적화
 
[242]컴퓨터 비전을 이용한 실내 지도 자동 업데이트 방법: 딥러닝을 통한 POI 변화 탐지
[242]컴퓨터 비전을 이용한 실내 지도 자동 업데이트 방법: 딥러닝을 통한 POI 변화 탐지[242]컴퓨터 비전을 이용한 실내 지도 자동 업데이트 방법: 딥러닝을 통한 POI 변화 탐지
[242]컴퓨터 비전을 이용한 실내 지도 자동 업데이트 방법: 딥러닝을 통한 POI 변화 탐지
 
[212]C3, 데이터 처리에서 서빙까지 가능한 하둡 클러스터
[212]C3, 데이터 처리에서 서빙까지 가능한 하둡 클러스터[212]C3, 데이터 처리에서 서빙까지 가능한 하둡 클러스터
[212]C3, 데이터 처리에서 서빙까지 가능한 하둡 클러스터
 
[223]기계독해 QA: 검색인가, NLP인가?
[223]기계독해 QA: 검색인가, NLP인가?[223]기계독해 QA: 검색인가, NLP인가?
[223]기계독해 QA: 검색인가, NLP인가?
 

딥러닝과 강화 학습으로 나보다 잘하는 쿠키런 AI 구현하기

Editor's Notes

  1. 저는 오늘 딥러닝과, 강화 학습에 관해 이야기 하고자 합니다. 최근 두 분야 모두에 급격한 발전들이 있었는데요.
  2. 대표적인 예로는. 2013년 DeepMind에서 게임 화면의 픽셀만으로 벽돌깨기와 스페이스 인베이더와 같은 게임을 사람만큼, 사람보다 더 잘 플레이할 수 있도록 학습한 사례가 있구요,
  3. 다들 아시겠지만 올해 초에는, 이렇게 이세돌 구단을 깜짝 놀라게 한 알파고도 있었죠.
  4. 약 한달 전에는 벽돌깨기와 같은 2D게임에서 벗어나, 둠이라는 고전 3D 게임도 이렇게 잘 플레이하게 되었죠.
  5. 이 놀라운 결과들은 바로 딥러닝과 강화 학습을 융합해서 나온 결과물들인데요,
  6. 딥러닝에 대해선 많은 분들이 이미 알고 있을거라고 생각됩니다.
  7. 네, 이 그림. 익숙하시죠? 인간의 뇌구조에서 착언한 뉴럴 네트워크의 학습을 연구하는 것이 바로 딥러닝이죠.
  8. 하지만 강화 학습 혹은 reinforcement learning이란 단어를 들어 보신 분들은 많으시겠지만, 다른 것들에 비해 강화 학습에 대학 정보가 그리 많지는 않기 때문에 생소한 분들이 많을 것 같습니다.
  9. 강화 학습은 머신 러닝의 한 분야입니다. 머신러닝을 학습 방식에 따라
  10. 크게 3가지로 나눌 수 있는데요
  11. 첫번째론 가장 잘 알려진 학습 방법인 지도 학습이란게 있구요
  12. 두번째론 비지도 학습,
  13. 마지막으로 강화 학습, 이렇게 머신러닝은 3가지 분야로 나눠질 수 있습니다.
  14. 지도 학습은
  15. 학습 데이터에 입력값에 대한 정답이 있고
  16. 정답이 없는 데이터에
  17. 답을 찾는 문제를 지도 학습이라고 부릅니다. 대표적인 예로는 분류, classification 문제가 있죠
  18. 비지도 학습의 경우
  19. 학습 데이터에 정답이 없으며
  20. 데이터가 어떻게 구성되었는지를 알아내는 문제입니다
  21. 대표적인 예로는 clustering, 군집화가 있죠
  22. 네 그렇다면 강화 학습은
  23. 분류 문제도, 군집화 문제도 이는것인데, 어떤 경우에 강화 학습을 써야할까요?
  24. 가장 쉬운 예로, 우리가 로봇을 걷게 만드는 문제를 풀고 싶다고 생각해 죠. 우리는 로봇의 관절들을 어느 각도로 움직일 것인가를 결정해야 하는데요.
  25. 그래서 이렇게 시행 착오를 통해서 학습을 강화 학습이라고 합니다.
  26. 이제부터는 쿠키런 게임을 사례로 강화 학습의 핵심 “개념”들을 자세히 설명해 보도록 하겠습니다.
  27. 쿠키런의 목표는 로봇이 아닌 쿠키가 죽지 않고 높은 점수를 내며 달리게 하는것 입니다.
  28. 만약 젤리가 있으면 먹어서 점수를 얻어야 하구요
  29. 장애물이 있다면 점프나 슬라이드로 피애햐 합니다
  30. 강화학습에는 행동을 하는 주체를 agent라고 부르는데요, 쿠키런에서는 쿠키가 바로 agent가 되겠죠
  31. Environment는 agent가 행동을 하게되는 공간을 말합니다. 쿠키는 바다나 숲과 같은 여러가지 맵에서 달리게 되는데요 이런 게임 맵이 바로 environment, 환경이 되겠죠
  32. agent가 행동을 하기위해서는 먼저 주변 환경이 어떤지를 봐야 하잖아요? 그래서 agent가 바라보는 환경을 state라고 부릅니다. 저희는 쿠키 앞뒤의 화면 정보를 10x12의 작은 grid로 요약했습니다.
  33. grid는 비어있는으면 0, 쿠키가 있으면 1, 젤리가 있으면 3, 장애물이 있으면 -1로 표현했습니다. 이렇게 만들어진 행렬을 뉴럴 네트워크에 넣고
  34. 가장 적합한 행동을 결정해서 agent가 수행하게 됩니다.
  35. 이 놀라운 결과들은 바로 딥러닝과 강화 학습을 융합해서 나온 결과물들인데요,
  36. 이 놀라운 결과들은 바로 딥러닝과 강화 학습을 융합해서 나온 결과물들인데요,
  37. 그래서 저희는 이러한 가치를 보고 쿠키런 ai를 만들기 시작했고, 알파런이라는 프로젝트를 시작하게 되었습니다.
  38. 게임을 스스로 학습하고, 바둑에서 인간을 능가 하는 기술을 쿠키런에 접목시킨다면 어떠한 가치를 창출할 수 있을지 고민을 했고,
  39. 이 놀라운 결과들은 바로 딥러닝과 강화 학습을 융합해서 나온 결과물들인데요,
  40. 쿠키런의 모든 조합을 플레이 하기 위해 걸리는 시간은 5040일이지만
  41. 순식간에 한번에 게임을 할 수 있는 AI가 있다면 단 14일 만에 모든 조합을 플레이 할 수 있다는 계산을 할 수 있었습니다. 360배나 빠르게 플레이 할 수 있는것이죠.
  42. 그래서 저희는 이러한 가치를 보고 쿠키런 ai를 만들기 시작했고, 알파런이라는 프로젝트를 시작하게 되었습니다.