SlideShare a Scribd company logo
1 of 39
Active Object Localization with
Deep Reinforcement Learning
1
2016. 7.
김홍배, 한국항공우주연구원
第32回CV勉強会「ICCV2015読み会」, 皆川卓也
소개 논문
 Active Object Localization with Deep Reinforcement Learning
• Juan C. Caicedo, and Svetlana Lazebnik
• 물체검출 작업에 Deep Q-Network을 사용
2
DEEP Q-NETWORK (DQN)
 Q Learning이라는 강화학습 알고리즘에 Convolutional Neural
Network을 적용
 아래 논문에서 기계에 컴퓨터게임을 하는 방법을 학습시켜 3/7로
인간을 이김
• Mnih, V., et al., “Playing Atari with Deep Reinforcement
Learning”, NIPS Deep Learning Workshop, 2013
• Mnih, V., et al., “Human-level control through deep
reinforcement learning”, Nature, 518 (7540), 529–533. 2015
3
강화학습이란 ?
「어떤 환경에 있어서 Agent가 현재의 상태를 관
측하여 취하여야 하는 행동(Action)을 결정하는 문
제를 다루는 기계학습의 일종. Agent는 행동을 선
택함으로써 보수(Reward) 를 얻는다. 강화학습은
일련의 행동을 통하여 보수가 가장 많게 얻을 수 있
도록 정책(policy)을 학습한다.」(Wikipedia)
4
강화학습이란?
Agent
상태 : s
시간: t
행동: 𝑎
관측
정책: 𝜋(𝑠)
5
상태 : s’
강화학습이란?
Agent
시간: t+1
행동: 𝑎
정책: 𝜋(𝑠)
6
시간 : t+1
관측
보수 : 𝑟𝑡
학습으로 구함
강화학습이란?
정책: 𝜋(𝑠')
상태 : s’
Agent
7
어떻게 정책을 학습할까 ?
아래와 같이 보수의 합의 기대치가 최대가 되도록 지금의 행동을 결정
𝑅𝑡 = 𝑟𝑡 + 𝛾𝑟𝑡 +1 + 𝛾2 𝑟𝑡 +2 + ⋯ + 𝛾 𝑇−𝑡 𝑟 𝑇
보수의 합
감쇄율
장래의 보수
𝜋∗(𝑠) = argmax 𝔼[𝑅𝑡 |𝑠𝑡 = 𝑠, 𝑎𝑡= 𝑎]
𝑎
상태 s일때、보수의 합의 기대치가 최대가
되도록 행동 a를 선택
강화학습이란?
8
Q LEARNING
𝑄∗(𝑠, a)
상태 s、행동 a의 조합의 “좋고” “나쁨”을
점수로 가르쳐주는 함수
상태 s일때、보수의 합의 기대치가 최대가 되도록 행동 a를 선택
𝜋∗(𝑠) = argmax 𝔼 𝑅𝑡 |𝑠𝑡 = 𝑠, 𝑎𝑡= 𝑎
𝑎
상태 s에서 행동 a를 취할 경우, 이후로 최적인 행동
을 계속 취할 경우에 얻게 되는 보수의 합의 기대치
𝜋를 대신해서 함수 Q를 학습
9
Q LEARNING
𝜋를 대신해서 함수 Q를 학습
𝜋∗(𝑠) = argmax 𝑄∗(𝑠, 𝑎)
𝑎
함수 𝑄의 변수 𝜃를
학습에 의해 구한다.
확률적 구배강하법(SGD, Stochastic Gradient Descent)
𝜃𝑖 +1 = 𝜃𝑖 − 𝛼𝛻𝜃 𝑖
𝐿(𝜃𝑖 )
Learning rate 손실함수(Loss function)
Q(s, a; θ∗)
10
Q LEARNING
기준값(보수의 합의 최대 기대치)
존재하지 않음
 손실함수의 정의
𝜃𝑖 +1 = 𝜃𝑖 − 𝛼𝛻𝜃 𝑖
𝐿(𝜃𝑖 )
L(ϴ𝑖)=
1
2
𝑄∗
𝑠, 𝑎 − 𝑄 𝑠, 𝑎; ϴ𝑖
2
11
Q LEARNING
𝑄∗(𝑠, 𝑎) = 𝑟𝑡 + 𝛾 max 𝑄∗(𝑠′, 𝑎′)
𝑅𝑡 = 𝑟𝑡 + 𝛾𝑟𝑡+1 + 𝛾2 𝑟𝑡+2 + ⋯ + 𝛾 𝑇−𝑡 𝑟𝑇
보수의 합
𝑅𝑡 = 𝑟𝑡 + 𝛾𝑅𝑡+1
𝑄∗(𝑠, 𝑎) = 𝔼 [𝑅𝑡 |𝑠𝑡 = 𝑠, 𝑎𝑡= 𝑎]
𝑎에 의해 바뀐 상태𝑎′
12
Q LEARNING
 손실함수
L(ϴ𝑖)=
1
2
𝑄∗
𝑠, 𝑎 − 𝑄 𝑠, 𝑎; ϴ𝑖
2
𝑄∗(𝑠, 𝑎) = 𝑟𝑡 + 𝛾 max 𝑄∗(s′, 𝑎′)
𝑎′
13
Q LEARNING
 손실함수
지금의 변수를
이용해서 근사화
L(ϴ𝑖) =
1
2
𝑄∗
𝑠, 𝑎 − 𝑄 𝑠, 𝑎; ϴ𝑖
2
=
1
2
𝑟𝑡 + 𝛾 max 𝑄∗(s′, 𝑎′) − 𝑄 𝑠, 𝑎; ϴ𝑖
2
≈
1
2
𝑟𝑡 +𝛾 max 𝑄(𝑠′ , 𝑎′ ; 𝜃𝑖) − 𝑄 𝑠, 𝑎; ϴ𝑖
2
𝑎′
𝑎′
14
Q LEARNING
 손실함수의 구배(Gradient)
𝛻𝜃 𝑖 𝐿 𝜃𝑖
= −( 𝑟𝑡 + 𝛾 max 𝑄(𝑠', 𝑎' ;𝜃𝑖) − 𝑄(𝑠,𝑎;𝜃𝑖 )) 𝛻𝜃 𝑖 𝑄(𝑠,𝑎;𝜃𝑖 )
L(ϴ𝑖) =
1
2
𝑟𝑡 +𝛾 max 𝑄(𝑠′ , 𝑎′ ; 𝜃𝑖 ) − 𝑄 𝑠, 𝑎; ϴ𝑖
2
𝑎′
𝑎′
15
Deep Q-Network의 정의
𝑄(𝑠, 𝑎2)
Deep CNN
𝜃𝑖
・・
𝑄(𝑠, 𝑎 𝐿)
s
𝑄(𝑠, 𝑎1)
 함수 𝑄(𝑠, 𝑎; 𝜃 𝑖)를 CNN로 나타낸다.
 입력이 상태 s, 출력이 각 행동에 따른 Q값
16
Deep Q-Network의 학습
𝑄(𝑠, 𝑎2)
Deep CNN
𝜃𝑖
・・
𝑄(𝑠, 𝑎 𝐿)
st
𝑄(𝑠, 𝑎1)
1. 상태 𝑆𝑡 를 입력시, 𝑄(𝑠𝑡 , 𝑎; 𝜃 𝑖)가 최대가 되는 행동 𝑎 𝑡를 선택
• 단 확률 𝜀으로 랜덤하게 선택
17
2. 행동 𝑎𝑡 에 의 해 상 태 𝑆𝑡 +1과 보수 𝑟𝑡 를 얻는다.
𝑎𝑡
𝑠𝑡 → 𝑠𝑡+
1
Agent
환경
𝑟𝑡
Deep Q-Network의 학습
18
𝑄(𝑠𝑡 +1, 𝑎1)
𝑄(𝑠𝑡 +1, 𝑎2)
Deep CNN
𝜃𝑖
・・
・・
・
𝑄(𝑠𝑡+1, 𝑎 𝐿)
𝑠
t+1
3. 상태 𝑆𝑡 +1를 입력하고 max 𝑎 𝑄(𝑠𝑡 +1, 𝑎; 𝜃𝑖 ) 를 구한다.
Deep Q-Network의 학습
19
𝑦𝑖Deep CNN
𝜃𝑖
・
・
𝑄(𝑠𝑡 , 𝑎 𝐿)
𝑠𝑡
𝑄(𝑠𝑡 , 𝑎1)
4. 다음을 정답으로 해서 변수 𝜃 𝑖를 갱신한다.
𝑦𝑖 = 𝑟𝑡 + γ max 𝑎 𝑄(𝑠𝑡 +1, 𝑎; 𝜃𝑖 )
Deep Q-Network의 학습
L(ϴ𝑖) =
1
2
𝑦𝑖 − 𝑄 𝑠𝑡, 𝑎; ϴ𝑖
2 𝜃𝑖 +1= 𝜃𝑖 − 𝛼𝛻𝜃 𝑖
𝐿(𝜃𝑖 )
20
본론
21
DQN로 물체검출
 Agent : Bounding Box
 행동, a : Bounding Box의 이동/형상변경
 상태, s : Box내의 이미지 특징 벡터 + 행동이력
 보수, r : 정답(Ground Truth)과의 오버랩비율
22
 행동 (X9)
• 상하좌우 이동, 확대/축소, 형상변화(가늘게/넙적하게), 종료
• 이동 및 크기변화의 크기는 Box 크기에 비례(α = 0.2)
DQN로 물체검출
23
 상태
• Bounding Box내 이미지로부터 특징 벡터를 구함
 CNN에서 구한 4,096x1 벡터
• 과거의 행동이력
 직전 10회의 행동까지
 각각의 행동은 9x1 Binary 벡터로 표시
(취한 행동에 “1”, 나머지는 “0”)
 10 x 9 = 90x1 벡터
• 4096+90 = 4186x1 벡터를 DQN의 입력으로 한다.
DQN로 물체검출
24
 보수
b
g
𝐼𝑜𝑈 𝑏, 𝑔 =
𝑎𝑟𝑒𝑎(𝑏 ∩ 𝑔)
𝑎𝑟𝑒𝑎(𝑏 ∪ 𝑔)
𝑅 𝑎( 𝑠, 𝑠‘) = 𝑠𝑖𝑔𝑛 (𝐼𝑜𝑈(𝑏′, 𝑔) − 𝐼𝑜𝑈(𝑏, 𝑔))
Agent
Ground Truth
정답과의 오버랩 비율
(Intersection over Union)
Trigger(종료)이외의행동에대한보수
오버랩 비율이 커지면 1 , 작아지면 - 1
DQN로 물체검출
25
b
g 𝐼𝑜𝑈 𝑏, 𝑔 =
𝑎𝑟𝑒𝑎(𝑏 ∩ 𝑔)
𝑎𝑟𝑒𝑎(𝑏 ∪ 𝑔)
Agent
Ground Trut
h
오버랩 비율이 임계치, 𝜏 이상이면 +𝜂、이하면 −𝜂
+𝜂 𝑖𝑓 𝐼𝑜𝑈 𝑏, 𝑔 ≥ 𝜏
−𝜂 𝑜𝑡ℎ𝑒𝑟𝑤𝑖𝑠𝑒
 보수
정답과의 오버랩 비율
Trigger(종료)에대한보수
𝑅w( 𝑠, 𝑠‘) =
DQN로 물체검출
26
네트웍 구성
 이미지 크기는 224x224
 특징추출은 Pre-trained CNN을 사용
90x1
224x224 pixels
27
Agent의 학습
 Ε-GREEDY알고리즘
 확률 ε로 랜덤하게 행동을 선택
• 그 이외에는 가장 Q값이 큰 행동으로
• 본 방법에서는 학습시 정답 데이터를 알고 있으므로
보수가 “+”인 행동 중에서 랜덤하게 선택
 ε 은 학습이 진행됨에 따라 작아진다.
28
 Experience Replay
 과거의 (𝑠 𝑡, 𝑎 𝑡, 𝑟𝑡, 𝑠𝑡 +1)를 replay-memory에 보존
 DQN의 학습 시, 보존된 replay-memory로부터
랜덤하게 선택된 미니뱃치로 재학습
Agent의 학습
29
AGENT에 의한 물체검출
DQN
𝑠
Restart
25%smaller
start box size
Put it on an
image corner
Do Action
Y
Y
total 200
steps over ?
Y
N
𝑎
Trigger ?
N
40 steps
over ?
N
30
실험 (PASCALVOC2007)
 Pascal VOC 20
07
31
RECALL의 평가
32
물체검출까지의 STEP수의 분포
33
행동이력의 예
34
복수 물체검출의 예
35
검출실패의 예
36
SENSITIVITY ANALYSIS
 물체의 외형(Occlusion, Truncation, Size, Aspect Ratio,Viewpoint of
Objects, Visibility of parts)에 대한 민감도 해석
37
RUNTIME
 K-40 GPU 1대
 CNN에 의한 특징검출 (4.5ms)
 Q-network (3.2 ms)
 평균 1.54sec/image
38
결론
 강화학습을 사용해서 TOP-DOWN으로 물체
검출을 하는 방법을 제안
하나의 OBJECT에 대하여 11~25 정도의
영역밖에 보지 않았는데도 검출가능
39

More Related Content

What's hot

강화학습 기초부터 DQN까지 (Reinforcement Learning from Basics to DQN)
강화학습 기초부터 DQN까지 (Reinforcement Learning from Basics to DQN)강화학습 기초부터 DQN까지 (Reinforcement Learning from Basics to DQN)
강화학습 기초부터 DQN까지 (Reinforcement Learning from Basics to DQN)Curt Park
 
[DL輪読会]深層強化学習はなぜ難しいのか?Why Deep RL fails? A brief survey of recent works.
[DL輪読会]深層強化学習はなぜ難しいのか?Why Deep RL fails? A brief survey of recent works.[DL輪読会]深層強化学習はなぜ難しいのか?Why Deep RL fails? A brief survey of recent works.
[DL輪読会]深層強化学習はなぜ難しいのか?Why Deep RL fails? A brief survey of recent works.Deep Learning JP
 
강화학습의 흐름도 Part 1
강화학습의 흐름도 Part 1강화학습의 흐름도 Part 1
강화학습의 흐름도 Part 1Dongmin Lee
 
DQNからRainbowまで 〜深層強化学習の最新動向〜
DQNからRainbowまで 〜深層強化学習の最新動向〜DQNからRainbowまで 〜深層強化学習の最新動向〜
DQNからRainbowまで 〜深層強化学習の最新動向〜Jun Okumura
 
Tech-Circle #18 Pythonではじめる強化学習 OpenAI Gym 体験ハンズオン
Tech-Circle #18 Pythonではじめる強化学習 OpenAI Gym 体験ハンズオンTech-Circle #18 Pythonではじめる強化学習 OpenAI Gym 体験ハンズオン
Tech-Circle #18 Pythonではじめる強化学習 OpenAI Gym 体験ハンズオンTakahiro Kubo
 
最近のDQN
最近のDQN最近のDQN
最近のDQNmooopan
 
[DL輪読会]Deep Reinforcement Learning that Matters
[DL輪読会]Deep Reinforcement Learning that Matters[DL輪読会]Deep Reinforcement Learning that Matters
[DL輪読会]Deep Reinforcement Learning that MattersDeep Learning JP
 
【DL輪読会】Contrastive Learning as Goal-Conditioned Reinforcement Learning
【DL輪読会】Contrastive Learning as Goal-Conditioned Reinforcement Learning【DL輪読会】Contrastive Learning as Goal-Conditioned Reinforcement Learning
【DL輪読会】Contrastive Learning as Goal-Conditioned Reinforcement LearningDeep Learning JP
 
今さら聞けないカーネル法とサポートベクターマシン
今さら聞けないカーネル法とサポートベクターマシン今さら聞けないカーネル法とサポートベクターマシン
今さら聞けないカーネル法とサポートベクターマシンShinya Shimizu
 
Introduction to A3C model
Introduction to A3C modelIntroduction to A3C model
Introduction to A3C modelWEBFARMER. ltd.
 
POMDP下での強化学習の基礎と応用
POMDP下での強化学習の基礎と応用POMDP下での強化学習の基礎と応用
POMDP下での強化学習の基礎と応用Yasunori Ozaki
 
統計的学習理論チュートリアル: 基礎から応用まで (Ibis2012)
統計的学習理論チュートリアル: 基礎から応用まで (Ibis2012)統計的学習理論チュートリアル: 基礎から応用まで (Ibis2012)
統計的学習理論チュートリアル: 基礎から応用まで (Ibis2012)Taiji Suzuki
 
[DL輪読会]近年のオフライン強化学習のまとめ —Offline Reinforcement Learning: Tutorial, Review, an...
[DL輪読会]近年のオフライン強化学習のまとめ —Offline Reinforcement Learning: Tutorial, Review, an...[DL輪読会]近年のオフライン強化学習のまとめ —Offline Reinforcement Learning: Tutorial, Review, an...
[DL輪読会]近年のオフライン強化学習のまとめ —Offline Reinforcement Learning: Tutorial, Review, an...Deep Learning JP
 
強化学習アルゴリズムPPOの解説と実験
強化学習アルゴリズムPPOの解説と実験強化学習アルゴリズムPPOの解説と実験
強化学習アルゴリズムPPOの解説と実験克海 納谷
 
오토인코더의 모든 것
오토인코더의 모든 것오토인코더의 모든 것
오토인코더의 모든 것NAVER Engineering
 
強化学習その3
強化学習その3強化学習その3
強化学習その3nishio
 
딥러닝과 강화 학습으로 나보다 잘하는 쿠키런 AI 구현하기 DEVIEW 2016
딥러닝과 강화 학습으로 나보다 잘하는 쿠키런 AI 구현하기 DEVIEW 2016딥러닝과 강화 학습으로 나보다 잘하는 쿠키런 AI 구현하기 DEVIEW 2016
딥러닝과 강화 학습으로 나보다 잘하는 쿠키런 AI 구현하기 DEVIEW 2016Taehoon Kim
 
【DL輪読会】マルチエージェント強化学習における近年の 協調的方策学習アルゴリズムの発展
【DL輪読会】マルチエージェント強化学習における近年の 協調的方策学習アルゴリズムの発展【DL輪読会】マルチエージェント強化学習における近年の 協調的方策学習アルゴリズムの発展
【DL輪読会】マルチエージェント強化学習における近年の 協調的方策学習アルゴリズムの発展Deep Learning JP
 
강화학습 해부학 교실: Rainbow 이론부터 구현까지 (2nd dlcat in Daejeon)
강화학습 해부학 교실: Rainbow 이론부터 구현까지 (2nd dlcat in Daejeon)강화학습 해부학 교실: Rainbow 이론부터 구현까지 (2nd dlcat in Daejeon)
강화학습 해부학 교실: Rainbow 이론부터 구현까지 (2nd dlcat in Daejeon)Kyunghwan Kim
 
変分推論法(変分ベイズ法)(PRML第10章)
変分推論法(変分ベイズ法)(PRML第10章)変分推論法(変分ベイズ法)(PRML第10章)
変分推論法(変分ベイズ法)(PRML第10章)Takao Yamanaka
 

What's hot (20)

강화학습 기초부터 DQN까지 (Reinforcement Learning from Basics to DQN)
강화학습 기초부터 DQN까지 (Reinforcement Learning from Basics to DQN)강화학습 기초부터 DQN까지 (Reinforcement Learning from Basics to DQN)
강화학습 기초부터 DQN까지 (Reinforcement Learning from Basics to DQN)
 
[DL輪読会]深層強化学習はなぜ難しいのか?Why Deep RL fails? A brief survey of recent works.
[DL輪読会]深層強化学習はなぜ難しいのか?Why Deep RL fails? A brief survey of recent works.[DL輪読会]深層強化学習はなぜ難しいのか?Why Deep RL fails? A brief survey of recent works.
[DL輪読会]深層強化学習はなぜ難しいのか?Why Deep RL fails? A brief survey of recent works.
 
강화학습의 흐름도 Part 1
강화학습의 흐름도 Part 1강화학습의 흐름도 Part 1
강화학습의 흐름도 Part 1
 
DQNからRainbowまで 〜深層強化学習の最新動向〜
DQNからRainbowまで 〜深層強化学習の最新動向〜DQNからRainbowまで 〜深層強化学習の最新動向〜
DQNからRainbowまで 〜深層強化学習の最新動向〜
 
Tech-Circle #18 Pythonではじめる強化学習 OpenAI Gym 体験ハンズオン
Tech-Circle #18 Pythonではじめる強化学習 OpenAI Gym 体験ハンズオンTech-Circle #18 Pythonではじめる強化学習 OpenAI Gym 体験ハンズオン
Tech-Circle #18 Pythonではじめる強化学習 OpenAI Gym 体験ハンズオン
 
最近のDQN
最近のDQN最近のDQN
最近のDQN
 
[DL輪読会]Deep Reinforcement Learning that Matters
[DL輪読会]Deep Reinforcement Learning that Matters[DL輪読会]Deep Reinforcement Learning that Matters
[DL輪読会]Deep Reinforcement Learning that Matters
 
【DL輪読会】Contrastive Learning as Goal-Conditioned Reinforcement Learning
【DL輪読会】Contrastive Learning as Goal-Conditioned Reinforcement Learning【DL輪読会】Contrastive Learning as Goal-Conditioned Reinforcement Learning
【DL輪読会】Contrastive Learning as Goal-Conditioned Reinforcement Learning
 
今さら聞けないカーネル法とサポートベクターマシン
今さら聞けないカーネル法とサポートベクターマシン今さら聞けないカーネル法とサポートベクターマシン
今さら聞けないカーネル法とサポートベクターマシン
 
Introduction to A3C model
Introduction to A3C modelIntroduction to A3C model
Introduction to A3C model
 
POMDP下での強化学習の基礎と応用
POMDP下での強化学習の基礎と応用POMDP下での強化学習の基礎と応用
POMDP下での強化学習の基礎と応用
 
統計的学習理論チュートリアル: 基礎から応用まで (Ibis2012)
統計的学習理論チュートリアル: 基礎から応用まで (Ibis2012)統計的学習理論チュートリアル: 基礎から応用まで (Ibis2012)
統計的学習理論チュートリアル: 基礎から応用まで (Ibis2012)
 
[DL輪読会]近年のオフライン強化学習のまとめ —Offline Reinforcement Learning: Tutorial, Review, an...
[DL輪読会]近年のオフライン強化学習のまとめ —Offline Reinforcement Learning: Tutorial, Review, an...[DL輪読会]近年のオフライン強化学習のまとめ —Offline Reinforcement Learning: Tutorial, Review, an...
[DL輪読会]近年のオフライン強化学習のまとめ —Offline Reinforcement Learning: Tutorial, Review, an...
 
強化学習アルゴリズムPPOの解説と実験
強化学習アルゴリズムPPOの解説と実験強化学習アルゴリズムPPOの解説と実験
強化学習アルゴリズムPPOの解説と実験
 
오토인코더의 모든 것
오토인코더의 모든 것오토인코더의 모든 것
오토인코더의 모든 것
 
強化学習その3
強化学習その3強化学習その3
強化学習その3
 
딥러닝과 강화 학습으로 나보다 잘하는 쿠키런 AI 구현하기 DEVIEW 2016
딥러닝과 강화 학습으로 나보다 잘하는 쿠키런 AI 구현하기 DEVIEW 2016딥러닝과 강화 학습으로 나보다 잘하는 쿠키런 AI 구현하기 DEVIEW 2016
딥러닝과 강화 학습으로 나보다 잘하는 쿠키런 AI 구현하기 DEVIEW 2016
 
【DL輪読会】マルチエージェント強化学習における近年の 協調的方策学習アルゴリズムの発展
【DL輪読会】マルチエージェント強化学習における近年の 協調的方策学習アルゴリズムの発展【DL輪読会】マルチエージェント強化学習における近年の 協調的方策学習アルゴリズムの発展
【DL輪読会】マルチエージェント強化学習における近年の 協調的方策学習アルゴリズムの発展
 
강화학습 해부학 교실: Rainbow 이론부터 구현까지 (2nd dlcat in Daejeon)
강화학습 해부학 교실: Rainbow 이론부터 구현까지 (2nd dlcat in Daejeon)강화학습 해부학 교실: Rainbow 이론부터 구현까지 (2nd dlcat in Daejeon)
강화학습 해부학 교실: Rainbow 이론부터 구현까지 (2nd dlcat in Daejeon)
 
変分推論法(変分ベイズ法)(PRML第10章)
変分推論法(変分ベイズ法)(PRML第10章)変分推論法(変分ベイズ法)(PRML第10章)
変分推論法(変分ベイズ法)(PRML第10章)
 

Viewers also liked

Deep Object Detectors #1 (~2016.6)
Deep Object Detectors #1 (~2016.6)Deep Object Detectors #1 (~2016.6)
Deep Object Detectors #1 (~2016.6)Ildoo Kim
 
Single Shot MultiBox Detector와 Recurrent Instance Segmentation
Single Shot MultiBox Detector와 Recurrent Instance SegmentationSingle Shot MultiBox Detector와 Recurrent Instance Segmentation
Single Shot MultiBox Detector와 Recurrent Instance Segmentation홍배 김
 
[Pycon 2015] 오늘 당장 딥러닝 실험하기 제출용
[Pycon 2015] 오늘 당장 딥러닝 실험하기 제출용[Pycon 2015] 오늘 당장 딥러닝 실험하기 제출용
[Pycon 2015] 오늘 당장 딥러닝 실험하기 제출용현호 김
 
Kgc2012 온라인 게임을 위한 게임 오브젝트 설계
Kgc2012 온라인 게임을 위한 게임 오브젝트 설계Kgc2012 온라인 게임을 위한 게임 오브젝트 설계
Kgc2012 온라인 게임을 위한 게임 오브젝트 설계kgun86
 
2015 py con word2vec이 추천시스템을 만났을때
2015 py con word2vec이 추천시스템을 만났을때 2015 py con word2vec이 추천시스템을 만났을때
2015 py con word2vec이 추천시스템을 만났을때 choi kyumin
 
Learning to remember rare events
Learning to remember rare eventsLearning to remember rare events
Learning to remember rare events홍배 김
 
Knowing when to look : Adaptive Attention via A Visual Sentinel for Image Cap...
Knowing when to look : Adaptive Attention via A Visual Sentinel for Image Cap...Knowing when to look : Adaptive Attention via A Visual Sentinel for Image Cap...
Knowing when to look : Adaptive Attention via A Visual Sentinel for Image Cap...홍배 김
 
Visualizing data using t-SNE
Visualizing data using t-SNEVisualizing data using t-SNE
Visualizing data using t-SNE홍배 김
 
A neural image caption generator
A neural image caption generatorA neural image caption generator
A neural image caption generator홍배 김
 
알기쉬운 Variational autoencoder
알기쉬운 Variational autoencoder알기쉬운 Variational autoencoder
알기쉬운 Variational autoencoder홍배 김
 
Learning by association
Learning by associationLearning by association
Learning by association홍배 김
 
Binarized CNN on FPGA
Binarized CNN on FPGABinarized CNN on FPGA
Binarized CNN on FPGA홍배 김
 
InfoGAN: Interpretable Representation Learning by Information Maximizing Gene...
InfoGAN: Interpretable Representation Learning by Information Maximizing Gene...InfoGAN: Interpretable Representation Learning by Information Maximizing Gene...
InfoGAN: Interpretable Representation Learning by Information Maximizing Gene...홍배 김
 
Normalization 방법
Normalization 방법 Normalization 방법
Normalization 방법 홍배 김
 
Explanation on Tensorflow example -Deep mnist for expert
Explanation on Tensorflow example -Deep mnist for expertExplanation on Tensorflow example -Deep mnist for expert
Explanation on Tensorflow example -Deep mnist for expert홍배 김
 
MNIST for ML beginners
MNIST for ML beginnersMNIST for ML beginners
MNIST for ML beginners홍배 김
 
Meta-Learning with Memory Augmented Neural Networks
Meta-Learning with Memory Augmented Neural NetworksMeta-Learning with Memory Augmented Neural Networks
Meta-Learning with Memory Augmented Neural Networks홍배 김
 
Convolution 종류 설명
Convolution 종류 설명Convolution 종류 설명
Convolution 종류 설명홍배 김
 

Viewers also liked (20)

Deep Object Detectors #1 (~2016.6)
Deep Object Detectors #1 (~2016.6)Deep Object Detectors #1 (~2016.6)
Deep Object Detectors #1 (~2016.6)
 
Single Shot MultiBox Detector와 Recurrent Instance Segmentation
Single Shot MultiBox Detector와 Recurrent Instance SegmentationSingle Shot MultiBox Detector와 Recurrent Instance Segmentation
Single Shot MultiBox Detector와 Recurrent Instance Segmentation
 
Recurrent Instance Segmentation (UPC Reading Group)
Recurrent Instance Segmentation (UPC Reading Group)Recurrent Instance Segmentation (UPC Reading Group)
Recurrent Instance Segmentation (UPC Reading Group)
 
[Pycon 2015] 오늘 당장 딥러닝 실험하기 제출용
[Pycon 2015] 오늘 당장 딥러닝 실험하기 제출용[Pycon 2015] 오늘 당장 딥러닝 실험하기 제출용
[Pycon 2015] 오늘 당장 딥러닝 실험하기 제출용
 
Kgc2012 온라인 게임을 위한 게임 오브젝트 설계
Kgc2012 온라인 게임을 위한 게임 오브젝트 설계Kgc2012 온라인 게임을 위한 게임 오브젝트 설계
Kgc2012 온라인 게임을 위한 게임 오브젝트 설계
 
2015 py con word2vec이 추천시스템을 만났을때
2015 py con word2vec이 추천시스템을 만났을때 2015 py con word2vec이 추천시스템을 만났을때
2015 py con word2vec이 추천시스템을 만났을때
 
SSD: Single Shot MultiBox Detector (UPC Reading Group)
SSD: Single Shot MultiBox Detector (UPC Reading Group)SSD: Single Shot MultiBox Detector (UPC Reading Group)
SSD: Single Shot MultiBox Detector (UPC Reading Group)
 
Learning to remember rare events
Learning to remember rare eventsLearning to remember rare events
Learning to remember rare events
 
Knowing when to look : Adaptive Attention via A Visual Sentinel for Image Cap...
Knowing when to look : Adaptive Attention via A Visual Sentinel for Image Cap...Knowing when to look : Adaptive Attention via A Visual Sentinel for Image Cap...
Knowing when to look : Adaptive Attention via A Visual Sentinel for Image Cap...
 
Visualizing data using t-SNE
Visualizing data using t-SNEVisualizing data using t-SNE
Visualizing data using t-SNE
 
A neural image caption generator
A neural image caption generatorA neural image caption generator
A neural image caption generator
 
알기쉬운 Variational autoencoder
알기쉬운 Variational autoencoder알기쉬운 Variational autoencoder
알기쉬운 Variational autoencoder
 
Learning by association
Learning by associationLearning by association
Learning by association
 
Binarized CNN on FPGA
Binarized CNN on FPGABinarized CNN on FPGA
Binarized CNN on FPGA
 
InfoGAN: Interpretable Representation Learning by Information Maximizing Gene...
InfoGAN: Interpretable Representation Learning by Information Maximizing Gene...InfoGAN: Interpretable Representation Learning by Information Maximizing Gene...
InfoGAN: Interpretable Representation Learning by Information Maximizing Gene...
 
Normalization 방법
Normalization 방법 Normalization 방법
Normalization 방법
 
Explanation on Tensorflow example -Deep mnist for expert
Explanation on Tensorflow example -Deep mnist for expertExplanation on Tensorflow example -Deep mnist for expert
Explanation on Tensorflow example -Deep mnist for expert
 
MNIST for ML beginners
MNIST for ML beginnersMNIST for ML beginners
MNIST for ML beginners
 
Meta-Learning with Memory Augmented Neural Networks
Meta-Learning with Memory Augmented Neural NetworksMeta-Learning with Memory Augmented Neural Networks
Meta-Learning with Memory Augmented Neural Networks
 
Convolution 종류 설명
Convolution 종류 설명Convolution 종류 설명
Convolution 종류 설명
 

Similar to Q Learning과 CNN을 이용한 Object Localization

Dsh data sensitive hashing for high dimensional k-nn search
Dsh  data sensitive hashing for high dimensional k-nn searchDsh  data sensitive hashing for high dimensional k-nn search
Dsh data sensitive hashing for high dimensional k-nn searchWooSung Choi
 
[머가]Chap11 강화학습
[머가]Chap11 강화학습[머가]Chap11 강화학습
[머가]Chap11 강화학습종현 최
 
Lecture 4: Neural Networks I
Lecture 4: Neural Networks ILecture 4: Neural Networks I
Lecture 4: Neural Networks ISang Jun Lee
 
Neural network (perceptron)
Neural network (perceptron)Neural network (perceptron)
Neural network (perceptron)Jeonghun Yoon
 
[Probability for machine learning]
[Probability for machine learning][Probability for machine learning]
[Probability for machine learning]강민국 강민국
 
Lecture 3: Unsupervised Learning
Lecture 3: Unsupervised LearningLecture 3: Unsupervised Learning
Lecture 3: Unsupervised LearningSang Jun Lee
 
Reinforcement learning v0.5
Reinforcement learning v0.5Reinforcement learning v0.5
Reinforcement learning v0.5SANG WON PARK
 
강화학습 기초_2(Deep sarsa, Deep Q-learning, DQN)
강화학습 기초_2(Deep sarsa, Deep Q-learning, DQN)강화학습 기초_2(Deep sarsa, Deep Q-learning, DQN)
강화학습 기초_2(Deep sarsa, Deep Q-learning, DQN)Euijin Jeong
 
Gaussian Mixture Model
Gaussian Mixture ModelGaussian Mixture Model
Gaussian Mixture ModelKyeongUkJang
 
Eigendecomposition and pca
Eigendecomposition and pcaEigendecomposition and pca
Eigendecomposition and pcaJinhwan Suk
 
Introduction toDQN
Introduction toDQNIntroduction toDQN
Introduction toDQNCurt Park
 
04. logistic regression ( 로지스틱 회귀 )
04. logistic regression ( 로지스틱 회귀 )04. logistic regression ( 로지스틱 회귀 )
04. logistic regression ( 로지스틱 회귀 )Jeonghun Yoon
 
한국인공지능연구소 강화학습랩 결과보고서
한국인공지능연구소 강화학습랩 결과보고서한국인공지능연구소 강화학습랩 결과보고서
한국인공지능연구소 강화학습랩 결과보고서Euijin Jeong
 
03. linear regression
03. linear regression03. linear regression
03. linear regressionJeonghun Yoon
 
Deep Learning from scratch 3장 : neural network
Deep Learning from scratch 3장 : neural networkDeep Learning from scratch 3장 : neural network
Deep Learning from scratch 3장 : neural networkJinSooKim80
 
3.neural networks
3.neural networks3.neural networks
3.neural networksHaesun Park
 
세그먼트 트리 느리게 업데이트하기 - Sogang ICPC Team, 2020 Winter
세그먼트 트리 느리게 업데이트하기 - Sogang ICPC Team, 2020 Winter세그먼트 트리 느리게 업데이트하기 - Sogang ICPC Team, 2020 Winter
세그먼트 트리 느리게 업데이트하기 - Sogang ICPC Team, 2020 WinterSuhyun Park
 

Similar to Q Learning과 CNN을 이용한 Object Localization (20)

Dsh data sensitive hashing for high dimensional k-nn search
Dsh  data sensitive hashing for high dimensional k-nn searchDsh  data sensitive hashing for high dimensional k-nn search
Dsh data sensitive hashing for high dimensional k-nn search
 
Generative adversarial network
Generative adversarial networkGenerative adversarial network
Generative adversarial network
 
[머가]Chap11 강화학습
[머가]Chap11 강화학습[머가]Chap11 강화학습
[머가]Chap11 강화학습
 
Lecture 4: Neural Networks I
Lecture 4: Neural Networks ILecture 4: Neural Networks I
Lecture 4: Neural Networks I
 
Neural network (perceptron)
Neural network (perceptron)Neural network (perceptron)
Neural network (perceptron)
 
Variational AutoEncoder(VAE)
Variational AutoEncoder(VAE)Variational AutoEncoder(VAE)
Variational AutoEncoder(VAE)
 
[Probability for machine learning]
[Probability for machine learning][Probability for machine learning]
[Probability for machine learning]
 
Lecture 3: Unsupervised Learning
Lecture 3: Unsupervised LearningLecture 3: Unsupervised Learning
Lecture 3: Unsupervised Learning
 
Reinforcement learning v0.5
Reinforcement learning v0.5Reinforcement learning v0.5
Reinforcement learning v0.5
 
강화학습 기초_2(Deep sarsa, Deep Q-learning, DQN)
강화학습 기초_2(Deep sarsa, Deep Q-learning, DQN)강화학습 기초_2(Deep sarsa, Deep Q-learning, DQN)
강화학습 기초_2(Deep sarsa, Deep Q-learning, DQN)
 
Gaussian Mixture Model
Gaussian Mixture ModelGaussian Mixture Model
Gaussian Mixture Model
 
Eigendecomposition and pca
Eigendecomposition and pcaEigendecomposition and pca
Eigendecomposition and pca
 
Introduction toDQN
Introduction toDQNIntroduction toDQN
Introduction toDQN
 
Dqn break
Dqn breakDqn break
Dqn break
 
04. logistic regression ( 로지스틱 회귀 )
04. logistic regression ( 로지스틱 회귀 )04. logistic regression ( 로지스틱 회귀 )
04. logistic regression ( 로지스틱 회귀 )
 
한국인공지능연구소 강화학습랩 결과보고서
한국인공지능연구소 강화학습랩 결과보고서한국인공지능연구소 강화학습랩 결과보고서
한국인공지능연구소 강화학습랩 결과보고서
 
03. linear regression
03. linear regression03. linear regression
03. linear regression
 
Deep Learning from scratch 3장 : neural network
Deep Learning from scratch 3장 : neural networkDeep Learning from scratch 3장 : neural network
Deep Learning from scratch 3장 : neural network
 
3.neural networks
3.neural networks3.neural networks
3.neural networks
 
세그먼트 트리 느리게 업데이트하기 - Sogang ICPC Team, 2020 Winter
세그먼트 트리 느리게 업데이트하기 - Sogang ICPC Team, 2020 Winter세그먼트 트리 느리게 업데이트하기 - Sogang ICPC Team, 2020 Winter
세그먼트 트리 느리게 업데이트하기 - Sogang ICPC Team, 2020 Winter
 

More from 홍배 김

Automatic Gain Tuning based on Gaussian Process Global Optimization (= Bayesi...
Automatic Gain Tuning based on Gaussian Process Global Optimization (= Bayesi...Automatic Gain Tuning based on Gaussian Process Global Optimization (= Bayesi...
Automatic Gain Tuning based on Gaussian Process Global Optimization (= Bayesi...홍배 김
 
Gaussian processing
Gaussian processingGaussian processing
Gaussian processing홍배 김
 
Lecture Summary : Camera Projection
Lecture Summary : Camera Projection Lecture Summary : Camera Projection
Lecture Summary : Camera Projection 홍배 김
 
Learning agile and dynamic motor skills for legged robots
Learning agile and dynamic motor skills for legged robotsLearning agile and dynamic motor skills for legged robots
Learning agile and dynamic motor skills for legged robots홍배 김
 
Robotics of Quadruped Robot
Robotics of Quadruped RobotRobotics of Quadruped Robot
Robotics of Quadruped Robot홍배 김
 
Basics of Robotics
Basics of RoboticsBasics of Robotics
Basics of Robotics홍배 김
 
Recurrent Neural Net의 이론과 설명
Recurrent Neural Net의 이론과 설명Recurrent Neural Net의 이론과 설명
Recurrent Neural Net의 이론과 설명홍배 김
 
Convolutional neural networks 이론과 응용
Convolutional neural networks 이론과 응용Convolutional neural networks 이론과 응용
Convolutional neural networks 이론과 응용홍배 김
 
Anomaly detection using deep one class classifier
Anomaly detection using deep one class classifierAnomaly detection using deep one class classifier
Anomaly detection using deep one class classifier홍배 김
 
Optimal real-time landing using DNN
Optimal real-time landing using DNNOptimal real-time landing using DNN
Optimal real-time landing using DNN홍배 김
 
The world of loss function
The world of loss functionThe world of loss function
The world of loss function홍배 김
 
Machine learning applications in aerospace domain
Machine learning applications in aerospace domainMachine learning applications in aerospace domain
Machine learning applications in aerospace domain홍배 김
 
Anomaly Detection and Localization Using GAN and One-Class Classifier
Anomaly Detection and Localization  Using GAN and One-Class ClassifierAnomaly Detection and Localization  Using GAN and One-Class Classifier
Anomaly Detection and Localization Using GAN and One-Class Classifier홍배 김
 
ARCHITECTURAL CONDITIONING FOR DISENTANGLEMENT OF OBJECT IDENTITY AND POSTURE...
ARCHITECTURAL CONDITIONING FOR DISENTANGLEMENT OF OBJECT IDENTITY AND POSTURE...ARCHITECTURAL CONDITIONING FOR DISENTANGLEMENT OF OBJECT IDENTITY AND POSTURE...
ARCHITECTURAL CONDITIONING FOR DISENTANGLEMENT OF OBJECT IDENTITY AND POSTURE...홍배 김
 
Brief intro : Invariance and Equivariance
Brief intro : Invariance and EquivarianceBrief intro : Invariance and Equivariance
Brief intro : Invariance and Equivariance홍배 김
 
Anomaly Detection with GANs
Anomaly Detection with GANsAnomaly Detection with GANs
Anomaly Detection with GANs홍배 김
 
Focal loss의 응용(Detection & Classification)
Focal loss의 응용(Detection & Classification)Focal loss의 응용(Detection & Classification)
Focal loss의 응용(Detection & Classification)홍배 김
 
딥러닝을 이용한 자연어처리의 연구동향
딥러닝을 이용한 자연어처리의 연구동향딥러닝을 이용한 자연어처리의 연구동향
딥러닝을 이용한 자연어처리의 연구동향홍배 김
 
머신러닝의 자연어 처리기술(I)
머신러닝의 자연어 처리기술(I)머신러닝의 자연어 처리기술(I)
머신러닝의 자연어 처리기술(I)홍배 김
 

More from 홍배 김 (19)

Automatic Gain Tuning based on Gaussian Process Global Optimization (= Bayesi...
Automatic Gain Tuning based on Gaussian Process Global Optimization (= Bayesi...Automatic Gain Tuning based on Gaussian Process Global Optimization (= Bayesi...
Automatic Gain Tuning based on Gaussian Process Global Optimization (= Bayesi...
 
Gaussian processing
Gaussian processingGaussian processing
Gaussian processing
 
Lecture Summary : Camera Projection
Lecture Summary : Camera Projection Lecture Summary : Camera Projection
Lecture Summary : Camera Projection
 
Learning agile and dynamic motor skills for legged robots
Learning agile and dynamic motor skills for legged robotsLearning agile and dynamic motor skills for legged robots
Learning agile and dynamic motor skills for legged robots
 
Robotics of Quadruped Robot
Robotics of Quadruped RobotRobotics of Quadruped Robot
Robotics of Quadruped Robot
 
Basics of Robotics
Basics of RoboticsBasics of Robotics
Basics of Robotics
 
Recurrent Neural Net의 이론과 설명
Recurrent Neural Net의 이론과 설명Recurrent Neural Net의 이론과 설명
Recurrent Neural Net의 이론과 설명
 
Convolutional neural networks 이론과 응용
Convolutional neural networks 이론과 응용Convolutional neural networks 이론과 응용
Convolutional neural networks 이론과 응용
 
Anomaly detection using deep one class classifier
Anomaly detection using deep one class classifierAnomaly detection using deep one class classifier
Anomaly detection using deep one class classifier
 
Optimal real-time landing using DNN
Optimal real-time landing using DNNOptimal real-time landing using DNN
Optimal real-time landing using DNN
 
The world of loss function
The world of loss functionThe world of loss function
The world of loss function
 
Machine learning applications in aerospace domain
Machine learning applications in aerospace domainMachine learning applications in aerospace domain
Machine learning applications in aerospace domain
 
Anomaly Detection and Localization Using GAN and One-Class Classifier
Anomaly Detection and Localization  Using GAN and One-Class ClassifierAnomaly Detection and Localization  Using GAN and One-Class Classifier
Anomaly Detection and Localization Using GAN and One-Class Classifier
 
ARCHITECTURAL CONDITIONING FOR DISENTANGLEMENT OF OBJECT IDENTITY AND POSTURE...
ARCHITECTURAL CONDITIONING FOR DISENTANGLEMENT OF OBJECT IDENTITY AND POSTURE...ARCHITECTURAL CONDITIONING FOR DISENTANGLEMENT OF OBJECT IDENTITY AND POSTURE...
ARCHITECTURAL CONDITIONING FOR DISENTANGLEMENT OF OBJECT IDENTITY AND POSTURE...
 
Brief intro : Invariance and Equivariance
Brief intro : Invariance and EquivarianceBrief intro : Invariance and Equivariance
Brief intro : Invariance and Equivariance
 
Anomaly Detection with GANs
Anomaly Detection with GANsAnomaly Detection with GANs
Anomaly Detection with GANs
 
Focal loss의 응용(Detection & Classification)
Focal loss의 응용(Detection & Classification)Focal loss의 응용(Detection & Classification)
Focal loss의 응용(Detection & Classification)
 
딥러닝을 이용한 자연어처리의 연구동향
딥러닝을 이용한 자연어처리의 연구동향딥러닝을 이용한 자연어처리의 연구동향
딥러닝을 이용한 자연어처리의 연구동향
 
머신러닝의 자연어 처리기술(I)
머신러닝의 자연어 처리기술(I)머신러닝의 자연어 처리기술(I)
머신러닝의 자연어 처리기술(I)
 

Q Learning과 CNN을 이용한 Object Localization

  • 1. Active Object Localization with Deep Reinforcement Learning 1 2016. 7. 김홍배, 한국항공우주연구원 第32回CV勉強会「ICCV2015読み会」, 皆川卓也
  • 2. 소개 논문  Active Object Localization with Deep Reinforcement Learning • Juan C. Caicedo, and Svetlana Lazebnik • 물체검출 작업에 Deep Q-Network을 사용 2
  • 3. DEEP Q-NETWORK (DQN)  Q Learning이라는 강화학습 알고리즘에 Convolutional Neural Network을 적용  아래 논문에서 기계에 컴퓨터게임을 하는 방법을 학습시켜 3/7로 인간을 이김 • Mnih, V., et al., “Playing Atari with Deep Reinforcement Learning”, NIPS Deep Learning Workshop, 2013 • Mnih, V., et al., “Human-level control through deep reinforcement learning”, Nature, 518 (7540), 529–533. 2015 3
  • 4. 강화학습이란 ? 「어떤 환경에 있어서 Agent가 현재의 상태를 관 측하여 취하여야 하는 행동(Action)을 결정하는 문 제를 다루는 기계학습의 일종. Agent는 행동을 선 택함으로써 보수(Reward) 를 얻는다. 강화학습은 일련의 행동을 통하여 보수가 가장 많게 얻을 수 있 도록 정책(policy)을 학습한다.」(Wikipedia) 4
  • 5. 강화학습이란? Agent 상태 : s 시간: t 행동: 𝑎 관측 정책: 𝜋(𝑠) 5
  • 6. 상태 : s’ 강화학습이란? Agent 시간: t+1 행동: 𝑎 정책: 𝜋(𝑠) 6
  • 7. 시간 : t+1 관측 보수 : 𝑟𝑡 학습으로 구함 강화학습이란? 정책: 𝜋(𝑠') 상태 : s’ Agent 7
  • 8. 어떻게 정책을 학습할까 ? 아래와 같이 보수의 합의 기대치가 최대가 되도록 지금의 행동을 결정 𝑅𝑡 = 𝑟𝑡 + 𝛾𝑟𝑡 +1 + 𝛾2 𝑟𝑡 +2 + ⋯ + 𝛾 𝑇−𝑡 𝑟 𝑇 보수의 합 감쇄율 장래의 보수 𝜋∗(𝑠) = argmax 𝔼[𝑅𝑡 |𝑠𝑡 = 𝑠, 𝑎𝑡= 𝑎] 𝑎 상태 s일때、보수의 합의 기대치가 최대가 되도록 행동 a를 선택 강화학습이란? 8
  • 9. Q LEARNING 𝑄∗(𝑠, a) 상태 s、행동 a의 조합의 “좋고” “나쁨”을 점수로 가르쳐주는 함수 상태 s일때、보수의 합의 기대치가 최대가 되도록 행동 a를 선택 𝜋∗(𝑠) = argmax 𝔼 𝑅𝑡 |𝑠𝑡 = 𝑠, 𝑎𝑡= 𝑎 𝑎 상태 s에서 행동 a를 취할 경우, 이후로 최적인 행동 을 계속 취할 경우에 얻게 되는 보수의 합의 기대치 𝜋를 대신해서 함수 Q를 학습 9
  • 10. Q LEARNING 𝜋를 대신해서 함수 Q를 학습 𝜋∗(𝑠) = argmax 𝑄∗(𝑠, 𝑎) 𝑎 함수 𝑄의 변수 𝜃를 학습에 의해 구한다. 확률적 구배강하법(SGD, Stochastic Gradient Descent) 𝜃𝑖 +1 = 𝜃𝑖 − 𝛼𝛻𝜃 𝑖 𝐿(𝜃𝑖 ) Learning rate 손실함수(Loss function) Q(s, a; θ∗) 10
  • 11. Q LEARNING 기준값(보수의 합의 최대 기대치) 존재하지 않음  손실함수의 정의 𝜃𝑖 +1 = 𝜃𝑖 − 𝛼𝛻𝜃 𝑖 𝐿(𝜃𝑖 ) L(ϴ𝑖)= 1 2 𝑄∗ 𝑠, 𝑎 − 𝑄 𝑠, 𝑎; ϴ𝑖 2 11
  • 12. Q LEARNING 𝑄∗(𝑠, 𝑎) = 𝑟𝑡 + 𝛾 max 𝑄∗(𝑠′, 𝑎′) 𝑅𝑡 = 𝑟𝑡 + 𝛾𝑟𝑡+1 + 𝛾2 𝑟𝑡+2 + ⋯ + 𝛾 𝑇−𝑡 𝑟𝑇 보수의 합 𝑅𝑡 = 𝑟𝑡 + 𝛾𝑅𝑡+1 𝑄∗(𝑠, 𝑎) = 𝔼 [𝑅𝑡 |𝑠𝑡 = 𝑠, 𝑎𝑡= 𝑎] 𝑎에 의해 바뀐 상태𝑎′ 12
  • 13. Q LEARNING  손실함수 L(ϴ𝑖)= 1 2 𝑄∗ 𝑠, 𝑎 − 𝑄 𝑠, 𝑎; ϴ𝑖 2 𝑄∗(𝑠, 𝑎) = 𝑟𝑡 + 𝛾 max 𝑄∗(s′, 𝑎′) 𝑎′ 13
  • 14. Q LEARNING  손실함수 지금의 변수를 이용해서 근사화 L(ϴ𝑖) = 1 2 𝑄∗ 𝑠, 𝑎 − 𝑄 𝑠, 𝑎; ϴ𝑖 2 = 1 2 𝑟𝑡 + 𝛾 max 𝑄∗(s′, 𝑎′) − 𝑄 𝑠, 𝑎; ϴ𝑖 2 ≈ 1 2 𝑟𝑡 +𝛾 max 𝑄(𝑠′ , 𝑎′ ; 𝜃𝑖) − 𝑄 𝑠, 𝑎; ϴ𝑖 2 𝑎′ 𝑎′ 14
  • 15. Q LEARNING  손실함수의 구배(Gradient) 𝛻𝜃 𝑖 𝐿 𝜃𝑖 = −( 𝑟𝑡 + 𝛾 max 𝑄(𝑠', 𝑎' ;𝜃𝑖) − 𝑄(𝑠,𝑎;𝜃𝑖 )) 𝛻𝜃 𝑖 𝑄(𝑠,𝑎;𝜃𝑖 ) L(ϴ𝑖) = 1 2 𝑟𝑡 +𝛾 max 𝑄(𝑠′ , 𝑎′ ; 𝜃𝑖 ) − 𝑄 𝑠, 𝑎; ϴ𝑖 2 𝑎′ 𝑎′ 15
  • 16. Deep Q-Network의 정의 𝑄(𝑠, 𝑎2) Deep CNN 𝜃𝑖 ・・ 𝑄(𝑠, 𝑎 𝐿) s 𝑄(𝑠, 𝑎1)  함수 𝑄(𝑠, 𝑎; 𝜃 𝑖)를 CNN로 나타낸다.  입력이 상태 s, 출력이 각 행동에 따른 Q값 16
  • 17. Deep Q-Network의 학습 𝑄(𝑠, 𝑎2) Deep CNN 𝜃𝑖 ・・ 𝑄(𝑠, 𝑎 𝐿) st 𝑄(𝑠, 𝑎1) 1. 상태 𝑆𝑡 를 입력시, 𝑄(𝑠𝑡 , 𝑎; 𝜃 𝑖)가 최대가 되는 행동 𝑎 𝑡를 선택 • 단 확률 𝜀으로 랜덤하게 선택 17
  • 18. 2. 행동 𝑎𝑡 에 의 해 상 태 𝑆𝑡 +1과 보수 𝑟𝑡 를 얻는다. 𝑎𝑡 𝑠𝑡 → 𝑠𝑡+ 1 Agent 환경 𝑟𝑡 Deep Q-Network의 학습 18
  • 19. 𝑄(𝑠𝑡 +1, 𝑎1) 𝑄(𝑠𝑡 +1, 𝑎2) Deep CNN 𝜃𝑖 ・・ ・・ ・ 𝑄(𝑠𝑡+1, 𝑎 𝐿) 𝑠 t+1 3. 상태 𝑆𝑡 +1를 입력하고 max 𝑎 𝑄(𝑠𝑡 +1, 𝑎; 𝜃𝑖 ) 를 구한다. Deep Q-Network의 학습 19
  • 20. 𝑦𝑖Deep CNN 𝜃𝑖 ・ ・ 𝑄(𝑠𝑡 , 𝑎 𝐿) 𝑠𝑡 𝑄(𝑠𝑡 , 𝑎1) 4. 다음을 정답으로 해서 변수 𝜃 𝑖를 갱신한다. 𝑦𝑖 = 𝑟𝑡 + γ max 𝑎 𝑄(𝑠𝑡 +1, 𝑎; 𝜃𝑖 ) Deep Q-Network의 학습 L(ϴ𝑖) = 1 2 𝑦𝑖 − 𝑄 𝑠𝑡, 𝑎; ϴ𝑖 2 𝜃𝑖 +1= 𝜃𝑖 − 𝛼𝛻𝜃 𝑖 𝐿(𝜃𝑖 ) 20
  • 22. DQN로 물체검출  Agent : Bounding Box  행동, a : Bounding Box의 이동/형상변경  상태, s : Box내의 이미지 특징 벡터 + 행동이력  보수, r : 정답(Ground Truth)과의 오버랩비율 22
  • 23.  행동 (X9) • 상하좌우 이동, 확대/축소, 형상변화(가늘게/넙적하게), 종료 • 이동 및 크기변화의 크기는 Box 크기에 비례(α = 0.2) DQN로 물체검출 23
  • 24.  상태 • Bounding Box내 이미지로부터 특징 벡터를 구함  CNN에서 구한 4,096x1 벡터 • 과거의 행동이력  직전 10회의 행동까지  각각의 행동은 9x1 Binary 벡터로 표시 (취한 행동에 “1”, 나머지는 “0”)  10 x 9 = 90x1 벡터 • 4096+90 = 4186x1 벡터를 DQN의 입력으로 한다. DQN로 물체검출 24
  • 25.  보수 b g 𝐼𝑜𝑈 𝑏, 𝑔 = 𝑎𝑟𝑒𝑎(𝑏 ∩ 𝑔) 𝑎𝑟𝑒𝑎(𝑏 ∪ 𝑔) 𝑅 𝑎( 𝑠, 𝑠‘) = 𝑠𝑖𝑔𝑛 (𝐼𝑜𝑈(𝑏′, 𝑔) − 𝐼𝑜𝑈(𝑏, 𝑔)) Agent Ground Truth 정답과의 오버랩 비율 (Intersection over Union) Trigger(종료)이외의행동에대한보수 오버랩 비율이 커지면 1 , 작아지면 - 1 DQN로 물체검출 25
  • 26. b g 𝐼𝑜𝑈 𝑏, 𝑔 = 𝑎𝑟𝑒𝑎(𝑏 ∩ 𝑔) 𝑎𝑟𝑒𝑎(𝑏 ∪ 𝑔) Agent Ground Trut h 오버랩 비율이 임계치, 𝜏 이상이면 +𝜂、이하면 −𝜂 +𝜂 𝑖𝑓 𝐼𝑜𝑈 𝑏, 𝑔 ≥ 𝜏 −𝜂 𝑜𝑡ℎ𝑒𝑟𝑤𝑖𝑠𝑒  보수 정답과의 오버랩 비율 Trigger(종료)에대한보수 𝑅w( 𝑠, 𝑠‘) = DQN로 물체검출 26
  • 27. 네트웍 구성  이미지 크기는 224x224  특징추출은 Pre-trained CNN을 사용 90x1 224x224 pixels 27
  • 28. Agent의 학습  Ε-GREEDY알고리즘  확률 ε로 랜덤하게 행동을 선택 • 그 이외에는 가장 Q값이 큰 행동으로 • 본 방법에서는 학습시 정답 데이터를 알고 있으므로 보수가 “+”인 행동 중에서 랜덤하게 선택  ε 은 학습이 진행됨에 따라 작아진다. 28
  • 29.  Experience Replay  과거의 (𝑠 𝑡, 𝑎 𝑡, 𝑟𝑡, 𝑠𝑡 +1)를 replay-memory에 보존  DQN의 학습 시, 보존된 replay-memory로부터 랜덤하게 선택된 미니뱃치로 재학습 Agent의 학습 29
  • 30. AGENT에 의한 물체검출 DQN 𝑠 Restart 25%smaller start box size Put it on an image corner Do Action Y Y total 200 steps over ? Y N 𝑎 Trigger ? N 40 steps over ? N 30
  • 37. SENSITIVITY ANALYSIS  물체의 외형(Occlusion, Truncation, Size, Aspect Ratio,Viewpoint of Objects, Visibility of parts)에 대한 민감도 해석 37
  • 38. RUNTIME  K-40 GPU 1대  CNN에 의한 특징검출 (4.5ms)  Q-network (3.2 ms)  평균 1.54sec/image 38
  • 39. 결론  강화학습을 사용해서 TOP-DOWN으로 물체 검출을 하는 방법을 제안 하나의 OBJECT에 대하여 11~25 정도의 영역밖에 보지 않았는데도 검출가능 39