SlideShare a Scribd company logo
1 of 28
Understanding LSTM Networks
Jaehyun Ahn
Machine Learning Data mining Lab.
1
RNN(Recurrent Neural Networks)
Recurrent Neural
Network
Feedforward
Network
Structure At least contain
cycles
(so called “memory”)
No cycle
Input-output Time sequential Data Current state
Training
approaches
(Most popular)
Backpropagation
through time(BPTT)
Backpropagation
Algorithm
참고자료: http://www.cs.bham.ac.uk/~jxb/INC/l12.pdf
2
RNN(Recurrent Neural Networks)
•  순차적인 정보를 처리하는 모델(e.g. 자동번역)
•  Recurrent: 출력 결과가 이전 계산 결과에 영향을 받음

(메모리를 가짐)
•  기본적인 RNN 구조
X_t: time step t에서의 입력
S_t: time step t에서의 hidden state. (*U, W를 학습, S_-1 = 0)
O_t: time step t에서의 출력, o_t = f(V_s_t)
기초 논문: Recurrent neural network regularization
3
RNN(Recurrent Neural Networks)
X_t: time step t에서의 입력
S_t: time step t에서의 hidden state. (*U, W를 학습, S_-1 = 0)
O_t: time step t에서의 출력 (e.g. 자동번역, 단어 완성)
[Note]
•  Hidden state S_t는 과거 모든 정보를 담고 있고, O_t는 현재 정보
애 대한 Output이다
•  RNN은 모든 시간 스텝에 대하여 같은 파라미터를 공유한다. (U,V,W)
(Long-term dependency 문제 발생) 4
RNN(Recurrent Neural Networks)
X_t: time step t에서의 입력
S_t: time step t에서의 hidden state. (*U, W를 학습, S_-1 = 0)
O_t: time step t에서의 출력 (e.g. 자동번역 단어 벡터)
[Note]
•  Hidden state S_t는 과거 모든 정보를 담고 있고, O_t는 현재 정보
애 대한 Output이다
•  RNN은 모든 시간 스텝에 대하여 같은 파라미터를 공유한다. (U,V,W)
(Long-term dependency 문제 발생) 5
RNN(Recurrent Neural Networks)
RNN의 학습은 BPTT(Backpropagation Through Time)으로 진행되는데,
이것은 t_n의 U,V,W를 학습하기 위해서 t_1 – t_n-1 까지의 state를 모두 더
해야 함을 의미하고, Exploding/Vanishing Gradients의 문제로 학습하기
어렵다고 발표된 바 있다. 

(Bengio, On the difficulty of training recurrent neural networks)
•  Explosion은 long term components를 학습할 때 일어남
•  Vanish는 다음 event에 대하여 correlation을 학습하는 와중에 일어남
(delta weight가 0)
[Note] 논문 2. Exploding and vanishing gradients
6
RNN(Recurrent Neural Networks)
RNN의 학습은 BPTT(Backpropagation Through Time) 대신 단기 BPTT
(Truncated Backpropagation Through Time)로 대체되기도 하는데,
이와 같은 경우 장기적으로 남아있어야 할 메모리가 유실된다고 알려져 있다.
BPTT	
TBPTT	
7
RNN(Recurrent Neural Networks)
RNN 학습: BPTT(Backpropagation Through Time)
8http://kiyukuta.github.io/2013/12/09/mlac2013_day9_recurrent_neural_network_language_model.html
Green: 얼마나 잘못되었는지 기록
Orange: Green차이만큼 update
RNN(Recurrent Neural Networks)
RNN 학습: BPTT(Backpropagation Through Time)
9
http://kiyukuta.github.io/2013/12/09/mlac2013_day9_recurrent_neural_network_language_model.html
e_o(t): next word predicting error
Alpha: learning rate
Beta : L2 regularization coefficient
V(t+1) = V(t) + (과거 state)*predict err*lr – V(t)*Beta
L2 Reg: https://www.quora.com/What-is-the-difference-between-L1-and-L2-regularization
RNN(Recurrent Neural Networks)
RNN 학습: BPTT(Backpropagation Through Time)
10http://kiyukuta.github.io/2013/12/09/mlac2013_day9_recurrent_neural_network_language_model.html
e_h(t): error in the hidden layer
U(t+1) = U(t) + (0 ~ t-1)시점 [weight]*err*[lr] – U(t)*beta
W(t+1) = W(t) + (0 ~ t-1)시점 [recurrent state]*err*[lr] – W(t)*beta
d_h: differential of the sigmoid function
RNN(Recurrent Neural Networks)
RNN 학습: BPTT(Backpropagation Through Time)
11http://kiyukuta.github.io/2013/12/09/mlac2013_day9_recurrent_neural_network_language_model.html
e_h(t-tau-1): error of the past hidden layer
e_h(t-tau): is the weight W flowing in the oppositie direction
d_h: differential of the sigmoid function
RNN(Recurrent Neural Networks)
그 외 RNN, [Bidirectional RNN, Deep (Bidirectional RNN),
LSTM]
12http://aikorea.org/blog/rnn-tutorial-1/
step t 이후의 출력값이 입력값에도 영향을
받을 수 있다는 아이디어에서 나온 모델. 두 개의
RNN이 동시에 존재하고, 출력값은 두 개의 RNN
hidden state에 의존한다.
Bidirectional RNN:
RNN(Recurrent Neural Networks)
그 외 RNN, [Bidirectional RNN, Deep (Bidirectional RNN),
LSTM]
13http://aikorea.org/blog/rnn-tutorial-1/
Bidirectional RNN에서 매 시간 step마
다 추가적인 layer를 두어 구성한 RNN. 계산
capacity가 크고, 학습 데이터는 훨씬 더 많
이 필요하다.
Deep Bidirectional RNN:
RNN(Recurrent Neural Networks)
그 외 RNN, [Bidirectional RNN, Deep (Bidirectional RNN),
LSTM]
14http://aikorea.org/blog/rnn-tutorial-1/
RNN이 과거 time step t를 학습하여 추론하
는 과정에서 장기 의존성(long term
dependency)이 떨어진다는 단점을 극복하기
위하여 나온 네트워크. 때문에 weight를 학습
한다기 보다는 어떠한 정보를 버리고(forgot)
update할지에 초점을 맞춘 구조.
LSTM은 RNN의 뉴런 대신에 [메모리 셀]이라는
구조를 사용하여 forgot, 현재 state에 남
길 값을 결정한다.
LSTM Network:
LSTM(Long Short Term Memory) Architecture
Hochretier, Schmidhuber (CMU, 1997)가 개발. RNN의 장기 의존성 문제를 해결하기 위해 개
발되었음. 일련의 학습을 통해 추론을 하기 보다는 과거에 일어났던 일을 기억하고 재현하는 일을 목적으로 설계
됨.
15http://colah.github.io/posts/2015-08-Understanding-LSTMs/
X_t: t timestep에서의 input
LSTM(Long Short Term Memory) Architecture
Hochretier, Schmidhuber (CMU, 1997)가 개발. RNN의 장기 의존성 문제를 해결하기 위해 개
발되었음. 일련의 학습을 통해 추론을 하기 보다는 과거에 일어났던 일을 기억하고 재현하는 일을 목적으로 설계
됨. 메모리 셀 C가 들어간 버전은 Gers et al. 2000이 소개하였음.
16http://colah.github.io/posts/2015-08-Understanding-LSTMs/
X_t: t timestep에서의 input
C_t: Cell state, 정보를 더하거나 지울지 정함
LSTM(Long Short Term Memory) Architecture
17http://colah.github.io/posts/2015-08-Understanding-LSTMs/
Forget gate층은 h_[t-1]과 x_t를 보고, sigmoid를 통과시켜 C_[t-1]에서의 각 숫자
를 위한 0과 1 사이의 숫자를 출력함. Output인 f_t()가 forget gate.
LSTM(Long Short Term Memory) Architecture
18http://colah.github.io/posts/2015-08-Understanding-LSTMs/
Input gate층은 i_t()로 어떤 값을 갱신할지 결정한다. Tanh()층은 셀 상태에서 추가될 수
있는 후보들의 벡터인 [C_t]^~를 생성한다. 다음 단계에서 셀 스테이트 C를 갱신한다.
LSTM(Long Short Term Memory) Architecture
19http://colah.github.io/posts/2015-08-Understanding-LSTMs/
새로운 셀 스테이트 C_t는 forget gate를 통과한 과거 셀 상태 C_[t-1]과 input gate를
통과한 새로운 후보 셀 스테이트 [C_t]^~와의 합으로 구성된다. 이는 셀 스테이트 값을 얼만큼 갱신
할지 결정한 값으로 크기 변경된(scaled) 새 후보들이 된다. 이러한 셀 state는 gradient 곱
이 발생하지 않기 때문에 exploding이나 vanishing이 발생하지 않는다.셀 state가 장기 기
억이 가능하게 되는 이유다.
LSTM(Long Short Term Memory) Architecture
20http://colah.github.io/posts/2015-08-Understanding-LSTMs/
h_t는 출력을 의미하며 o_t()는 Output gate이다. Output gate는 Hidden
state(h_[t-1])와 현재 input x_t를 확인하고 어떤 부분을 출력할지 결정한다. 새로운
Hidden layer는 새로 갱신한 Cell state에 Output gate 결과를 반영하여 결정된다.
LSTM(Long Short Term Memory) Architecture
21http://www.slideshare.net/jpatanooga/modeling-electronic-health-records-with-recurrent-neural-networks
¤: element-wise multiplication
h_t^l: layer l의 time stamp t일때 hidden state
•  RNN에는 Dropout을 붙이면 잘 동작하지 않는다고 알려져 있는데, dropout이 지워버려선 안
되는 과거 information이 지워지기 때문이라고 한다.(Recurrent Neural Network
Regularization, ICLR 2015) 참고로 이러한 이유 때문에 Dropout 연산은
Recurrent connection이 아닌 곳에서만 적용하는 것이 위 논문의 아이디어다.
g^t() = cell state 후보
[LSTM feed forward pass]
LSTM(Long Short Term Memory) Architecture
22http://www.slideshare.net/jpatanooga/modeling-electronic-health-records-with-recurrent-neural-networks
•  LSTM은 구조에 따라 다양한 용례로 사용할 수 있음
•  2D Tensor는 # of inputs,# of examples로 구성되며
•  3D Tensor는 [2D Tensor]에 Timesteps가 포함된다. 즉 (덩어리)를 input으로 사용
[LSTM 용례]
LSTM(Long Short Term Memory) Architecture
23http://www.slideshare.net/jpatanooga/modeling-electronic-health-records-with-recurrent-neural-networks
•  각 게이트(forget, input, output)마다 셀 상태를 추가로 참고할 수 있도록 하여 게이트
들이 과거 데이터에 조금 더 의존적으로 계산을 수행하도록 만든 LSTM
•  Gers and Schmidhuber (2000)
[LSTM 변형: Peephole connection]
LSTM(Long Short Term Memory) Architecture
24http://www.slideshare.net/jpatanooga/modeling-electronic-health-records-with-recurrent-neural-networks
•  Forget gate와 input gate를 단일 Cell update gate로 통합함
•  Input gate가 사라지는 대신, input은 후보 셀 스테이트를 결정하고 새 hidden state
를 결정하는데 사용됨
•  결과 모델은 표준 LSTM 모델보다 단순함
•  Cho et al. (2014)
[LSTM 변형: GRU(Gated Recurrent Unit)]
LSTM(Long Short Term Memory) Architecture
25
•  Yao et al. (2015)가 소개한 Depth gated RNNs와 같은 스타일도 있음
•  Clockwork RNNs, Koutnik et al. (2014)는 장기 의존성에 효율적으로 작동하도록
변형한 RNN임
•  Greff et al. (2015)는 유명한 변형(GRU, Peephole 등)을 비교하는 실험을 통해 결
과가 비슷하다는 것을 발견
•  Jozefowics et al. (2015)는 다양한 RNN 변형 모델들을 실험하고 비교함으로써 특정
데이터 세트에 맞는 구조들이 있음을 확인하였음
•  LSTM의 다음 단계는 Attention이라고 하는데, 예를 들면 다른것들보다 더 중요한 정보 여러
개를 취합하는 것임
[LSTM 변형: 그 외]
LSTM(Long Short Term Memory) Architecture
26
•  Yao et al. (2015)가 소개한 Depth gated RNNs와 같은 스타일도 있음
•  Clockwork RNNs, Koutnik et al. (2014)는 장기 의존성에 효율적으로 작동하도록
변형한 RNN임
•  Greff et al. (2015)는 유명한 변형(GRU, Peephole 등)을 비교하는 실험을 통해 결
과가 비슷하다는 것을 발견
•  Jozefowics et al. (2015)는 다양한 RNN 변형 모델들을 실험하고 비교함으로써 특정
데이터 세트에 맞는 구조들이 있음을 확인하였음
•  LSTM의 다음 단계는 Attention이라고 하는데, 예를 들면 다른것들보다 더 중요한 정보 여러
개를 취합하는 것임
•  [Input]: 재현이 침대에서 일어났다.
•  [Input]: 재현이 테이블로 가서 사과를 집어들었다.
•  [Input]: 그는 사과를 먹었다.
•  [Input]: 재현이 거실로 이동했다.
•  [Input]: 사과를 떨어뜨렸다.
•  [Question]: 재현이 사과를 떨어뜨린 곳은?
[LSTM 변형: 그 외]
LSTM(Long Short Term Memory) Architecture
27
•  Yao et al. (2015)가 소개한 Depth gated RNNs와 같은 스타일도 있음
•  Clockwork RNNs, Koutnik et al. (2014)는 장기 의존성에 효율적으로 작동하도록
변형한 RNN임
•  Greff et al. (2015)는 유명한 변형(GRU, Peephole 등)을 비교하는 실험을 통해 결
과가 비슷하다는 것을 발견
•  Jozefowics et al. (2015)는 다양한 RNN 변형 모델들을 실험하고 비교함으로써 특정
데이터 세트에 맞는 구조들이 있음을 확인하였음
•  LSTM의 다음 단계는 Attention이라고 하는데, 예를 들면 다른것들보다 더 중요한 정보 여러
개를 취합하는 것임
•  [Input]: 재현이 침대에서 일어났다.
•  [Input]: 재현이 테이블로 가서 사과를 집어들었다.
•  [Input]: 그는 사과를 먹었다.
•  [Input]: 재현이 거실로 이동했다.
•  [Input]: 사과를 떨어뜨렸다.
•  [Question]: 재현이 사과를 떨어뜨린 곳은?
•  [Answer]: 거실
[LSTM 변형: 그 외]
LSTM(Long Short Term Memory) Architecture
28
•  Yao et al. (2015)가 소개한 Depth gated RNNs와 같은 스타일도 있음
•  Clockwork RNNs, Koutnik et al. (2014)는 장기 의존성에 효율적으로 작동하도록
변형한 RNN임
•  Greff et al. (2015)는 유명한 변형(GRU, Peephole 등)을 비교하는 실험을 통해 결
과가 비슷하다는 것을 발견
•  Jozefowics et al. (2015)는 다양한 RNN 변형 모델들을 실험하고 비교함으로써 특정
데이터 세트에 맞는 구조들이 있음을 확인하였음
•  LSTM의 다음 단계는 Attention이라고 하는데, 예를 들면 다른것들보다 더 중요한 정보 여러
개를 취합하는 것임
•  [Input]: 재현이 침대에서 일어났다.
•  [Input]: 재현이 테이블로 가서 사과를 집어들었다.
•  [Input]: 그는 사과를 먹었다.
•  [Input]: 재현이 거실로 이동했다.
•  [Input]: 사과를 떨어뜨렸다.
•  [Question]: 재현이 사과를 떨어뜨린 곳은?
•  [Answer]: 거실
•  Show, Attend and Tell, Kelvin Xu et al. (2015)
[LSTM 변형: 그 외]

More Related Content

What's hot

Recurrent Neural Networks, LSTM and GRU
Recurrent Neural Networks, LSTM and GRURecurrent Neural Networks, LSTM and GRU
Recurrent Neural Networks, LSTM and GRUananth
 
Introduction to Recurrent Neural Network
Introduction to Recurrent Neural NetworkIntroduction to Recurrent Neural Network
Introduction to Recurrent Neural NetworkKnoldus Inc.
 
Precise LSTM Algorithm
Precise LSTM AlgorithmPrecise LSTM Algorithm
Precise LSTM AlgorithmYasutoTamura1
 
딥러닝 기본 원리의 이해
딥러닝 기본 원리의 이해딥러닝 기본 원리의 이해
딥러닝 기본 원리의 이해Hee Won Park
 
머신러닝의 자연어 처리기술(I)
머신러닝의 자연어 처리기술(I)머신러닝의 자연어 처리기술(I)
머신러닝의 자연어 처리기술(I)홍배 김
 
RLCode와 A3C 쉽고 깊게 이해하기
RLCode와 A3C 쉽고 깊게 이해하기RLCode와 A3C 쉽고 깊게 이해하기
RLCode와 A3C 쉽고 깊게 이해하기Woong won Lee
 
Categorical reparameterization with gumbel softmax
Categorical reparameterization with gumbel softmaxCategorical reparameterization with gumbel softmax
Categorical reparameterization with gumbel softmaxぱんいち すみもと
 
Amazonでのレコメンド生成における深層学習とAWS利用について
Amazonでのレコメンド生成における深層学習とAWS利用についてAmazonでのレコメンド生成における深層学習とAWS利用について
Amazonでのレコメンド生成における深層学習とAWS利用についてAmazon Web Services Japan
 
딥러닝을 이용한 자연어처리의 연구동향
딥러닝을 이용한 자연어처리의 연구동향딥러닝을 이용한 자연어처리의 연구동향
딥러닝을 이용한 자연어처리의 연구동향홍배 김
 
순환신경망(Recurrent neural networks) 개요
순환신경망(Recurrent neural networks) 개요순환신경망(Recurrent neural networks) 개요
순환신경망(Recurrent neural networks) 개요Byoung-Hee Kim
 
Deep Learning for Recommender Systems - Budapest RecSys Meetup
Deep Learning for Recommender Systems  - Budapest RecSys MeetupDeep Learning for Recommender Systems  - Budapest RecSys Meetup
Deep Learning for Recommender Systems - Budapest RecSys MeetupAlexandros Karatzoglou
 
Reinforcement Learning
Reinforcement LearningReinforcement Learning
Reinforcement LearningDongHyun Kwak
 
알아두면 쓸데있는 신기한 강화학습 NAVER 2017
알아두면 쓸데있는 신기한 강화학습 NAVER 2017알아두면 쓸데있는 신기한 강화학습 NAVER 2017
알아두면 쓸데있는 신기한 강화학습 NAVER 2017Taehoon Kim
 
確率統計-機械学習その前に v2.0
確率統計-機械学習その前に v2.0確率統計-機械学習その前に v2.0
確率統計-機械学習その前に v2.0Hidekatsu Izuno
 
딥 러닝 자연어 처리를 학습을 위한 파워포인트. (Deep Learning for Natural Language Processing)
딥 러닝 자연어 처리를 학습을 위한 파워포인트. (Deep Learning for Natural Language Processing)딥 러닝 자연어 처리를 학습을 위한 파워포인트. (Deep Learning for Natural Language Processing)
딥 러닝 자연어 처리를 학습을 위한 파워포인트. (Deep Learning for Natural Language Processing)WON JOON YOO
 
강화 학습 기초 Reinforcement Learning an introduction
강화 학습 기초 Reinforcement Learning an introduction강화 학습 기초 Reinforcement Learning an introduction
강화 학습 기초 Reinforcement Learning an introductionTaehoon Kim
 
Long Short Term Memory
Long Short Term MemoryLong Short Term Memory
Long Short Term MemoryYan Xu
 
Chapter 19 Variational Inference
Chapter 19 Variational InferenceChapter 19 Variational Inference
Chapter 19 Variational InferenceKyeongUkJang
 
How to use in R model-agnostic data explanation with DALEX & iml
How to use in R model-agnostic data explanation with DALEX & imlHow to use in R model-agnostic data explanation with DALEX & iml
How to use in R model-agnostic data explanation with DALEX & imlSatoshi Kato
 

What's hot (20)

Recurrent Neural Networks, LSTM and GRU
Recurrent Neural Networks, LSTM and GRURecurrent Neural Networks, LSTM and GRU
Recurrent Neural Networks, LSTM and GRU
 
Introduction to Recurrent Neural Network
Introduction to Recurrent Neural NetworkIntroduction to Recurrent Neural Network
Introduction to Recurrent Neural Network
 
Rnn & Lstm
Rnn & LstmRnn & Lstm
Rnn & Lstm
 
Precise LSTM Algorithm
Precise LSTM AlgorithmPrecise LSTM Algorithm
Precise LSTM Algorithm
 
딥러닝 기본 원리의 이해
딥러닝 기본 원리의 이해딥러닝 기본 원리의 이해
딥러닝 기본 원리의 이해
 
머신러닝의 자연어 처리기술(I)
머신러닝의 자연어 처리기술(I)머신러닝의 자연어 처리기술(I)
머신러닝의 자연어 처리기술(I)
 
RLCode와 A3C 쉽고 깊게 이해하기
RLCode와 A3C 쉽고 깊게 이해하기RLCode와 A3C 쉽고 깊게 이해하기
RLCode와 A3C 쉽고 깊게 이해하기
 
Categorical reparameterization with gumbel softmax
Categorical reparameterization with gumbel softmaxCategorical reparameterization with gumbel softmax
Categorical reparameterization with gumbel softmax
 
Amazonでのレコメンド生成における深層学習とAWS利用について
Amazonでのレコメンド生成における深層学習とAWS利用についてAmazonでのレコメンド生成における深層学習とAWS利用について
Amazonでのレコメンド生成における深層学習とAWS利用について
 
딥러닝을 이용한 자연어처리의 연구동향
딥러닝을 이용한 자연어처리의 연구동향딥러닝을 이용한 자연어처리의 연구동향
딥러닝을 이용한 자연어처리의 연구동향
 
순환신경망(Recurrent neural networks) 개요
순환신경망(Recurrent neural networks) 개요순환신경망(Recurrent neural networks) 개요
순환신경망(Recurrent neural networks) 개요
 
Deep Learning for Recommender Systems - Budapest RecSys Meetup
Deep Learning for Recommender Systems  - Budapest RecSys MeetupDeep Learning for Recommender Systems  - Budapest RecSys Meetup
Deep Learning for Recommender Systems - Budapest RecSys Meetup
 
Reinforcement Learning
Reinforcement LearningReinforcement Learning
Reinforcement Learning
 
알아두면 쓸데있는 신기한 강화학습 NAVER 2017
알아두면 쓸데있는 신기한 강화학습 NAVER 2017알아두면 쓸데있는 신기한 강화학습 NAVER 2017
알아두면 쓸데있는 신기한 강화학습 NAVER 2017
 
確率統計-機械学習その前に v2.0
確率統計-機械学習その前に v2.0確率統計-機械学習その前に v2.0
確率統計-機械学習その前に v2.0
 
딥 러닝 자연어 처리를 학습을 위한 파워포인트. (Deep Learning for Natural Language Processing)
딥 러닝 자연어 처리를 학습을 위한 파워포인트. (Deep Learning for Natural Language Processing)딥 러닝 자연어 처리를 학습을 위한 파워포인트. (Deep Learning for Natural Language Processing)
딥 러닝 자연어 처리를 학습을 위한 파워포인트. (Deep Learning for Natural Language Processing)
 
강화 학습 기초 Reinforcement Learning an introduction
강화 학습 기초 Reinforcement Learning an introduction강화 학습 기초 Reinforcement Learning an introduction
강화 학습 기초 Reinforcement Learning an introduction
 
Long Short Term Memory
Long Short Term MemoryLong Short Term Memory
Long Short Term Memory
 
Chapter 19 Variational Inference
Chapter 19 Variational InferenceChapter 19 Variational Inference
Chapter 19 Variational Inference
 
How to use in R model-agnostic data explanation with DALEX & iml
How to use in R model-agnostic data explanation with DALEX & imlHow to use in R model-agnostic data explanation with DALEX & iml
How to use in R model-agnostic data explanation with DALEX & iml
 

Viewers also liked

Machine Learning Lecture 3 Decision Trees
Machine Learning Lecture 3 Decision TreesMachine Learning Lecture 3 Decision Trees
Machine Learning Lecture 3 Decision Treesananth
 
Recent Progress in RNN and NLP
Recent Progress in RNN and NLPRecent Progress in RNN and NLP
Recent Progress in RNN and NLPhytae
 
RNN, LSTM and Seq-2-Seq Models
RNN, LSTM and Seq-2-Seq ModelsRNN, LSTM and Seq-2-Seq Models
RNN, LSTM and Seq-2-Seq ModelsEmory NLP
 
Understanding RNN and LSTM
Understanding RNN and LSTMUnderstanding RNN and LSTM
Understanding RNN and LSTM健程 杨
 
문장 분류 설명을 위한 간단한 예제
문장 분류 설명을 위한 간단한 예제문장 분류 설명을 위한 간단한 예제
문장 분류 설명을 위한 간단한 예제Dosang Yoon
 
형태소분석과 HMM 알고리즘
형태소분석과 HMM 알고리즘형태소분석과 HMM 알고리즘
형태소분석과 HMM 알고리즘Dosang Yoon
 
Deep Learning for Computer Vision: Recurrent Neural Networks (UPC 2016)
Deep Learning for Computer Vision: Recurrent Neural Networks (UPC 2016)Deep Learning for Computer Vision: Recurrent Neural Networks (UPC 2016)
Deep Learning for Computer Vision: Recurrent Neural Networks (UPC 2016)Universitat Politècnica de Catalunya
 
Recurrent Neural Networks. Part 1: Theory
Recurrent Neural Networks. Part 1: TheoryRecurrent Neural Networks. Part 1: Theory
Recurrent Neural Networks. Part 1: TheoryAndrii Gakhov
 
쫄지말자딥러닝2 - CNN RNN 포함버전
쫄지말자딥러닝2 - CNN RNN 포함버전쫄지말자딥러닝2 - CNN RNN 포함버전
쫄지말자딥러닝2 - CNN RNN 포함버전Modulabs
 
FABIA: Large Data Biclustering in Drug Design
FABIA: Large Data Biclustering in Drug DesignFABIA: Large Data Biclustering in Drug Design
FABIA: Large Data Biclustering in Drug DesignMartin Heusel
 
좋은 것을 찾는 방법. ^^
좋은 것을 찾는 방법. ^^좋은 것을 찾는 방법. ^^
좋은 것을 찾는 방법. ^^Ick-Sung Choi
 
나를 자극하는 Real world_algorithm (1/2)
나를 자극하는 Real world_algorithm (1/2)나를 자극하는 Real world_algorithm (1/2)
나를 자극하는 Real world_algorithm (1/2)Mad Scientists
 
A Note on BPTT for LSTM LM
A Note on BPTT for LSTM LMA Note on BPTT for LSTM LM
A Note on BPTT for LSTM LMTomonari Masada
 
Recurrent Networks and LSTM deep dive
Recurrent Networks and LSTM deep diveRecurrent Networks and LSTM deep dive
Recurrent Networks and LSTM deep diveAlex Kalinin
 
Machine Learning: An Introduction Fu Chang
Machine Learning: An Introduction Fu ChangMachine Learning: An Introduction Fu Chang
Machine Learning: An Introduction Fu Changbutest
 
Ethereum overview 30 sep2014
Ethereum overview 30 sep2014Ethereum overview 30 sep2014
Ethereum overview 30 sep2014Yoshimitsu Homma
 
Behaviour change- fresh thinking
Behaviour change- fresh thinking Behaviour change- fresh thinking
Behaviour change- fresh thinking Table19
 
Delivering happiness at work with learning & development | Talent Connect Ana...
Delivering happiness at work with learning & development | Talent Connect Ana...Delivering happiness at work with learning & development | Talent Connect Ana...
Delivering happiness at work with learning & development | Talent Connect Ana...LinkedIn Talent Solutions
 

Viewers also liked (20)

Machine Learning Lecture 3 Decision Trees
Machine Learning Lecture 3 Decision TreesMachine Learning Lecture 3 Decision Trees
Machine Learning Lecture 3 Decision Trees
 
Recent Progress in RNN and NLP
Recent Progress in RNN and NLPRecent Progress in RNN and NLP
Recent Progress in RNN and NLP
 
RNN, LSTM and Seq-2-Seq Models
RNN, LSTM and Seq-2-Seq ModelsRNN, LSTM and Seq-2-Seq Models
RNN, LSTM and Seq-2-Seq Models
 
Understanding RNN and LSTM
Understanding RNN and LSTMUnderstanding RNN and LSTM
Understanding RNN and LSTM
 
문장 분류 설명을 위한 간단한 예제
문장 분류 설명을 위한 간단한 예제문장 분류 설명을 위한 간단한 예제
문장 분류 설명을 위한 간단한 예제
 
형태소분석과 HMM 알고리즘
형태소분석과 HMM 알고리즘형태소분석과 HMM 알고리즘
형태소분석과 HMM 알고리즘
 
Deep Learning for Computer Vision: Recurrent Neural Networks (UPC 2016)
Deep Learning for Computer Vision: Recurrent Neural Networks (UPC 2016)Deep Learning for Computer Vision: Recurrent Neural Networks (UPC 2016)
Deep Learning for Computer Vision: Recurrent Neural Networks (UPC 2016)
 
Recurrent Neural Networks. Part 1: Theory
Recurrent Neural Networks. Part 1: TheoryRecurrent Neural Networks. Part 1: Theory
Recurrent Neural Networks. Part 1: Theory
 
쫄지말자딥러닝2 - CNN RNN 포함버전
쫄지말자딥러닝2 - CNN RNN 포함버전쫄지말자딥러닝2 - CNN RNN 포함버전
쫄지말자딥러닝2 - CNN RNN 포함버전
 
FABIA: Large Data Biclustering in Drug Design
FABIA: Large Data Biclustering in Drug DesignFABIA: Large Data Biclustering in Drug Design
FABIA: Large Data Biclustering in Drug Design
 
좋은 것을 찾는 방법. ^^
좋은 것을 찾는 방법. ^^좋은 것을 찾는 방법. ^^
좋은 것을 찾는 방법. ^^
 
나를 자극하는 Real world_algorithm (1/2)
나를 자극하는 Real world_algorithm (1/2)나를 자극하는 Real world_algorithm (1/2)
나를 자극하는 Real world_algorithm (1/2)
 
Plan creat services
Plan creat servicesPlan creat services
Plan creat services
 
A Note on BPTT for LSTM LM
A Note on BPTT for LSTM LMA Note on BPTT for LSTM LM
A Note on BPTT for LSTM LM
 
Recurrent Networks and LSTM deep dive
Recurrent Networks and LSTM deep diveRecurrent Networks and LSTM deep dive
Recurrent Networks and LSTM deep dive
 
Machine Learning: An Introduction Fu Chang
Machine Learning: An Introduction Fu ChangMachine Learning: An Introduction Fu Chang
Machine Learning: An Introduction Fu Chang
 
Ethereum overview 30 sep2014
Ethereum overview 30 sep2014Ethereum overview 30 sep2014
Ethereum overview 30 sep2014
 
Behaviour change- fresh thinking
Behaviour change- fresh thinking Behaviour change- fresh thinking
Behaviour change- fresh thinking
 
Rails + Webpack
Rails + WebpackRails + Webpack
Rails + Webpack
 
Delivering happiness at work with learning & development | Talent Connect Ana...
Delivering happiness at work with learning & development | Talent Connect Ana...Delivering happiness at work with learning & development | Talent Connect Ana...
Delivering happiness at work with learning & development | Talent Connect Ana...
 

Similar to LSTM 네트워크 이해하기

2017 tensor flow dev summit
2017 tensor flow dev summit2017 tensor flow dev summit
2017 tensor flow dev summitTae Young Lee
 
[2B7]시즌2 멀티쓰레드프로그래밍이 왜 이리 힘드나요
[2B7]시즌2 멀티쓰레드프로그래밍이 왜 이리 힘드나요[2B7]시즌2 멀티쓰레드프로그래밍이 왜 이리 힘드나요
[2B7]시즌2 멀티쓰레드프로그래밍이 왜 이리 힘드나요NAVER D2
 
시즌 2: 멀티쓰레드 프로그래밍이 왜이리 힘드나요?
시즌 2: 멀티쓰레드 프로그래밍이 왜이리 힘드나요?시즌 2: 멀티쓰레드 프로그래밍이 왜이리 힘드나요?
시즌 2: 멀티쓰레드 프로그래밍이 왜이리 힘드나요?내훈 정
 
Ndc2014 시즌 2 : 멀티쓰레드 프로그래밍이 왜 이리 힘드나요? (Lock-free에서 Transactional Memory까지)
Ndc2014 시즌 2 : 멀티쓰레드 프로그래밍이  왜 이리 힘드나요?  (Lock-free에서 Transactional Memory까지)Ndc2014 시즌 2 : 멀티쓰레드 프로그래밍이  왜 이리 힘드나요?  (Lock-free에서 Transactional Memory까지)
Ndc2014 시즌 2 : 멀티쓰레드 프로그래밍이 왜 이리 힘드나요? (Lock-free에서 Transactional Memory까지)내훈 정
 
C# / .NET Framework로 미래 밥그릇을 챙겨보자 (Basic)
C# / .NET Framework로 미래 밥그릇을 챙겨보자 (Basic)C# / .NET Framework로 미래 밥그릇을 챙겨보자 (Basic)
C# / .NET Framework로 미래 밥그릇을 챙겨보자 (Basic)Dong Chan Shin
 
스톰 접근 중
스톰 접근 중스톰 접근 중
스톰 접근 중June Yi
 
텐서플로우 설치도 했고 튜토리얼도 봤고 기초 예제도 짜봤다면 TensorFlow KR Meetup 2016
텐서플로우 설치도 했고 튜토리얼도 봤고 기초 예제도 짜봤다면 TensorFlow KR Meetup 2016텐서플로우 설치도 했고 튜토리얼도 봤고 기초 예제도 짜봤다면 TensorFlow KR Meetup 2016
텐서플로우 설치도 했고 튜토리얼도 봤고 기초 예제도 짜봤다면 TensorFlow KR Meetup 2016Taehoon Kim
 
A neural image caption generator
A neural image caption generatorA neural image caption generator
A neural image caption generator홍배 김
 
Chapter 10 sequence modeling recurrent and recursive nets
Chapter 10 sequence modeling recurrent and recursive netsChapter 10 sequence modeling recurrent and recursive nets
Chapter 10 sequence modeling recurrent and recursive netsKyeongUkJang
 
Linux programming study
Linux programming studyLinux programming study
Linux programming studyYunseok Lee
 
딥러닝 기반의 자연어처리 최근 연구 동향
딥러닝 기반의 자연어처리 최근 연구 동향딥러닝 기반의 자연어처리 최근 연구 동향
딥러닝 기반의 자연어처리 최근 연구 동향LGCNSairesearch
 
자료구조 Project2
자료구조 Project2자료구조 Project2
자료구조 Project2KoChungWook
 
[한국어] Neural Architecture Search with Reinforcement Learning
[한국어] Neural Architecture Search with Reinforcement Learning[한국어] Neural Architecture Search with Reinforcement Learning
[한국어] Neural Architecture Search with Reinforcement LearningKiho Suh
 
Recurrent Neural Net의 이론과 설명
Recurrent Neural Net의 이론과 설명Recurrent Neural Net의 이론과 설명
Recurrent Neural Net의 이론과 설명홍배 김
 
Image Deep Learning 실무적용
Image Deep Learning 실무적용Image Deep Learning 실무적용
Image Deep Learning 실무적용Youngjae Kim
 

Similar to LSTM 네트워크 이해하기 (20)

2017 tensor flow dev summit
2017 tensor flow dev summit2017 tensor flow dev summit
2017 tensor flow dev summit
 
자연어5 | 1차강의
자연어5 | 1차강의자연어5 | 1차강의
자연어5 | 1차강의
 
파이썬과 자연어 5 | 딥러닝
파이썬과 자연어 5 | 딥러닝파이썬과 자연어 5 | 딥러닝
파이썬과 자연어 5 | 딥러닝
 
[2B7]시즌2 멀티쓰레드프로그래밍이 왜 이리 힘드나요
[2B7]시즌2 멀티쓰레드프로그래밍이 왜 이리 힘드나요[2B7]시즌2 멀티쓰레드프로그래밍이 왜 이리 힘드나요
[2B7]시즌2 멀티쓰레드프로그래밍이 왜 이리 힘드나요
 
시즌 2: 멀티쓰레드 프로그래밍이 왜이리 힘드나요?
시즌 2: 멀티쓰레드 프로그래밍이 왜이리 힘드나요?시즌 2: 멀티쓰레드 프로그래밍이 왜이리 힘드나요?
시즌 2: 멀티쓰레드 프로그래밍이 왜이리 힘드나요?
 
Rnn keras
Rnn kerasRnn keras
Rnn keras
 
Ndc2014 시즌 2 : 멀티쓰레드 프로그래밍이 왜 이리 힘드나요? (Lock-free에서 Transactional Memory까지)
Ndc2014 시즌 2 : 멀티쓰레드 프로그래밍이  왜 이리 힘드나요?  (Lock-free에서 Transactional Memory까지)Ndc2014 시즌 2 : 멀티쓰레드 프로그래밍이  왜 이리 힘드나요?  (Lock-free에서 Transactional Memory까지)
Ndc2014 시즌 2 : 멀티쓰레드 프로그래밍이 왜 이리 힘드나요? (Lock-free에서 Transactional Memory까지)
 
C# / .NET Framework로 미래 밥그릇을 챙겨보자 (Basic)
C# / .NET Framework로 미래 밥그릇을 챙겨보자 (Basic)C# / .NET Framework로 미래 밥그릇을 챙겨보자 (Basic)
C# / .NET Framework로 미래 밥그릇을 챙겨보자 (Basic)
 
스톰 접근 중
스톰 접근 중스톰 접근 중
스톰 접근 중
 
Thread programming
Thread programmingThread programming
Thread programming
 
텐서플로우 설치도 했고 튜토리얼도 봤고 기초 예제도 짜봤다면 TensorFlow KR Meetup 2016
텐서플로우 설치도 했고 튜토리얼도 봤고 기초 예제도 짜봤다면 TensorFlow KR Meetup 2016텐서플로우 설치도 했고 튜토리얼도 봤고 기초 예제도 짜봤다면 TensorFlow KR Meetup 2016
텐서플로우 설치도 했고 튜토리얼도 봤고 기초 예제도 짜봤다면 TensorFlow KR Meetup 2016
 
A neural image caption generator
A neural image caption generatorA neural image caption generator
A neural image caption generator
 
Chapter 10 sequence modeling recurrent and recursive nets
Chapter 10 sequence modeling recurrent and recursive netsChapter 10 sequence modeling recurrent and recursive nets
Chapter 10 sequence modeling recurrent and recursive nets
 
Linux programming study
Linux programming studyLinux programming study
Linux programming study
 
딥러닝 기반의 자연어처리 최근 연구 동향
딥러닝 기반의 자연어처리 최근 연구 동향딥러닝 기반의 자연어처리 최근 연구 동향
딥러닝 기반의 자연어처리 최근 연구 동향
 
자료구조 Project2
자료구조 Project2자료구조 Project2
자료구조 Project2
 
[한국어] Neural Architecture Search with Reinforcement Learning
[한국어] Neural Architecture Search with Reinforcement Learning[한국어] Neural Architecture Search with Reinforcement Learning
[한국어] Neural Architecture Search with Reinforcement Learning
 
LeNet & GoogLeNet
LeNet & GoogLeNetLeNet & GoogLeNet
LeNet & GoogLeNet
 
Recurrent Neural Net의 이론과 설명
Recurrent Neural Net의 이론과 설명Recurrent Neural Net의 이론과 설명
Recurrent Neural Net의 이론과 설명
 
Image Deep Learning 실무적용
Image Deep Learning 실무적용Image Deep Learning 실무적용
Image Deep Learning 실무적용
 

More from Mad Scientists

트라우마틱 메모리(Traumatic Memory) : 리스크리스트 및 작품방향 선회
트라우마틱 메모리(Traumatic Memory) : 리스크리스트 및 작품방향 선회트라우마틱 메모리(Traumatic Memory) : 리스크리스트 및 작품방향 선회
트라우마틱 메모리(Traumatic Memory) : 리스크리스트 및 작품방향 선회Mad Scientists
 
트라우마틱 메모리(Traumatic Memory) 수정사항 발표
트라우마틱 메모리(Traumatic Memory) 수정사항 발표트라우마틱 메모리(Traumatic Memory) 수정사항 발표
트라우마틱 메모리(Traumatic Memory) 수정사항 발표Mad Scientists
 
트라우마틱 메모리(Traumatic Memory) 제작 기획
트라우마틱 메모리(Traumatic Memory) 제작 기획트라우마틱 메모리(Traumatic Memory) 제작 기획
트라우마틱 메모리(Traumatic Memory) 제작 기획Mad Scientists
 
Learning RBM(Restricted Boltzmann Machine in Practice)
Learning RBM(Restricted Boltzmann Machine in Practice)Learning RBM(Restricted Boltzmann Machine in Practice)
Learning RBM(Restricted Boltzmann Machine in Practice)Mad Scientists
 
Sampling-Importance-Sampling을 이용한 선수 경기능력 측정
Sampling-Importance-Sampling을 이용한 선수 경기능력 측정Sampling-Importance-Sampling을 이용한 선수 경기능력 측정
Sampling-Importance-Sampling을 이용한 선수 경기능력 측정Mad Scientists
 
핀테크 기업조사- TransferWise, CurrencyCloud, TOSS
핀테크 기업조사- TransferWise, CurrencyCloud, TOSS핀테크 기업조사- TransferWise, CurrencyCloud, TOSS
핀테크 기업조사- TransferWise, CurrencyCloud, TOSSMad Scientists
 
Convolutional Deep Belief Networks for Scalable Unsupervised Learning of Hier...
Convolutional Deep Belief Networks for Scalable Unsupervised Learning of Hier...Convolutional Deep Belief Networks for Scalable Unsupervised Learning of Hier...
Convolutional Deep Belief Networks for Scalable Unsupervised Learning of Hier...Mad Scientists
 
101: Convolutional Neural Networks
101: Convolutional Neural Networks 101: Convolutional Neural Networks
101: Convolutional Neural Networks Mad Scientists
 
how to visualize: interstellar from example
how to visualize: interstellar from examplehow to visualize: interstellar from example
how to visualize: interstellar from exampleMad Scientists
 
ideas worth spreading: 2015 Club Release Seminar
ideas worth spreading: 2015 Club Release Seminarideas worth spreading: 2015 Club Release Seminar
ideas worth spreading: 2015 Club Release SeminarMad Scientists
 
Relational Mate Value: Consensus and Uniqueness in Romantic Eavaluations
Relational Mate Value: Consensus and Uniqueness in Romantic EavaluationsRelational Mate Value: Consensus and Uniqueness in Romantic Eavaluations
Relational Mate Value: Consensus and Uniqueness in Romantic EavaluationsMad Scientists
 
Personal Matching Recommendation system in TinderBox
Personal Matching Recommendation system in TinderBoxPersonal Matching Recommendation system in TinderBox
Personal Matching Recommendation system in TinderBoxMad Scientists
 
핀란드, 내가 가보고 느낀 스타트업 생태계
핀란드, 내가 가보고 느낀 스타트업 생태계핀란드, 내가 가보고 느낀 스타트업 생태계
핀란드, 내가 가보고 느낀 스타트업 생태계Mad Scientists
 
Face Feature Recognition System with Deep Belief Networks, for Korean/KIISE T...
Face Feature Recognition System with Deep Belief Networks, for Korean/KIISE T...Face Feature Recognition System with Deep Belief Networks, for Korean/KIISE T...
Face Feature Recognition System with Deep Belief Networks, for Korean/KIISE T...Mad Scientists
 
Superhero discourse in Americanization
Superhero discourse in AmericanizationSuperhero discourse in Americanization
Superhero discourse in AmericanizationMad Scientists
 
[SW Maestro] Team Loclas 1-2 Final Presentation
[SW Maestro] Team Loclas 1-2 Final Presentation[SW Maestro] Team Loclas 1-2 Final Presentation
[SW Maestro] Team Loclas 1-2 Final PresentationMad Scientists
 
Basic Understanding of the Deep
Basic Understanding of the DeepBasic Understanding of the Deep
Basic Understanding of the DeepMad Scientists
 
문화연구입문 발표자료, <현대캐피탈>광고 분석 및 담론
문화연구입문 발표자료, <현대캐피탈>광고 분석 및 담론문화연구입문 발표자료, <현대캐피탈>광고 분석 및 담론
문화연구입문 발표자료, <현대캐피탈>광고 분석 및 담론Mad Scientists
 
러셀과 데카르트 탈 구조주의와 컴퓨터공학의 관계
러셀과 데카르트 탈 구조주의와 컴퓨터공학의 관계러셀과 데카르트 탈 구조주의와 컴퓨터공학의 관계
러셀과 데카르트 탈 구조주의와 컴퓨터공학의 관계Mad Scientists
 

More from Mad Scientists (19)

트라우마틱 메모리(Traumatic Memory) : 리스크리스트 및 작품방향 선회
트라우마틱 메모리(Traumatic Memory) : 리스크리스트 및 작품방향 선회트라우마틱 메모리(Traumatic Memory) : 리스크리스트 및 작품방향 선회
트라우마틱 메모리(Traumatic Memory) : 리스크리스트 및 작품방향 선회
 
트라우마틱 메모리(Traumatic Memory) 수정사항 발표
트라우마틱 메모리(Traumatic Memory) 수정사항 발표트라우마틱 메모리(Traumatic Memory) 수정사항 발표
트라우마틱 메모리(Traumatic Memory) 수정사항 발표
 
트라우마틱 메모리(Traumatic Memory) 제작 기획
트라우마틱 메모리(Traumatic Memory) 제작 기획트라우마틱 메모리(Traumatic Memory) 제작 기획
트라우마틱 메모리(Traumatic Memory) 제작 기획
 
Learning RBM(Restricted Boltzmann Machine in Practice)
Learning RBM(Restricted Boltzmann Machine in Practice)Learning RBM(Restricted Boltzmann Machine in Practice)
Learning RBM(Restricted Boltzmann Machine in Practice)
 
Sampling-Importance-Sampling을 이용한 선수 경기능력 측정
Sampling-Importance-Sampling을 이용한 선수 경기능력 측정Sampling-Importance-Sampling을 이용한 선수 경기능력 측정
Sampling-Importance-Sampling을 이용한 선수 경기능력 측정
 
핀테크 기업조사- TransferWise, CurrencyCloud, TOSS
핀테크 기업조사- TransferWise, CurrencyCloud, TOSS핀테크 기업조사- TransferWise, CurrencyCloud, TOSS
핀테크 기업조사- TransferWise, CurrencyCloud, TOSS
 
Convolutional Deep Belief Networks for Scalable Unsupervised Learning of Hier...
Convolutional Deep Belief Networks for Scalable Unsupervised Learning of Hier...Convolutional Deep Belief Networks for Scalable Unsupervised Learning of Hier...
Convolutional Deep Belief Networks for Scalable Unsupervised Learning of Hier...
 
101: Convolutional Neural Networks
101: Convolutional Neural Networks 101: Convolutional Neural Networks
101: Convolutional Neural Networks
 
how to visualize: interstellar from example
how to visualize: interstellar from examplehow to visualize: interstellar from example
how to visualize: interstellar from example
 
ideas worth spreading: 2015 Club Release Seminar
ideas worth spreading: 2015 Club Release Seminarideas worth spreading: 2015 Club Release Seminar
ideas worth spreading: 2015 Club Release Seminar
 
Relational Mate Value: Consensus and Uniqueness in Romantic Eavaluations
Relational Mate Value: Consensus and Uniqueness in Romantic EavaluationsRelational Mate Value: Consensus and Uniqueness in Romantic Eavaluations
Relational Mate Value: Consensus and Uniqueness in Romantic Eavaluations
 
Personal Matching Recommendation system in TinderBox
Personal Matching Recommendation system in TinderBoxPersonal Matching Recommendation system in TinderBox
Personal Matching Recommendation system in TinderBox
 
핀란드, 내가 가보고 느낀 스타트업 생태계
핀란드, 내가 가보고 느낀 스타트업 생태계핀란드, 내가 가보고 느낀 스타트업 생태계
핀란드, 내가 가보고 느낀 스타트업 생태계
 
Face Feature Recognition System with Deep Belief Networks, for Korean/KIISE T...
Face Feature Recognition System with Deep Belief Networks, for Korean/KIISE T...Face Feature Recognition System with Deep Belief Networks, for Korean/KIISE T...
Face Feature Recognition System with Deep Belief Networks, for Korean/KIISE T...
 
Superhero discourse in Americanization
Superhero discourse in AmericanizationSuperhero discourse in Americanization
Superhero discourse in Americanization
 
[SW Maestro] Team Loclas 1-2 Final Presentation
[SW Maestro] Team Loclas 1-2 Final Presentation[SW Maestro] Team Loclas 1-2 Final Presentation
[SW Maestro] Team Loclas 1-2 Final Presentation
 
Basic Understanding of the Deep
Basic Understanding of the DeepBasic Understanding of the Deep
Basic Understanding of the Deep
 
문화연구입문 발표자료, <현대캐피탈>광고 분석 및 담론
문화연구입문 발표자료, <현대캐피탈>광고 분석 및 담론문화연구입문 발표자료, <현대캐피탈>광고 분석 및 담론
문화연구입문 발표자료, <현대캐피탈>광고 분석 및 담론
 
러셀과 데카르트 탈 구조주의와 컴퓨터공학의 관계
러셀과 데카르트 탈 구조주의와 컴퓨터공학의 관계러셀과 데카르트 탈 구조주의와 컴퓨터공학의 관계
러셀과 데카르트 탈 구조주의와 컴퓨터공학의 관계
 

LSTM 네트워크 이해하기

  • 1. Understanding LSTM Networks Jaehyun Ahn Machine Learning Data mining Lab. 1
  • 2. RNN(Recurrent Neural Networks) Recurrent Neural Network Feedforward Network Structure At least contain cycles (so called “memory”) No cycle Input-output Time sequential Data Current state Training approaches (Most popular) Backpropagation through time(BPTT) Backpropagation Algorithm 참고자료: http://www.cs.bham.ac.uk/~jxb/INC/l12.pdf 2
  • 3. RNN(Recurrent Neural Networks) •  순차적인 정보를 처리하는 모델(e.g. 자동번역) •  Recurrent: 출력 결과가 이전 계산 결과에 영향을 받음
 (메모리를 가짐) •  기본적인 RNN 구조 X_t: time step t에서의 입력 S_t: time step t에서의 hidden state. (*U, W를 학습, S_-1 = 0) O_t: time step t에서의 출력, o_t = f(V_s_t) 기초 논문: Recurrent neural network regularization 3
  • 4. RNN(Recurrent Neural Networks) X_t: time step t에서의 입력 S_t: time step t에서의 hidden state. (*U, W를 학습, S_-1 = 0) O_t: time step t에서의 출력 (e.g. 자동번역, 단어 완성) [Note] •  Hidden state S_t는 과거 모든 정보를 담고 있고, O_t는 현재 정보 애 대한 Output이다 •  RNN은 모든 시간 스텝에 대하여 같은 파라미터를 공유한다. (U,V,W) (Long-term dependency 문제 발생) 4
  • 5. RNN(Recurrent Neural Networks) X_t: time step t에서의 입력 S_t: time step t에서의 hidden state. (*U, W를 학습, S_-1 = 0) O_t: time step t에서의 출력 (e.g. 자동번역 단어 벡터) [Note] •  Hidden state S_t는 과거 모든 정보를 담고 있고, O_t는 현재 정보 애 대한 Output이다 •  RNN은 모든 시간 스텝에 대하여 같은 파라미터를 공유한다. (U,V,W) (Long-term dependency 문제 발생) 5
  • 6. RNN(Recurrent Neural Networks) RNN의 학습은 BPTT(Backpropagation Through Time)으로 진행되는데, 이것은 t_n의 U,V,W를 학습하기 위해서 t_1 – t_n-1 까지의 state를 모두 더 해야 함을 의미하고, Exploding/Vanishing Gradients의 문제로 학습하기 어렵다고 발표된 바 있다. 
 (Bengio, On the difficulty of training recurrent neural networks) •  Explosion은 long term components를 학습할 때 일어남 •  Vanish는 다음 event에 대하여 correlation을 학습하는 와중에 일어남 (delta weight가 0) [Note] 논문 2. Exploding and vanishing gradients 6
  • 7. RNN(Recurrent Neural Networks) RNN의 학습은 BPTT(Backpropagation Through Time) 대신 단기 BPTT (Truncated Backpropagation Through Time)로 대체되기도 하는데, 이와 같은 경우 장기적으로 남아있어야 할 메모리가 유실된다고 알려져 있다. BPTT TBPTT 7
  • 8. RNN(Recurrent Neural Networks) RNN 학습: BPTT(Backpropagation Through Time) 8http://kiyukuta.github.io/2013/12/09/mlac2013_day9_recurrent_neural_network_language_model.html Green: 얼마나 잘못되었는지 기록 Orange: Green차이만큼 update
  • 9. RNN(Recurrent Neural Networks) RNN 학습: BPTT(Backpropagation Through Time) 9 http://kiyukuta.github.io/2013/12/09/mlac2013_day9_recurrent_neural_network_language_model.html e_o(t): next word predicting error Alpha: learning rate Beta : L2 regularization coefficient V(t+1) = V(t) + (과거 state)*predict err*lr – V(t)*Beta L2 Reg: https://www.quora.com/What-is-the-difference-between-L1-and-L2-regularization
  • 10. RNN(Recurrent Neural Networks) RNN 학습: BPTT(Backpropagation Through Time) 10http://kiyukuta.github.io/2013/12/09/mlac2013_day9_recurrent_neural_network_language_model.html e_h(t): error in the hidden layer U(t+1) = U(t) + (0 ~ t-1)시점 [weight]*err*[lr] – U(t)*beta W(t+1) = W(t) + (0 ~ t-1)시점 [recurrent state]*err*[lr] – W(t)*beta d_h: differential of the sigmoid function
  • 11. RNN(Recurrent Neural Networks) RNN 학습: BPTT(Backpropagation Through Time) 11http://kiyukuta.github.io/2013/12/09/mlac2013_day9_recurrent_neural_network_language_model.html e_h(t-tau-1): error of the past hidden layer e_h(t-tau): is the weight W flowing in the oppositie direction d_h: differential of the sigmoid function
  • 12. RNN(Recurrent Neural Networks) 그 외 RNN, [Bidirectional RNN, Deep (Bidirectional RNN), LSTM] 12http://aikorea.org/blog/rnn-tutorial-1/ step t 이후의 출력값이 입력값에도 영향을 받을 수 있다는 아이디어에서 나온 모델. 두 개의 RNN이 동시에 존재하고, 출력값은 두 개의 RNN hidden state에 의존한다. Bidirectional RNN:
  • 13. RNN(Recurrent Neural Networks) 그 외 RNN, [Bidirectional RNN, Deep (Bidirectional RNN), LSTM] 13http://aikorea.org/blog/rnn-tutorial-1/ Bidirectional RNN에서 매 시간 step마 다 추가적인 layer를 두어 구성한 RNN. 계산 capacity가 크고, 학습 데이터는 훨씬 더 많 이 필요하다. Deep Bidirectional RNN:
  • 14. RNN(Recurrent Neural Networks) 그 외 RNN, [Bidirectional RNN, Deep (Bidirectional RNN), LSTM] 14http://aikorea.org/blog/rnn-tutorial-1/ RNN이 과거 time step t를 학습하여 추론하 는 과정에서 장기 의존성(long term dependency)이 떨어진다는 단점을 극복하기 위하여 나온 네트워크. 때문에 weight를 학습 한다기 보다는 어떠한 정보를 버리고(forgot) update할지에 초점을 맞춘 구조. LSTM은 RNN의 뉴런 대신에 [메모리 셀]이라는 구조를 사용하여 forgot, 현재 state에 남 길 값을 결정한다. LSTM Network:
  • 15. LSTM(Long Short Term Memory) Architecture Hochretier, Schmidhuber (CMU, 1997)가 개발. RNN의 장기 의존성 문제를 해결하기 위해 개 발되었음. 일련의 학습을 통해 추론을 하기 보다는 과거에 일어났던 일을 기억하고 재현하는 일을 목적으로 설계 됨. 15http://colah.github.io/posts/2015-08-Understanding-LSTMs/ X_t: t timestep에서의 input
  • 16. LSTM(Long Short Term Memory) Architecture Hochretier, Schmidhuber (CMU, 1997)가 개발. RNN의 장기 의존성 문제를 해결하기 위해 개 발되었음. 일련의 학습을 통해 추론을 하기 보다는 과거에 일어났던 일을 기억하고 재현하는 일을 목적으로 설계 됨. 메모리 셀 C가 들어간 버전은 Gers et al. 2000이 소개하였음. 16http://colah.github.io/posts/2015-08-Understanding-LSTMs/ X_t: t timestep에서의 input C_t: Cell state, 정보를 더하거나 지울지 정함
  • 17. LSTM(Long Short Term Memory) Architecture 17http://colah.github.io/posts/2015-08-Understanding-LSTMs/ Forget gate층은 h_[t-1]과 x_t를 보고, sigmoid를 통과시켜 C_[t-1]에서의 각 숫자 를 위한 0과 1 사이의 숫자를 출력함. Output인 f_t()가 forget gate.
  • 18. LSTM(Long Short Term Memory) Architecture 18http://colah.github.io/posts/2015-08-Understanding-LSTMs/ Input gate층은 i_t()로 어떤 값을 갱신할지 결정한다. Tanh()층은 셀 상태에서 추가될 수 있는 후보들의 벡터인 [C_t]^~를 생성한다. 다음 단계에서 셀 스테이트 C를 갱신한다.
  • 19. LSTM(Long Short Term Memory) Architecture 19http://colah.github.io/posts/2015-08-Understanding-LSTMs/ 새로운 셀 스테이트 C_t는 forget gate를 통과한 과거 셀 상태 C_[t-1]과 input gate를 통과한 새로운 후보 셀 스테이트 [C_t]^~와의 합으로 구성된다. 이는 셀 스테이트 값을 얼만큼 갱신 할지 결정한 값으로 크기 변경된(scaled) 새 후보들이 된다. 이러한 셀 state는 gradient 곱 이 발생하지 않기 때문에 exploding이나 vanishing이 발생하지 않는다.셀 state가 장기 기 억이 가능하게 되는 이유다.
  • 20. LSTM(Long Short Term Memory) Architecture 20http://colah.github.io/posts/2015-08-Understanding-LSTMs/ h_t는 출력을 의미하며 o_t()는 Output gate이다. Output gate는 Hidden state(h_[t-1])와 현재 input x_t를 확인하고 어떤 부분을 출력할지 결정한다. 새로운 Hidden layer는 새로 갱신한 Cell state에 Output gate 결과를 반영하여 결정된다.
  • 21. LSTM(Long Short Term Memory) Architecture 21http://www.slideshare.net/jpatanooga/modeling-electronic-health-records-with-recurrent-neural-networks ¤: element-wise multiplication h_t^l: layer l의 time stamp t일때 hidden state •  RNN에는 Dropout을 붙이면 잘 동작하지 않는다고 알려져 있는데, dropout이 지워버려선 안 되는 과거 information이 지워지기 때문이라고 한다.(Recurrent Neural Network Regularization, ICLR 2015) 참고로 이러한 이유 때문에 Dropout 연산은 Recurrent connection이 아닌 곳에서만 적용하는 것이 위 논문의 아이디어다. g^t() = cell state 후보 [LSTM feed forward pass]
  • 22. LSTM(Long Short Term Memory) Architecture 22http://www.slideshare.net/jpatanooga/modeling-electronic-health-records-with-recurrent-neural-networks •  LSTM은 구조에 따라 다양한 용례로 사용할 수 있음 •  2D Tensor는 # of inputs,# of examples로 구성되며 •  3D Tensor는 [2D Tensor]에 Timesteps가 포함된다. 즉 (덩어리)를 input으로 사용 [LSTM 용례]
  • 23. LSTM(Long Short Term Memory) Architecture 23http://www.slideshare.net/jpatanooga/modeling-electronic-health-records-with-recurrent-neural-networks •  각 게이트(forget, input, output)마다 셀 상태를 추가로 참고할 수 있도록 하여 게이트 들이 과거 데이터에 조금 더 의존적으로 계산을 수행하도록 만든 LSTM •  Gers and Schmidhuber (2000) [LSTM 변형: Peephole connection]
  • 24. LSTM(Long Short Term Memory) Architecture 24http://www.slideshare.net/jpatanooga/modeling-electronic-health-records-with-recurrent-neural-networks •  Forget gate와 input gate를 단일 Cell update gate로 통합함 •  Input gate가 사라지는 대신, input은 후보 셀 스테이트를 결정하고 새 hidden state 를 결정하는데 사용됨 •  결과 모델은 표준 LSTM 모델보다 단순함 •  Cho et al. (2014) [LSTM 변형: GRU(Gated Recurrent Unit)]
  • 25. LSTM(Long Short Term Memory) Architecture 25 •  Yao et al. (2015)가 소개한 Depth gated RNNs와 같은 스타일도 있음 •  Clockwork RNNs, Koutnik et al. (2014)는 장기 의존성에 효율적으로 작동하도록 변형한 RNN임 •  Greff et al. (2015)는 유명한 변형(GRU, Peephole 등)을 비교하는 실험을 통해 결 과가 비슷하다는 것을 발견 •  Jozefowics et al. (2015)는 다양한 RNN 변형 모델들을 실험하고 비교함으로써 특정 데이터 세트에 맞는 구조들이 있음을 확인하였음 •  LSTM의 다음 단계는 Attention이라고 하는데, 예를 들면 다른것들보다 더 중요한 정보 여러 개를 취합하는 것임 [LSTM 변형: 그 외]
  • 26. LSTM(Long Short Term Memory) Architecture 26 •  Yao et al. (2015)가 소개한 Depth gated RNNs와 같은 스타일도 있음 •  Clockwork RNNs, Koutnik et al. (2014)는 장기 의존성에 효율적으로 작동하도록 변형한 RNN임 •  Greff et al. (2015)는 유명한 변형(GRU, Peephole 등)을 비교하는 실험을 통해 결 과가 비슷하다는 것을 발견 •  Jozefowics et al. (2015)는 다양한 RNN 변형 모델들을 실험하고 비교함으로써 특정 데이터 세트에 맞는 구조들이 있음을 확인하였음 •  LSTM의 다음 단계는 Attention이라고 하는데, 예를 들면 다른것들보다 더 중요한 정보 여러 개를 취합하는 것임 •  [Input]: 재현이 침대에서 일어났다. •  [Input]: 재현이 테이블로 가서 사과를 집어들었다. •  [Input]: 그는 사과를 먹었다. •  [Input]: 재현이 거실로 이동했다. •  [Input]: 사과를 떨어뜨렸다. •  [Question]: 재현이 사과를 떨어뜨린 곳은? [LSTM 변형: 그 외]
  • 27. LSTM(Long Short Term Memory) Architecture 27 •  Yao et al. (2015)가 소개한 Depth gated RNNs와 같은 스타일도 있음 •  Clockwork RNNs, Koutnik et al. (2014)는 장기 의존성에 효율적으로 작동하도록 변형한 RNN임 •  Greff et al. (2015)는 유명한 변형(GRU, Peephole 등)을 비교하는 실험을 통해 결 과가 비슷하다는 것을 발견 •  Jozefowics et al. (2015)는 다양한 RNN 변형 모델들을 실험하고 비교함으로써 특정 데이터 세트에 맞는 구조들이 있음을 확인하였음 •  LSTM의 다음 단계는 Attention이라고 하는데, 예를 들면 다른것들보다 더 중요한 정보 여러 개를 취합하는 것임 •  [Input]: 재현이 침대에서 일어났다. •  [Input]: 재현이 테이블로 가서 사과를 집어들었다. •  [Input]: 그는 사과를 먹었다. •  [Input]: 재현이 거실로 이동했다. •  [Input]: 사과를 떨어뜨렸다. •  [Question]: 재현이 사과를 떨어뜨린 곳은? •  [Answer]: 거실 [LSTM 변형: 그 외]
  • 28. LSTM(Long Short Term Memory) Architecture 28 •  Yao et al. (2015)가 소개한 Depth gated RNNs와 같은 스타일도 있음 •  Clockwork RNNs, Koutnik et al. (2014)는 장기 의존성에 효율적으로 작동하도록 변형한 RNN임 •  Greff et al. (2015)는 유명한 변형(GRU, Peephole 등)을 비교하는 실험을 통해 결 과가 비슷하다는 것을 발견 •  Jozefowics et al. (2015)는 다양한 RNN 변형 모델들을 실험하고 비교함으로써 특정 데이터 세트에 맞는 구조들이 있음을 확인하였음 •  LSTM의 다음 단계는 Attention이라고 하는데, 예를 들면 다른것들보다 더 중요한 정보 여러 개를 취합하는 것임 •  [Input]: 재현이 침대에서 일어났다. •  [Input]: 재현이 테이블로 가서 사과를 집어들었다. •  [Input]: 그는 사과를 먹었다. •  [Input]: 재현이 거실로 이동했다. •  [Input]: 사과를 떨어뜨렸다. •  [Question]: 재현이 사과를 떨어뜨린 곳은? •  [Answer]: 거실 •  Show, Attend and Tell, Kelvin Xu et al. (2015) [LSTM 변형: 그 외]