Submit Search
Upload
Long Short-term Memory
•
41 likes
•
89,441 views
N
nishio
Follow
Long Short-term Memory論文紹介
Read less
Read more
Education
Report
Share
Report
Share
1 of 25
Download now
Download to read offline
Recommended
LSTM (Long short-term memory) 概要
LSTM (Long short-term memory) 概要
Kenji Urai
SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜
SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜
SSII
【DL輪読会】Hyena Hierarchy: Towards Larger Convolutional Language Models
【DL輪読会】Hyena Hierarchy: Towards Larger Convolutional Language Models
Deep Learning JP
[論文紹介] LSTM (LONG SHORT-TERM MEMORY)
[論文紹介] LSTM (LONG SHORT-TERM MEMORY)
Tomoyuki Hioki
Transformerを雰囲気で理解する
Transformerを雰囲気で理解する
AtsukiYamaguchi1
強化学習 DQNからPPOまで
強化学習 DQNからPPOまで
harmonylab
Jubatus Casual Talks #2 異常検知入門
Jubatus Casual Talks #2 異常検知入門
Shohei Hido
【DL輪読会】時系列予測 Transfomers の精度向上手法
【DL輪読会】時系列予測 Transfomers の精度向上手法
Deep Learning JP
Recommended
LSTM (Long short-term memory) 概要
LSTM (Long short-term memory) 概要
Kenji Urai
SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜
SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜
SSII
【DL輪読会】Hyena Hierarchy: Towards Larger Convolutional Language Models
【DL輪読会】Hyena Hierarchy: Towards Larger Convolutional Language Models
Deep Learning JP
[論文紹介] LSTM (LONG SHORT-TERM MEMORY)
[論文紹介] LSTM (LONG SHORT-TERM MEMORY)
Tomoyuki Hioki
Transformerを雰囲気で理解する
Transformerを雰囲気で理解する
AtsukiYamaguchi1
強化学習 DQNからPPOまで
強化学習 DQNからPPOまで
harmonylab
Jubatus Casual Talks #2 異常検知入門
Jubatus Casual Talks #2 異常検知入門
Shohei Hido
【DL輪読会】時系列予測 Transfomers の精度向上手法
【DL輪読会】時系列予測 Transfomers の精度向上手法
Deep Learning JP
近年のHierarchical Vision Transformer
近年のHierarchical Vision Transformer
Yusuke Uchida
音声感情認識の分野動向と実用化に向けたNTTの取り組み
音声感情認識の分野動向と実用化に向けたNTTの取り組み
Atsushi_Ando
深層学習による自然言語処理の研究動向
深層学習による自然言語処理の研究動向
STAIR Lab, Chiba Institute of Technology
[DL輪読会]Reward Augmented Maximum Likelihood for Neural Structured Prediction
[DL輪読会]Reward Augmented Maximum Likelihood for Neural Structured Prediction
Deep Learning JP
モデルアーキテクチャ観点からの高速化2019
モデルアーキテクチャ観点からの高速化2019
Yusuke Uchida
強化学習エージェントの内発的動機付けによる探索とその応用(第4回 統計・機械学習若手シンポジウム 招待公演)
強化学習エージェントの内発的動機付けによる探索とその応用(第4回 統計・機械学習若手シンポジウム 招待公演)
Shota Imai
モデルアーキテクチャ観点からのDeep Neural Network高速化
モデルアーキテクチャ観点からのDeep Neural Network高速化
Yusuke Uchida
【DL輪読会】The Forward-Forward Algorithm: Some Preliminary
【DL輪読会】The Forward-Forward Algorithm: Some Preliminary
Deep Learning JP
Semi supervised, weakly-supervised, unsupervised, and active learning
Semi supervised, weakly-supervised, unsupervised, and active learning
Yusuke Uchida
トピックモデルの評価指標 Perplexity とは何なのか?
トピックモデルの評価指標 Perplexity とは何なのか?
hoxo_m
You Only Look One-level Featureの解説と見せかけた物体検出のよもやま話
You Only Look One-level Featureの解説と見せかけた物体検出のよもやま話
Yusuke Uchida
SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜
SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜
SSII
[DL輪読会]Convolutional Conditional Neural Processesと Neural Processes Familyの紹介
[DL輪読会]Convolutional Conditional Neural Processesと Neural Processes Familyの紹介
Deep Learning JP
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling
Deep Learning JP
Graph U-Nets
Graph U-Nets
Shion Honda
畳み込みニューラルネットワークの高精度化と高速化
畳み込みニューラルネットワークの高精度化と高速化
Yusuke Uchida
ニューラルチューリングマシン入門
ニューラルチューリングマシン入門
naoto moriyama
[DL輪読会]Object-Centric Learning with Slot Attention
[DL輪読会]Object-Centric Learning with Slot Attention
Deep Learning JP
【DL輪読会】SimCSE: Simple Contrastive Learning of Sentence Embeddings (EMNLP 2021)
【DL輪読会】SimCSE: Simple Contrastive Learning of Sentence Embeddings (EMNLP 2021)
Deep Learning JP
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)
Deep Learning JP
量子アニーリングマシンのプログラミング
量子アニーリングマシンのプログラミング
nishio
夏プロ報告
夏プロ報告
nishio
More Related Content
What's hot
近年のHierarchical Vision Transformer
近年のHierarchical Vision Transformer
Yusuke Uchida
音声感情認識の分野動向と実用化に向けたNTTの取り組み
音声感情認識の分野動向と実用化に向けたNTTの取り組み
Atsushi_Ando
深層学習による自然言語処理の研究動向
深層学習による自然言語処理の研究動向
STAIR Lab, Chiba Institute of Technology
[DL輪読会]Reward Augmented Maximum Likelihood for Neural Structured Prediction
[DL輪読会]Reward Augmented Maximum Likelihood for Neural Structured Prediction
Deep Learning JP
モデルアーキテクチャ観点からの高速化2019
モデルアーキテクチャ観点からの高速化2019
Yusuke Uchida
強化学習エージェントの内発的動機付けによる探索とその応用(第4回 統計・機械学習若手シンポジウム 招待公演)
強化学習エージェントの内発的動機付けによる探索とその応用(第4回 統計・機械学習若手シンポジウム 招待公演)
Shota Imai
モデルアーキテクチャ観点からのDeep Neural Network高速化
モデルアーキテクチャ観点からのDeep Neural Network高速化
Yusuke Uchida
【DL輪読会】The Forward-Forward Algorithm: Some Preliminary
【DL輪読会】The Forward-Forward Algorithm: Some Preliminary
Deep Learning JP
Semi supervised, weakly-supervised, unsupervised, and active learning
Semi supervised, weakly-supervised, unsupervised, and active learning
Yusuke Uchida
トピックモデルの評価指標 Perplexity とは何なのか?
トピックモデルの評価指標 Perplexity とは何なのか?
hoxo_m
You Only Look One-level Featureの解説と見せかけた物体検出のよもやま話
You Only Look One-level Featureの解説と見せかけた物体検出のよもやま話
Yusuke Uchida
SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜
SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜
SSII
[DL輪読会]Convolutional Conditional Neural Processesと Neural Processes Familyの紹介
[DL輪読会]Convolutional Conditional Neural Processesと Neural Processes Familyの紹介
Deep Learning JP
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling
Deep Learning JP
Graph U-Nets
Graph U-Nets
Shion Honda
畳み込みニューラルネットワークの高精度化と高速化
畳み込みニューラルネットワークの高精度化と高速化
Yusuke Uchida
ニューラルチューリングマシン入門
ニューラルチューリングマシン入門
naoto moriyama
[DL輪読会]Object-Centric Learning with Slot Attention
[DL輪読会]Object-Centric Learning with Slot Attention
Deep Learning JP
【DL輪読会】SimCSE: Simple Contrastive Learning of Sentence Embeddings (EMNLP 2021)
【DL輪読会】SimCSE: Simple Contrastive Learning of Sentence Embeddings (EMNLP 2021)
Deep Learning JP
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)
Deep Learning JP
What's hot
(20)
近年のHierarchical Vision Transformer
近年のHierarchical Vision Transformer
音声感情認識の分野動向と実用化に向けたNTTの取り組み
音声感情認識の分野動向と実用化に向けたNTTの取り組み
深層学習による自然言語処理の研究動向
深層学習による自然言語処理の研究動向
[DL輪読会]Reward Augmented Maximum Likelihood for Neural Structured Prediction
[DL輪読会]Reward Augmented Maximum Likelihood for Neural Structured Prediction
モデルアーキテクチャ観点からの高速化2019
モデルアーキテクチャ観点からの高速化2019
強化学習エージェントの内発的動機付けによる探索とその応用(第4回 統計・機械学習若手シンポジウム 招待公演)
強化学習エージェントの内発的動機付けによる探索とその応用(第4回 統計・機械学習若手シンポジウム 招待公演)
モデルアーキテクチャ観点からのDeep Neural Network高速化
モデルアーキテクチャ観点からのDeep Neural Network高速化
【DL輪読会】The Forward-Forward Algorithm: Some Preliminary
【DL輪読会】The Forward-Forward Algorithm: Some Preliminary
Semi supervised, weakly-supervised, unsupervised, and active learning
Semi supervised, weakly-supervised, unsupervised, and active learning
トピックモデルの評価指標 Perplexity とは何なのか?
トピックモデルの評価指標 Perplexity とは何なのか?
You Only Look One-level Featureの解説と見せかけた物体検出のよもやま話
You Only Look One-level Featureの解説と見せかけた物体検出のよもやま話
SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜
SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜
[DL輪読会]Convolutional Conditional Neural Processesと Neural Processes Familyの紹介
[DL輪読会]Convolutional Conditional Neural Processesと Neural Processes Familyの紹介
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling
Graph U-Nets
Graph U-Nets
畳み込みニューラルネットワークの高精度化と高速化
畳み込みニューラルネットワークの高精度化と高速化
ニューラルチューリングマシン入門
ニューラルチューリングマシン入門
[DL輪読会]Object-Centric Learning with Slot Attention
[DL輪読会]Object-Centric Learning with Slot Attention
【DL輪読会】SimCSE: Simple Contrastive Learning of Sentence Embeddings (EMNLP 2021)
【DL輪読会】SimCSE: Simple Contrastive Learning of Sentence Embeddings (EMNLP 2021)
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)
More from nishio
量子アニーリングマシンのプログラミング
量子アニーリングマシンのプログラミング
nishio
夏プロ報告
夏プロ報告
nishio
ITと経営
ITと経営
nishio
部分観測モンテカルロ計画法を用いたガイスターAI
部分観測モンテカルロ計画法を用いたガイスターAI
nishio
交渉力について
交渉力について
nishio
If文から機械学習への道
If文から機械学習への道
nishio
組織横断型研究室構想
組織横断型研究室構想
nishio
2017首都大学東京情報通信特別講義
2017首都大学東京情報通信特別講義
nishio
強化学習その5
強化学習その5
nishio
良いアイデアを出すための方法
良いアイデアを出すための方法
nishio
強化学習その4
強化学習その4
nishio
強化学習その3
強化学習その3
nishio
強化学習その2
強化学習その2
nishio
強化学習その1
強化学習その1
nishio
線形?非線形?
線形?非線形?
nishio
機械学習キャンバス0.1
機械学習キャンバス0.1
nishio
首都大学東京「情報通信特別講義」2016年西尾担当分
首都大学東京「情報通信特別講義」2016年西尾担当分
nishio
勾配降下法の最適化アルゴリズム
勾配降下法の最適化アルゴリズム
nishio
Wifiで位置推定
Wifiで位置推定
nishio
ESP8266EXで位置推定
ESP8266EXで位置推定
nishio
More from nishio
(20)
量子アニーリングマシンのプログラミング
量子アニーリングマシンのプログラミング
夏プロ報告
夏プロ報告
ITと経営
ITと経営
部分観測モンテカルロ計画法を用いたガイスターAI
部分観測モンテカルロ計画法を用いたガイスターAI
交渉力について
交渉力について
If文から機械学習への道
If文から機械学習への道
組織横断型研究室構想
組織横断型研究室構想
2017首都大学東京情報通信特別講義
2017首都大学東京情報通信特別講義
強化学習その5
強化学習その5
良いアイデアを出すための方法
良いアイデアを出すための方法
強化学習その4
強化学習その4
強化学習その3
強化学習その3
強化学習その2
強化学習その2
強化学習その1
強化学習その1
線形?非線形?
線形?非線形?
機械学習キャンバス0.1
機械学習キャンバス0.1
首都大学東京「情報通信特別講義」2016年西尾担当分
首都大学東京「情報通信特別講義」2016年西尾担当分
勾配降下法の最適化アルゴリズム
勾配降下法の最適化アルゴリズム
Wifiで位置推定
Wifiで位置推定
ESP8266EXで位置推定
ESP8266EXで位置推定
Recently uploaded
My Inspire High Award 2024「Yakushima Islandってなんか変じゃない?」.pdf
My Inspire High Award 2024「Yakushima Islandってなんか変じゃない?」.pdf
inspirehighstaff03
What I did before opening my business..pdf
What I did before opening my business..pdf
oganekyokoi
My Inspire High Award 2024 「AIと仲良くなるには?」
My Inspire High Award 2024 「AIと仲良くなるには?」
inspirehighstaff03
My Inspire High Award 2024「なぜ、好きなことにいつかは飽きるの」
My Inspire High Award 2024「なぜ、好きなことにいつかは飽きるの」
inspirehighstaff03
My Inspire High Award 2024 「孤独は敵なのか?」
My Inspire High Award 2024 「孤独は敵なのか?」
inspirehighstaff03
My Inspire High Award 2024 「家族とは何か」
My Inspire High Award 2024 「家族とは何か」
inspirehighstaff03
Divorce agreements in administrative work.pdf
Divorce agreements in administrative work.pdf
oganekyokoi
My Inspire High Award2024「外国人が日本のテーブルマナーに驚く理由は?」
My Inspire High Award2024「外国人が日本のテーブルマナーに驚く理由は?」
inspirehighstaff03
My Inspire High Award 2024「なぜ人は他人と違うところがあってもそれをなかなか誇れないのか?」
My Inspire High Award 2024「なぜ人は他人と違うところがあってもそれをなかなか誇れないのか?」
inspirehighstaff03
3年前期 交通基盤工学 第一回 ガイダンス 交通基盤工学の概要 パワーポイント
3年前期 交通基盤工学 第一回 ガイダンス 交通基盤工学の概要 パワーポイント
shu1108hina1020
My Inspire High Award 2024「なぜ議会への関心が低いのか?」
My Inspire High Award 2024「なぜ議会への関心が低いのか?」
inspirehighstaff03
My Inspire High Award 2024 「本当の『悪者』って何?」
My Inspire High Award 2024 「本当の『悪者』って何?」
inspirehighstaff03
My Inspire High Award 2024 「正義って存在するの?」
My Inspire High Award 2024 「正義って存在するの?」
inspirehighstaff03
KARAPATANG PANTAO.pptxhrhrhrhrhrhrhrhrhr
KARAPATANG PANTAO.pptxhrhrhrhrhrhrhrhrhr
RodolfFernandez1
【ゲーム理論入門】ChatGPTが作成した ゲーム理論の問題を解く #3 Slide
【ゲーム理論入門】ChatGPTが作成した ゲーム理論の問題を解く #3 Slide
ssusere0a682
My Inspire High Award 2024「老いることは不幸なこと?」
My Inspire High Award 2024「老いることは不幸なこと?」
inspirehighstaff03
My Inspire High Award 2024「世の中の流行はどのようにして生まれるのか」
My Inspire High Award 2024「世の中の流行はどのようにして生まれるのか」
inspirehighstaff03
My Inspire High Award 2024「他者と自分、対立を防ぐには?」
My Inspire High Award 2024「他者と自分、対立を防ぐには?」
inspirehighstaff03
International Politics I - Lecture 1
International Politics I - Lecture 1
Toru Oga
Establishment and operation of medical corporations.pdf
Establishment and operation of medical corporations.pdf
oganekyokoi
Recently uploaded
(20)
My Inspire High Award 2024「Yakushima Islandってなんか変じゃない?」.pdf
My Inspire High Award 2024「Yakushima Islandってなんか変じゃない?」.pdf
What I did before opening my business..pdf
What I did before opening my business..pdf
My Inspire High Award 2024 「AIと仲良くなるには?」
My Inspire High Award 2024 「AIと仲良くなるには?」
My Inspire High Award 2024「なぜ、好きなことにいつかは飽きるの」
My Inspire High Award 2024「なぜ、好きなことにいつかは飽きるの」
My Inspire High Award 2024 「孤独は敵なのか?」
My Inspire High Award 2024 「孤独は敵なのか?」
My Inspire High Award 2024 「家族とは何か」
My Inspire High Award 2024 「家族とは何か」
Divorce agreements in administrative work.pdf
Divorce agreements in administrative work.pdf
My Inspire High Award2024「外国人が日本のテーブルマナーに驚く理由は?」
My Inspire High Award2024「外国人が日本のテーブルマナーに驚く理由は?」
My Inspire High Award 2024「なぜ人は他人と違うところがあってもそれをなかなか誇れないのか?」
My Inspire High Award 2024「なぜ人は他人と違うところがあってもそれをなかなか誇れないのか?」
3年前期 交通基盤工学 第一回 ガイダンス 交通基盤工学の概要 パワーポイント
3年前期 交通基盤工学 第一回 ガイダンス 交通基盤工学の概要 パワーポイント
My Inspire High Award 2024「なぜ議会への関心が低いのか?」
My Inspire High Award 2024「なぜ議会への関心が低いのか?」
My Inspire High Award 2024 「本当の『悪者』って何?」
My Inspire High Award 2024 「本当の『悪者』って何?」
My Inspire High Award 2024 「正義って存在するの?」
My Inspire High Award 2024 「正義って存在するの?」
KARAPATANG PANTAO.pptxhrhrhrhrhrhrhrhrhr
KARAPATANG PANTAO.pptxhrhrhrhrhrhrhrhrhr
【ゲーム理論入門】ChatGPTが作成した ゲーム理論の問題を解く #3 Slide
【ゲーム理論入門】ChatGPTが作成した ゲーム理論の問題を解く #3 Slide
My Inspire High Award 2024「老いることは不幸なこと?」
My Inspire High Award 2024「老いることは不幸なこと?」
My Inspire High Award 2024「世の中の流行はどのようにして生まれるのか」
My Inspire High Award 2024「世の中の流行はどのようにして生まれるのか」
My Inspire High Award 2024「他者と自分、対立を防ぐには?」
My Inspire High Award 2024「他者と自分、対立を防ぐには?」
International Politics I - Lecture 1
International Politics I - Lecture 1
Establishment and operation of medical corporations.pdf
Establishment and operation of medical corporations.pdf
Long Short-term Memory
1.
Long Short-term Memory 2015-07-31 サイボウズラボ機械学習勉強会 西尾泰和
2.
不定長の入力 自然言語で書かれた文章とか お客さんがある操作をして別の操作をして… という操作ログとか そういう不定長の入力を扱いたい 2
3.
Grid Long Short-term
Memory 面白そうな論文 ”Grid Long Short-term Memory” [Kalchbrenner+ 2015] Long Short-term Memory(LSTM)を縦横につなげ てやるとWikipediaの文字予測タスクでNN界最強 中国語英語翻訳でもphrase-based reference systemよりはるかに性能がいい これを理解するために遡っていく… 3 http://arxiv.org/abs/1507.01526
4.
LONG SHORT-TERM MEMORY 今回解説するのはこれ、LSTM元祖の論文 “LONG
SHORT-TERM MEMORY” [Hochreiter&Schmidhuber 1997] Recurrent Neural Networkの問題点を指摘し、 LSTMを考案した 4 http://deeplearning.cs.cmu.edu/pdfs/Hochreiter97_lstm.pdf
5.
Recurrent Neural Network 「不定長の入力を受け付けたい」 「ならばNNの中にループを作ろう」 直前の自分の活性を入力として受け取ることに よって「記憶」のあるNNを実現、時系列入力と して与えることで不定長入力を可能にする 5
6.
Backpropagation Through Time ループのあるNNをどうやって学習するか? 時間軸方向に展開して 仮想の多層ネットワークの学習として扱う [Williams&Zipser
1992] 6
7.
問題 勾配を何度も掛け算→エラー情報が消滅or発散 振動したり、学習にとても時間がかかったりする エラー情報が消滅発散しないようにしよう! そこで… 7
8.
Constant Error Carrousel(CEC) 1つのニューロンが自分の出力を受け取ることを 考える、エラー情報が一定であるためには ・ニューロンの活性化関数が線形 ・他の入力がないとき活性は一定 が必要。この論文では以下の設定を用いる: ・活性化関数は
f(x) = x ・リカレント結合の重みは1.0 8 [Hochreiter&Schmidhuber 1997]
9.
問題: Input Weight
Conflict (著者曰く勾配ベースの手法すべてにある問題) ある情報を、必要になるまで覚えておきたい つまり、その情報が来たときに ニューロンの活性は変わってほしい しかし、他の情報が来たときに ニューロンの活性は変わってほしくない 変わるか変わらないかが重みの値で表現されてい る仕組みでは、この衝突が学習の妨げになる 9
10.
問題: Output Weight
Conflict 出力に関しても同様に 「覚えておいた値を使う」と 「必要になるまで使わない」とを 出力重みの値で表現するのはConflict 10
11.
解決策 書くのか書かないのか、読むのか読まないのか、 「記憶」に対する読み書きオペレーションが 重みという一つのスカラー値で決まるのではなく 入力に基づいてコントロールされるメカニズムが 必要である そこで… 11
12.
LSTM 記憶をつかさどるCECの前後に 入出力を管理するゲート素子を配置 12
13.
Memory Cell Block 1個のメモリセルは「ニューロン1個分」の1次元 の情報しか記憶できない →複数のメモリセルでゲートの重みを共有する 一時に複数の次元を記憶できるようになる 13
14.
Abuse Problem 学習序盤は、メモリセルを使わなくても 誤差が減少する なのでメモリセルを記憶以外のこと (定数オフセットなど)に使ってしまう問題 が起きる 一度そういう変な学習をすると、 解放されるまでに時間がかかる 14
15.
Abuse Problem 複数のメモリーセルが同じ内容を記憶してしまう 問題も起きる (Q: 出力に影響はないのでは?
A: せっかくのメモ リセルが有効活用されないのが問題) 15
16.
解決策 (1)ネットワークの学習が止まった時に ちょっとずつメモリーセルを足す (2)出力ゲートをマイナスのオフセットで初期化 出力ゲートが「出力OK」のシグナルを出せるよ うになるまで学習ステップが余計に必要になる ことで序盤にメモリセルが使われることを防ぐ 16
17.
Internal state drift メモリセルへの入力が正ばかり(または負) だと、メモリセルの値が一方的に大きくなり 勾配が消滅する(活性化関数がシグモイドとかだ と問題ないんだけど今回線形なんで) 序盤の間、入力ゲートの出力が0に近づくように バイアスする (学習がしばらく進むと他のニューロンがドリフ トを吸収するので、それまでの間耐え忍ぶ) 17
18.
Forget Gate [Gers+ 1999]
“Learning to Forget: Continual Prediction with” 従来のLSTMは手動で記憶をリセットしていたが それを自動でリセットできるようにしたよ、 という論文 http://citeseerx.ist.psu.edu/viewdoc/download?do i=10.1.1.55.5709&rep=rep1&type=pdf 18
19.
Forget Gate ↑これを ↑こうする これがLSTMの基本形
[Gers+ 1999] 19
20.
実装 [Hochreiter&Schmidhuber 1997]のp.23から ALGORITHM DETAILS Tomonari
MASADA先生による数式と実装* 実装はCで966行 Chainerでの実装** 228行 RNNLIBっていうC++実装もあるらしい。 単に使うだけならこれがよい?? 20 * http://diversity-mining.jp/wp/?p=407 ** https://github.com/pfnet/chainer/blob/master/chainer/functions/lstm.py
21.
数式読解 LSTMによる隠れ層がN層重なっている構造 21
22.
数式読解 Wは重み、下の添え字xιなどが「入力xから入力 ゲートιへの重み」をあらわしており、上の添え 字nが「n層目の重み」をあらわしている 𝑊ℎ− ι のハイフンはマイナスではなく「前の隠れ 層h-から入力ゲートιへの重み」という意味 22
23.
数式読解 𝜄 𝑡 𝑛 はn層目の時刻tの入力ゲートの出力で、Dn次元 のベクトル ι、φ、ωは重みが違うだけでほぼ同じ式。入力、 下の隠れ層の出力、自分の1時刻前の出力、CEC の出力、が使われている。 23
24.
数式読解 ωと小文字のwは別物。CECの出力ηを使う際に、 同じ層の他のLSTMのηは使わないので重み行列が 対角行列になり、その対角成分だけ取ってベクト ルになってるのでWが小文字になっている。 要素積してるのもベクトル形で書いたから。対角 行列なら普通の行列積になる。 24
25.
要するにこういうこと 元論文ではゲー トはメモリセル の外にある風 だったが、メモ リセル1個につ き1個ゲートが あって、そのメ モリセルの内部 状態(青線)だけ は見えるような ので中に描いた 25
Download now