Submit Search
Upload
Hessian free
•
Download as PPTX, PDF
•
2 likes
•
2,621 views
Jiro Nishitoba
Follow
2017年2月1日にレトリバセミナーでHessian Freeについて話した資料です。
Read less
Read more
Technology
Report
Share
Report
Share
1 of 52
Download now
Recommended
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
SSII
スパースモデリング入門
スパースモデリング入門
Hideo Terada
勾配降下法の最適化アルゴリズム
勾配降下法の最適化アルゴリズム
nishio
Maximum Entropy IRL(最大エントロピー逆強化学習)とその発展系について
Maximum Entropy IRL(最大エントロピー逆強化学習)とその発展系について
Yusuke Nakata
強化学習 DQNからPPOまで
強化学習 DQNからPPOまで
harmonylab
SSII2021 [TS2] 深層強化学習 〜 強化学習の基礎から応用まで 〜
SSII2021 [TS2] 深層強化学習 〜 強化学習の基礎から応用まで 〜
SSII
[DL輪読会]逆強化学習とGANs
[DL輪読会]逆強化学習とGANs
Deep Learning JP
Curriculum Learning (関東CV勉強会)
Curriculum Learning (関東CV勉強会)
Yoshitaka Ushiku
Recommended
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
SSII
スパースモデリング入門
スパースモデリング入門
Hideo Terada
勾配降下法の最適化アルゴリズム
勾配降下法の最適化アルゴリズム
nishio
Maximum Entropy IRL(最大エントロピー逆強化学習)とその発展系について
Maximum Entropy IRL(最大エントロピー逆強化学習)とその発展系について
Yusuke Nakata
強化学習 DQNからPPOまで
強化学習 DQNからPPOまで
harmonylab
SSII2021 [TS2] 深層強化学習 〜 強化学習の基礎から応用まで 〜
SSII2021 [TS2] 深層強化学習 〜 強化学習の基礎から応用まで 〜
SSII
[DL輪読会]逆強化学習とGANs
[DL輪読会]逆強化学習とGANs
Deep Learning JP
Curriculum Learning (関東CV勉強会)
Curriculum Learning (関東CV勉強会)
Yoshitaka Ushiku
Decision Transformer: Reinforcement Learning via Sequence Modeling
Decision Transformer: Reinforcement Learning via Sequence Modeling
Yasunori Ozaki
方策勾配型強化学習の基礎と応用
方策勾配型強化学習の基礎と応用
Ryo Iwaki
スパースモデリング、スパースコーディングとその数理(第11回WBA若手の会)
スパースモデリング、スパースコーディングとその数理(第11回WBA若手の会)
narumikanno0918
猫でも分かるVariational AutoEncoder
猫でも分かるVariational AutoEncoder
Sho Tatsuno
【基調講演】『深層学習の原理の理解に向けた理論の試み』 今泉 允聡(東大)
【基調講演】『深層学習の原理の理解に向けた理論の試み』 今泉 允聡(東大)
MLSE
【DL輪読会】Implicit Behavioral Cloning
【DL輪読会】Implicit Behavioral Cloning
Deep Learning JP
機械学習モデルの判断根拠の説明
機械学習モデルの判断根拠の説明
Satoshi Hara
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
Deep Learning JP
機械学習におけるオンライン確率的最適化の理論
機械学習におけるオンライン確率的最適化の理論
Taiji Suzuki
【DL輪読会】時系列予測 Transfomers の精度向上手法
【DL輪読会】時系列予測 Transfomers の精度向上手法
Deep Learning JP
[DL輪読会]Deep Learning 第15章 表現学習
[DL輪読会]Deep Learning 第15章 表現学習
Deep Learning JP
[DL輪読会]“SimPLe”,“Improved Dynamics Model”,“PlaNet” 近年のVAEベース系列モデルの進展とそのモデルベース...
[DL輪読会]“SimPLe”,“Improved Dynamics Model”,“PlaNet” 近年のVAEベース系列モデルの進展とそのモデルベース...
Deep Learning JP
協力ゲーム理論でXAI (説明可能なAI) を目指すSHAP (Shapley Additive exPlanation)
協力ゲーム理論でXAI (説明可能なAI) を目指すSHAP (Shapley Additive exPlanation)
西岡 賢一郎
「世界モデル」と関連研究について
「世界モデル」と関連研究について
Masahiro Suzuki
異常検知と変化検知 9章 部分空間法による変化点検知
異常検知と変化検知 9章 部分空間法による変化点検知
hagino 3000
PRML輪読#11
PRML輪読#11
matsuolab
[Dl輪読会]introduction of reinforcement learning
[Dl輪読会]introduction of reinforcement learning
Deep Learning JP
多様な強化学習の概念と課題認識
多様な強化学習の概念と課題認識
佑 甲野
[DL輪読会]EfficientNet: Rethinking Model Scaling for Convolutional Neural Networks
[DL輪読会]EfficientNet: Rethinking Model Scaling for Convolutional Neural Networks
Deep Learning JP
Domain Adaptation 発展と動向まとめ(サーベイ資料)
Domain Adaptation 発展と動向まとめ(サーベイ資料)
Yamato OKAMOTO
20170221 cnet live講演資料
20170221 cnet live講演資料
Retrieva inc.
ChainerでDeep Learningを試すために必要なこと
ChainerでDeep Learningを試すために必要なこと
Retrieva inc.
More Related Content
What's hot
Decision Transformer: Reinforcement Learning via Sequence Modeling
Decision Transformer: Reinforcement Learning via Sequence Modeling
Yasunori Ozaki
方策勾配型強化学習の基礎と応用
方策勾配型強化学習の基礎と応用
Ryo Iwaki
スパースモデリング、スパースコーディングとその数理(第11回WBA若手の会)
スパースモデリング、スパースコーディングとその数理(第11回WBA若手の会)
narumikanno0918
猫でも分かるVariational AutoEncoder
猫でも分かるVariational AutoEncoder
Sho Tatsuno
【基調講演】『深層学習の原理の理解に向けた理論の試み』 今泉 允聡(東大)
【基調講演】『深層学習の原理の理解に向けた理論の試み』 今泉 允聡(東大)
MLSE
【DL輪読会】Implicit Behavioral Cloning
【DL輪読会】Implicit Behavioral Cloning
Deep Learning JP
機械学習モデルの判断根拠の説明
機械学習モデルの判断根拠の説明
Satoshi Hara
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
Deep Learning JP
機械学習におけるオンライン確率的最適化の理論
機械学習におけるオンライン確率的最適化の理論
Taiji Suzuki
【DL輪読会】時系列予測 Transfomers の精度向上手法
【DL輪読会】時系列予測 Transfomers の精度向上手法
Deep Learning JP
[DL輪読会]Deep Learning 第15章 表現学習
[DL輪読会]Deep Learning 第15章 表現学習
Deep Learning JP
[DL輪読会]“SimPLe”,“Improved Dynamics Model”,“PlaNet” 近年のVAEベース系列モデルの進展とそのモデルベース...
[DL輪読会]“SimPLe”,“Improved Dynamics Model”,“PlaNet” 近年のVAEベース系列モデルの進展とそのモデルベース...
Deep Learning JP
協力ゲーム理論でXAI (説明可能なAI) を目指すSHAP (Shapley Additive exPlanation)
協力ゲーム理論でXAI (説明可能なAI) を目指すSHAP (Shapley Additive exPlanation)
西岡 賢一郎
「世界モデル」と関連研究について
「世界モデル」と関連研究について
Masahiro Suzuki
異常検知と変化検知 9章 部分空間法による変化点検知
異常検知と変化検知 9章 部分空間法による変化点検知
hagino 3000
PRML輪読#11
PRML輪読#11
matsuolab
[Dl輪読会]introduction of reinforcement learning
[Dl輪読会]introduction of reinforcement learning
Deep Learning JP
多様な強化学習の概念と課題認識
多様な強化学習の概念と課題認識
佑 甲野
[DL輪読会]EfficientNet: Rethinking Model Scaling for Convolutional Neural Networks
[DL輪読会]EfficientNet: Rethinking Model Scaling for Convolutional Neural Networks
Deep Learning JP
Domain Adaptation 発展と動向まとめ(サーベイ資料)
Domain Adaptation 発展と動向まとめ(サーベイ資料)
Yamato OKAMOTO
What's hot
(20)
Decision Transformer: Reinforcement Learning via Sequence Modeling
Decision Transformer: Reinforcement Learning via Sequence Modeling
方策勾配型強化学習の基礎と応用
方策勾配型強化学習の基礎と応用
スパースモデリング、スパースコーディングとその数理(第11回WBA若手の会)
スパースモデリング、スパースコーディングとその数理(第11回WBA若手の会)
猫でも分かるVariational AutoEncoder
猫でも分かるVariational AutoEncoder
【基調講演】『深層学習の原理の理解に向けた理論の試み』 今泉 允聡(東大)
【基調講演】『深層学習の原理の理解に向けた理論の試み』 今泉 允聡(東大)
【DL輪読会】Implicit Behavioral Cloning
【DL輪読会】Implicit Behavioral Cloning
機械学習モデルの判断根拠の説明
機械学習モデルの判断根拠の説明
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
機械学習におけるオンライン確率的最適化の理論
機械学習におけるオンライン確率的最適化の理論
【DL輪読会】時系列予測 Transfomers の精度向上手法
【DL輪読会】時系列予測 Transfomers の精度向上手法
[DL輪読会]Deep Learning 第15章 表現学習
[DL輪読会]Deep Learning 第15章 表現学習
[DL輪読会]“SimPLe”,“Improved Dynamics Model”,“PlaNet” 近年のVAEベース系列モデルの進展とそのモデルベース...
[DL輪読会]“SimPLe”,“Improved Dynamics Model”,“PlaNet” 近年のVAEベース系列モデルの進展とそのモデルベース...
協力ゲーム理論でXAI (説明可能なAI) を目指すSHAP (Shapley Additive exPlanation)
協力ゲーム理論でXAI (説明可能なAI) を目指すSHAP (Shapley Additive exPlanation)
「世界モデル」と関連研究について
「世界モデル」と関連研究について
異常検知と変化検知 9章 部分空間法による変化点検知
異常検知と変化検知 9章 部分空間法による変化点検知
PRML輪読#11
PRML輪読#11
[Dl輪読会]introduction of reinforcement learning
[Dl輪読会]introduction of reinforcement learning
多様な強化学習の概念と課題認識
多様な強化学習の概念と課題認識
[DL輪読会]EfficientNet: Rethinking Model Scaling for Convolutional Neural Networks
[DL輪読会]EfficientNet: Rethinking Model Scaling for Convolutional Neural Networks
Domain Adaptation 発展と動向まとめ(サーベイ資料)
Domain Adaptation 発展と動向まとめ(サーベイ資料)
Viewers also liked
20170221 cnet live講演資料
20170221 cnet live講演資料
Retrieva inc.
ChainerでDeep Learningを試すために必要なこと
ChainerでDeep Learningを試すために必要なこと
Retrieva inc.
Hessian-free Optimization for Learning Deep Multidimensional Recurrent Neural...
Hessian-free Optimization for Learning Deep Multidimensional Recurrent Neural...
KOTARO SETOYAMA
Making Google Cardboard and Laser Cutter
Making Google Cardboard and Laser Cutter
Retrieva inc.
Sparkのクエリ処理系と周辺の話題
Sparkのクエリ処理系と周辺の話題
Takeshi Yamamuro
Python3 移行への軌跡
Python3 移行への軌跡
Atsushi Odagiri
新しい並列for構文のご提案
新しい並列for構文のご提案
yohhoy
深層学習生き地獄
深層学習生き地獄
Yusuke HIDESHIMA
Learning to learn by gradient descent by gradient descent
Learning to learn by gradient descent by gradient descent
Hiroyuki Fukuda
対話における商品の営業
対話における商品の営業
Preferred Networks
Elasticsearch+nodejs+dynamodbで作る全社システム基盤
Elasticsearch+nodejs+dynamodbで作る全社システム基盤
Recruit Technologies
Chainerで学ぶdeep learning
Chainerで学ぶdeep learning
Retrieva inc.
全脳アーキテクチャ若手の会20170131
全脳アーキテクチャ若手の会20170131
Hangyo Masatsugu
Googleにおける機械学習の活用とクラウドサービス
Googleにおける機械学習の活用とクラウドサービス
Google Cloud Platform - Japan
[DL輪読会]Regularization with stochastic transformations and perturbations for d...
[DL輪読会]Regularization with stochastic transformations and perturbations for d...
Deep Learning JP
「機械学習:技術的負債の高利子クレジットカード」のまとめ
「機械学習:技術的負債の高利子クレジットカード」のまとめ
Recruit Technologies
論文紹介: Fast R-CNN&Faster R-CNN
論文紹介: Fast R-CNN&Faster R-CNN
Takashi Abe
Development and Experiment of Deep Learning with Caffe and maf
Development and Experiment of Deep Learning with Caffe and maf
Kenta Oono
Convolutional Neural Netwoks で自然言語処理をする
Convolutional Neural Netwoks で自然言語処理をする
Daiki Shimada
Chainer meetup20151014
Chainer meetup20151014
Jiro Nishitoba
Viewers also liked
(20)
20170221 cnet live講演資料
20170221 cnet live講演資料
ChainerでDeep Learningを試すために必要なこと
ChainerでDeep Learningを試すために必要なこと
Hessian-free Optimization for Learning Deep Multidimensional Recurrent Neural...
Hessian-free Optimization for Learning Deep Multidimensional Recurrent Neural...
Making Google Cardboard and Laser Cutter
Making Google Cardboard and Laser Cutter
Sparkのクエリ処理系と周辺の話題
Sparkのクエリ処理系と周辺の話題
Python3 移行への軌跡
Python3 移行への軌跡
新しい並列for構文のご提案
新しい並列for構文のご提案
深層学習生き地獄
深層学習生き地獄
Learning to learn by gradient descent by gradient descent
Learning to learn by gradient descent by gradient descent
対話における商品の営業
対話における商品の営業
Elasticsearch+nodejs+dynamodbで作る全社システム基盤
Elasticsearch+nodejs+dynamodbで作る全社システム基盤
Chainerで学ぶdeep learning
Chainerで学ぶdeep learning
全脳アーキテクチャ若手の会20170131
全脳アーキテクチャ若手の会20170131
Googleにおける機械学習の活用とクラウドサービス
Googleにおける機械学習の活用とクラウドサービス
[DL輪読会]Regularization with stochastic transformations and perturbations for d...
[DL輪読会]Regularization with stochastic transformations and perturbations for d...
「機械学習:技術的負債の高利子クレジットカード」のまとめ
「機械学習:技術的負債の高利子クレジットカード」のまとめ
論文紹介: Fast R-CNN&Faster R-CNN
論文紹介: Fast R-CNN&Faster R-CNN
Development and Experiment of Deep Learning with Caffe and maf
Development and Experiment of Deep Learning with Caffe and maf
Convolutional Neural Netwoks で自然言語処理をする
Convolutional Neural Netwoks で自然言語処理をする
Chainer meetup20151014
Chainer meetup20151014
Similar to Hessian free
詳説word2vec
詳説word2vec
Haruka Oikawa
レトリバ勉強会資料:深層学習による自然言語処理2章
レトリバ勉強会資料:深層学習による自然言語処理2章
Hiroki Iida
Rustで始める競技プログラミング
Rustで始める競技プログラミング
Naoya Okanami
全体セミナー20170629
全体セミナー20170629
Jiro Nishitoba
アンサンブル木モデル解釈のためのモデル簡略化法
アンサンブル木モデル解釈のためのモデル簡略化法
Satoshi Hara
Icml2011 reading-sage
Icml2011 reading-sage
正志 坪坂
Approximate Scalable Bounded Space Sketch for Large Data NLP
Approximate Scalable Bounded Space Sketch for Large Data NLP
Koji Matsuda
Similar to Hessian free
(7)
詳説word2vec
詳説word2vec
レトリバ勉強会資料:深層学習による自然言語処理2章
レトリバ勉強会資料:深層学習による自然言語処理2章
Rustで始める競技プログラミング
Rustで始める競技プログラミング
全体セミナー20170629
全体セミナー20170629
アンサンブル木モデル解釈のためのモデル簡略化法
アンサンブル木モデル解釈のためのモデル簡略化法
Icml2011 reading-sage
Icml2011 reading-sage
Approximate Scalable Bounded Space Sketch for Large Data NLP
Approximate Scalable Bounded Space Sketch for Large Data NLP
More from Jiro Nishitoba
20190509 gnn public
20190509 gnn public
Jiro Nishitoba
Retrieva seminar jelinek_20180822
Retrieva seminar jelinek_20180822
Jiro Nishitoba
20180609 chainer meetup_es_pnet
20180609 chainer meetup_es_pnet
Jiro Nishitoba
全体セミナー20180124 final
全体セミナー20180124 final
Jiro Nishitoba
深層学習による自然言語処理勉強会2章前半
深層学習による自然言語処理勉強会2章前半
Jiro Nishitoba
深層学習による自然言語処理勉強会3章前半
深層学習による自然言語処理勉強会3章前半
Jiro Nishitoba
ChainerでDeep Learningを試す為に必要なこと
ChainerでDeep Learningを試す為に必要なこと
Jiro Nishitoba
Icml読み会 deep speech2
Icml読み会 deep speech2
Jiro Nishitoba
全体セミナーWfst
全体セミナーWfst
Jiro Nishitoba
Emnlp読み会資料
Emnlp読み会資料
Jiro Nishitoba
More from Jiro Nishitoba
(10)
20190509 gnn public
20190509 gnn public
Retrieva seminar jelinek_20180822
Retrieva seminar jelinek_20180822
20180609 chainer meetup_es_pnet
20180609 chainer meetup_es_pnet
全体セミナー20180124 final
全体セミナー20180124 final
深層学習による自然言語処理勉強会2章前半
深層学習による自然言語処理勉強会2章前半
深層学習による自然言語処理勉強会3章前半
深層学習による自然言語処理勉強会3章前半
ChainerでDeep Learningを試す為に必要なこと
ChainerでDeep Learningを試す為に必要なこと
Icml読み会 deep speech2
Icml読み会 deep speech2
全体セミナーWfst
全体セミナーWfst
Emnlp読み会資料
Emnlp読み会資料
Recently uploaded
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
Hiroki Ichikura
Postman LT Fukuoka_Quick Prototype_By Daniel
Postman LT Fukuoka_Quick Prototype_By Daniel
danielhu54
SOPを理解する 2024/04/19 の勉強会で発表されたものです
SOPを理解する 2024/04/19 の勉強会で発表されたものです
iPride Co., Ltd.
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
Ryo Sasaki
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
Toru Tamaki
論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A survey
Toru Tamaki
論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNet
Toru Tamaki
スマートフォンを用いた新生児あやし動作の教示システム
スマートフォンを用いた新生児あやし動作の教示システム
sugiuralab
TSAL operation mechanism and circuit diagram.pdf
TSAL operation mechanism and circuit diagram.pdf
taisei2219
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Yuma Ohgami
Recently uploaded
(10)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
Postman LT Fukuoka_Quick Prototype_By Daniel
Postman LT Fukuoka_Quick Prototype_By Daniel
SOPを理解する 2024/04/19 の勉強会で発表されたものです
SOPを理解する 2024/04/19 の勉強会で発表されたものです
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNet
スマートフォンを用いた新生児あやし動作の教示システム
スマートフォンを用いた新生児あやし動作の教示システム
TSAL operation mechanism and circuit diagram.pdf
TSAL operation mechanism and circuit diagram.pdf
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Hessian free
1.
DeepLearningの最適化と Hessian Free 株式会社レトリバ 西鳥羽 二郎 ©
2017 Retrieva, Inc.
2.
レトリバセミナー • 毎週水曜日の12時〜13時で実施 • テーマは自由(技術的とは限らない) •
但し、必ず公開できる内容にして必ずオープンにする • Youtubeで公開し保存 • https://www.youtube.com/channel/UC5mjAq3PgaWhwcRyun7gteQ • 是非チャンネル登録して下さい!! © 2017 Retrieva, Inc. 2
3.
自己紹介 • 西鳥羽二郎(ID: jnishi) •
取締役 • リサーチャー • 自然言語処理 • 音声認識 © 2017 Retrieva, Inc. 3
4.
今日の話 • 数値最適化問題の話 • Deep
Learningの学習における数値最適化 • Hessian Free © 2017 Retrieva, Inc. 4
5.
数値最適化問題 © 2017 Retrieva,
Inc. 5
6.
最適化 • 目的関数 f(θ) •
f: 連続関数 • θ: 入力で与えるパラメータ • f(θ)の値を最小化するパラメータθとその時の値を求めたい © 2017 Retrieva, Inc. 6
7.
最適化の簡単なケース • 問題設定 • 2次元 •
目的関数はスカラー値 © 2017 Retrieva, Inc. 7
8.
© 2017 Retrieva,
Inc. 8 copyright: ForestWander Nature photograpy http://www.ForestWander.com 月のない夜道、突然背後から襲われ気絶しました… 気づいたら真っ暗な闇の中… ここは山の中だろうか… あなたは遭難時の鉄則に従い、山頂を目指して歩くことに…
9.
最適化問題との対応 • 登る方向: 勾配 •
高さ: 目的関数の値 • 最適化手法 • (どこを歩いているか分からないにせよ) 高いところに向かって歩く • どちらへ行こうとしても下る方向の時、その地点が求めたい所である © 2017 Retrieva, Inc. 9
10.
もうちょっと最適化問題との対応 • 最小化 • 谷底を見つける •
方向を決めた後にワープをする • 下り坂の方に方向を定める • 勾配に応じて移動距離を決める • 傾きが急であるときは良い方向であるので移動距離を長めに設定する • 傾きが緩やかであるときは様子見で移動距離を短めにする © 2017 Retrieva, Inc. 10
11.
Deep Learningにおける数値最適化 © 2017
Retrieva, Inc. 11
12.
local minimum © 2017
Retrieva, Inc. 12 こっちの方が高かった暗闇の中頑張って登ったら
13.
Cliff © 2017 Retrieva,
Inc. 13 傾きが急すぎて明後日の方向へ 急激に移動してしまう 本当はこちらに 進んで欲しい
14.
鞍点(Saddle Point) © 2017
Retrieva, Inc. 14 このあたりを行ったり 来たりしていてなかな か赤い方向へ進まない
15.
ill-conditioning • 最適化の基本となっている微分には実は誤差がある © 2017
Retrieva, Inc. 15 この部分が大きくて 勾配の誤差となる
16.
Deep Learningの学習における課題 © 2017
Retrieva, Inc. 16 • Deep Learningの学習における最適化は時間がかかる • DeepSpeech2(Baidu): GPU1台だと3〜6週間 • RNN言語モデル(Google): Tesla K40を32台で10日
17.
Deep Learningの学習における工夫 • 学習の高速化についての工夫は以下の点に注目して行われてい る •
イテレーションの回数 • 1イテレーションあたりの時間 © 2017 Retrieva, Inc. 17
18.
Deep Learningの学習における工夫 • 学習の高速化についての工夫は以下の点に注目して行われてい る •
イテレーションの回数 • 1イテレーションあたりの時間 © 2017 Retrieva, Inc. 18
19.
イテレーション回数 • Ill-conditioning, Cliff,
Plateaus上でも目的関数の値が良くなる方向 を効率的に求める工夫 • momentum • 学習係数の自動調整(Adaptive Learning Rate) • gradient clipping • etc. © 2017 Retrieva, Inc. 19
20.
momentum • 一つ前に動いた方向の情報を覚えておき、 • 同じ方向に動いた際にはその方向には加速する •
逆の方向に動いた際にはその方向の動きは抑制する © 2017 Retrieva, Inc. 20 momentum無し momentum有り copyright: postd
21.
学習係数の自動調整 • 各次元において、学習データでの含有具合に応じて更新量を調 整する • 学習データで頻出する次元に関しては更新量を小さく •
学習データでまれなに出現する次元に関しては更新量を多く © 2017 Retrieva, Inc. 21
22.
gradient clipping • 勾配が急であれば大きくする更新量の大きさに制限を加える ©
2017 Retrieva, Inc. 22
23.
Deep Learningの学習における工夫 • 学習の高速化についての工夫は以下の点に注目して行われてい る •
イテレーションの回数 • 1イテレーションあたりの時間 © 2017 Retrieva, Inc. 23
24.
1イテレーションあたりの時間 • GPUの特性を活かして高速化を行う • 学習データ毎に以下の計算をする ©
2017 Retrieva, Inc. 24 • forward • backward • 更新するパラメータの計算 1度のGPUで計算する単位 これを大きくすることに 寄って高速化が出来る
25.
GPUで計算する量を多くする © 2017 Retrieva,
Inc. 25 モデルのサイズ • 層の大きさ • 層の数 • (RNNの場合)系列の長さ 入力のミニバッチのサイズ バッチサイズを大きくする xDeep Learningの計算量の オーダー ≒
26.
SGDベースの最適化 収束を早める工夫 1イテレーションあたり の計算の高速化 SGDベースの最適化 momentum 学習係数の自動調整 gradient
clipping 〜128 or 256程度の minbatchを用いる © 2017 Retrieva, Inc. 26
27.
Hessian Free © 2017
Retrieva, Inc. 27
28.
Hessian 説明 行列演算名 1次微分 関数の勾配
J: Jacobian 2次微分 曲率(勾配の勾配) H: Hessian © 2017 Retrieva, Inc. 28
29.
Hessian行列 © 2017 Retrieva,
Inc. 29 i行j列の要素において、 xi とxj で偏微分している
30.
Hessianの利点(その1) • ill-conditioningで触れた2次のTaylor展開の誤差も考慮できる © 2017
Retrieva, Inc. 30 勾配の誤差となって いたこの情報も考慮 できる
31.
Hessianの利点(その2) • Hessianを用いた2次最適化アルゴリズムを用いることができる • 一般には2次収束する •
(ただし、Deep Learningに用いた時に2次収束するかどうかは示され ていない) © 2017 Retrieva, Inc. 31
32.
Hessianの利点(その3) • 鞍点から抜け出すための情報が含まれている © 2017
Retrieva, Inc. 32 鞍点の場合、それぞれの次元に おけるHessianの固有値の符号 が違う
33.
Hessianを用いた最適化 収束を早める工夫 バッチサイズの大きさ SGDベースの最適化 勾配 momentum 学習係数の自動調整 gradient
clipping 〜128 or 256 Hessianを用いた最適化 勾配+曲率情報 © 2017 Retrieva, Inc. 33
34.
Hessian行列 © 2017 Retrieva,
Inc. 34 パラメータxパラメータのサイズ
35.
Hessianを用いる時の課題 • Hessian行列が巨大である • パラメータ数の2乗のオーダーのメモリが必要 •
パラメータ数の3乗のオーダーの計算量を必要とする • Deep Learningの場合パラメータ数は数百万〜数千万個 © 2017 Retrieva, Inc. 35
36.
Hessianを用いる • Hessianを用いる最適化には以下の特徴がある • xHxの様にHessianを用いた計算結果は必要 •
一方、Hessianの値を直接参照する必要はない © 2017 Retrieva, Inc. 36
37.
Hessianを必要とする例 • Conjugate Gradient •
(この例だとA=H) © 2017 Retrieva, Inc. 37 Hessianを用いる ところの計算結果 はパラメータ数の オーダー
38.
Hessianを必要とする例 • Bi-CG-STAB • (A=H) ©
2017 Retrieva, Inc. 38 e scaling of different part in distributed HF on upto 32 nodes (1,152 cores). always find a descent di- gative directions, the ap- unbounded below, which uch direction (at least lo- ximation is valid). It was nd Prieto (2008) that if al- e directions, it will even- critical point. improved method to find y stabilized bi-conjugate Algorithm 3), which is ed to solve unsymmetri- Algorithm 3 Bi-CG-STAB Algorithm 1: Compute r0 := b − Ax0. Choose r∗ 0 such that (r0, r∗ 0) ̸= 0 2: p0 := r0, k := 0 3: if Termination condition not satisfied then 4: αj := (rj , r∗ 0)/ (Apj , r∗ 0) 5: sj := rj − αj Apj 6: γj := (sj , Asj )/ (Asj , Asj ) 7: xj + 1 := xj + αj pj + γj sj 8: rj + 1 := sj − γj Asj 9: βj := (r j + 1 ,r ∗ 0 ) (r j ,r ∗ 0 ) × α j γj 10: pj + 1 := rj + 1 + βj (pj − γj Apj ) 11: end if Hessianを用いる ところの計算結果 はパラメータ数の オーダー
39.
Hessianの用いる際の計算の工夫 • 最終結果がベクトル(=パラメータ数のオーダー) • 計算過程に工夫をすればパラメータ数の3乗の計算(行列積)は必 要ないのではないか ©
2017 Retrieva, Inc. 39
40.
Hessian Free • Hx
のようなHessian行列 x ベクトルの値をベクトルの内積で近 似する • それによりパラメータ数の3乗のオーダーの計算量をパラメー タ数のオーダーに減らすことができる © 2017 Retrieva, Inc. 40
41.
Hessian演算の近似 • H(Hessian) と
v(ベクトル)の積を次の式で近似する © 2017 Retrieva, Inc. 41 ) pproximated) Hessian-vector tor product ∇ 2 f [i ] (θk )v cor- ini-batch on each node i = o root node to obtain Gk (v) = 各パラメータの二階の微分 ベクトルとvの積で近似
42.
H(θ)の求め方 © 2017 Retrieva,
Inc. 42 各パラメータの⊿を用いて forwardのような処理を行う
43.
H(θ)の求め方 © 2017 Retrieva,
Inc. 43 ⊿を用いて損失関数の 2階微分を求める
44.
H(θ)の求め方 © 2017 Retrieva,
Inc. 44 back propagationのような 処理を行う
45.
MNISTにおける比較 © 2017 Retrieva,
Inc. 45 学習データに おける損失
46.
MNISTにおける比較 © 2017 Retrieva,
Inc. 46 テストデータに おける精度
47.
GPUで計算する量を多くする(再掲) © 2017 Retrieva,
Inc. 47 モデルのサイズ • 層の大きさ • 層の数 • (RNNの場合)系列の長さ 入力のミニバッチのサイズ バッチサイズを大きくする xDeep Learningの計算量の オーダー ≒
48.
MNISTにおける比較 © 2017 Retrieva,
Inc. 48 バッチサイズ2048
49.
MNISTにおける比較 © 2017 Retrieva,
Inc. 49 バッチサイズ2048 までは収束が早く なっている
50.
Hessianを用いた最適化 収束を早める工夫 バッチサイズの大きさ SGDベースの最適化 勾配 momentum second-momentum gradient
clipping 〜128 or 256 Hessianを用いた最適化 勾配+曲率情報 数千 © 2017 Retrieva, Inc. 50
51.
まとめ • 数値最適化は暗闇の中で山を登っていくようなもの • Deep
Learningにおける最適化の難しさ • Hessian Freeの紹介 • Hessianの曲率の情報を用いた最適化 • 大きいバッチサイズに対応 © 2017 Retrieva, Inc. 51
52.
参考文献 • James Marten,
Ilya Sutskever Training Deep and Recurrent Networks with Hessian-Free Optimization • Ian Goodfellow and Yoshua Bengio and Aaron Courville Deep Learning • He, et al. Distributed Hessian-Free Optimization for Deep Neural Network • Krause, et al. On the Efficiency of Recurrent Neural Network Optimization Algorithms © 2017 Retrieva, Inc. 52
Download now