Submit Search
Upload
A3C解説
•
Download as PPTX, PDF
•
6 likes
•
14,180 views
H
harmonylab
Follow
DQNを開発したチームによる非同期並列な深層教科学習アルゴリズムの論文を紹介しています。
Read less
Read more
Technology
Report
Share
Report
Share
1 of 14
Download now
Recommended
生成モデルの Deep Learning
生成モデルの Deep Learning
Seiya Tokui
強化学習と逆強化学習を組み合わせた模倣学習
強化学習と逆強化学習を組み合わせた模倣学習
Eiji Uchibe
強化学習 DQNからPPOまで
強化学習 DQNからPPOまで
harmonylab
Introduction to A3C model
Introduction to A3C model
WEBFARMER. ltd.
[DL輪読会]相互情報量最大化による表現学習
[DL輪読会]相互情報量最大化による表現学習
Deep Learning JP
[DL輪読会] マルチエージェント強化学習と心の理論
[DL輪読会] マルチエージェント強化学習と心の理論
Deep Learning JP
強化学習アルゴリズムPPOの解説と実験
強化学習アルゴリズムPPOの解説と実験
克海 納谷
多様な強化学習の概念と課題認識
多様な強化学習の概念と課題認識
佑 甲野
Recommended
生成モデルの Deep Learning
生成モデルの Deep Learning
Seiya Tokui
強化学習と逆強化学習を組み合わせた模倣学習
強化学習と逆強化学習を組み合わせた模倣学習
Eiji Uchibe
強化学習 DQNからPPOまで
強化学習 DQNからPPOまで
harmonylab
Introduction to A3C model
Introduction to A3C model
WEBFARMER. ltd.
[DL輪読会]相互情報量最大化による表現学習
[DL輪読会]相互情報量最大化による表現学習
Deep Learning JP
[DL輪読会] マルチエージェント強化学習と心の理論
[DL輪読会] マルチエージェント強化学習と心の理論
Deep Learning JP
強化学習アルゴリズムPPOの解説と実験
強化学習アルゴリズムPPOの解説と実験
克海 納谷
多様な強化学習の概念と課題認識
多様な強化学習の概念と課題認識
佑 甲野
Curriculum Learning (関東CV勉強会)
Curriculum Learning (関東CV勉強会)
Yoshitaka Ushiku
【DL輪読会】マルチモーダル 基盤モデル
【DL輪読会】マルチモーダル 基盤モデル
Deep Learning JP
HiPPO/S4解説
HiPPO/S4解説
Morpho, Inc.
【DL輪読会】マルチエージェント強化学習における近年の 協調的方策学習アルゴリズムの発展
【DL輪読会】マルチエージェント強化学習における近年の 協調的方策学習アルゴリズムの発展
Deep Learning JP
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
Deep Learning JP
【論文読み会】Deep Clustering for Unsupervised Learning of Visual Features
【論文読み会】Deep Clustering for Unsupervised Learning of Visual Features
ARISE analytics
【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks?
【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks?
Deep Learning JP
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Yusuke Uchida
Active Learning 入門
Active Learning 入門
Shuyo Nakatani
【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究について
Deep Learning JP
全力解説!Transformer
全力解説!Transformer
Arithmer Inc.
POMDP下での強化学習の基礎と応用
POMDP下での強化学習の基礎と応用
Yasunori Ozaki
深層強化学習の分散化・RNN利用の動向〜R2D2の紹介をもとに〜
深層強化学習の分散化・RNN利用の動向〜R2D2の紹介をもとに〜
Jun Okumura
[DL輪読会]Flow-based Deep Generative Models
[DL輪読会]Flow-based Deep Generative Models
Deep Learning JP
【DL輪読会】Flow Matching for Generative Modeling
【DL輪読会】Flow Matching for Generative Modeling
Deep Learning JP
【DL輪読会】時系列予測 Transfomers の精度向上手法
【DL輪読会】時系列予測 Transfomers の精度向上手法
Deep Learning JP
深層生成モデルと世界モデル
深層生成モデルと世界モデル
Masahiro Suzuki
機械学習におけるオンライン確率的最適化の理論
機械学習におけるオンライン確率的最適化の理論
Taiji Suzuki
最適輸送の計算アルゴリズムの研究動向
最適輸送の計算アルゴリズムの研究動向
ohken
ResNetの仕組み
ResNetの仕組み
Kota Nagasato
A3Cという強化学習アルゴリズムで遊んでみた話
A3Cという強化学習アルゴリズムで遊んでみた話
mooopan
7月10日(月)dl
7月10日(月)dl
harmonylab
More Related Content
What's hot
Curriculum Learning (関東CV勉強会)
Curriculum Learning (関東CV勉強会)
Yoshitaka Ushiku
【DL輪読会】マルチモーダル 基盤モデル
【DL輪読会】マルチモーダル 基盤モデル
Deep Learning JP
HiPPO/S4解説
HiPPO/S4解説
Morpho, Inc.
【DL輪読会】マルチエージェント強化学習における近年の 協調的方策学習アルゴリズムの発展
【DL輪読会】マルチエージェント強化学習における近年の 協調的方策学習アルゴリズムの発展
Deep Learning JP
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
Deep Learning JP
【論文読み会】Deep Clustering for Unsupervised Learning of Visual Features
【論文読み会】Deep Clustering for Unsupervised Learning of Visual Features
ARISE analytics
【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks?
【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks?
Deep Learning JP
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Yusuke Uchida
Active Learning 入門
Active Learning 入門
Shuyo Nakatani
【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究について
Deep Learning JP
全力解説!Transformer
全力解説!Transformer
Arithmer Inc.
POMDP下での強化学習の基礎と応用
POMDP下での強化学習の基礎と応用
Yasunori Ozaki
深層強化学習の分散化・RNN利用の動向〜R2D2の紹介をもとに〜
深層強化学習の分散化・RNN利用の動向〜R2D2の紹介をもとに〜
Jun Okumura
[DL輪読会]Flow-based Deep Generative Models
[DL輪読会]Flow-based Deep Generative Models
Deep Learning JP
【DL輪読会】Flow Matching for Generative Modeling
【DL輪読会】Flow Matching for Generative Modeling
Deep Learning JP
【DL輪読会】時系列予測 Transfomers の精度向上手法
【DL輪読会】時系列予測 Transfomers の精度向上手法
Deep Learning JP
深層生成モデルと世界モデル
深層生成モデルと世界モデル
Masahiro Suzuki
機械学習におけるオンライン確率的最適化の理論
機械学習におけるオンライン確率的最適化の理論
Taiji Suzuki
最適輸送の計算アルゴリズムの研究動向
最適輸送の計算アルゴリズムの研究動向
ohken
ResNetの仕組み
ResNetの仕組み
Kota Nagasato
What's hot
(20)
Curriculum Learning (関東CV勉強会)
Curriculum Learning (関東CV勉強会)
【DL輪読会】マルチモーダル 基盤モデル
【DL輪読会】マルチモーダル 基盤モデル
HiPPO/S4解説
HiPPO/S4解説
【DL輪読会】マルチエージェント強化学習における近年の 協調的方策学習アルゴリズムの発展
【DL輪読会】マルチエージェント強化学習における近年の 協調的方策学習アルゴリズムの発展
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
【論文読み会】Deep Clustering for Unsupervised Learning of Visual Features
【論文読み会】Deep Clustering for Unsupervised Learning of Visual Features
【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks?
【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks?
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Active Learning 入門
Active Learning 入門
【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究について
全力解説!Transformer
全力解説!Transformer
POMDP下での強化学習の基礎と応用
POMDP下での強化学習の基礎と応用
深層強化学習の分散化・RNN利用の動向〜R2D2の紹介をもとに〜
深層強化学習の分散化・RNN利用の動向〜R2D2の紹介をもとに〜
[DL輪読会]Flow-based Deep Generative Models
[DL輪読会]Flow-based Deep Generative Models
【DL輪読会】Flow Matching for Generative Modeling
【DL輪読会】Flow Matching for Generative Modeling
【DL輪読会】時系列予測 Transfomers の精度向上手法
【DL輪読会】時系列予測 Transfomers の精度向上手法
深層生成モデルと世界モデル
深層生成モデルと世界モデル
機械学習におけるオンライン確率的最適化の理論
機械学習におけるオンライン確率的最適化の理論
最適輸送の計算アルゴリズムの研究動向
最適輸送の計算アルゴリズムの研究動向
ResNetの仕組み
ResNetの仕組み
Viewers also liked
A3Cという強化学習アルゴリズムで遊んでみた話
A3Cという強化学習アルゴリズムで遊んでみた話
mooopan
7月10日(月)dl
7月10日(月)dl
harmonylab
Globally and Locally Consistent Image Completion
Globally and Locally Consistent Image Completion
harmonylab
Generating Videos with Scene Dynamics
Generating Videos with Scene Dynamics
harmonylab
Colorful image colorization
Colorful image colorization
harmonylab
Deeply-Recursive Convolutional Network for Image Super-Resolution
Deeply-Recursive Convolutional Network for Image Super-Resolution
harmonylab
Deep Forest: Towards An Alternative to Deep Neural Networks
Deep Forest: Towards An Alternative to Deep Neural Networks
harmonylab
DLゼミ20170522
DLゼミ20170522
harmonylab
勉強会用スライド
勉強会用スライド
harmonylab
Mobilenet
Mobilenet
harmonylab
勉強会用スライド
勉強会用スライド
harmonylab
Deep voice
Deep voice
harmonylab
Ai勉強会20170127
Ai勉強会20170127
harmonylab
Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Network
Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Network
harmonylab
AI勉強会用スライド
AI勉強会用スライド
harmonylab
DeepLoco
DeepLoco
harmonylab
A simple neural network mnodule for relation reasoning
A simple neural network mnodule for relation reasoning
harmonylab
Densely Connected Convolutional Networks
Densely Connected Convolutional Networks
harmonylab
Continuous control with deep reinforcement learning (DDPG)
Continuous control with deep reinforcement learning (DDPG)
Taehoon Kim
【2016.01】(1/3)cvpaper.challenge2016
【2016.01】(1/3)cvpaper.challenge2016
cvpaper. challenge
Viewers also liked
(20)
A3Cという強化学習アルゴリズムで遊んでみた話
A3Cという強化学習アルゴリズムで遊んでみた話
7月10日(月)dl
7月10日(月)dl
Globally and Locally Consistent Image Completion
Globally and Locally Consistent Image Completion
Generating Videos with Scene Dynamics
Generating Videos with Scene Dynamics
Colorful image colorization
Colorful image colorization
Deeply-Recursive Convolutional Network for Image Super-Resolution
Deeply-Recursive Convolutional Network for Image Super-Resolution
Deep Forest: Towards An Alternative to Deep Neural Networks
Deep Forest: Towards An Alternative to Deep Neural Networks
DLゼミ20170522
DLゼミ20170522
勉強会用スライド
勉強会用スライド
Mobilenet
Mobilenet
勉強会用スライド
勉強会用スライド
Deep voice
Deep voice
Ai勉強会20170127
Ai勉強会20170127
Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Network
Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Network
AI勉強会用スライド
AI勉強会用スライド
DeepLoco
DeepLoco
A simple neural network mnodule for relation reasoning
A simple neural network mnodule for relation reasoning
Densely Connected Convolutional Networks
Densely Connected Convolutional Networks
Continuous control with deep reinforcement learning (DDPG)
Continuous control with deep reinforcement learning (DDPG)
【2016.01】(1/3)cvpaper.challenge2016
【2016.01】(1/3)cvpaper.challenge2016
Similar to A3C解説
1017 論文紹介第四回
1017 論文紹介第四回
Kohei Wakamatsu
分散型強化学習手法の最近の動向と分散計算フレームワークRayによる実装の試み
分散型強化学習手法の最近の動向と分散計算フレームワークRayによる実装の試み
SusumuOTA
Rainbow: Combining Improvements in Deep Reinforcement Learning (AAAI2018 unde...
Rainbow: Combining Improvements in Deep Reinforcement Learning (AAAI2018 unde...
Toru Fujino
NeurIPS'21参加報告 tanimoto_public
NeurIPS'21参加報告 tanimoto_public
Akira Tanimoto
北大調和系 DLゼミ A3C
北大調和系 DLゼミ A3C
Tomoya Oda
ブースティング入門
ブースティング入門
Retrieva inc.
Image net classification with Deep Convolutional Neural Networks
Image net classification with Deep Convolutional Neural Networks
Shingo Horiuchi
SoCC12報告
SoCC12報告
Hirotaka Ogawa
Similar to A3C解説
(8)
1017 論文紹介第四回
1017 論文紹介第四回
分散型強化学習手法の最近の動向と分散計算フレームワークRayによる実装の試み
分散型強化学習手法の最近の動向と分散計算フレームワークRayによる実装の試み
Rainbow: Combining Improvements in Deep Reinforcement Learning (AAAI2018 unde...
Rainbow: Combining Improvements in Deep Reinforcement Learning (AAAI2018 unde...
NeurIPS'21参加報告 tanimoto_public
NeurIPS'21参加報告 tanimoto_public
北大調和系 DLゼミ A3C
北大調和系 DLゼミ A3C
ブースティング入門
ブースティング入門
Image net classification with Deep Convolutional Neural Networks
Image net classification with Deep Convolutional Neural Networks
SoCC12報告
SoCC12報告
More from harmonylab
【修士論文】代替出勤者の選定業務における依頼順決定方法に関する研究 千坂知也
【修士論文】代替出勤者の選定業務における依頼順決定方法に関する研究 千坂知也
harmonylab
【修士論文】経路探索のための媒介中心性に基づく道路ネットワーク階層化手法に関する研究
【修士論文】経路探索のための媒介中心性に基づく道路ネットワーク階層化手法に関する研究
harmonylab
A Study on Decision Support System for Snow Removal Dispatch using Road Surfa...
A Study on Decision Support System for Snow Removal Dispatch using Road Surfa...
harmonylab
【卒業論文】印象タグを用いた衣服画像生成システムに関する研究
【卒業論文】印象タグを用いた衣服画像生成システムに関する研究
harmonylab
【卒業論文】大規模言語モデルを用いたマニュアル文章修正手法に関する研究
【卒業論文】大規模言語モデルを用いたマニュアル文章修正手法に関する研究
harmonylab
DLゼミ:Primitive Generation and Semantic-related Alignment for Universal Zero-S...
DLゼミ:Primitive Generation and Semantic-related Alignment for Universal Zero-S...
harmonylab
DLゼミ: MobileOne: An Improved One millisecond Mobile Backbone
DLゼミ: MobileOne: An Improved One millisecond Mobile Backbone
harmonylab
DLゼミ: Llama 2: Open Foundation and Fine-Tuned Chat Models
DLゼミ: Llama 2: Open Foundation and Fine-Tuned Chat Models
harmonylab
DLゼミ: ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
DLゼミ: ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
harmonylab
Voyager: An Open-Ended Embodied Agent with Large Language Models
Voyager: An Open-Ended Embodied Agent with Large Language Models
harmonylab
DLゼミ: Ego-Body Pose Estimation via Ego-Head Pose Estimation
DLゼミ: Ego-Body Pose Estimation via Ego-Head Pose Estimation
harmonylab
ReAct: Synergizing Reasoning and Acting in Language Models
ReAct: Synergizing Reasoning and Acting in Language Models
harmonylab
形態素解析を用いた帝国議会議事速記録の変遷に関する研究
形態素解析を用いた帝国議会議事速記録の変遷に関する研究
harmonylab
【卒業論文】深層生成モデルを用いたユーザ意図に基づく衣服画像の生成に関する研究
【卒業論文】深層生成モデルを用いたユーザ意図に基づく衣服画像の生成に関する研究
harmonylab
灯油タンク内の液面高計測を用いた灯油残量推定システムに関する研究
灯油タンク内の液面高計測を用いた灯油残量推定システムに関する研究
harmonylab
深層自己回帰モデルを用いた俳句の生成と評価に関する研究
深層自己回帰モデルを用いた俳句の生成と評価に関する研究
harmonylab
競輪におけるレーティングシステムを用いた予想記事生成に関する研究
競輪におけるレーティングシステムを用いた予想記事生成に関する研究
harmonylab
【卒業論文】B2Bオークションにおけるユーザ別 入札行動予測に関する研究
【卒業論文】B2Bオークションにおけるユーザ別 入札行動予測に関する研究
harmonylab
A Study on Estimation of Household Kerosene Consumption for Optimization of D...
A Study on Estimation of Household Kerosene Consumption for Optimization of D...
harmonylab
マルチエージェント深層強化学習による自動運転車両の追越行動の獲得に関する研究
マルチエージェント深層強化学習による自動運転車両の追越行動の獲得に関する研究
harmonylab
More from harmonylab
(20)
【修士論文】代替出勤者の選定業務における依頼順決定方法に関する研究 千坂知也
【修士論文】代替出勤者の選定業務における依頼順決定方法に関する研究 千坂知也
【修士論文】経路探索のための媒介中心性に基づく道路ネットワーク階層化手法に関する研究
【修士論文】経路探索のための媒介中心性に基づく道路ネットワーク階層化手法に関する研究
A Study on Decision Support System for Snow Removal Dispatch using Road Surfa...
A Study on Decision Support System for Snow Removal Dispatch using Road Surfa...
【卒業論文】印象タグを用いた衣服画像生成システムに関する研究
【卒業論文】印象タグを用いた衣服画像生成システムに関する研究
【卒業論文】大規模言語モデルを用いたマニュアル文章修正手法に関する研究
【卒業論文】大規模言語モデルを用いたマニュアル文章修正手法に関する研究
DLゼミ:Primitive Generation and Semantic-related Alignment for Universal Zero-S...
DLゼミ:Primitive Generation and Semantic-related Alignment for Universal Zero-S...
DLゼミ: MobileOne: An Improved One millisecond Mobile Backbone
DLゼミ: MobileOne: An Improved One millisecond Mobile Backbone
DLゼミ: Llama 2: Open Foundation and Fine-Tuned Chat Models
DLゼミ: Llama 2: Open Foundation and Fine-Tuned Chat Models
DLゼミ: ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
DLゼミ: ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
Voyager: An Open-Ended Embodied Agent with Large Language Models
Voyager: An Open-Ended Embodied Agent with Large Language Models
DLゼミ: Ego-Body Pose Estimation via Ego-Head Pose Estimation
DLゼミ: Ego-Body Pose Estimation via Ego-Head Pose Estimation
ReAct: Synergizing Reasoning and Acting in Language Models
ReAct: Synergizing Reasoning and Acting in Language Models
形態素解析を用いた帝国議会議事速記録の変遷に関する研究
形態素解析を用いた帝国議会議事速記録の変遷に関する研究
【卒業論文】深層生成モデルを用いたユーザ意図に基づく衣服画像の生成に関する研究
【卒業論文】深層生成モデルを用いたユーザ意図に基づく衣服画像の生成に関する研究
灯油タンク内の液面高計測を用いた灯油残量推定システムに関する研究
灯油タンク内の液面高計測を用いた灯油残量推定システムに関する研究
深層自己回帰モデルを用いた俳句の生成と評価に関する研究
深層自己回帰モデルを用いた俳句の生成と評価に関する研究
競輪におけるレーティングシステムを用いた予想記事生成に関する研究
競輪におけるレーティングシステムを用いた予想記事生成に関する研究
【卒業論文】B2Bオークションにおけるユーザ別 入札行動予測に関する研究
【卒業論文】B2Bオークションにおけるユーザ別 入札行動予測に関する研究
A Study on Estimation of Household Kerosene Consumption for Optimization of D...
A Study on Estimation of Household Kerosene Consumption for Optimization of D...
マルチエージェント深層強化学習による自動運転車両の追越行動の獲得に関する研究
マルチエージェント深層強化学習による自動運転車両の追越行動の獲得に関する研究
Recently uploaded
PHP-Conference-Odawara-2024-04-000000000
PHP-Conference-Odawara-2024-04-000000000
Shota Ito
UPWARD_share_company_information_20240415.pdf
UPWARD_share_company_information_20240415.pdf
furutsuka
Amazon SES を勉強してみる その12024/04/12の勉強会で発表されたものです。
Amazon SES を勉強してみる その12024/04/12の勉強会で発表されたものです。
iPride Co., Ltd.
20240412_HCCJP での Windows Server 2025 Active Directory
20240412_HCCJP での Windows Server 2025 Active Directory
osamut
IoT in the era of generative AI, Thanks IoT ALGYAN.pptx
IoT in the era of generative AI, Thanks IoT ALGYAN.pptx
Atomu Hidaka
Postman LT Fukuoka_Quick Prototype_By Daniel
Postman LT Fukuoka_Quick Prototype_By Daniel
danielhu54
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
Ryo Sasaki
新人研修のまとめ 2024/04/12の勉強会で発表されたものです。
新人研修のまとめ 2024/04/12の勉強会で発表されたものです。
iPride Co., Ltd.
スマートフォンを用いた新生児あやし動作の教示システム
スマートフォンを用いた新生児あやし動作の教示システム
sugiuralab
Recently uploaded
(9)
PHP-Conference-Odawara-2024-04-000000000
PHP-Conference-Odawara-2024-04-000000000
UPWARD_share_company_information_20240415.pdf
UPWARD_share_company_information_20240415.pdf
Amazon SES を勉強してみる その12024/04/12の勉強会で発表されたものです。
Amazon SES を勉強してみる その12024/04/12の勉強会で発表されたものです。
20240412_HCCJP での Windows Server 2025 Active Directory
20240412_HCCJP での Windows Server 2025 Active Directory
IoT in the era of generative AI, Thanks IoT ALGYAN.pptx
IoT in the era of generative AI, Thanks IoT ALGYAN.pptx
Postman LT Fukuoka_Quick Prototype_By Daniel
Postman LT Fukuoka_Quick Prototype_By Daniel
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
新人研修のまとめ 2024/04/12の勉強会で発表されたものです。
新人研修のまとめ 2024/04/12の勉強会で発表されたものです。
スマートフォンを用いた新生児あやし動作の教示システム
スマートフォンを用いた新生児あやし動作の教示システム
A3C解説
1.
Volodymyr Mnih,Adrià Puigdomènech
Badia,Mehdi Mirza,et al. arXiv:1602.01783v2 [cs.LG] 16 Jun 2016 Asynchronous Methods for Deep Reinforcement Learning DeepLearningゼミ M1小川一太郎
2.
DQNおさらい • 𝑄 𝑠,
𝑎 ← 𝑄 𝑠, 𝑎 + 𝛼( 𝑟 + 𝛾𝑚𝑎𝑥𝑄∗ 𝑠′ , 𝑎′ − 𝑄(𝑠, 𝑎)) • 行動したあとの状態をもとに、報酬(r)と遷移後の行動価値(Q*)を判断する • Experience Replay 学習データをランダムに選択 • 学習データの相関をなくす • Reword Clipping • 報酬を±1に(大きさの固定) • Target Network • 教師データのNNを遅れて更新 • Loss Clipping • Qの更新時の勾配の大きさの最大最小値を±1に(大きな更新を防ぐ)
3.
Deep Rainforce Learningの改善の方向性 今までのDRL •
Online-agentによるデータは否定常 • OnlineRLの更新は非常に相関が強い • バッチ化やExperience Replayで改善 • Off-PolicyなRLメソッドに限定していた(例:過去のデータから学習) Experience Replay メモリ使用大 計算量大 改善の方向性:より定常なプロセスでデータ収集出来るのではないか
4.
非同期並列な学習 • データを非同期並列に学習する • エージェント&学習部の探索方針が違う 利点:学習が安定化 •
学習時間がactor-learnerの分だけ減らせる • Experience Replayに頼らないため、on-poicyなメソッドを使用できる Off-Policy ON-Policy Q学習 • Sarsa • n-step methods • Actor-Critic methods メソッド例
5.
On-Policyなメソッド① Sarsa • ほぼQ学習と同じ • 更新式𝑄
𝑠, 𝑎 ← 𝑄 𝑠, 𝑎 + 𝛼 𝑟 + 𝛾𝑄 𝑠′ , 𝑎′ − 𝑄 𝑠, 𝑎 • maxQ*ではなく、実際の行動a’を使用 N-step Q-Learning • 更新式(変化部分だけ) (𝑟𝑡+𝛾𝑟𝑡+1 + 𝛾2 𝑟𝑡+2 + ⋯ + 𝛾 𝑛−1 𝑟𝑡+𝑛−1) + 𝛾 𝑛 𝑚𝑎𝑥𝑄∗ 𝑠𝑡+𝑛, 𝑎 𝑡+𝑛 − 𝑄 𝑠, 𝑎 • N回分まで実際に得た報酬を使用して学習
6.
On-Policyなメソッド② Actor-Critic • 状態の表現方法 • 価値関数とは別に方策を表現する •
行動選択(P:状態sで行動aとる確率) • 𝜋 𝑡 𝑠, 𝑎 = 𝑃𝑟 𝑎 𝑡 = 𝑎 𝑠𝑡 = 𝑠 = 𝑒 𝑃(𝑠,𝑎) 𝑏 𝑒 𝑃(𝑠,𝑏) • 状態価値観数 • 𝑉 𝑠𝑡 ← 𝑉 𝑠𝑡 + 𝛼[𝑟𝑡+1 + 𝛾𝑉 𝑠𝑡+1 − 𝑉(𝑠𝑡)] • 𝑃 𝑠𝑡, 𝑎 𝑡 ← 𝑃 𝑠𝑡, 𝑎 𝑡 + 𝛽𝛿𝑡
7.
非同期並列な強化学習(Q学習) ローカルなQネット(θ)を使用して それぞれのacter-learnerで勾配を蓄積 一定回数ごとにTネット(θ-)を グローバルなQネット(θ)から更新 蓄積した勾配をもとに、一定回数ごとに グローバルなQネット(θ)を更新 異なる探索方式が存在しているた め、ロバスト性が改善される
8.
A3C asynchronous advantage
actor-critic 規定の回数まで行動する 行動にはθを用いる 報酬計算はθ’を用いる 終了から報酬を逆算する θとθ’を更新 CNN層のみ共有し、出力は 方策:ソフトマックス 価値:線形結合
9.
実験 Atari2600 • DQNと同様にAtari2600のスコアを計算 •
グラフの縦軸はスコア、横軸は時間 • 16スレッド • エピソード長5 同期頻度5 NNの構造 • 16filter 8*8size stride4 • 32filter 4*4size stride2 • 256 hidden 57ゲームにおいて人間のスコアと比較。 A3CにLSTM層を追加したものが非常に 高い値を記録している。
10.
実験 Atari2600 • 各手法でゲームをしたときのスコアを比較 •
それぞれの値は提唱された論文に記載のものを使用 • 57種類のゲームのうち最大の点数となったもの • A3C FF, 1day 3種類 • A3C FF 4種類 • L3C LSTM 19種類 (最後に256のLSTM層) 他手法との比較(例)
11.
TORCS Car Racing
Simulator • Atariの時と同じアーキテクチャ • 12時間の学習 • 人のテスターが得たスコアのだいたい75%~90%を得ることができる
12.
Labyrinth • りんごを獲得 1pt •
ゴールに到達 10pt • 60秒で1エピソード
13.
まとめ • 非同期並列なDRLの方法を提唱した • A3Cは既存の手法よりも良い結果を残した •
ARLの利点として • Experience Replayを使用しないため探索に方策を持つことができる • エージェント、学習部の探索方針が違うため、学習データの相関が減少 • マルチCPUで動作するため、通信コストが削減
14.
参考資料 • Asynchronous Methods
for Deep Reinforcement Learning (紹介論文) Volodymyr Mnih,Adrià Puigdomènech Badia,Mehdi Mirza,et al. https://arxiv.org/pdf/1602.01783.pdf • 強化学習の基礎 小池 康晴 東京工業大学 精密工学研究所 鮫島 和行 科学技術振興事業団 ERATO 川人学習動態脳プロジェク ト http://www.jnns.org/previous/niss/2000/text/koike2.pdf
Download now