SlideShare a Scribd company logo
1 of 32
Download to read offline
ディープラーニングの最新動向
強化学習とのコラボ編⑥ A3C	
2017/1/11
株式会社ウェブファーマー
大政孝充
今回取り上げるのはこれ	
[1] Volodymyr Mnih, Adria` Puigdome`nech Badia, Mehdi
Mirza, Alex Graves, Timothy P. Lillicrap, Tim Harley, David
Silver, and Koray Kavukcuoglu. Asynchronous methods for
deep reinforcement learning. In Proceedings of the 33rd
International Conference on Machine Learning (ICML), pp.
1928–1937, 2016.
Asynchronousな手法によりreplay memoryを廃し、DQNより
高速かつ高精度な学習を達成した!
DQNからA3Cまでのイメージ	
DQN
2013NIPs	
並列処理のしくみ
DQN
2015Nature
UNREAL
Q学習な手法
A3C
psedoな報酬
DistBrief Gorila
actore-criticな手法
Asynchronous
なDQN
強化学習の基本①	
Li θi( )= E r +γ max
a'
Q s',a';θi−1( )−Q s,a;θi( )( )
2
1-step Q学習の損失関数	
actor-criticにおける
目的関数の勾配	
1-step Sarsaの損失関数	 Li θi( )= E r +γQ s',a';θi−1( )−Q s,a;θi( )( )
2
n-step Q学習の損失関数	 Li θi( )= E γk
rt+k
k=0
n
∑ + maxγ
a'
n
Q s',a';θi−1( )−Q s,a;θi( )
⎛
⎝
⎜
⎞
⎠
⎟
2
∇θ J θ( )= E ∇θ logπ at | st;θ( ) Rt −Vπ
st( )( )⎡
⎣
⎤
⎦
r
γ Q s,a;θi( )
Vπ
st( )
:割引率	
:報酬	
:状態 s で行動 a を取る場合の行動価値関数	
:状態 s の価値関数
強化学習の基本②	
Li θi( )= E r +γ max
a'
Q s',a';θi−1( )−Q s,a;θi( )( )
2
1-step Q学習の損失関数	
これがDQNの場合	
L θ( )= Es,a,r,s'≈D r +γ max
a'
Q s',a';θ−
( )−Q s,a;θ( )( )
2
DQNの損失関数	
:experience replay memory	
:ターゲット・ネットワーク	
D
θ−
強化学習の基本③
actor-critic法のシステム	
Value
Function	
Policy
Critic
Environment
Sutton, Berto. “Reinforcement Learning –an introduction.” 1998.	
state
reward
Actor
TD
error action
DQN(NIPs 2013)のしくみ	
Nair, et. al “Massively parallel methods for deep reinforcement learning.”
In ICML Deep learning Workshop. 2015.
DQN(nature 2015)のしくみ	
Nair, et. al “Massively parallel methods for deep reinforcement learning.”
In ICML Deep learning Workshop. 2015.
DistBeliefのしくみ	
J. Dean, et al “Large Scale Distributed Deep Networks.”
NIPS. 2012.	
ここでcomputer間
のやりとり
Downpour SGDのしくみ	
J. Dean, et al “Large Scale Distributed Deep Networks.”
NIPS. 2012.	
最新のparameterを
保持するmaster	
replicaから要求があったら、
その時点の最新parameterを
返す → replicaによってある
時点で使ってるparameterが
違う → asyncronous
SGDの計算が終
わったら勾配を返
す	
DistBeliefで勾配計
算	
ミニバッチをreplicaご
とに分割
Sandblaster L-BFGSのしくみ	
J. Dean, et al “Large Scale Distributed Deep Networks.”
NIPS. 2012.
Gorilaのしくみ	
A. Nair, et al “Massively parallel methods for deep reinforcement learning.”
In ICML Deep learning Workshop. 2015.
Gorilaのしくみ ver.1
共有のreplay memoryを使用	
Environment	 Q Network	
Shard 1	 Shard 2	 Shard K	
Q Network	
Target
Q Network	
DQN Loss	
Parameter Server	
Environment	 Q Network	
Q Network	
Target
Q Network	
DQN Loss	
・
・
・	
ActorのcomputerとLearnerの
computer1つずつで1セットとする	
Actor	 Learner	
全部でNセット	
replay memoryは1
つを共有する	
Replay
Memory
Gorilaのしくみ ver.2(bundled mode)
個別のreplay memoryを使用	
Environment	 Q Network	
Shard 1	 Shard 2	 Shard K	
Q Network	
Target
Q Network	
DQN Loss	
Replay
Memory	
Parameter Server	
Environment	 Q Network	
Q Network	
Target
Q Network	
DQN Loss	
Replay
Memory	
・
・
・	
ActorのcomputerとLearnerの
computer1つずつで1セットとする	
Actor	 Learner	
全部でNセット	
replay memoryはそれぞれ
のcomputerに配置
Gorila(bundled mode)から
asynchronousなDQNへの変更点①	
Environment	 Q Network	
Shard 1	 Shard 2	 Shard K	
Q Network	
Target
Q Network	
DQN Loss	
Replay
Memory	
Parameter Server	
Environment	 Q Network	
Q Network	
Target
Q Network	
DQN Loss	
Replay
Memory	
・
・
・	
CPU上の1つのスレッドに対応	
Actor	 Learner	
replay memoryを廃止
Gorila(bundled mode)から
asynchronousなDQNへの変更点②	
Environment	 Q Network	
Shard 1	 Shard 2	 Shard K	
Q Network	
Target
Q Network	
DQN Loss	
Parameter Server	
Environment	 Q Network	
Q Network	
Target
Q Network	
DQN Loss	
・
・
・	
Actor	 Learner	
代わりに勾配を溜め込む	
gradients	
gradients
Gorila(bundled mode)から
asynchronousなDQNへの変更点③	
Environment	 Q Network	
Shard 1	 Shard 2	 Shard K	
Q Network	
Target
Q Network	
DQN Loss	
Parameter Server for Q-Network	
Environment	 Q Network	
Q Network	
Target
Q Network	
DQN Loss	
・
・
・	
Actor	 Learner	
gradients	
gradients	
Shard 1	 Shard 2	 Shard K	
Parameter Server for Target Q-Network	
Target Q-Network用のserverを作る
Shard 1	 Shard 2	 Shard K	
Parameter Server for Q-Network	
Shard 1	 Shard 2	 Shard K	
Parameter Server for Target Q-Network	
AsynchronousなDQNの流れ①	
Environment	 Q Network	
Q Network	
Target
Q Network	
DQN Loss	
Environment	 Q Network	
Q Network	
Target
Q Network	
DQN Loss	
・
・
・	
Actor	 Learner	
θをコピー	   をコピー	
gradients	
gradients	
θ−
Shard 1	 Shard 2	 Shard K	
Parameter Server for Q-Network	
Shard 1	 Shard 2	 Shard K	
Parameter Server for Target Q-Network	
AsynchronousなDQNの流れ②	
Environment	 Q Network	
Q Network	
Target
Q Network	
DQN Loss	gradients	
Environment	 Q Network	
Q Network	
Target
Q Network	
DQN Loss	
・
・
・	
Actor	 Learner	
状態 s で行動 a をとり、s’ や r を観測	
gradients
Shard 1	 Shard 2	 Shard K	
Parameter Server for Q-Network	
Shard 1	 Shard 2	 Shard K	
Parameter Server for Target Q-Network	
AsynchronousなDQNの流れ③	
Environment	 Q Network	
Q Network	
Target
Q Network	
DQN Loss	gradients	
Environment	 Q Network	
Q Network	
Target
Q Network	
DQN Loss	
・
・
・	
Actor	 Learner	
gradients	
L θ( )= Es,a,r,s'≈D r +γ max
a'
Q s',a';θ−
( )−Q s,a;θ( )( )
2
Lossを計算
Shard 1	 Shard 2	 Shard K	
Parameter Server for Q-Network	
Shard 1	 Shard 2	 Shard K	
Parameter Server for Target Q-Network	
AsynchronousなDQNの流れ④	
Environment	 Q Network	
Q Network	
Target
Q Network	
DQN Loss	gradients	
Environment	 Q Network	
Q Network	
Target
Q Network	
DQN Loss	
・
・
・	
Actor	 Learner	
gradients	
勾配を溜め込む	 dθ ← dθ +
∂L θ( )
∂θ
Shard 1	 Shard 2	 Shard K	
Parameter Server for Q-Network	
Shard 1	 Shard 2	 Shard K	
Parameter Server for Target Q-Network	
AsynchronousなDQNの流れ⑤	
Environment	 Q Network	
Q Network	
Target
Q Network	
DQN Loss	gradients	
Environment	 Q Network	
Q Network	
Target
Q Network	
DQN Loss	
・
・
・	
Actor	 Learner	
gradients	
定期的に勾配の積算値  を送り学習する	dθ
A3Cのしくみ	
Environment	 Network	 Network	
gradients	
Environment	
・
・
・	
gradients	
Actor	 Critic	
Shard 1	 Shard 2	 Shard K	
Parameter Server for Network	θ
θv '
Network	
Shard 1	 Shard 2	 Shard K	
Parameter Server for Network	θv
gradients	
dθ
dθv
θ '
θ '
A3Cの流れ①	
Environment	 Network	 Network	
gradients	
Environment	
・
・
・	
gradients	
Actor	 Critic	
Shard 1	 Shard 2	 Shard K	
Parameter Server for Network	θ
θv '
Network	
Shard 1	 Shard 2	 Shard K	
Parameter Server for Network	θv
gradients	
dθ
dθv
θをコピー	   をコピー	θv
θ '
θ '
A3Cの流れ②	
Environment	 Network	 Network	
gradients	
Environment	
・
・
・	
gradients	
Actor	 Critic	
Shard 1	 Shard 2	 Shard K	
Parameter Server for Network	θ
θv '
Network	
Shard 1	 Shard 2	 Shard K	
Parameter Server for Network	θv
gradients	
dθ
dθv
   ステップ間、状態   で方策        
に従い行動   をとる。
tmax π at | st;θ '( )
at
st
V st,θv '( ) を計算する
θ '
θ '
A3Cの流れ③	
Environment	 Network	 Network	
gradients	
Environment	
・
・
・	
gradients	
Actor	 Critic	
Shard 1	 Shard 2	 Shard K	
Parameter Server for Network	θ
θv '
Network	
Shard 1	 Shard 2	 Shard K	
Parameter Server for Network	θv
gradients	
dθ
dθv
θ '
θ '
とそれぞれの勾
配を計算する	
R = γi−1
rt−i
i=1
tmax
∑ +V st,θv '( )
dθ = ∇θ ' logπ ai | si;θ '( ) R −V si;θv '( )( )
dθv = dθv +
∂ R −V si;θv '( )( )
2
∂θv '
A3Cの流れ④	
Environment	 Network	 Network	
gradients	
Environment	
・
・
・	
gradients	
Actor	 Critic	
Shard 1	 Shard 2	 Shard K	
Parameter Server for Network	θ
θv '
Network	
Shard 1	 Shard 2	 Shard K	
Parameter Server for Network	θv
gradients	
dθ
dθv
θ '
θ '
それぞれの勾配を溜め込む
A3Cの流れ④	
Environment	 Network	 Network	
gradients	
Environment	
・
・
・	
gradients	
Actor	 Critic	
Shard 1	 Shard 2	 Shard K	
Parameter Server for Network	θ
θv '
Network	
Shard 1	 Shard 2	 Shard K	
Parameter Server for Network	θv
gradients	
dθ
dθv
θ '
θ '
ごとに勾配の積算値  を送り学習	dθtmax ごとに勾配の積算値  を送り学習	tmax dθv
速度の比較	
DQNとasynchronousな4つの手法との速度に関する比較
asynchronousな手法は概ねDQNより学習速度が早いが、特
にA3Cが早い
速度の比較	
asynchronousな4つの手法において、CPUのスレッドを増や
した場合の速度の増加率
1-step Q学習や 1-step SARSAは増加率が高い
性能の比較	
DQNとasynchronousな4つの手法との得点に関する比較
asynchronousな手法は概ねDQNを上回る
結論	
l  asynchronousな4つの手法はDQNよりも学習速度が早い。
特にA3Cが早い。
l  asynchronousな4つの手法はDQNよりも概ね得点が高い

More Related Content

What's hot

What's hot (20)

[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling
 
[DL輪読会]Reinforcement Learning with Deep Energy-Based Policies
[DL輪読会]Reinforcement Learning with Deep Energy-Based Policies[DL輪読会]Reinforcement Learning with Deep Energy-Based Policies
[DL輪読会]Reinforcement Learning with Deep Energy-Based Policies
 
カスタムSIで使ってみよう ~ OpenAI Gym を使った強化学習
カスタムSIで使ってみよう ~ OpenAI Gym を使った強化学習カスタムSIで使ってみよう ~ OpenAI Gym を使った強化学習
カスタムSIで使ってみよう ~ OpenAI Gym を使った強化学習
 
[DL輪読会]Model-Based Reinforcement Learning via Meta-Policy Optimization
[DL輪読会]Model-Based Reinforcement Learning via Meta-Policy Optimization[DL輪読会]Model-Based Reinforcement Learning via Meta-Policy Optimization
[DL輪読会]Model-Based Reinforcement Learning via Meta-Policy Optimization
 
方策勾配型強化学習の基礎と応用
方策勾配型強化学習の基礎と応用方策勾配型強化学習の基礎と応用
方策勾配型強化学習の基礎と応用
 
強化学習と逆強化学習を組み合わせた模倣学習
強化学習と逆強化学習を組み合わせた模倣学習強化学習と逆強化学習を組み合わせた模倣学習
強化学習と逆強化学習を組み合わせた模倣学習
 
[DL輪読会]近年のオフライン強化学習のまとめ —Offline Reinforcement Learning: Tutorial, Review, an...
[DL輪読会]近年のオフライン強化学習のまとめ —Offline Reinforcement Learning: Tutorial, Review, an...[DL輪読会]近年のオフライン強化学習のまとめ —Offline Reinforcement Learning: Tutorial, Review, an...
[DL輪読会]近年のオフライン強化学習のまとめ —Offline Reinforcement Learning: Tutorial, Review, an...
 
SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜
SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜
SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜
 
DQNからRainbowまで 〜深層強化学習の最新動向〜
DQNからRainbowまで 〜深層強化学習の最新動向〜DQNからRainbowまで 〜深層強化学習の最新動向〜
DQNからRainbowまで 〜深層強化学習の最新動向〜
 
強化学習その3
強化学習その3強化学習その3
強化学習その3
 
強化学習 DQNからPPOまで
強化学習 DQNからPPOまで強化学習 DQNからPPOまで
強化学習 DQNからPPOまで
 
Layer Normalization@NIPS+読み会・関西
Layer Normalization@NIPS+読み会・関西Layer Normalization@NIPS+読み会・関西
Layer Normalization@NIPS+読み会・関西
 
画像生成・生成モデル メタサーベイ
画像生成・生成モデル メタサーベイ画像生成・生成モデル メタサーベイ
画像生成・生成モデル メタサーベイ
 
[DL輪読会]AdaShare: Learning What To Share For Efficient Deep Multi-Task Learning
[DL輪読会]AdaShare: Learning What To Share For Efficient Deep Multi-Task Learning[DL輪読会]AdaShare: Learning What To Share For Efficient Deep Multi-Task Learning
[DL輪読会]AdaShare: Learning What To Share For Efficient Deep Multi-Task Learning
 
[DL輪読会]AlphaStarとその関連技術
[DL輪読会]AlphaStarとその関連技術[DL輪読会]AlphaStarとその関連技術
[DL輪読会]AlphaStarとその関連技術
 
Transformerを多層にする際の勾配消失問題と解決法について
Transformerを多層にする際の勾配消失問題と解決法についてTransformerを多層にする際の勾配消失問題と解決法について
Transformerを多層にする際の勾配消失問題と解決法について
 
モデルアーキテクチャ観点からのDeep Neural Network高速化
モデルアーキテクチャ観点からのDeep Neural Network高速化モデルアーキテクチャ観点からのDeep Neural Network高速化
モデルアーキテクチャ観点からのDeep Neural Network高速化
 
(文献紹介) 画像復元:Plug-and-Play ADMM
(文献紹介) 画像復元:Plug-and-Play ADMM(文献紹介) 画像復元:Plug-and-Play ADMM
(文献紹介) 画像復元:Plug-and-Play ADMM
 
Skip Connection まとめ(Neural Network)
Skip Connection まとめ(Neural Network)Skip Connection まとめ(Neural Network)
Skip Connection まとめ(Neural Network)
 
[DL輪読会]GANとエネルギーベースモデル
[DL輪読会]GANとエネルギーベースモデル[DL輪読会]GANとエネルギーベースモデル
[DL輪読会]GANとエネルギーベースモデル
 

Viewers also liked

Viewers also liked (9)

A3Cという強化学習アルゴリズムで遊んでみた話
A3Cという強化学習アルゴリズムで遊んでみた話A3Cという強化学習アルゴリズムで遊んでみた話
A3Cという強化学習アルゴリズムで遊んでみた話
 
Continuous control with deep reinforcement learning (DDPG)
Continuous control with deep reinforcement learning (DDPG)Continuous control with deep reinforcement learning (DDPG)
Continuous control with deep reinforcement learning (DDPG)
 
[Dl輪読会]introduction of reinforcement learning
[Dl輪読会]introduction of reinforcement learning[Dl輪読会]introduction of reinforcement learning
[Dl輪読会]introduction of reinforcement learning
 
ChainerRLの紹介
ChainerRLの紹介ChainerRLの紹介
ChainerRLの紹介
 
Healthy Competition: How Adversarial Reasoning is Leading the Next Wave of In...
Healthy Competition: How Adversarial Reasoning is Leading the Next Wave of In...Healthy Competition: How Adversarial Reasoning is Leading the Next Wave of In...
Healthy Competition: How Adversarial Reasoning is Leading the Next Wave of In...
 
強化学習その4
強化学習その4強化学習その4
強化学習その4
 
アクターモデルについて
アクターモデルについてアクターモデルについて
アクターモデルについて
 
【論文紹介】PGQ: Combining Policy Gradient And Q-learning
【論文紹介】PGQ: Combining Policy Gradient And Q-learning【論文紹介】PGQ: Combining Policy Gradient And Q-learning
【論文紹介】PGQ: Combining Policy Gradient And Q-learning
 
TensorFlow を使った 機械学習ことはじめ (GDG京都 機械学習勉強会)
TensorFlow を使った機械学習ことはじめ (GDG京都 機械学習勉強会)TensorFlow を使った機械学習ことはじめ (GDG京都 機械学習勉強会)
TensorFlow を使った 機械学習ことはじめ (GDG京都 機械学習勉強会)
 

Similar to Introduction to A3C model

Similar to Introduction to A3C model (20)

2値ディープニューラルネットワークと組込み機器への応用: 開発中のツール紹介
2値ディープニューラルネットワークと組込み機器への応用: 開発中のツール紹介2値ディープニューラルネットワークと組込み機器への応用: 開発中のツール紹介
2値ディープニューラルネットワークと組込み機器への応用: 開発中のツール紹介
 
KDDCUP2020 ML Track2
KDDCUP2020 ML Track2KDDCUP2020 ML Track2
KDDCUP2020 ML Track2
 
研究を加速するChainerファミリー
研究を加速するChainerファミリー研究を加速するChainerファミリー
研究を加速するChainerファミリー
 
2値化CNN on FPGAでGPUとガチンコバトル(公開版)
2値化CNN on FPGAでGPUとガチンコバトル(公開版)2値化CNN on FPGAでGPUとガチンコバトル(公開版)
2値化CNN on FPGAでGPUとガチンコバトル(公開版)
 
Hello, DirectCompute
Hello, DirectComputeHello, DirectCompute
Hello, DirectCompute
 
Kubernetes専用データ保護に新たな潮流、Zerto?Kasten?の最新手法とは
Kubernetes専用データ保護に新たな潮流、Zerto?Kasten?の最新手法とはKubernetes専用データ保護に新たな潮流、Zerto?Kasten?の最新手法とは
Kubernetes専用データ保護に新たな潮流、Zerto?Kasten?の最新手法とは
 
C#, C/CLI と CUDAによる画像処理ことはじめ
C#, C/CLI と CUDAによる画像処理ことはじめC#, C/CLI と CUDAによる画像処理ことはじめ
C#, C/CLI と CUDAによる画像処理ことはじめ
 
1070: CUDA プログラミング入門
1070: CUDA プログラミング入門1070: CUDA プログラミング入門
1070: CUDA プログラミング入門
 
Tf勉強会(4)
Tf勉強会(4)Tf勉強会(4)
Tf勉強会(4)
 
Implementation of Counters in ScopedBASIC
Implementation of Counters in ScopedBASICImplementation of Counters in ScopedBASIC
Implementation of Counters in ScopedBASIC
 
ADVENTURE_Thermalの概要
ADVENTURE_Thermalの概要ADVENTURE_Thermalの概要
ADVENTURE_Thermalの概要
 
並列対決 Elixir × Go × C# x Scala , Node.js
並列対決 Elixir × Go × C# x Scala , Node.js並列対決 Elixir × Go × C# x Scala , Node.js
並列対決 Elixir × Go × C# x Scala , Node.js
 
Math works gdlc2019
Math works gdlc2019Math works gdlc2019
Math works gdlc2019
 
Kobe.R #15 - Incanter チョットシッテル
Kobe.R #15 - Incanter チョットシッテルKobe.R #15 - Incanter チョットシッテル
Kobe.R #15 - Incanter チョットシッテル
 
Lisp Meet Up #19, cl-cuda: a library to use NVIDIA CUDA in Common Lisp
Lisp Meet Up #19, cl-cuda: a library to use NVIDIA CUDA in Common LispLisp Meet Up #19, cl-cuda: a library to use NVIDIA CUDA in Common Lisp
Lisp Meet Up #19, cl-cuda: a library to use NVIDIA CUDA in Common Lisp
 
[GTCJ2018] Optimizing Deep Learning with Chainer PFN得居誠也
[GTCJ2018] Optimizing Deep Learning with Chainer PFN得居誠也[GTCJ2018] Optimizing Deep Learning with Chainer PFN得居誠也
[GTCJ2018] Optimizing Deep Learning with Chainer PFN得居誠也
 
Wssit slide
Wssit slideWssit slide
Wssit slide
 
Fusion4dIntroduction
Fusion4dIntroductionFusion4dIntroduction
Fusion4dIntroduction
 
R-CNNの原理とここ数年の流れ
R-CNNの原理とここ数年の流れR-CNNの原理とここ数年の流れ
R-CNNの原理とここ数年の流れ
 
TPC-DSから学ぶPostgreSQLの弱点と今後の展望
TPC-DSから学ぶPostgreSQLの弱点と今後の展望TPC-DSから学ぶPostgreSQLの弱点と今後の展望
TPC-DSから学ぶPostgreSQLの弱点と今後の展望
 

More from WEBFARMER. ltd.

More from WEBFARMER. ltd. (20)

論文読み会 発表資料 SPMモデル
論文読み会 発表資料 SPMモデル論文読み会 発表資料 SPMモデル
論文読み会 発表資料 SPMモデル
 
The 53th Computer Vision Study@ kantou by Takamitsu Omasa
The 53th Computer Vision Study@ kantou by Takamitsu OmasaThe 53th Computer Vision Study@ kantou by Takamitsu Omasa
The 53th Computer Vision Study@ kantou by Takamitsu Omasa
 
SPIGAN理論と実装について at 論文LT会 in LPIXEL
SPIGAN理論と実装について at 論文LT会 in LPIXELSPIGAN理論と実装について at 論文LT会 in LPIXEL
SPIGAN理論と実装について at 論文LT会 in LPIXEL
 
Nips2018 study only_pu_net_pdf
Nips2018 study only_pu_net_pdfNips2018 study only_pu_net_pdf
Nips2018 study only_pu_net_pdf
 
第46回コンピュータ・ビジョン勉強会@関東(前編)
第46回コンピュータ・ビジョン勉強会@関東(前編)第46回コンピュータ・ビジョン勉強会@関東(前編)
第46回コンピュータ・ビジョン勉強会@関東(前編)
 
Chainer Meetup 発表資料
Chainer Meetup 発表資料Chainer Meetup 発表資料
Chainer Meetup 発表資料
 
SLAM_study_document
SLAM_study_documentSLAM_study_document
SLAM_study_document
 
Study Group of NIPS2017 presented by webfarmer.ltd
Study Group of NIPS2017 presented by webfarmer.ltdStudy Group of NIPS2017 presented by webfarmer.ltd
Study Group of NIPS2017 presented by webfarmer.ltd
 
Nips20180127
Nips20180127Nips20180127
Nips20180127
 
Machine Learning 15minutes 発表資料(株)ウェブファーマー
Machine Learning 15minutes 発表資料(株)ウェブファーマーMachine Learning 15minutes 発表資料(株)ウェブファーマー
Machine Learning 15minutes 発表資料(株)ウェブファーマー
 
DRL_stydy_1_doc_ohmasa
DRL_stydy_1_doc_ohmasaDRL_stydy_1_doc_ohmasa
DRL_stydy_1_doc_ohmasa
 
Connect_GANs_Actor-Critic
Connect_GANs_Actor-CriticConnect_GANs_Actor-Critic
Connect_GANs_Actor-Critic
 
Ml15min発表資料(提出用)
Ml15min発表資料(提出用)Ml15min発表資料(提出用)
Ml15min発表資料(提出用)
 
Introduction to GAN model
Introduction to GAN modelIntroduction to GAN model
Introduction to GAN model
 
Introduction to YOLO detection model
Introduction to YOLO detection modelIntroduction to YOLO detection model
Introduction to YOLO detection model
 
Introduction to Deep Compression
Introduction to Deep CompressionIntroduction to Deep Compression
Introduction to Deep Compression
 
ディープラーニング・ハンズオン勉強会161229
ディープラーニング・ハンズオン勉強会161229ディープラーニング・ハンズオン勉強会161229
ディープラーニング・ハンズオン勉強会161229
 
Introduction to Neural Turning Machine
Introduction to Neural Turning MachineIntroduction to Neural Turning Machine
Introduction to Neural Turning Machine
 
人工知能ハッカソン用プレゼン資料(161217)
人工知能ハッカソン用プレゼン資料(161217)人工知能ハッカソン用プレゼン資料(161217)
人工知能ハッカソン用プレゼン資料(161217)
 
Hackathon 161010 pressen
Hackathon 161010 pressenHackathon 161010 pressen
Hackathon 161010 pressen
 

Recently uploaded

Recently uploaded (11)

論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
 
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
 
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
 
新人研修 後半 2024/04/26の勉強会で発表されたものです。
新人研修 後半        2024/04/26の勉強会で発表されたものです。新人研修 後半        2024/04/26の勉強会で発表されたものです。
新人研修 後半 2024/04/26の勉強会で発表されたものです。
 
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
 
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
 
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
 
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアルLoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
 
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
LoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイスLoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイス
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
 
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
 
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
 

Introduction to A3C model