3. 目次
内発的報酬(好奇心)による強化学習
- World Discovery Models
- Social Influence as Intrinsic Motivation for Multi-Agent Deep Reinforcement Learning
マルチエージェント学習とゲーム理論,AlphaStarへの応用
OpenAI Five
68. マルチエージェント学習
紹介手法/論文
FTW(For The Win) agent
論文:Human-level performance in first-person multiplayer games with population-
based deep reinforcement learning
PSRO(Policy-Space Response Oracles)&DCH(Deep Cognitive Hierarchies)
論文:A Unified Game-Theoretic Approach to Multiagent Reinforcement Learning
Nash Distribution
論文:Re-evaluating Evaluation
先ほどまでのNNアーキテクチャや方策学習アルゴリズムと違い,あくまで「参考にし
ている」くらいの言及なので,論文のアルゴリズムをそのまま使用しているかは微妙
69. 複数エージェントのゲームで自己の方策と集団に対する
学習の二重強化学習
Human-level performance in first-person multiplayer games with population-based
deep reinforcement learning [Jaderberg+]
論文概要
一人称視点で,複数の敵エージェント,味方エージェントが存在するチーム対戦ゲーム
における方策学習手法
学習過程を,エージェント個別の方策学習(エージェント自身の報酬和を最大化)する
内ループと,エージェント個別の方策の元でチーム勝率をあげるためのハイパラ学習を
行う外ループに分ける.この学習を行うエージェントをFTW(For The Win)エージェント
と呼ぶ
学習環境としてQuake III ArenaのCTF(Capture the Flag)という環境を使うが,環境自体
はあまり重要ではなく,学習手法の概念が重要
74. PBT(Population-Based Training)
Population Based Training of Neural Networks [Jaderberg+](2017)
深層(強化)学習における,ハイパーパラメータ最適化の論文
それぞれ別のハイパラを設定したエージェントの学習プロセスを並列に走らせ,学習途
中の評価結果から良いハイパラを採用し別エージェントにも移す,ハイパラに摂動,ハ
イパラの再サンプルを繰り返す
著者は,今ここで紹介してる論文Human-level~と同じJaderberg
83. DO(Double Oracle Algorithm)
2プレイヤーのゼロサムゲームで,ナッシュ均衡(混合戦略)を導出→その均衡下で最適
応答となる戦略を各プレイヤー追加→ナッシュ均衡導出・・・を繰り返し,最適応答が
改善されなくなるまで, 互いの戦略を改善し追加し合うアルゴリズム
→後ほど紹介する,本論文の提案手法の原型アルゴリズム
Shota Imai | The University of Tokyo
83