古典的ゲームAIを用いたAlphaGo解説

AlphaGo簡略紹介
• GoogleのDeepMindが開発
• 2016年、囲碁の伝説イ・セドルに勝利
• 2017年、囲碁の世界ランク1位コジェに勝利
• 囲碁で人間を超えた初めての人工知能
2

AlphaGo簡略紹介
• Game Tree (ゲーム木)を探索するMonte Carlo Tree
Search (MCTS) を、Convolution Neural Network
(CNN)と強化学習を利用し、大幅に強化したアルゴリ
ズム。
説明を分かりやすくするとともに、
なぜAlphaGoが今の形になったかを説明するため、
ゲームAIの発達を順に説明していきます。
3

作者紹介
• 名前：李碩根
• 会社：フューチャーアーキテクト
• 部署：データ分析チーム
• 役割：AI / 機械学習エンジニア
4

目次①
• AlphaGo簡略紹介
• ゲームAIの基層知識紹介
– ゲーム木
– 完全ゲーム木
– 部分ゲーム木
• 効果的にゲーム木を計算するためのポイント
• ミニマックス法 (1949年)
• アルファ・ベータ法 (1958年)
• 古典的アルゴリズムの成功と失敗
– チェスでの成功：Deep Blue、1997年
– 囲碁での失敗
5

目次②
• モンテカルロ木検索 (1993年)
– 囲碁での進歩
– AlphaGoのベースになるアルゴリズム
• Deep Learningの登場 (2012年)
• AlphaGoの登場 (2016年)
– モンテカルロ木検索の改良
– Policy Network
– Value Network
– Rollout Policy
– 強化学習
– AlphaGoのアーキテクチャ
– 性能比較
6

こんな人におすすめ
• ゲームAIに関する背景知識は無いがAlphaGoの中
身が知りたい人のための資料です。
• 単純にアルゴリズムを説明するのではなく、古典的
なゲームAIに比べAlphaGoはどう発展してきたのか、
何がすごいのかを説明していきます。
7

本資料の特徴
• 説明を分かりやすくするために、○×ゲームをベー
スに説明を進めます。
• 本資料で紹介するゲームAIの発達の歴史は
AlphaGoの説明のためのものであり、綿密なゲーム
AIの歴史ではございません。
8

本資料の特徴
9
赤い色の吹き出しは従来の
アルゴリズムの説明になり
ます。
緑色の吹き出しはAlphaGoの
説明になります。
水色の吹き出しは定義にな
ります。

ゲームAIのベース
Game Tree (ゲーム木)
図：http://www.owlnet.rice.edu/~comp210/02fall/Labs/Lab15/
ゲームAIの基層になる部分。
AIはゲーム木を参照し、一番適切な戦略
を立てていく
10
Wikipedia: ゲームの盤面を有向グラフ
のノードで、手をエッジで表したもの

絶対に負けないゲームAIに必要なもの
Complete Game Tree (完全ゲーム木)
11
Wikipedia: ゲームの最初から指せる全
ての手を含んだゲーム木
これがあればゲームの全てのパターン
が分かるため、絶対負けない戦略を立
てることが可能になる。
つまり、絶対負けないゲームAIが出来る。
しかし、完全ゲーム木は膨大なため、現
実的に計算不可能

完全ゲーム木を計算しようとすると…
• 可能なゲームの流れの数
– チェス：35^80 = 3E+123個
– 囲碁：250^150 = ???
• チェスの一つのゲーム流れ計算に1E-10秒がかかる
とする。
• チェスの完全ゲーム木計算に必要な時間
– 3E+113 (秒) = 9.5E+105 (年)
これでは宇宙が終わるまで
計算が終わらない
12

ゲームをプレイするAIを作る
Partial Game Tree (部分ゲーム木)
完全ゲーム木は計算不可能のため、部
分ゲーム木を使って戦略を立てるしか
ない。
つまり、ゲームAIの強さはどれだけ効率
よく質が良い部分ゲーム木を手に入れ
るかである。
13
Wikipedia:一般に現在の盤面から指せ
る手を時間内に探索できるぶんだけ含
んだもの

ゲームAIの目的
• より効率よく、より質が良い部分ゲーム木を計算す
ること
14

効果的に部分ゲーム木を
計算するためのポイント
• 無駄な計算を減らす
• 良い手を重点的に計算する
この目標を達成するためゲームAIは
進化していく
15

• 相手は自分の利益を最小にする(Min)ために行動す
る
• 自分の利益を最大にする(Max)ために行動する
• 上記の二つを前提にし、前提とマッチしない手は計
算はしない
計算を減らすための努力１（1949年）
Minimax Search (ミニマックス法)
○×ゲームを使って説明する
16

〇〇 ×
×
〇
自分：〇
相手：×次は×のターン
これが現在の盤面。
次の×の手を予測したい。
17

〇〇 ×
×
〇 ×
〇〇 ×
× ×
〇
〇〇 ×
× ×
〇
〇〇 ×
×
〇 ×
〇〇 ×
×
〇
自分：〇
次は〇のターン
可能な×の全ての手。
相手(×)が勝つには?
つまり、自分(○)の利益を最小
にするには？
18

〇〇 ×
×
〇 ×
〇〇 ×
× ×
〇
〇〇 ×
× ×
〇
〇〇 ×
×
〇 ×
〇〇 ×
×
〇
自分：〇
これを選ぶしかない
（なぜ分かる？）
つまり、残りの三つは考えなく
て良い
19

〇〇 ×
× × 〇
〇
〇〇 ×
× ×
〇〇
〇〇 ×
× ×
〇〇
〇〇 ×
×
〇 ×
〇〇 ×
× ×
〇
〇〇 ×
× ×
〇
〇〇 ×
×
〇 ×
〇〇 ×
×
〇
自分：〇
次は×のターン
可能な○の全ての手。
自分(○)が勝つには?
つまり、○の利益を最大にする
には？
20

〇〇 ×
× × 〇
〇
〇〇 ×
× ×
〇〇
〇〇 ×
× ×
〇〇
〇〇 ×
×
〇 ×
〇〇 ×
× ×
〇
〇〇 ×
× ×
〇
〇〇 ×
×
〇 ×
〇〇 ×
×
〇
自分：〇
つまり、残りの二つは考えなく
て良い
21

〇〇 ×
× × 〇
〇
〇〇 ×
× ×
〇〇
〇〇 ×
× ×
〇〇
〇〇 ×
×
〇 ×
〇〇 ×
× ×
〇
〇〇 ×
× ×
〇
〇〇 ×
×
〇 ×
〇〇 ×
×
〇
自分：〇
〇〇 ×
× × 〇
〇 ×
〇〇 ×
× × 〇
〇 ×
可能な×の全ての手。
相手(×)が勝つには?
つまり、自分(○)の利益を最小
にするには？
22

〇〇 ×
× × 〇
〇
〇〇 ×
× ×
〇〇
〇〇 ×
× ×
〇〇
〇〇 ×
×
〇 ×
〇〇 ×
× ×
〇
〇〇 ×
× ×
〇
〇〇 ×
×
〇 ×
〇〇 ×
×
〇
自分：〇
〇〇 ×
× × 〇
〇 ×
〇〇 ×
× × 〇
〇 ×
左を選ぶ
どっちでも同じ
23

〇〇 ×
× × 〇
〇
〇〇 ×
× ×
〇〇
〇〇 ×
× ×
〇〇
〇〇 ×
×
〇 ×
〇〇 ×
× ×
〇
〇〇 ×
× ×
〇
〇〇 ×
×
〇 ×
〇〇 ×
×
〇
自分：〇
〇〇 ×
× × 〇
〇 ×
〇〇 ×
× × 〇
〇 ×
〇〇 ×
× × 〇
〇 × 〇
ドロー
最終的に残る部分ゲーム木。
でも残る疑問点が…
24

〇〇 ×
× × 〇
〇
〇〇 ×
× ×
〇〇
〇〇 ×
× ×
〇〇
〇〇 ×
×
〇 ×
〇〇 ×
× ×
〇
〇〇 ×
× ×
〇
〇〇 ×
×
〇 ×
〇〇 ×
×
〇
自分：〇
〇〇 ×
× × 〇
〇 ×
〇〇 ×
× × 〇
〇 ×
〇〇 ×
× × 〇
〇 × 〇
ドロー
どっちでも同じ
25

〇〇 ×
×
〇 ×
〇〇 ×
× ×
〇
〇〇 ×
× ×
〇
〇〇 ×
×
〇 ×
〇〇 ×
×
〇
自分：〇
各ノードが良いか悪いかを評価
するには、結局最後まで計算す
るしかない！
〇〇 ×
○ × ×
〇
〇〇 ×
○ ×
〇 ×
〇〇 ×
○ ×
〇 ×
26

計算を減らすための努力１（1949年）
この時点では何が良い手か分からない
疑問点
1. 次の手が良いか悪いかを分かるに
は結局最後まで計算するしかない
2. 深くなればなるほど計算数が爆発的
に増える
27

Static Evaluation (静的評価)
解決策
1. Evaluation Function(静的評価関数)
で各ノードの評価値を計算する
2. 計算する深さに制限をかける
静的評価関数は、評価したいノー
ドを現在の盤面の情報だけで評
価すること。現在の盤面から動か
ないから「静的」評価になる！
28

自分：〇
相手：×
現在の盤面。次の×の手は？
計算深さ制限は「２」！
覚えてね！
29

自分：〇
相手：×
×の全ての手
計算深さ制限は「２」なので、
もう一層入る！
30

自分：〇
相手：×
2層目の手に「静的評価関数」を利
用し、現在の盤面の情報だけで評
価する
3 02 …
31

自分：〇
相手：×
自分(○)は自分の利益を最大にす
る手を選ぶ。今回は最大の利益が
３だとする
3 02 …
32

自分：〇
相手：×
すると、一番左のノードの評価値
は「３」になる
3 02 …
3
この作業を全ての×の手について
計算する。
33

3 02
3
自分：〇
相手：×
4 9 5 6 8 9 5 4
×は○の利益を最初にするため、
一番評価値が小さい「３」を選ぶ
34

3
自分：〇
相手：×
予想される次の×の手
次の○の手を予測する
と？
35

3
自分：〇
相手：×
全ての○の手
深さ制限が２なのでもう
一層入ると
36

3
自分：〇
相手：×
静的評価関数で評価
37

計算する深さ：２
5 87
3
自分：〇
相手：×
×は○の利益を最小にするため、
一番評価値が小さい「５」を選ぶ
38

5 87
3
自分：〇
相手：×
5
すると、一番左のノードの評価値
は「５」になるこの作業を全ての○の手について
計算する。
39

5 87
3
自分：〇
相手：×
5 9 3
自分(○)は自分の利益を最大にす
る手を選ぶ。今回は最大の利益が
９だとする
40

3
自分：〇
相手：×
9
予想される次の○の手
41

残る疑問点
1. Evaluation Function(静的評価関数)は
どう決める？
2. まだ計算数が多い
42

• Minmax Searchを行う時に、明らかに計算する必要
がない場合の数は計算をしない。
計算を減らすための努力２（1958年）
Alpha-Beta Pruning (アルファ・ベータ法)
○×ゲームを使って説明する
43

〇〇 ×
×
〇
〇〇 ×
〇 ×
〇〇 ×
× 〇
〇〇 ×
×
〇
〇〇 ×
×
自分：〇
相手：×
次の手を計算したい
〇〇 ×
×
〇
〇〇 ×
〇 ×
〇〇 ×
〇 ×
〇〇 ×
〇 ×
〇〇 ×
〇 ×
〇〇 ×
〇 ×
今からは盤面そのものを表すの
ではなく、評価値で表す
44

〇〇 ×
×
〇
〇〇 ×
〇 ×
〇〇 ×
× 〇
〇〇 ×
×
〇
〇〇 ×
×
自分：〇
相手：×
〇〇 ×
×
〇
5 3 8 4
一番評価値が小さい「３」を選ぶ
45

〇〇 ×
×
〇
〇〇 ×
〇 ×
〇〇 ×
× 〇
〇〇 ×
×
〇
〇〇 ×
×
自分：〇
相手：×
〇〇 ×
×
〇
5 3 8 4
次は×のターン 3
46

〇〇 ×
×
〇
〇〇 ×
〇 ×
〇〇 ×
× 〇
〇〇 ×
×
〇
〇〇 ×
×
自分：〇
相手：×
〇〇 ×
×
〇
5 3 8 4 4 2
次は×のターン 3
×は最小の評価値を選ぶため、「２」
が出た瞬間、このノードの評価値は
必ず３より小さくなることが分かる。
つまり、３より小さい２が出た瞬間、こ
れ以上計算する必要が無くなる
47

〇〇 ×
×
〇
〇〇 ×
〇 ×
〇〇 ×
× 〇
〇〇 ×
×
〇
〇〇 ×
×
自分：〇
相手：×
〇〇 ×
×
〇
5 3 8 4 4 2 5 6 9 7
次は×のターン 3 2
全てのノードが「３」より大き
いため、全部計算する必要
がある。
一番評価値が小さい「５」を選ぶ
48

〇〇 ×
×
〇
〇〇 ×
〇 ×
〇〇 ×
× 〇
〇〇 ×
×
〇
〇〇 ×
×
自分：〇
相手：×
〇〇 ×
×
〇
5 3 8 4 4 2 5 6 9 7
次は×のターン 3 2 5
49

〇〇 ×
×
〇
〇〇 ×
〇 ×
〇〇 ×
× 〇
〇〇 ×
×
〇
〇〇 ×
×
自分：〇
相手：×
〇〇 ×
×
〇
5 3 8 4 4 2 5 6 9 7 7 3
次は×のターン 3 2 5
×は最小の評価値を選ぶため、「３」
必ず５より小さくなることが分かる。
つまり、５より小さい３が出た瞬間、こ
50

〇〇 ×
×
〇
〇〇 ×
〇 ×
〇〇 ×
× 〇
〇〇 ×
×
〇
〇〇 ×
×
自分：〇
相手：×
〇〇 ×
×
〇
5 3 8 4 4 2 5 6 9 7 7 3 4
次は×のターン 3 2 5 3
×は最小の評価値を選ぶため、「４」
必ず５より小さくなることが分かる。
つまり、５より小さい４が出た瞬間、こ
51

〇〇 ×
×
〇
〇〇 ×
〇 ×
〇〇 ×
× 〇
〇〇 ×
×
〇
〇〇 ×
×
自分：〇
相手：×
〇〇 ×
×
〇
5 3 8 4 4 2 5 6 9 7 7 3 4
次は×のターン 3 2 5 3 4
このノードが一番評価
値が高いため、選ばれ
る
52

• Alpha-beta pruning
• 手作りのEvaluation Function(静的評価関数)
• スーパーコンピュータの登場
チェスでの成功
Deep Blue、1997年
Deep BlueはAlpha-Beta pruningを
使って人間を超えることになる。
しかし、その中身はチカラワザだった。
まだ人工知能と呼ぶには…
53

• 場合の数の桁数が違う
– チェス：35^80 = 3E+123
– 囲碁：250^150 = ???
• 手作りのEvaluation Function(静的評価関数)
– チェスより複雑な囲碁では手作りが難しい
• スーパーパソコン
– パソコンの性能に頼るのも限界がある
囲碁での失敗
チェスで成功したアルゴリズムを囲碁
に適応できない。なぜ？
囲碁はゲーム流れの数がチェスとは
桁数が違う！
Alpha-Beta Pruningで出来ない…
違う方法はないのか？
54

• 囲碁の場合、場合の数が多すぎるため、静的評価関数を用
いたツリー検索方法では効率よく検索できない。
• そもそも、静的評価関数を手作りするのも難しい
• その代わりに、いっぱいランダムなシミュレーションを行って、
その中で一番良いと思われる手を選ぼう！(モンテカルロ法)
Monte Carlo Tree Search
モンテカルロ木探索の活用、1993年
ランダムでシミュレーションする
ため静的評価関数が必要ない
モンテカルロ木検索は
「AlphaGo」のベースになるアル
ゴリズム！
55

Monte Carlo Tree Search (モンテカルロ木探索)
Simulation
1. 静的評価関数は使用しない
2. ゲームが終わるまでランダムで次の
手を選択し、その結果をUCB1関数を
利用して評価する（シミュレーション）
勝ち：1 ドロー：0
負け：-1
勝ち：1
負け：-1
ドロー：0
負け：-1
56

Monte Carlo Tree Search (モンテカルロ木探索)
詳細
MCTSのステップ
1. Selection
2. Expansion
3. Rollout
4. backup
このアルゴリズムを
ループさせる
Start
現在ノード = 𝑆0
現在ノード
==葉ノード?
現在ノード = UCB1関数値
が最大の子ノード
現在ノード
の訪問カウン
ト == 0?
新しい子ノードたちを追加
現在ノード =
新しい子ノード
Rollout
(シミュレーション)
yes
yes
no
no
Backpropagation
57

〇 ×
×
ノード：𝑆0
𝑣0 = 0.6
𝑛0 = 1
𝑈𝐶𝐵1 𝑆𝑖 = 𝑣𝑖 + 2
ln 𝑁
𝑛𝑖
ループ1回目
次の〇の手を
計算
Start
現在ノード
==葉ノード?
現在ノード = UCB1関数値が最大の子
ノード
現在ノード
の訪問カウント ==
0?
現在ノード =
Rollout
yes
yes
no
no
Backpropagation
v：評価値
n：訪問カウント(何回評価
値をアップデートしたか)
N：親ノードの訪問カウント
ノードS0 の評価値は0.6で
訪問カウントは１だと想定
58

〇 ×
×
現在ノード：𝑆0
𝑣0 = 0.6
𝑛0 = 1
ln 𝑁
𝑛𝑖
ループ1回目
次の〇の手を
計算
Start
現在ノード
==葉ノード?
ノード
現在ノード
0?
現在ノード =
Rollout
yes
yes
no
no
Backpropagation
現在のゲーム盤面を現在
ノードに設定する
59

〇 ×
×
𝑣0 = 0.6
𝑛0 = 1
ln 𝑁
𝑛𝑖
ループ1回目
次の〇の手を
計算
Start
現在ノード
==葉ノード?
ノード
現在ノード
0?
現在ノード =
Rollout
yes
yes
no
no
Backpropagation
現在ノード(S0)が葉ノードで、
訪問カウント(n0)が0ではない。
なので、新しい子ノードを追加
この例では二つの子ノー
ドのみを追加する
60

〇〇 ×
×
〇 ×
〇 ×
〇 ×
×
𝑣0 = 0.6
𝑛0 = 1
ln 𝑁
𝑛𝑖
子ノード：𝑆1
𝑣1 = 0
𝑛1 = 0
𝑣2 = 0
𝑛2 = 0
ループ1回目
次の〇の手を
計算
Start
現在ノード
==葉ノード?
ノード
現在ノード
0?
現在ノード =
Rollout
yes
yes
no
no
Backpropagation
新しい子ノード追加後。
全ての評価値(v)と訪問カウン
ト(n)が0に初期化されている
61

〇〇 ×
×
〇 ×
〇 ×
〇 ×
×
ノード：𝑆0
𝑣0 = 0.6
𝑛0 = 1
ln 𝑁
𝑛𝑖
𝑣1 = 0
𝑛1 = 0
ノード：𝑆2
𝑣2 = 0
𝑛2 = 0
ループ1回目
次の〇の手を
計算
Start
現在ノード
==葉ノード?
ノード
現在ノード
0?
現在ノード =
Rollout
yes
yes
no
no
Backpropagation
現在ノードを新しい子ノードに
設定。左から選択していく
62

〇〇 ×
×
〇 ×
〇 ×
〇 ×
×
ノード：𝑆0
𝑣0 = 0.6
𝑛0 = 1
ln 𝑁
𝑛𝑖
𝑣1 = 0
𝑛1 = 0
ノード：𝑆2
𝑣2 = 0
𝑛2 = 0
〇〇 ×
×
〇〇 ×
× ×
〇〇 ×
× ×
〇
〇〇 ×
× ×
〇 ×
〇〇 ×
〇 × ×
〇 ×
シミュレーション結果：
〇の勝
𝑣 𝑡 = 1
ループ1回目
次の〇の手を
計算
Start
現在ノード
==葉ノード?
ノード
現在ノード
0?
現在ノード =
Rollout
yes
yes
no
no
Backpropagation
現在ノードからRollout(シミュレー
ション)を行い、どれくらい良い手
かを評価する。
シミュレーションはゲームが終わ
るまでランダムで次の手を選択
する。ゲームの結果が現在ノー
ドの評価値になる
63

〇〇 ×
×
〇 ×
〇 ×
〇 ×
×
ノード：𝑆0
𝑣0 = 1.6
𝑛0 = 2
ln 𝑁
𝑛𝑖
𝑣1 = 1
𝑛1 = 1
ノード：𝑆2
𝑣2 = 0
𝑛2 = 0
〇〇 ×
×
〇〇 ×
× ×
〇〇 ×
× ×
〇
〇〇 ×
× ×
〇 ×
〇〇 ×
〇 × ×
〇 ×
〇の勝
𝑣 𝑡 = 1
ループ1回目
次の〇の手を
計算
Start
現在ノード
==葉ノード?
ノード
現在ノード
0?
現在ノード =
Rollout
yes
yes
no
no
Backpropagation
シミュレーション結果を反映する。
現在ノードはもちろん、その親
ノードまで更新されることに注目。
親ノードの訪問カウントが2に
なった！
64

〇〇 ×
×
〇 ×
〇 ×
〇 ×
×
ノード：𝑆0
𝑣0 = 1.6
𝑛0 = 2
ln 𝑁
𝑛𝑖
𝑣1 = 1
𝑛1 = 1
ノード：𝑆2
𝑣2 = 0
𝑛2 = 0
〇〇 ×
×
〇〇 ×
× ×
〇〇 ×
× ×
〇
〇〇 ×
× ×
〇 ×
〇〇 ×
〇 × ×
〇 ×
〇の勝
𝑣 𝑡 = 1
ループ1回目
次の〇の手を
計算
1回目のループ終了
二回目のループを始めよう
Start
現在ノード
==葉ノード?
ノード
現在ノード
0?
現在ノード =
Rollout
yes
yes
no
no
Backpropagation 65

〇〇 ×
×
〇 ×
〇 ×
〇 ×
×
ノード：𝑆0
𝑣0 = 1.6
𝑛0 = 2
ln 𝑁
𝑛𝑖
ノード：𝑆1
𝑣1 = 1
𝑛1 = 1
ノード：𝑆2
𝑣2 = 0
𝑛2 = 0
ループ2回目
次の〇の手を
計算
Start
現在ノード
==葉ノード?
ノード
現在ノード
0?
現在ノード =
Rollout
yes
yes
no
no
Backpropagation
66

〇〇 ×
×
〇 ×
〇 ×
〇 ×
×
𝑣0 = 1.6
𝑛0 = 2
ln 𝑁
𝑛𝑖
ノード：𝑆1
𝑣1 = 1
𝑛1 = 1
ノード：𝑆2
𝑣2 = 0
𝑛2 = 0
ループ2回目
次の〇の手を
計算
Start
現在ノード
==葉ノード?
ノード
現在ノード
0?
現在ノード =
Rollout
yes
yes
no
no
Backpropagation
以前と同じく、現在のゲーム盤面
を現在ノードに設定する
67

〇〇 ×
×
〇 ×
〇 ×
〇 ×
×
𝑣0 = 1.6
𝑛0 = 2
ln 𝑁
𝑛𝑖
ノード：𝑆1
𝑣1 = 1
𝑛1 = 1
ノード：𝑆2
𝑣2 = 0
𝑛2 = 0
ループ2回目
次の〇の手を
計算
Start
現在ノード
==葉ノード?
ノード
現在ノード
0?
現在ノード =
Rollout
yes
yes
no
no
Backpropagation
現在ノードは葉ノードで
はない。
現在ノードの子ノードのUCB1関
数値を計算し、その数値が最大
の子ノードを現在ノードに設定す
る。
68

〇〇 ×
×
〇 ×
〇 ×
〇 ×
×
𝑣0 = 1.6
𝑛0 = 2
ln 𝑁
𝑛𝑖
ノード：𝑆1
𝑣1 = 1
𝑛1 = 1
ノード：𝑆2
𝑣2 = 0
𝑛2 = 0
ループ2回目
𝑈𝐶𝐵1 𝑆1 = 𝑣1 + 2
ln 𝑁
𝑛1
= 1 + 2
ln 2
1
𝑈𝐶𝐵1 𝑆2 = 𝑣2 + 2
ln 𝑁
𝑛2
= 0 + 2
ln 2
0
次の〇の手を
計算
Start
現在ノード
==葉ノード?
ノード
現在ノード
0?
現在ノード =
Rollout
yes
yes
no
no
Backpropagation
各子ノードのUCB1関数値
の計算
訪問カウントが少ない方
がUCB1関数値が大きくな
ることが多い。
つまり、なるべく新しいノー
ドを現在ノードに設定して
いく 69

〇〇 ×
×
〇 ×
〇 ×
〇 ×
×
𝑣0 = 1.6
𝑛0 = 2
ln 𝑁
𝑛𝑖
ノード：𝑆1
𝑣1 = 1
𝑛1 = 1
ノード：𝑆2
𝑣2 = 0
𝑛2 = 0
ループ2回目
𝑈𝐶𝐵1 𝑆1 = 2.67 𝑈𝐶𝐵1 𝑆2 = ∞
次の〇の手を
計算
Start
現在ノード
==葉ノード?
ノード
現在ノード
0?
現在ノード =
Rollout
yes
yes
no
no
Backpropagation
訪問カウントが0だとその
ノードを現在ノードに設定、
評価する
70

〇〇 ×
×
〇 ×
〇 ×
〇 ×
×
ノード：𝑆0
𝑣0 = 1.6
𝑛0 = 2
ln 𝑁
𝑛𝑖
ノード：𝑆1
𝑣1 = 1
𝑛1 = 1
𝑣2 = 0
𝑛2 = 0
ループ2回目
𝑈𝐶𝐵1 𝑆1 = 2.67 𝑈𝐶𝐵1 𝑆2 = ∞
次の〇の手を
計算
Start
現在ノード
==葉ノード?
ノード
現在ノード
0?
現在ノード =
Rollout
yes
yes
no
no
Backpropagation
このように、なるべく新しい
ノードを選択することで広い
検索が可能になる
71

〇〇 ×
×
〇 ×
〇 ×
〇 ×
×
ノード：𝑆0
𝑣0 = 1.6
𝑛0 = 2
ln 𝑁
𝑛𝑖
ノード：𝑆1
𝑣1 = 1
𝑛1 = 1
𝑣2 = 0
𝑛2 = 0
ループ2回目
次の〇の手を
計算
Start
現在ノード
==葉ノード?
ノード
現在ノード
0?
現在ノード =
Rollout
yes
yes
no
no
Backpropagation
訪問カウントが0のため、
Rollout(シミュレーション)を
通じてそのノードの評価を
行う
72

〇〇 ×
×
〇 ×
〇 ×
〇 ×
×
ノード：𝑆0
𝑣0 = 1.6
𝑛0 = 2
ln 𝑁
𝑛𝑖
ノード：𝑆1
𝑣1 = 1
𝑛1 = 1
𝑣2 = 0
𝑛2 = 0
ループ2回目
次の〇の手を
計算
〇 ×
〇 ×
×
〇 ×
〇 ×
× 〇
〇 ×
〇 ×
× × 〇
〇の負け
𝑣 𝑡 = −1
Start
現在ノード
==葉ノード?
ノード
現在ノード
0?
現在ノード =
Rollout
yes
yes
no
no
Backpropagation
現在ノードのシミュレーショ
ンの結果、負けてしまった
73

〇〇 ×
×
〇 ×
〇 ×
〇 ×
×
ノード：𝑆0
𝑣0 = 0.6
𝑛0 = 3
ln 𝑁
𝑛𝑖
ノード：𝑆1
𝑣1 = 1
𝑛1 = 1
𝑣2 = −1
𝑛2 = 1
ループ2回目
次の〇の手を
計算
〇 ×
〇 ×
×
〇 ×
〇 ×
× 〇
〇 ×
〇 ×
× × 〇
〇の負け
𝑣 𝑡 = −1
Start
現在ノード
==葉ノード?
ノード
現在ノード
0?
現在ノード =
Rollout
yes
yes
no
no
Backpropagation
シミュレーション結果を現在
ノードから一番上の親たち
に反映していく
74

〇〇 ×
×
〇 ×
〇 ×
〇 ×
×
ノード：𝑆0
𝑣0 = 0.6
𝑛0 = 3
ln 𝑁
𝑛𝑖
ノード：𝑆1
𝑣1 = 1
𝑛1 = 1
𝑣2 = −1
𝑛2 = 1
ループ2回目
次の〇の手を
計算
〇 ×
〇 ×
×
〇 ×
〇 ×
× 〇
〇 ×
〇 ×
× × 〇
〇の負け
𝑣 𝑡 = −1
Start
現在ノード
==葉ノード?
ノード
現在ノード
0?
現在ノード =
Rollout
yes
yes
no
no
Backpropagation
3回目のループを始めよう
75

〇〇 ×
×
〇 ×
〇 ×
〇 ×
×
ノード：𝑆0
𝑣0 = 0.6
𝑛0 = 3
ln 𝑁
𝑛𝑖
ノード：𝑆1
𝑣1 = 1
𝑛1 = 1
ノード：𝑆2
𝑣2 = −1
𝑛2 = 1
ループ3回目
次の〇の手を
計算
Start
現在ノード
==葉ノード?
ノード
現在ノード
0?
現在ノード =
Rollout
yes
yes
no
no
Backpropagation
76

〇〇 ×
×
〇 ×
〇 ×
〇 ×
×
𝑣0 = 0.6
𝑛0 = 3
ln 𝑁
𝑛𝑖
ノード：𝑆1
𝑣1 = 1
𝑛1 = 1
ノード：𝑆2
𝑣2 = −1
𝑛2 = 1
ループ3回目
次の〇の手を
計算
Start
現在ノード
==葉ノード?
ノード
現在ノード
0?
現在ノード =
Rollout
yes
yes
no
no
Backpropagation
以前と同じく、現在のゲーム盤面
を現在ノードに設定する
77

〇〇 ×
×
〇 ×
〇 ×
〇 ×
×
𝑣0 = 0.6
𝑛0 = 3
ln 𝑁
𝑛𝑖
ノード：𝑆1
𝑣1 = 1
𝑛1 = 1
ノード：𝑆2
𝑣2 = −1
𝑛2 = 1
ループ3回目
次の〇の手を
計算
Start
現在ノード
==葉ノード?
ノード
現在ノード
0?
現在ノード =
Rollout
yes
yes
no
no
Backpropagation
はない。
現在ノードの子ノードのUCB1関
数値を計算し、その数値が最大
の子ノードを現在ノードに設定す
る。
78

〇〇 ×
×
〇 ×
〇 ×
〇 ×
×
𝑣0 = 0.6
𝑛0 = 3
ln 𝑁
𝑛𝑖
ノード：𝑆1
𝑣1 = 1
𝑛1 = 1
ノード：𝑆2
𝑣2 = −1
𝑛2 = 1
ループ3回目
次の〇の手を
計算
𝑈𝐶𝐵1 𝑆1 = 𝑣1 + 2
ln 𝑁
𝑛1
= 1 + 2
ln 3
1
𝑈𝐶𝐵1 𝑆2 = 𝑣2 + 2
ln 𝑁
𝑛2
= −1 + 2
ln 3
1
Start
現在ノード
==葉ノード?
ノード
現在ノード
0?
現在ノード =
Rollout
yes
yes
no
no
Backpropagation
各子ノードのUCB1関数値
の計算
79

〇〇 ×
×
〇 ×
〇 ×
〇 ×
×
ノード：𝑆0
𝑣0 = 0.6
𝑛0 = 3
ln 𝑁
𝑛𝑖
𝑣1 = 1
𝑛1 = 1
ノード：𝑆2
𝑣2 = −1
𝑛2 = 1
ループ3回目
次の〇の手を
計算
𝑈𝐶𝐵1 𝑆1 = 2.67 𝑈𝐶𝐵1 𝑆2 = 1.10
Start
現在ノード
==葉ノード?
ノード
現在ノード
0?
現在ノード =
Rollout
yes
yes
no
no
Backpropagation
S1のUCB1値が大きいた
め、S1を現在ノードに設
定
80

〇〇 ×
×
〇 ×
〇 ×
〇 ×
×
ノード：𝑆0
𝑣0 = 0.6
𝑛0 = 3
ln 𝑁
𝑛𝑖
𝑣1 = 1
𝑛1 = 1
ノード：𝑆2
𝑣2 = −1
𝑛2 = 1
ループ3回目
次の〇の手を
計算
Start
現在ノード
==葉ノード?
ノード
現在ノード
0?
現在ノード =
Rollout
yes
yes
no
no
Backpropagation
この例では二つの子ノー
ドのみを追加する
81

〇〇 ×
×
〇 ×
〇 ×
〇 ×
×
ノード：𝑆0
𝑣0 = 0.6
𝑛0 = 3
ln 𝑁
𝑛𝑖
𝑣1 = 1
𝑛1 = 1
ノード：𝑆2
𝑣2 = −1
𝑛2 = 1
ループ3回目
次の〇の手を
計算
Start
現在ノード
==葉ノード?
ノード
現在ノード
0?
現在ノード =
Rollout
yes
yes
no
no
Backpropagation
〇〇 ×
× ×
〇〇 ×
×
×
𝑣4 = 0
𝑛4 = 0
𝑣3 = 0
𝑛3 = 0
新しい子ノード追加後。
全ての評価値(v)と訪問カウン
ト(n)が0に初期化されている
82

〇〇 ×
×
〇 ×
〇 ×
〇 ×
×
ノード：𝑆0
𝑣0 = 0.6
𝑛0 = 3
ln 𝑁
𝑛𝑖
ノード：𝑆1
𝑣1 = 1
𝑛1 = 1
ノード：𝑆2
𝑣2 = −1
𝑛2 = 1
ループ3回目
次の〇の手を
計算
Start
現在ノード
==葉ノード?
ノード
現在ノード
0?
現在ノード =
Rollout
yes
yes
no
no
Backpropagation
〇〇 ×
× ×
〇〇 ×
×
×
ノード：𝑆4
𝑣4 = 0
𝑛4 = 0
𝑣3 = 0
𝑛3 = 0
現在ノードを新しい子ノードに
設定。左から選択していく
83

〇〇 ×
×
〇 ×
〇 ×
〇 ×
×
ノード：𝑆0
𝑣0 = 0.6
𝑛0 = 3
ln 𝑁
𝑛𝑖
ノード：𝑆1
𝑣1 = 1
𝑛1 = 1
ノード：𝑆2
𝑣2 = −1
𝑛2 = 1
ループ3回目
次の〇の手を
計算
Start
現在ノード
==葉ノード?
ノード
現在ノード
0?
現在ノード =
Rollout
yes
yes
no
no
Backpropagation
〇〇 ×
× ×
〇〇 ×
×
×
ノード：𝑆4
𝑣4 = 0
𝑛4 = 0
𝑣3 = 0
𝑛3 = 0
〇〇 ×
× ×
〇〇 ×
× ×
〇
〇〇 ×
× ×
〇 ×
〇〇 ×
× × 〇
〇 ×
〇〇 ×
× × 〇
〇 × ×
ドロー
𝑣 𝑡 = 0
現在ノードのシミュレーショ
ンの結果、ドロー
84

〇〇 ×
×
〇 ×
〇 ×
〇 ×
×
ノード：𝑆0
𝑣0 = 0.6
𝑛0 = 4
ln 𝑁
𝑛𝑖
ノード：𝑆1
𝑣1 = 1
𝑛1 = 2
ノード：𝑆2
𝑣2 = −1
𝑛2 = 1
ループ3回目
次の〇の手を
計算
Start
現在ノード
==葉ノード?
ノード
現在ノード
0?
現在ノード =
Rollout
yes
yes
no
no
Backpropagation
〇〇 ×
× ×
〇〇 ×
×
×
ノード：𝑆4
𝑣4 = 0
𝑛4 = 0
𝑣3 = 0
𝑛3 = 1
〇〇 ×
× ×
〇〇 ×
× ×
〇
〇〇 ×
× ×
〇 ×
〇〇 ×
× × 〇
〇 ×
〇〇 ×
× × 〇
〇 × ×
ドロー
𝑣 𝑡 = 0
シミュレーション結果を現在
ノードから一番上の親たち
に反映していく
85

〇〇 ×
×
〇 ×
〇 ×
〇 ×
×
ノード：𝑆0
𝑣0 = 0.6
𝑛0 = 4
ln 𝑁
𝑛𝑖
ノード：𝑆1
𝑣1 = 1
𝑛1 = 2
ノード：𝑆2
𝑣2 = −1
𝑛2 = 1
ループ3回目
次の〇の手を
計算
Start
現在ノード
==葉ノード?
ノード
現在ノード
0?
現在ノード =
Rollout
yes
yes
no
no
Backpropagation
〇〇 ×
× ×
〇〇 ×
×
×
ノード：𝑆4
𝑣4 = 0
𝑛4 = 0
𝑣3 = 0
𝑛3 = 1
〇〇 ×
× ×
〇〇 ×
× ×
〇
〇〇 ×
× ×
〇 ×
〇〇 ×
× × 〇
〇 ×
〇〇 ×
× × 〇
〇 × ×
ドロー
𝑣 𝑡 = 0
ここでタイムアウト！
今までの計算結果を元に次の手を選ぶ！
86

〇〇 ×
×
〇 ×
〇 ×
〇 ×
×
ノード：𝑆0
𝑣0 = 0.6
𝑛0 = 4
ln 𝑁
𝑛𝑖
ノード：𝑆1
𝑣1 = 1
𝑛1 = 2
ノード：𝑆2
𝑣2 = −1
𝑛2 = 1
選択
次の〇の手を
計算
〇〇 ×
× ×
〇〇 ×
×
×
ノード：𝑆4
𝑣4 = 0
𝑛4 = 0
ノード：𝑆3
𝑣3 = 0
𝑛3 = 1
S0の子ノードから、vが大き
い方を選択。
今回はS1を選ぶこと！
これでMCTSの説明終了。
でも、ここに置くと負けるの
では？？
87

• 計算する手の候補の質が悪い
– もっと良い手を見逃す場合がある
• シミュレーション結果がいまいち
– ランダムでシミュレーションするため、実際のゲーム結果にならない
良い次の手を予測するための努力１
MCTSの改善
88

〇〇 ×
×
〇 ×
〇 ×
〇 ×
×
ノード：𝑆0
𝑣0 = 0.6
𝑛0 = 4
ln 𝑁
𝑛𝑖
ノード：𝑆1
𝑣1 = 1
𝑛1 = 2
ノード：𝑆2
𝑣2 = −1
𝑛2 = 1
選択
次の〇の手を
計算
〇〇 ×
× ×
〇〇 ×
×
×
ノード：𝑆4
𝑣4 = 0
𝑛4 = 0
ノード：𝑆3
𝑣3 = 0
𝑛3 = 1
ここに置いたら負ける
〇 ×
×
〇
これがベストチョイス。
しかし、この手は候補に
無い！
89

〇〇 ×
×
〇 ×
〇 ×
〇 ×
×
ノード：𝑆0
𝑣0 = 0.6
𝑛0 = 4
ln 𝑁
𝑛𝑖
ノード：𝑆1
𝑣1 = 1
𝑛1 = 2
ノード：𝑆2
𝑣2 = −1
𝑛2 = 1
対策
次の〇の手を
計算
〇〇 ×
× ×
〇〇 ×
×
×
ノード：𝑆4
𝑣4 = 0
𝑛4 = 0
ノード：𝑆3
𝑣3 = 0
𝑛3 = 1
計算候補の質を上げる
色んなルールや手作り
ロジックで計算候補の
質を上げた
90

• 計算する手の候補の質が悪い
– もっと良い手を見逃す場合がある
• シミュレーション結果がいまいち
– ランダムでシミュレーションするため、実際のゲーム結果にならない
良い次の手を予測するための努力１
MCTSの改善
91

〇〇 ×
×
〇 ×
〇 ×
〇 ×
×
ノード：𝑆0
𝑣0 = 0.6
𝑛0 = 1
𝑣1 = 0
𝑛1 = 0
ノード：𝑆2
𝑣2 = 0
𝑛2 = 0
〇〇 ×
×
〇〇 ×
× ×
〇〇 ×
× ×
〇
〇〇 ×
× ×
〇 ×
〇〇 ×
〇 × ×
〇 ×
〇の勝
𝑣 𝑡 = 1
シミュレーション
の質
本当のゲームな
ら負けてるはず
予測される正しい結果。
シミュレーションの質が悪く、正
しい評価が出来ない！
〇〇 ×
×
×
色んな方法でシミュレー
ションの質を上げた
92

• 計算する候補の質を上げる
• シミュレーションの質を上げる
• その結果、2012年、AIは囲碁の五段のレベルまで進歩する。
MCTSの発達
囲碁の五段のレベルまでたどり着く（2012年）
93

• Convolution Neural network (CNN)
• 今までは違うレベルでイメージを判別するアルゴリズム
– 例：写真を見てこれは猫、これは犬など判別できる
良い次の手を予測するための努力２
Deep Learningの登場（2012年）
Deep Learning(DL)をMCTSに使う
ともっと強力なAIが作れるかも？
94

• DLを使って計算する候補の質を上げる
• DLを使ってシミュレーションの質を上げる
AlphaGoの登場（2016年）
今までのアルゴリズムの総合体
実際にDLを使ってみました。
それがAlphaGo!
95

〇〇 ×
×
〇 ×
〇 ×
〇 ×
×
ノード：𝑆0
𝑣0 = 0.6
𝑛0 = 4
ln 𝑁
𝑛𝑖
ノード：𝑆1
𝑣1 = 1
𝑛1 = 2
ノード：𝑆2
𝑣2 = −1
𝑛2 = 1
対策
次の〇の手を
計算
〇〇 ×
× ×
〇〇 ×
×
×
ノード：𝑆4
𝑣4 = 0
𝑛4 = 0
ノード：𝑆3
𝑣3 = 0
𝑛3 = 1
計算候補の質を上げる
Policy Networkで予測性能
を上げる
96

AlphaGo 詳細
Policy Networkとは
• 13層のConvolution Neural Network
• 現状の石の配置から人の次の手を予測する
– 57.0%予測率
• KGS Go サーバーから人がプレイした3千万個の配
置データから学習(教師あり学習)
– 石の配置を含めた48種類のデータ利用
• 3ms 計算時間
〇 ×
×
〇
〇〇 ×
×
〇 ×
×
90% 5%
人ならこの手を90%の確率
で選ぶよと教えてくれる
97

AlphaGo 詳細
Policy Network
①ゲームの盤面を見て
②次の候補を推薦。
一番確率が高い手が濃い
緑に表現されている
比較的確率が低い次の手
98

• DLを使って計算する候補の質を上げる
• DLを使ってシミュレーションの質を上げる
AlphaGoの登場（2016年）
今までのアルゴリズムの総合体
99

〇〇 ×
×
〇 ×
〇 ×
〇 ×
×
ノード：𝑆0
𝑣0 = 0.6
𝑛0 = 1
𝑣1 = 0
𝑛1 = 0
ノード：𝑆2
𝑣2 = 0
𝑛2 = 0
〇〇 ×
×
〇〇 ×
× ×
〇〇 ×
× ×
〇
〇〇 ×
× ×
〇 ×
〇〇 ×
〇 × ×
〇 ×
〇の勝
𝑣 𝑡 = 1
対策
本当のゲームな
ら負けてるはず
Rollout Policyを利用し
シミュレーション質を上
げる
Value Networkを利用し、
勝つ学率を計算する
100

AlphaGo 詳細
Rollout Policy
• Linear Softmax Regression
• 現状の石の配置から人の次の手を予測する
– 予測率：24.2％
– 石の配置を簡単化したデータ利用
• 2 μs 計算時間
– 予測性能はPolicy Networkより落ちるが、早い計算が可
能〇〇 ×
×
〇〇 ×
× ×
〇〇 ×
× ×
〇
〇〇 ×
× ×
〇 ×
〇〇 ×
〇 × ×
〇 ×
シミュレーションを早く計算す
るため、予測性能より計算速
度重視した。
Policy Networkより予測性能
は落ちるが、速度は速い
101

AlphaGo 詳細
Value Network
• 13層のConvolution Neural Network
– Policy Networkと同様
• 現状の石の配置から勝つ確率を予測する
– 石の配置を含めた48種類のデータ利用
〇 ×
×
5%Policy NetworkやRollout
Networkは次の手を予測す
るが、Value Networkは盤面
の「勝つ学率」を計算する
102

AlphaGo 詳細
Value Network
①現在の盤面
の情報から
②勝つ確率を計
算する
Policy Networkと
の違いに注目
103

AlphaGo
詳細
MCTSのステップ
1. Selection
2. Expansion
3. Rollout
4. Backup
このアルゴリズムを
ループさせる
Start
現在ノード
==葉ノード?
現在ノード = シミュレーショ
ン、Value Network(CNN)、
Policy Network(CNN)の結
果を総合的に見て(Q + u)決
める
現在ノード
の訪問カウン
ト == 0?
Policy Network (CNN)で新し
い子ノードたちを追加
現在ノード =
確率が高いノード
Rollout policy &
Value Network
yes
yes
no
no
Backpropagation
104
赤いところがAlphaGoで
変わったポイント

〇 ×
×
ノード：𝑆0
𝑄0 = 0.1
𝑛0 = 1
ループ1回目
次の〇の手を
計算
Start
現在ノード
==葉ノード?
現在ノード = シミュレーション、Value
Network(CNN) Policy Network(CNN)の
結果を総合的に見て(Q + u)決める
現在ノード
0?
Policy Network (CNN)で新しい子ノー
ドたちを追加
現在ノード =
Rollout policy &
Value Network
yes
yes
no
no
Backpropagation
ノードS0 の評価値は0.1で
訪問カウントは１だと想定
Q：評価値
n：訪問カウント
105

〇 ×
×
𝑄0 = 0.1
𝑛0 = 1
ループ1回目
次の〇の手を
計算
Start
現在ノード
==葉ノード?
現在ノード
0?
ドたちを追加
現在ノード =
Rollout policy &
Value Network
yes
yes
no
no
Backpropagation
106

〇 ×
×
𝑄0 = 0.1
𝑛0 = 1
ループ1回目
次の〇の手を
計算
Start
現在ノード
==葉ノード?
現在ノード
0?
ドたちを追加
現在ノード =
Rollout policy &
Value Network
yes
yes
no
no
Backpropagation
この例では二つの子ノードのみ
を追加する
107

〇 ×
×
〇
〇〇 ×
×
〇 ×
×
𝑄0 = 0.1
𝑛0 = 1
𝑄1 = 0
𝑛1 = 0
𝑄2 = 0
𝑛2 = 0
ループ1回目
次の〇の手を
計算
Start
現在ノード
==葉ノード?
現在ノード
0?
ドたちを追加
現在ノード =
Rollout policy &
Value Network
yes
yes
no
no
Backpropagation
90% 5%
Policy Networkで候補の質
を上げる
人なら90%の確率でここ
を選ぶよ
人なら5%の確率でここ
を選ぶよ
108

〇 ×
×
〇
〇〇 ×
×
〇 ×
×
ノード：𝑆0
𝑄0 = 0.1
𝑛0 = 1
𝑄1 = 0
𝑛1 = 0
ノード：𝑆2
𝑄2 = 0
𝑛2 = 0
ループ1回目
次の〇の手を
計算
Start
現在ノード
==葉ノード?
現在ノード
0?
ドたちを追加
現在ノード =
Rollout policy &
Value Network
yes
yes
no
no
Backpropagation
90% 5%
現在ノードを新しい子ノードに設
定。確率が高いノードを選択
109

〇 ×
×
〇
〇〇 ×
×
〇 ×
×
ノード：𝑆0
𝑄0 = 0.1
𝑛0 = 1
𝑄1 = 0
𝑛1 = 0
ノード：𝑆2
𝑄2 = 0
𝑛2 = 0
ループ1回目
次の〇の手を
計算
Start
現在ノード
==葉ノード?
現在ノード
0?
ドたちを追加
現在ノード =
Rollout policy &
Value Network
yes
yes
no
no
Backpropagation
90% 5%
〇 ×
×
〇
〇 ×
× ×
〇
〇 ×
× × 〇
〇
〇 ×
× × 〇
〇 ×
〇〇 ×
× × 〇
〇 ×
〇〇 ×
× × 〇
〇 × ×
ドロー
𝑧𝑡 = 0
勝つ確率：20％
Rollout Policyを利用し
シミュレーション質を上
げる
Value Networkで現在ノード
の勝利確率を計算する
𝑄 𝑠, 𝑎 =
1
𝑁 𝑠, 𝑎
𝑖=1
𝑛
1 𝑠, 𝑎, 𝑖 𝑉(𝑠 𝐿
𝑖
)
訪問カウントとQは反比例、
Vはシミュレーション結果と
Value Networkの勝つ確率
を利用している。
110

〇 ×
×
〇
〇〇 ×
×
〇 ×
×
ノード：𝑆0
𝑄0 = 0.25
𝑛0 = 2
𝑄1 = 0.2
𝑛1 = 1
ノード：𝑆2
𝑄2 = 0
𝑛2 = 0
ループ1回目
次の〇の手を
計算
Start
現在ノード
==葉ノード?
現在ノード
0?
ドたちを追加
現在ノード =
Rollout policy &
Value Network
yes
yes
no
no
Backpropagation
90% 5%
〇 ×
×
〇
〇 ×
× ×
〇
〇 ×
× × 〇
〇
〇 ×
× × 〇
〇 ×
〇〇 ×
× × 〇
〇 ×
〇〇 ×
× × 〇
〇 × ×
ドロー
𝑧𝑡 = 0
Qを計算するために、Value Network
の勝つ確率、Rollout Policyのシミュ
レーション結果を利用する。Q値は
訪問カウントと反比例するため、訪
問カウントが上がるとQは小さくなる
𝑄 𝑠, 𝑎 =
1
𝑁 𝑠, 𝑎
𝑖=1
𝑛
𝑖
)
111

〇 ×
×
〇
〇〇 ×
×
〇 ×
×
ノード：𝑆0
𝑄0 = 0.25
𝑛0 = 2
𝑄1 = 0.2
𝑛1 = 1
ノード：𝑆2
𝑄2 = 0
𝑛2 = 0
ループ1回目
次の〇の手を
計算
Start
現在ノード
==葉ノード?
現在ノード
0?
ドたちを追加
現在ノード =
Rollout policy &
Value Network
yes
yes
no
no
Backpropagation
90% 5%
〇 ×
×
〇
〇 ×
× ×
〇
〇 ×
× × 〇
〇
〇 ×
× × 〇
〇 ×
〇〇 ×
× × 〇
〇 ×
〇〇 ×
× × 〇
〇 × ×
ドロー
𝑧𝑡 = 0
2回目のループを始めよう
Policy Network
Rollout Policy
Value Network
𝑄 𝑠, 𝑎 =
1
𝑁 𝑠, 𝑎
𝑖=1
𝑛
𝑖
)
112

〇 ×
×
〇
〇〇 ×
×
〇 ×
×
ノード：𝑆0
𝑄0 = 0.25
𝑛0 = 2
ノード：𝑆1
𝑄1 = 0.2
𝑛1 = 1
ノード：𝑆2
𝑄2 = 0
𝑛2 = 0
ループ2回目
次の〇の手を
計算
Start
現在ノード
==葉ノード?
現在ノード
0?
ドたちを追加
現在ノード =
Rollout policy &
Value Network
yes
yes
no
no
Backpropagation
90% 5%
113

〇 ×
×
〇
〇〇 ×
×
〇 ×
×
𝑄0 = 0.25
𝑛0 = 2
ノード：𝑆1
𝑄1 = 0.2
𝑛1 = 1
ノード：𝑆2
𝑄2 = 0
𝑛2 = 0
ループ2回目
次の〇の手を
計算
Start
現在ノード
==葉ノード?
現在ノード
0?
ドたちを追加
現在ノード =
Rollout policy &
Value Network
yes
yes
no
no
Backpropagation
90% 5%
114

〇 ×
×
〇
〇〇 ×
×
〇 ×
×
𝑄0 = 0.25
𝑛0 = 2
ノード：𝑆1
𝑄1 = 0.2
𝑛1 = 1
ノード：𝑆2
𝑄2 = 0
𝑛2 = 0
ループ2回目
次の〇の手を
計算
Start
現在ノード
==葉ノード?
現在ノード
0?
ドたちを追加
現在ノード =
Rollout policy &
Value Network
yes
yes
no
no
Backpropagation
90% 5%
𝑢 𝑠, 𝑎 ∝
𝑃 𝑠, 𝑎
1 + 𝑁(𝑠, 𝑎)
はない。
現在ノードの子ノードのQ+u値を
計算し、その数値が最大の子
ノードを現在ノードに設定する。
PはPolicy Networkで予測され
た次の手(各ノード)の確率、N
は訪問カウント
115

〇 ×
×
〇
〇〇 ×
×
〇 ×
×
ノード：𝑆0
𝑄0 = 0.25
𝑛0 = 2
𝑄1 = 0.2
𝑛1 = 1
ノード：𝑆2
𝑄2 = 0
𝑛2 = 0
ループ2回目
次の〇の手を
計算
Start
現在ノード
==葉ノード?
現在ノード
0?
ドたちを追加
現在ノード =
Rollout policy &
Value Network
yes
yes
no
no
Backpropagation
90% 5%
𝑢 𝑠, 𝑎 ∝
𝑃 𝑠, 𝑎
1 + 𝑁(𝑠, 𝑎)
この数値は適当な数値…
𝑄1 + u1 ∝ 0.2 +
0.9
1 + n1
= 0.65 𝑄2 + u2 ∝ 0 +
0.05
1 + n2
= 0.05
Q+uが最大のS1を
現在ノードに設定
116

〇 ×
×
〇
〇〇 ×
×
〇 ×
×
ノード：𝑆0
𝑄0 = 0.25
𝑛0 = 2
𝑄1 = 0.2
𝑛1 = 1
ノード：𝑆2
𝑄2 = 0
𝑛2 = 0
ループ2回目
次の〇の手を
計算
Start
現在ノード
==葉ノード?
現在ノード
0?
ドたちを追加
現在ノード =
Rollout policy &
Value Network
yes
yes
no
no
Backpropagation
90% 5%
𝑢 𝑠, 𝑎 ∝
𝑃 𝑠, 𝑎
1 + 𝑁(𝑠, 𝑎)
ここでタイムアウト！
今までの計算結果を元に
次の手を選択する
117

〇 ×
×
〇
〇〇 ×
×
〇 ×
×
ノード：𝑆0
𝑄0 = 0.25
𝑛0 = 2
ノード：𝑆1
𝑄1 = 0.2
𝑛1 = 1
ノード：𝑆2
𝑄2 = 0
𝑛2 = 0
ループ2回目
次の〇の手を
計算
Start
現在ノード
==葉ノード?
現在ノード
0?
ドたちを追加
現在ノード =
Rollout policy &
Value Network
yes
yes
no
no
Backpropagation
90% 5%
𝑢 𝑠, 𝑎 ∝
𝑃 𝑠, 𝑎
1 + 𝑁(𝑠, 𝑎)
AlphaGoは訪問カウントが一
番多い手を選択する。
これで説明終了！
でも、強化学習は？？
118

AlphaGo 人を超える
Policy Network & Value Network
• 現状の石の配置から一番良い手を計算する
– Policy Network
• 現状の石の配置から勝つ確率を計算する
– Value Network
• 自分自身でプレイし、そのデータで学習させる
– 強化学習（Policy gradient method）
• 人が考えられない手をプレイするように
119

①人間のプレイデータを利用
しRollout policyとPolicy
Networkを作る
②AlphaGo vs AlphaGo対決で
新しいデータを作成
③新しいデータでPolicy Network
とValue Networkを作成
120
自分自身と戦って、人よりはる
かに強くなる。

APV – MCTS
(asynchronous policy and value MCTS algorithm)
Master
Machine
MCTS 管理
Worker
CPU
Rollout Policy
Worker
GPU
Policy Network
Value Network
Single Machine
• 40 Search Threads
• 48 CPU
• 8 GPU
Distributed
• 40 Search Threads
• 1202 CPU
• 176 GPU
121

122
従来の囲碁AI
ヨーロッパ囲碁
チャンピオン
AlphaGo
各囲碁AIの強さを
囲碁の段系にて表示
色んな囲碁AIとのトーナメント結果グ
ラフ。(2015年?)
従来の囲碁AIは5段レベルだが、
AlphaGoはヨーロッパのチャンプを超
えていることが分かる。現在の
AlphaGoは当グラフよりはるかに強く
なっている。

123
Rollout Policy, Value Network, Policy
Networkの組み合わせでどう性能が変わ
るかを見せるグラフ。
三つの部品を組み合わせることで一番の
性能を出していることが分かる。

124
スケーラビリティを見せる
グラフ。GPUとスレッドが増
えると性能が上がるのが
見える。

まとめ
• AlphaGoとはGame Tree (ゲーム木)を探索する
Monte Carlo Tree Search (MCTS) のSelection &
Evaluationフェーズを、Convolution Neural Network
(CNN)と強化学習を利用し、大幅に強化したアルゴリ
ズム。
• この資料のAlphaGoは2015年に公開されたもの。最
近はまた違うらしい。(2017年末に新しい論文が出る
らしい)
• 何か間違った情報があったらコメントしてください
125

参考文献
• AlphaGo論文
– https://www.nature.com/nature/journal/v529/n7
587/full/nature16961.html
• 使用した図
– http://www.owlnet.rice.edu/~comp210/02fall/La
bs/Lab15/
• 従来のアルゴリズム
– Wikipedia 及び AlphaGo論文のReference
126

古典的ゲームAIを用いたAlphaGo解説

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Viewers also liked

Viewers also liked (15)

Similar to 古典的ゲームAIを用いたAlphaGo解説

Similar to 古典的ゲームAIを用いたAlphaGo解説 (6)

Recently uploaded

Recently uploaded (9)

古典的ゲームAIを用いたAlphaGo解説