深層強化学習と実装例

深層強化学習と
その実装例
牧野浩二、西崎博光

自己紹介（牧野浩二）
所属：
山梨大学
工学部附属ものづくり教育実践教育センター
准教授
歩行ロボット
小学生ｘ人工知能
経歴
東京工業大学卒
本田技術研究所研究員
高度情報科学技術研究機構研究員
東京工科大学助教
山梨大学
地球シミュレータ（当時，世界最速）
を用いた新奇ナノカーボン構造体
研究：
医療福祉ロボット
暗黙知の工学的解析
人工知能
まきのこうじ

自己紹介（西崎博光）
所属：
山梨大学
大学院総合研究部工学域（工学部メカトロニクス工学科）
准教授
経歴
2003.3 豊橋技術科学大学卒
2003.4〜山梨大学
2015.8〜2016.3 国立台湾大学客員研究員
2016.4〜山梨大学准教授
研究：
ディープラーニングを用いたマルチメディア情報処理の基礎研究と応用研究
・認識分類系：音声（音）認識，感情認識，AI-OCR（文字認識），画像認識
・応用系：ぶどうの色判定や歩行解析（画像認識応用），
電子ノート・技術伝承支援システム（音声認識応用），
聞き耳インタフェース（音声認識応用），など
にしざきひろみつ

著書
Python/TensorFlowによる
深層強化学習入門
新刊
深層（強化）学習データサイエンス
電子工作
ソフトウエア
人工知能アルゴリズム探検隊
2016年9月～2020年12月、全42回
AIドリル（電子版書籍連携）
2021年1月～、第2回
連載

その他教材
実践！ Chainerとロボットで学ぶ
ディープラーニング
深層学習（深層強化学習）
https://www.nhk-ep.co.jp/nep-development-proposal-
4/
小学生向けAIエンターテインメントコンテンツの開発
[2019年度 NHKエンタープライズ開発案件]
https://ai.afrel.co.jp/chainer.html
レゴ® マインドストーム® EV3×Chainer™
Preferred Network×アフレル NHKエンタープライズ×Tech Kids School

深層強化学習と
その実装例
深層学習
（ディープラーニング）
強化学習

目次
• 歴史と概要
• 強化学習とは
• 深層学習とは
• ロボットと学習
• 問題設定と利点
• 計算機と今後
原理を知ることで
問題設定をしやすく

深層学習の歴史
ニューラルネットワーク
深層学習
ブレークスルー
深層学習の進歩
パーセプトロン 1960年代
1980年代
2000年代
2010年代
1990年代
イヌネコウサギ
ネコ
①学習
②テスト
1950年代
1940年代
ヘッブの
シナプス強化法則
マッカロ・ピッツの
ニューロンモデル
深層学習
学習スイッチ
回答スイッチ
反射型光センサ
青透明のふた
LED
画像認識が人間レベルを超えた

深層強化学習の歴史
強化学習
Qラーニング
Qネットワーク
深層学習
深層強化学習
（ディープQネットワーク）
さまざまな手法を取り込んだ
深層強化学習
実環境へ応
用しやすく
深層学習の
組み込み
強化学習へ
の原点回帰
ニューラル
ネットワーク
の組み込み
1980年代
2000年代
2010年代
1990年代
深層学習
深層強化学習

深層強化学習
テレビゲームが人間レベルを超えた
ロボットをうまく動かすことができた
囲碁や将棋などの対戦ゲームで人間レベルを超えた

深層強化学習
テレビゲームが人間レベルを超えた
ロボットをうまく動かすことができた
囲碁や将棋などの対戦ゲームで人間レベルを超えた
ロボットと
学習について

深層強化学習の応用例
• 建物の揺れ制御（ダンパーの動きを制御）
• スマートグリッド（送電ネットワークの最適化）
https://ledge.ai/reinforcement-learning/
• 運搬車などの自動運転
• エレベーターの最適化制御

強化学習とは
試行錯誤しながら，与えられた環境の中でよりよい行動を
自動的に獲得する学習方法である。
①（状態）観測
②行動
③報酬
環境
エージェント
半教師付き学習

強化学習とは学習の枠組み
良い状態と悪い状態だけ与えられ，それに至る行動を
獲得する学習が強化学習の考え方である。
有名な強化学習の種類
強化学習は学習方法の枠組みであり，
それを実装するアルゴリズムが必要になる。
• Qラーニング
• Sarsa
• Actor-Critic法
• モンテカルロ法
問題を考案する際
のヒントとなる

Qラーニング（１人の意思決定）
電源ボタン餌ボタン
電源OFF 0 0
電源ON 0 0
Q値によって行動を決定
電源OFF 0 0
電源ON 0 0.5
電源OFF 0.225 0
電源ON 0 0.5
餌を得る
餌を得る直前の状態になる
更新方法
報酬によりQ値が変化
Q値の伝播によりQ値が変化

Qラーニング（１人の意思決定）
MINT MINT
MINT
開ける
（𝑎 = 0, 𝑟 = 0）
傾ける
（𝑎 = 2, 𝑟 = 1）
閉める
（𝑎 = 1, 𝑟 = 0）
ミント菓子がある
ミント菓子がない
閉じている（𝒔 = 𝟎）
開いていて，
開いていて，
報酬あり
ミント菓子がある（𝒔 = 𝟏）
ミント菓子がない（𝒔 = 𝟐）
開ける閉める傾ける
閉じている 0.8 0.1 0.3
空いている（ミントあり） 0.2 0.2 0.9
空いている（ミントなし） 0.4 0.6 0.5
ミントタブレットを食べる問題
値が大きい行動が選ばれる

Qラーニング（２人の意思決定）
0 1 2
3 4 5
6 7 8
なし：０
〇：１
× ：２
〇
×
1 × 30
+ 0 × 31
+ 0 × 32
+ 0 × 33
+ 2 × 34
+ 0 × 35
+ 0 × 36
+ 0 × 37
+ 0 × 38
= 163
状態を数で表す
〇
×
1 × 30
+ 1 × 31
+ 0 × 32
+ 0 × 33
+ 2 × 34
+ 0 × 35 + 2 × 36 + 1 × 37 + 2 × 38 = 16933
×
〇
〇
×
19682
0 1 2 3 4 5 6 7 8
0
1
・・・
19682
場所の番号と記号の番号
0 1 2 3 4 5 6 7 8
0
1
・・・
19682
〇プレーヤーのQテーブル ×プレーヤーのQテーブル

Qラーニング（２人の意思決定）
0 1 2 3 4 5 6 7 8
0 0.0 0.0 0.0 0.0 0.5 0.0 0.0 0.0 0.0
1 0.0 0.0 0.0 0.0 0.7 0.0 0.0 0.0 0.0
・・・
19682 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0
0 1 2
3 4 5
6 7 8
0 1 2
3 4 5
6 7 8
〇
0 1 2 3 4 5 6 7 8
0 0.5 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0
1 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0
・・・
19682 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0
〇プレーヤーのQテーブル
×プレーヤーのQテーブル
0 1 2
3 4 5
6 7 8
〇 0 1 2
3 4 5
6 7 8
〇
×
状態:
0
状態:
1
行動：
0番に打つ
行動：
4番に打つ
0 1 2
3 4 5
6 7 8
0 1 2
3 4 5
6 7 8
〇
0 1 2 3 4 5 6 7 8
0 0.5 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0
1 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0
・・・
16933 -0.1 -0.2 0.8 0.0 0.0 0.0 -0.2 -0.1 -0.2
・・・
19682 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0
状態:
16933
行動：
2番に打つ
〇
×
×
〇
〇
×
〇
×
×
〇
〇
×
〇の勝ち

ゲームやロボット制御
状態
画像
行動
右に移動
左に移動
動かない
動かないでビーム
右に移動しながらビーム
左に移動しながらビーム
状態
画像
行動
動かない
x方向正の移動
x方向負の移動
y方向正の移動
y方向負の移動
ハンドの正転
ハンドの逆転
状態が多すぎてQラーニングでは表現できない
(256x341)
(210x160)

深層学習の枠組み
イヌネコウサギ
ネコ
教師あり学習
①学習
②テスト

𝑥1
𝑥2
1
ℎ1
1
ℎ2
ℎ3
𝑦1
𝑦2
入力層中間層出力層
𝑦1
𝑦2
ℎ1
𝑚
1
ℎ2
𝑚
ℎ3
𝑚
ℎ𝑛𝑚
1
𝑥1
𝑥2
1
ℎ1
1
1
ℎ2
1
ℎ3
1
ℎ𝑛1
1
入力層出力層
中間層
𝑥𝑛𝑥
𝑦𝑛𝑥
𝑥1
𝑥2
1
𝑦1
𝑦2
入力層出力層
パーセプトロン（1960年代）
ニューラルネットワーク（1980年代）
深層学習（2000年代）
深層学習
ブレーク
スルー
1980年代
2000年代

いろいろな深層学習
RNN（リカレントニューラルネットワーク）
CNN（畳み込みニューラルネットワーク）
AE（オートエンコーダ）
GAN
・・・
入力層出力層
中間層
1
𝑠2
𝑦1
𝑠1
𝑦2
1
𝑥2
𝑥1
出力は10個
一列に並べて
ニューラルネットワークの入力にする．
畳み込み
（画像が増える）
集めてから増やす
畳み込みプーリング
プーリング
（画像が小さくなる）

パーセプトロンにできたこと
学習スイッチ
回答スイッチ
反射型光センサ
青透明のふた
LED
1000
千円
1000
日本銀行券
5か所の色の濃さ（明るさ）を測る
明るさ
位置
1985～90年ごろ「お札の分別機（パーセプトロン）」
これらにより新しい価値が生まれた。
• 深層学習の原理を知り、
• 課題をその原理に合わせて簡略化し、
• 適切な前処理、後処理が必要

強化学習と深層強化学習
迷路
𝑦1
𝑦2
ℎ1
𝑚
1
ℎ2
𝑚
ℎ3
𝑚
ℎ𝑛𝑚
1
𝑥1
𝑥2
1
ℎ1
1
1
ℎ2
1
ℎ3
1
ℎ𝑛1
1
入力層出力層
中間層
𝑥8 𝑦8
0
0 1 2
3 4 5
6 7 8
0 1 2
3 4 5
6 7 8
〇
0 1 2 3 4 5 6 7 8
0 0.5 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0
1 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0
・・・
16933 -0.1 -0.2 0.8 0.0 0.0 0.0 -0.2 -0.1 -0.2
・・・
19682 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0
状態:
16933
行動：
2番に打つ
〇
×
×
〇
〇
×
〇
×
×
〇
〇
×
1
2
3
4
5
6
7
8
0 1 2
3 4 5
6 7 8
〇
×
×
〇
〇
×
1
1
0
0
0
2
2
1
2
〇
〇
〇
×
×
×
0.1
0.1
0.8
0.3
0.2
0.1
0.1
0.2
0.1
0 1 2
3 4 5
6 7 8
〇
行動：
2番に打つ
〇
×
×
〇
〇
×

強化学習とは（再掲）
試行錯誤しながら，与えられた環境の中でよりよい行動を
自動的に獲得する学習方法である。
②行動
③報酬
環境
エージェント

深層強化学習の手順
②行動
③報酬
環境
エージェント
状態を
貯めておく

ロボットと学習
強化学習は環境とのインタラクションを通じて、
目的を達成することができる学習方法
ロボットは決まった動作をすることは得意だが、自ら考えることは苦手
ロボットに動作を学習させることが昔から行われている。
学習と身体性に言及するロボット工学もある。
得意：はんだ付け作業苦手：収穫作業
ロボットと
親和性が高い

ロボットとのかかわり
中野馨
1985～90年ごろ「銅谷ロボット（歩行パターン学習ロボット）」

アソシアトロンによる
ロボット動作
6足ロボット
2013年
ニューロンを再帰方向も含めて全結合したネットワーク
思い出しながら歩く状況に対応した動作ができる

深層強化学習の実機実装の例
学習に要する時間：
普通のPCで1時間

実機実装した例
深層学習の結果により大まかに動作し、
深層強化学習で動作の調整を行った。
シミュレーションで学習した結果を用いた。

向く・向かない問題
向く問題
向かない問題
• 良い状態が一意に決まらない問題
• 環境とのインタラクションがない問題
• 良い状態が明確な問題
• 環境が行動によって変化する問題
病気の診断、天気予報、文書作成など
ロボットの動作、対戦ゲーム、テレビゲーム
問題設定が難しい

深層強化学習の問題点と利点
学習前の問題
• 問題設定が難しい
• 報酬の与え方
学習中の問題
• 学習中は危なくて使えない
• 学習に時間がかかる
• シミュレーションとの整合性
• 学習の収束性がない
• 必ずしも収束結果が一意に決まらない
学習後の問題
• 安全性の確保
• 人間の想定外の行動
利点
人間活動との親和性が高い

計算機の進歩
深層学習
1980年代
2000年代
2010年代
1990年代
1950年代
1940年代
ヘッブの
シナプス強化法則
マッカロ・ピッツの
ニューロンモデル
深層学習
第1次人工知能ブーム
コンピュータが実用化され、アポロ計画に代表される
ように計算機を使った成果が出始める。
IBMやアップルなどパーソナルコンピュータの普及
があった。普及に伴い計算機の性能が飛躍的に
向上した。
インターネットの普及も要因の一つであるが、NVIDIAから
公開されたCUDAライブラリによるGPUによる並列ベクトル
計算の普及が大きく貢献した。これにより深層学習に必要
な計算が飛躍的に高速になった。

エッジデバイスと5G
エッジコンピューティング
深層学習のモデルを作成するには強力な計算機が必要だが、そのモデルを使った推論には必要がない。
モデルを各デバイスへ
入力
推論結果
各デバイスは入力を各端末内で処理
５Gによる大容量・高速データ通信
強力な通信回線を通じてサーバにデータを送り、サーバで推論する。
サーバで推論
入力
推論結果
各デバイスは入力を各端末内で処理

量子コンピュータ
人口知能の発展には計算機の進歩があった。
今後の計算機
次のブームは量子コンピュータを用いて人間
のひらめきを取り入れた人工知能の可能性
量子コンピュータ
問題点：
計算方法が全く異なるため、これまでの計算が速くなるわけではない。
利点：
例えば、人間はいくつかの訪問先を効率よく回るための計画をするこ
とができるが、現在のコンピュータではこれは非常に難しい問題である。
一方、量子コンピュータにとってこの問題は得意な問題の1つである。

まとめ
• 歴史と概要
• 強化学習とは
• 深層学習とは
• ロボットと学習
• 問題設定と利点
• 計算機と今後
問題設定をしやすく

共同研究について
牧野の研究分野西崎の研究分野
連絡先：
山梨大学社会連携・知財管理センター
• 医療福祉ロボット
• 暗黙知の工学的解析
• 人工知能
kohjim@yamanashi.ac.jp hnishi@yamanashi.ac.jp
renkei-as@yamanashi.ac.jp
ディープラーニングを用いたマルチメディア情報
処理の基礎研究と応用研究
• 認識分類系：音声（音）認識，感情認識，AI-
OCR（文字認識），画像認識
• 応用系：ぶどうの色判定や歩行解析（画像
認識応用），電子ノート・技術伝承支援シス
テム（音声認識応用），聞き耳インタフェース
（音声認識応用），など
アンケートのお願い

深層強化学習と実装例

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

More from Deep Learning Lab（ディープラーニング・ラボ）

More from Deep Learning Lab（ディープラーニング・ラボ） (20)

Recently uploaded

Recently uploaded (20)

深層強化学習と実装例