Submit Search
Upload
深層強化学習と実装例
•
3 likes
•
3,016 views
Deep Learning Lab(ディープラーニング・ラボ)
Follow
牧野浩二 山梨大学工学部付属モノづくり教育実践センター准教授 西崎博光 山梨大学大学院総合研究部准教授 DLLAB 強化学習 Day 2021
Read less
Read more
Technology
Report
Share
Report
Share
1 of 44
Download now
Download to read offline
Recommended
強化学習エージェントの内発的動機付けによる探索とその応用(第4回 統計・機械学習若手シンポジウム 招待公演)
強化学習エージェントの内発的動機付けによる探索とその応用(第4回 統計・機械学習若手シンポジウム 招待公演)
Shota Imai
強化学習と逆強化学習を組み合わせた模倣学習
強化学習と逆強化学習を組み合わせた模倣学習
Eiji Uchibe
機械学習のためのベイズ最適化入門
機械学習のためのベイズ最適化入門
hoxo_m
多様な強化学習の概念と課題認識
多様な強化学習の概念と課題認識
佑 甲野
ゼロから始める深層強化学習(NLP2018講演資料)/ Introduction of Deep Reinforcement Learning
ゼロから始める深層強化学習(NLP2018講演資料)/ Introduction of Deep Reinforcement Learning
Preferred Networks
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling
Deep Learning JP
【DL輪読会】マルチエージェント強化学習における近年の 協調的方策学習アルゴリズムの発展
【DL輪読会】マルチエージェント強化学習における近年の 協調的方策学習アルゴリズムの発展
Deep Learning JP
研究室における研究・実装ノウハウの共有
研究室における研究・実装ノウハウの共有
Naoaki Okazaki
Recommended
強化学習エージェントの内発的動機付けによる探索とその応用(第4回 統計・機械学習若手シンポジウム 招待公演)
強化学習エージェントの内発的動機付けによる探索とその応用(第4回 統計・機械学習若手シンポジウム 招待公演)
Shota Imai
強化学習と逆強化学習を組み合わせた模倣学習
強化学習と逆強化学習を組み合わせた模倣学習
Eiji Uchibe
機械学習のためのベイズ最適化入門
機械学習のためのベイズ最適化入門
hoxo_m
多様な強化学習の概念と課題認識
多様な強化学習の概念と課題認識
佑 甲野
ゼロから始める深層強化学習(NLP2018講演資料)/ Introduction of Deep Reinforcement Learning
ゼロから始める深層強化学習(NLP2018講演資料)/ Introduction of Deep Reinforcement Learning
Preferred Networks
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling
Deep Learning JP
【DL輪読会】マルチエージェント強化学習における近年の 協調的方策学習アルゴリズムの発展
【DL輪読会】マルチエージェント強化学習における近年の 協調的方策学習アルゴリズムの発展
Deep Learning JP
研究室における研究・実装ノウハウの共有
研究室における研究・実装ノウハウの共有
Naoaki Okazaki
[DL輪読会]Grokking: Generalization Beyond Overfitting on Small Algorithmic Datasets
[DL輪読会]Grokking: Generalization Beyond Overfitting on Small Algorithmic Datasets
Deep Learning JP
BlackBox モデルの説明性・解釈性技術の実装
BlackBox モデルの説明性・解釈性技術の実装
Deep Learning Lab(ディープラーニング・ラボ)
AHC-Lab M1勉強会 論文の読み方・書き方
AHC-Lab M1勉強会 論文の読み方・書き方
Shinagawa Seitaro
強化学習アルゴリズムPPOの解説と実験
強化学習アルゴリズムPPOの解説と実験
克海 納谷
POMDP下での強化学習の基礎と応用
POMDP下での強化学習の基礎と応用
Yasunori Ozaki
猫でも分かるVariational AutoEncoder
猫でも分かるVariational AutoEncoder
Sho Tatsuno
[DL輪読会]Control as Inferenceと発展
[DL輪読会]Control as Inferenceと発展
Deep Learning JP
最適輸送の解き方
最適輸送の解き方
joisino
強化学習の基礎と深層強化学習(東京大学 松尾研究室 深層強化学習サマースクール講義資料)
強化学習の基礎と深層強化学習(東京大学 松尾研究室 深層強化学習サマースクール講義資料)
Shota Imai
深層強化学習でマルチエージェント学習(前篇)
深層強化学習でマルチエージェント学習(前篇)
Junichiro Katsuta
【メタサーベイ】数式ドリブン教師あり学習
【メタサーベイ】数式ドリブン教師あり学習
cvpaper. challenge
強化学習における好奇心
強化学習における好奇心
Shota Imai
機械学習モデルの判断根拠の説明(Ver.2)
機械学習モデルの判断根拠の説明(Ver.2)
Satoshi Hara
グラフニューラルネットワーク入門
グラフニューラルネットワーク入門
ryosuke-kojima
DQNからRainbowまで 〜深層強化学習の最新動向〜
DQNからRainbowまで 〜深層強化学習の最新動向〜
Jun Okumura
最近のDeep Learning (NLP) 界隈におけるAttention事情
最近のDeep Learning (NLP) 界隈におけるAttention事情
Yuta Kikuchi
最適化超入門
最適化超入門
Takami Sato
ELBO型VAEのダメなところ
ELBO型VAEのダメなところ
KCS Keio Computer Society
劣モジュラ最適化と機械学習1章
劣モジュラ最適化と機械学習1章
Hakky St
【DL輪読会】SimCSE: Simple Contrastive Learning of Sentence Embeddings (EMNLP 2021)
【DL輪読会】SimCSE: Simple Contrastive Learning of Sentence Embeddings (EMNLP 2021)
Deep Learning JP
Edge AI ソリューションを支える Azure IoT サービス
Edge AI ソリューションを支える Azure IoT サービス
Deep Learning Lab(ディープラーニング・ラボ)
DLLAB Healthcare Day 2021 Event Report
DLLAB Healthcare Day 2021 Event Report
Deep Learning Lab(ディープラーニング・ラボ)
More Related Content
What's hot
[DL輪読会]Grokking: Generalization Beyond Overfitting on Small Algorithmic Datasets
[DL輪読会]Grokking: Generalization Beyond Overfitting on Small Algorithmic Datasets
Deep Learning JP
BlackBox モデルの説明性・解釈性技術の実装
BlackBox モデルの説明性・解釈性技術の実装
Deep Learning Lab(ディープラーニング・ラボ)
AHC-Lab M1勉強会 論文の読み方・書き方
AHC-Lab M1勉強会 論文の読み方・書き方
Shinagawa Seitaro
強化学習アルゴリズムPPOの解説と実験
強化学習アルゴリズムPPOの解説と実験
克海 納谷
POMDP下での強化学習の基礎と応用
POMDP下での強化学習の基礎と応用
Yasunori Ozaki
猫でも分かるVariational AutoEncoder
猫でも分かるVariational AutoEncoder
Sho Tatsuno
[DL輪読会]Control as Inferenceと発展
[DL輪読会]Control as Inferenceと発展
Deep Learning JP
最適輸送の解き方
最適輸送の解き方
joisino
強化学習の基礎と深層強化学習(東京大学 松尾研究室 深層強化学習サマースクール講義資料)
強化学習の基礎と深層強化学習(東京大学 松尾研究室 深層強化学習サマースクール講義資料)
Shota Imai
深層強化学習でマルチエージェント学習(前篇)
深層強化学習でマルチエージェント学習(前篇)
Junichiro Katsuta
【メタサーベイ】数式ドリブン教師あり学習
【メタサーベイ】数式ドリブン教師あり学習
cvpaper. challenge
強化学習における好奇心
強化学習における好奇心
Shota Imai
機械学習モデルの判断根拠の説明(Ver.2)
機械学習モデルの判断根拠の説明(Ver.2)
Satoshi Hara
グラフニューラルネットワーク入門
グラフニューラルネットワーク入門
ryosuke-kojima
DQNからRainbowまで 〜深層強化学習の最新動向〜
DQNからRainbowまで 〜深層強化学習の最新動向〜
Jun Okumura
最近のDeep Learning (NLP) 界隈におけるAttention事情
最近のDeep Learning (NLP) 界隈におけるAttention事情
Yuta Kikuchi
最適化超入門
最適化超入門
Takami Sato
ELBO型VAEのダメなところ
ELBO型VAEのダメなところ
KCS Keio Computer Society
劣モジュラ最適化と機械学習1章
劣モジュラ最適化と機械学習1章
Hakky St
【DL輪読会】SimCSE: Simple Contrastive Learning of Sentence Embeddings (EMNLP 2021)
【DL輪読会】SimCSE: Simple Contrastive Learning of Sentence Embeddings (EMNLP 2021)
Deep Learning JP
What's hot
(20)
[DL輪読会]Grokking: Generalization Beyond Overfitting on Small Algorithmic Datasets
[DL輪読会]Grokking: Generalization Beyond Overfitting on Small Algorithmic Datasets
BlackBox モデルの説明性・解釈性技術の実装
BlackBox モデルの説明性・解釈性技術の実装
AHC-Lab M1勉強会 論文の読み方・書き方
AHC-Lab M1勉強会 論文の読み方・書き方
強化学習アルゴリズムPPOの解説と実験
強化学習アルゴリズムPPOの解説と実験
POMDP下での強化学習の基礎と応用
POMDP下での強化学習の基礎と応用
猫でも分かるVariational AutoEncoder
猫でも分かるVariational AutoEncoder
[DL輪読会]Control as Inferenceと発展
[DL輪読会]Control as Inferenceと発展
最適輸送の解き方
最適輸送の解き方
強化学習の基礎と深層強化学習(東京大学 松尾研究室 深層強化学習サマースクール講義資料)
強化学習の基礎と深層強化学習(東京大学 松尾研究室 深層強化学習サマースクール講義資料)
深層強化学習でマルチエージェント学習(前篇)
深層強化学習でマルチエージェント学習(前篇)
【メタサーベイ】数式ドリブン教師あり学習
【メタサーベイ】数式ドリブン教師あり学習
強化学習における好奇心
強化学習における好奇心
機械学習モデルの判断根拠の説明(Ver.2)
機械学習モデルの判断根拠の説明(Ver.2)
グラフニューラルネットワーク入門
グラフニューラルネットワーク入門
DQNからRainbowまで 〜深層強化学習の最新動向〜
DQNからRainbowまで 〜深層強化学習の最新動向〜
最近のDeep Learning (NLP) 界隈におけるAttention事情
最近のDeep Learning (NLP) 界隈におけるAttention事情
最適化超入門
最適化超入門
ELBO型VAEのダメなところ
ELBO型VAEのダメなところ
劣モジュラ最適化と機械学習1章
劣モジュラ最適化と機械学習1章
【DL輪読会】SimCSE: Simple Contrastive Learning of Sentence Embeddings (EMNLP 2021)
【DL輪読会】SimCSE: Simple Contrastive Learning of Sentence Embeddings (EMNLP 2021)
More from Deep Learning Lab(ディープラーニング・ラボ)
Edge AI ソリューションを支える Azure IoT サービス
Edge AI ソリューションを支える Azure IoT サービス
Deep Learning Lab(ディープラーニング・ラボ)
DLLAB Healthcare Day 2021 Event Report
DLLAB Healthcare Day 2021 Event Report
Deep Learning Lab(ディープラーニング・ラボ)
ICTを用いた健康なまちづくりの 取り組みとAI活用への期待
ICTを用いた健康なまちづくりの 取り組みとAI活用への期待
Deep Learning Lab(ディープラーニング・ラボ)
医学と工学の垣根を越えた医療AI開発
医学と工学の垣根を越えた医療AI開発
Deep Learning Lab(ディープラーニング・ラボ)
Intel AI in Healthcare 各国事例からみるAIとの向き合い方
Intel AI in Healthcare 各国事例からみるAIとの向き合い方
Deep Learning Lab(ディープラーニング・ラボ)
厚生労働分野におけるAI技術の利活用について
厚生労働分野におけるAI技術の利活用について
Deep Learning Lab(ディープラーニング・ラボ)
先端技術がもたらす「より良いヘルスケアのかたち」
先端技術がもたらす「より良いヘルスケアのかたち」
Deep Learning Lab(ディープラーニング・ラボ)
AIによる細胞診支援技術の紹介と、AI人材が考える医療バイオ領域における参入障壁の乗り越え方
AIによる細胞診支援技術の紹介と、AI人材が考える医療バイオ領域における参入障壁の乗り越え方
Deep Learning Lab(ディープラーニング・ラボ)
「言語」×AI Digital Device
「言語」×AI Digital Device
Deep Learning Lab(ディープラーニング・ラボ)
深層強化学習を用いた複合機の搬送制御
深層強化学習を用いた複合機の搬送制御
Deep Learning Lab(ディープラーニング・ラボ)
Azure ML 強化学習を用いた最新アルゴリズムの活用手法
Azure ML 強化学習を用いた最新アルゴリズムの活用手法
Deep Learning Lab(ディープラーニング・ラボ)
Jetson x Azure ハンズオン DeepStream With Azure IoT 事前準備
Jetson x Azure ハンズオン DeepStream With Azure IoT 事前準備
Deep Learning Lab(ディープラーニング・ラボ)
Jetson x Azure ハンズオン DeepStream With Azure IoT
Jetson x Azure ハンズオン DeepStream With Azure IoT
Deep Learning Lab(ディープラーニング・ラボ)
Jetson x Azure ハンズオン DeepStream Azure IoT
Jetson x Azure ハンズオン DeepStream Azure IoT
Deep Learning Lab(ディープラーニング・ラボ)
Jetson 活用による スタートアップ企業支援
Jetson 活用による スタートアップ企業支援
Deep Learning Lab(ディープラーニング・ラボ)
[Track 4-6] ディープラーニングxものづくりが日本を強くする ~高専DCONの挑戦~
[Track 4-6] ディープラーニングxものづくりが日本を強くする ~高専DCONの挑戦~
Deep Learning Lab(ディープラーニング・ラボ)
[Track3-2] AI活用人材の社内育成に関する取り組みについて ~ダイキン情報技術大学~
[Track3-2] AI活用人材の社内育成に関する取り組みについて ~ダイキン情報技術大学~
Deep Learning Lab(ディープラーニング・ラボ)
[Track1-1] AIの売上予測を発注システムに組み込んだリンガーハットのデータ活用戦略
[Track1-1] AIの売上予測を発注システムに組み込んだリンガーハットのデータ活用戦略
Deep Learning Lab(ディープラーニング・ラボ)
[Track1-2] ディープラーニングを用いたワインブドウの収穫量予測
[Track1-2] ディープラーニングを用いたワインブドウの収穫量予測
Deep Learning Lab(ディープラーニング・ラボ)
[Track3-4] アカデミックにおけるAI/ディープラーニング の教育と学習支援に関する研究
[Track3-4] アカデミックにおけるAI/ディープラーニング の教育と学習支援に関する研究
Deep Learning Lab(ディープラーニング・ラボ)
More from Deep Learning Lab(ディープラーニング・ラボ)
(20)
Edge AI ソリューションを支える Azure IoT サービス
Edge AI ソリューションを支える Azure IoT サービス
DLLAB Healthcare Day 2021 Event Report
DLLAB Healthcare Day 2021 Event Report
ICTを用いた健康なまちづくりの 取り組みとAI活用への期待
ICTを用いた健康なまちづくりの 取り組みとAI活用への期待
医学と工学の垣根を越えた医療AI開発
医学と工学の垣根を越えた医療AI開発
Intel AI in Healthcare 各国事例からみるAIとの向き合い方
Intel AI in Healthcare 各国事例からみるAIとの向き合い方
厚生労働分野におけるAI技術の利活用について
厚生労働分野におけるAI技術の利活用について
先端技術がもたらす「より良いヘルスケアのかたち」
先端技術がもたらす「より良いヘルスケアのかたち」
AIによる細胞診支援技術の紹介と、AI人材が考える医療バイオ領域における参入障壁の乗り越え方
AIによる細胞診支援技術の紹介と、AI人材が考える医療バイオ領域における参入障壁の乗り越え方
「言語」×AI Digital Device
「言語」×AI Digital Device
深層強化学習を用いた複合機の搬送制御
深層強化学習を用いた複合機の搬送制御
Azure ML 強化学習を用いた最新アルゴリズムの活用手法
Azure ML 強化学習を用いた最新アルゴリズムの活用手法
Jetson x Azure ハンズオン DeepStream With Azure IoT 事前準備
Jetson x Azure ハンズオン DeepStream With Azure IoT 事前準備
Jetson x Azure ハンズオン DeepStream With Azure IoT
Jetson x Azure ハンズオン DeepStream With Azure IoT
Jetson x Azure ハンズオン DeepStream Azure IoT
Jetson x Azure ハンズオン DeepStream Azure IoT
Jetson 活用による スタートアップ企業支援
Jetson 活用による スタートアップ企業支援
[Track 4-6] ディープラーニングxものづくりが日本を強くする ~高専DCONの挑戦~
[Track 4-6] ディープラーニングxものづくりが日本を強くする ~高専DCONの挑戦~
[Track3-2] AI活用人材の社内育成に関する取り組みについて ~ダイキン情報技術大学~
[Track3-2] AI活用人材の社内育成に関する取り組みについて ~ダイキン情報技術大学~
[Track1-1] AIの売上予測を発注システムに組み込んだリンガーハットのデータ活用戦略
[Track1-1] AIの売上予測を発注システムに組み込んだリンガーハットのデータ活用戦略
[Track1-2] ディープラーニングを用いたワインブドウの収穫量予測
[Track1-2] ディープラーニングを用いたワインブドウの収穫量予測
[Track3-4] アカデミックにおけるAI/ディープラーニング の教育と学習支援に関する研究
[Track3-4] アカデミックにおけるAI/ディープラーニング の教育と学習支援に関する研究
Recently uploaded
From Family Reminiscence to Scholarly Archive .
From Family Reminiscence to Scholarly Archive .
Alan Dix
Transcript: New from BookNet Canada for 2024: Loan Stars - Tech Forum 2024
Transcript: New from BookNet Canada for 2024: Loan Stars - Tech Forum 2024
BookNet Canada
What is DBT - The Ultimate Data Build Tool.pdf
What is DBT - The Ultimate Data Build Tool.pdf
MounikaPolabathina
New from BookNet Canada for 2024: Loan Stars - Tech Forum 2024
New from BookNet Canada for 2024: Loan Stars - Tech Forum 2024
BookNet Canada
Unleash Your Potential - Namagunga Girls Coding Club
Unleash Your Potential - Namagunga Girls Coding Club
Kalema Edgar
Digital Identity is Under Attack: FIDO Paris Seminar.pptx
Digital Identity is Under Attack: FIDO Paris Seminar.pptx
LoriGlavin3
Scanning the Internet for External Cloud Exposures via SSL Certs
Scanning the Internet for External Cloud Exposures via SSL Certs
Rizwan Syed
New from BookNet Canada for 2024: BNC CataList - Tech Forum 2024
New from BookNet Canada for 2024: BNC CataList - Tech Forum 2024
BookNet Canada
TrustArc Webinar - How to Build Consumer Trust Through Data Privacy
TrustArc Webinar - How to Build Consumer Trust Through Data Privacy
TrustArc
DevEX - reference for building teams, processes, and platforms
DevEX - reference for building teams, processes, and platforms
Sergiu Bodiu
Developer Data Modeling Mistakes: From Postgres to NoSQL
Developer Data Modeling Mistakes: From Postgres to NoSQL
ScyllaDB
Generative AI for Technical Writer or Information Developers
Generative AI for Technical Writer or Information Developers
Raghuram Pandurangan
Ensuring Technical Readiness For Copilot in Microsoft 365
Ensuring Technical Readiness For Copilot in Microsoft 365
2toLead Limited
DSPy a system for AI to Write Prompts and Do Fine Tuning
DSPy a system for AI to Write Prompts and Do Fine Tuning
Lars Bell
Streamlining Python Development: A Guide to a Modern Project Setup
Streamlining Python Development: A Guide to a Modern Project Setup
Florian Wilhelm
Gen AI in Business - Global Trends Report 2024.pdf
Gen AI in Business - Global Trends Report 2024.pdf
Addepto
DevoxxFR 2024 Reproducible Builds with Apache Maven
DevoxxFR 2024 Reproducible Builds with Apache Maven
Hervé Boutemy
Dev Dives: Streamline document processing with UiPath Studio Web
Dev Dives: Streamline document processing with UiPath Studio Web
UiPathCommunity
The Role of FIDO in a Cyber Secure Netherlands: FIDO Paris Seminar.pptx
The Role of FIDO in a Cyber Secure Netherlands: FIDO Paris Seminar.pptx
LoriGlavin3
Are Multi-Cloud and Serverless Good or Bad?
Are Multi-Cloud and Serverless Good or Bad?
Mattias Andersson
Recently uploaded
(20)
From Family Reminiscence to Scholarly Archive .
From Family Reminiscence to Scholarly Archive .
Transcript: New from BookNet Canada for 2024: Loan Stars - Tech Forum 2024
Transcript: New from BookNet Canada for 2024: Loan Stars - Tech Forum 2024
What is DBT - The Ultimate Data Build Tool.pdf
What is DBT - The Ultimate Data Build Tool.pdf
New from BookNet Canada for 2024: Loan Stars - Tech Forum 2024
New from BookNet Canada for 2024: Loan Stars - Tech Forum 2024
Unleash Your Potential - Namagunga Girls Coding Club
Unleash Your Potential - Namagunga Girls Coding Club
Digital Identity is Under Attack: FIDO Paris Seminar.pptx
Digital Identity is Under Attack: FIDO Paris Seminar.pptx
Scanning the Internet for External Cloud Exposures via SSL Certs
Scanning the Internet for External Cloud Exposures via SSL Certs
New from BookNet Canada for 2024: BNC CataList - Tech Forum 2024
New from BookNet Canada for 2024: BNC CataList - Tech Forum 2024
TrustArc Webinar - How to Build Consumer Trust Through Data Privacy
TrustArc Webinar - How to Build Consumer Trust Through Data Privacy
DevEX - reference for building teams, processes, and platforms
DevEX - reference for building teams, processes, and platforms
Developer Data Modeling Mistakes: From Postgres to NoSQL
Developer Data Modeling Mistakes: From Postgres to NoSQL
Generative AI for Technical Writer or Information Developers
Generative AI for Technical Writer or Information Developers
Ensuring Technical Readiness For Copilot in Microsoft 365
Ensuring Technical Readiness For Copilot in Microsoft 365
DSPy a system for AI to Write Prompts and Do Fine Tuning
DSPy a system for AI to Write Prompts and Do Fine Tuning
Streamlining Python Development: A Guide to a Modern Project Setup
Streamlining Python Development: A Guide to a Modern Project Setup
Gen AI in Business - Global Trends Report 2024.pdf
Gen AI in Business - Global Trends Report 2024.pdf
DevoxxFR 2024 Reproducible Builds with Apache Maven
DevoxxFR 2024 Reproducible Builds with Apache Maven
Dev Dives: Streamline document processing with UiPath Studio Web
Dev Dives: Streamline document processing with UiPath Studio Web
The Role of FIDO in a Cyber Secure Netherlands: FIDO Paris Seminar.pptx
The Role of FIDO in a Cyber Secure Netherlands: FIDO Paris Seminar.pptx
Are Multi-Cloud and Serverless Good or Bad?
Are Multi-Cloud and Serverless Good or Bad?
深層強化学習と実装例
1.
深層強化学習と その実装例 牧野浩二、西崎博光
2.
自己紹介(牧野 浩二) 所属: 山梨大学 工学部附属ものづくり教育実践教育センター 准教授 歩行ロボット 小学生x人工知能 経歴 東京工業大学 卒 本田技術研究所
研究員 高度情報科学技術研究機構 研究員 東京工科大学 助教 山梨大学 地球シミュレータ(当時,世界最速) を用いた新奇ナノカーボン構造体 研究: 医療福祉ロボット 暗黙知の工学的解析 人工知能 まきの こうじ
3.
自己紹介(西崎 博光) 所属: 山梨大学 大学院総合研究部工学域(工学部メカトロニクス工学科) 准教授 経歴 2003.3 豊橋技術科学大学
卒 2003.4〜 山梨大学 2015.8〜2016.3 国立台湾大学 客員研究員 2016.4〜 山梨大学 准教授 研究: ディープラーニングを用いたマルチメディア情報処理の基礎研究と応用研究 ・認識分類系: 音声(音)認識,感情認識,AI-OCR(文字認識),画像認識 ・応用系 : ぶどうの色判定や歩行解析(画像認識応用), 電子ノート・技術伝承支援システム(音声認識応用), 聞き耳インタフェース(音声認識応用),など にしざき ひろみつ
4.
著書 Python/TensorFlowによる 深層強化学習入門 新刊 深層(強化)学習 データサイエンス 電子工作 ソフトウエア 人工知能アルゴリズム探検隊 2016年9月~2020年12月、全42回 AIドリル(電子版書籍連携) 2021年1月~、第2回 連載
5.
その他教材 実践! Chainerとロボットで学ぶ ディープラーニング 深層学習(深層強化学習) https://www.nhk-ep.co.jp/nep-development-proposal- 4/ 小学生向けAIエンターテインメントコンテンツの開発 [2019年度 NHKエンタープライズ開発案件] https://ai.afrel.co.jp/chainer.html レゴ®
マインドストーム® EV3×Chainer™ Preferred Network×アフレル NHKエンタープライズ×Tech Kids School
6.
深層強化学習と その実装例 深層学習 (ディープラーニング) 強化学習
7.
目次 • 歴史と概要 • 強化学習とは •
深層学習とは • ロボットと学習 • 問題設定と利点 • 計算機と今後 原理を知ることで 問題設定をしやすく
8.
目次 • 歴史と概要 • 強化学習とは •
深層学習とは • ロボットと学習 • 問題設定と利点 • 計算機と今後 原理を知ることで 問題設定をしやすく
9.
深層学習の歴史 ニューラルネットワーク 深層学習 (ディープラーニング) ブレークスルー 深層学習の進歩 パーセプトロン 1960年代 1980年代 2000年代 2010年代 1990年代 イヌ ネコ
ウサギ ネコ ①学習 ②テスト 1950年代 1940年代 ヘッブの シナプス強化法則 マッカロ・ピッツの ニューロンモデル 深層学習 学習スイッチ 回答スイッチ 反射型光センサ 青透明のふた LED 画像認識が人間レベルを超えた
10.
深層強化学習の歴史 強化学習 ニューラルネットワーク Qラーニング Qネットワーク 深層学習 (ディープラーニング) 深層強化学習 (ディープQネットワーク) さまざまな手法を取り込んだ 深層強化学習 実環境へ応 用しやすく 深層学習の 組み込み 強化学習へ の原点回帰 ブレークスルー ニューラル ネットワーク の組み込み 深層学習の進歩 パーセプトロン 1960年代 1980年代 2000年代 2010年代 1990年代 深層学習 深層強化学習
11.
深層強化学習 テレビゲームが人間レベルを超えた ロボットをうまく動かすことができた 囲碁や将棋などの対戦ゲームで人間レベルを超えた
12.
深層強化学習 テレビゲームが人間レベルを超えた ロボットをうまく動かすことができた 囲碁や将棋などの対戦ゲームで人間レベルを超えた ロボットと 学習について
13.
深層強化学習の応用例 • 建物の揺れ制御(ダンパーの動きを制御) • スマートグリッド(送電ネットワークの最適化) https://ledge.ai/reinforcement-learning/ •
運搬車などの自動運転 • エレベーターの最適化制御
14.
目次 • 歴史と概要 • 強化学習とは •
深層学習とは • ロボットと学習 • 問題設定と利点 • 計算機と今後 原理を知ることで 問題設定をしやすく
15.
強化学習とは 試行錯誤しながら,与えられた環境の中でよりよい行動を 自動的に獲得する学習方法である。 ①(状態)観測 ②行動 ③報酬 環境 エージェント 半教師付き学習
16.
強化学習とは学習の枠組み 良い状態と悪い状態だけ与えられ,それに至る行動を 獲得する学習が強化学習の考え方である。 有名な強化学習の種類 強化学習は学習方法の枠組みであり, それを実装するアルゴリズムが必要になる。 • Qラーニング • Sarsa •
Actor-Critic法 • モンテカルロ法 原理を知ることで 問題を考案する際 のヒントとなる
17.
Qラーニング(1人の意思決定) 電源ボタン 餌ボタン 電源OFF 0
0 電源ON 0 0 Q値によって行動を決定 電源ボタン 餌ボタン 電源OFF 0 0 電源ON 0 0.5 電源ボタン 餌ボタン 電源OFF 0.225 0 電源ON 0 0.5 餌を得る 餌を得る直前の状態になる 更新方法 報酬によりQ値が変化 Q値の伝播によりQ値が変化
18.
Qラーニング(1人の意思決定) MINT MINT MINT 開ける (𝑎 =
0, 𝑟 = 0) 傾ける (𝑎 = 2, 𝑟 = 1) 閉める (𝑎 = 1, 𝑟 = 0) ミント菓子がある ミント菓子がない 閉じている(𝒔 = 𝟎) 開いていて, 開いていて, 報酬あり ミント菓子がある(𝒔 = 𝟏) ミント菓子がない(𝒔 = 𝟐) 開ける 閉める 傾ける 閉じている 0.8 0.1 0.3 空いている(ミントあり) 0.2 0.2 0.9 空いている(ミントなし) 0.4 0.6 0.5 ミントタブレットを食べる問題 値が大きい行動が選ばれる
19.
Qラーニング(2人の意思決定) 0 1 2 3
4 5 6 7 8 なし:0 〇 :1 × :2 〇 × 1 × 30 + 0 × 31 + 0 × 32 + 0 × 33 + 2 × 34 + 0 × 35 + 0 × 36 + 0 × 37 + 0 × 38 = 163 状態を数で表す 〇 × 1 × 30 + 1 × 31 + 0 × 32 + 0 × 33 + 2 × 34 + 0 × 35 + 2 × 36 + 1 × 37 + 2 × 38 = 16933 × 〇 〇 × 19682 0 1 2 3 4 5 6 7 8 0 1 ・・・ 19682 場所の番号と記号の番号 0 1 2 3 4 5 6 7 8 0 1 ・・・ 19682 〇プレーヤーのQテーブル ×プレーヤーのQテーブル
20.
Qラーニング(2人の意思決定) 0 1 2
3 4 5 6 7 8 0 0.0 0.0 0.0 0.0 0.5 0.0 0.0 0.0 0.0 1 0.0 0.0 0.0 0.0 0.7 0.0 0.0 0.0 0.0 ・・・ 19682 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0 1 2 3 4 5 6 7 8 0 1 2 3 4 5 6 7 8 〇 0 1 2 3 4 5 6 7 8 0 0.5 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 1 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 ・・・ 19682 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 〇プレーヤーのQテーブル ×プレーヤーのQテーブル 0 1 2 3 4 5 6 7 8 〇 0 1 2 3 4 5 6 7 8 〇 × 状態: 0 状態: 1 行動: 0番に打つ 行動: 4番に打つ 0 1 2 3 4 5 6 7 8 0 1 2 3 4 5 6 7 8 〇 0 1 2 3 4 5 6 7 8 0 0.5 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 1 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 ・・・ 16933 -0.1 -0.2 0.8 0.0 0.0 0.0 -0.2 -0.1 -0.2 ・・・ 19682 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 〇プレーヤーのQテーブル 状態: 16933 行動: 2番に打つ 〇 × × 〇 〇 × 〇 × × 〇 〇 × 〇の勝ち
21.
ゲームやロボット制御 状態 画像 行動 右に移動 左に移動 動かない 動かないでビーム 右に移動しながらビーム 左に移動しながらビーム 状態 画像 行動 動かない x方向正の移動 x方向負の移動 y方向正の移動 y方向負の移動 ハンドの正転 ハンドの逆転 状態が多すぎてQラーニングでは表現できない (256x341) (210x160)
22.
目次 • 歴史と概要 • 強化学習とは •
深層学習とは • ロボットと学習 • 問題設定と利点 • 計算機と今後 原理を知ることで 問題設定をしやすく
23.
深層学習の枠組み イヌ ネコ ウサギ ネコ 教師あり学習 ①学習 ②テスト
24.
ニューラルネットワーク 𝑥1 𝑥2 1 ℎ1 1 ℎ2 ℎ3 𝑦1 𝑦2 入力層 中間層 出力層 𝑦1 𝑦2 ℎ1 𝑚 1 ℎ2 𝑚 ℎ3 𝑚 ℎ𝑛𝑚 1 𝑥1 𝑥2 1 ℎ1 1 1 ℎ2 1 ℎ3 1 ℎ𝑛1 1 入力層
出力層 中間層 𝑥𝑛𝑥 𝑦𝑛𝑥 𝑥1 𝑥2 1 𝑦1 𝑦2 入力層 出力層 パーセプトロン(1960年代) ニューラルネットワーク(1980年代) 深層学習(2000年代) ニューラルネットワーク 深層学習 (ディープラーニング) ブレーク スルー 深層学習の進歩 パーセプトロン 1960年代 1980年代 2000年代
25.
いろいろな深層学習 RNN(リカレントニューラルネットワーク) CNN(畳み込みニューラルネットワーク) AE(オートエンコーダ) GAN ・・・ 入力層 出力層 中間層 1 𝑠2 𝑦1 𝑠1 𝑦2 1 𝑥2 𝑥1 出力は10個 一列に並べて ニューラルネットワークの入力にする. 畳み込み (画像が増える) 集めてから増やす 畳み込み プーリング プーリング (画像が小さくなる)
26.
パーセプトロンにできたこと 学習スイッチ 回答スイッチ 反射型光センサ 青透明のふた LED 1000 千円 1000 日本銀行券 5か所の色の濃さ(明るさ)を測る 明るさ 位置 1985~90年ごろ 「お札の分別機(パーセプトロン)」 これらにより新しい価値が生まれた。 • 深層学習の原理を知り、 •
課題をその原理に合わせて簡略化し、 • 適切な前処理、後処理が必要
27.
強化学習と深層強化学習 迷路 𝑦1 𝑦2 ℎ1 𝑚 1 ℎ2 𝑚 ℎ3 𝑚 ℎ𝑛𝑚 1 𝑥1 𝑥2 1 ℎ1 1 1 ℎ2 1 ℎ3 1 ℎ𝑛1 1 入力層 出力層 中間層 𝑥8 𝑦8 0 0
1 2 3 4 5 6 7 8 0 1 2 3 4 5 6 7 8 〇 0 1 2 3 4 5 6 7 8 0 0.5 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 1 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 ・・・ 16933 -0.1 -0.2 0.8 0.0 0.0 0.0 -0.2 -0.1 -0.2 ・・・ 19682 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 〇プレーヤーのQテーブル 状態: 16933 行動: 2番に打つ 〇 × × 〇 〇 × 〇 × × 〇 〇 × 1 2 3 4 5 6 7 8 0 1 2 3 4 5 6 7 8 〇 × × 〇 〇 × 1 1 0 0 0 2 2 1 2 〇 〇 〇 × × × 0.1 0.1 0.8 0.3 0.2 0.1 0.1 0.2 0.1 0 1 2 3 4 5 6 7 8 〇 行動: 2番に打つ 〇 × × 〇 〇 ×
28.
強化学習とは(再掲) 試行錯誤しながら,与えられた環境の中でよりよい行動を 自動的に獲得する学習方法である。 ①(状態)観測 ②行動 ③報酬 環境 エージェント
29.
深層強化学習の手順 ①(状態)観測 ②行動 ③報酬 環境 エージェント 状態を 貯めておく
30.
目次 • 歴史と概要 • 強化学習とは •
深層学習とは • ロボットと学習 • 問題設定と利点 • 計算機と今後 原理を知ることで 問題設定をしやすく
31.
ロボットと学習 強化学習は環境とのインタラクションを通じて、 目的を達成することができる学習方法 ロボットは決まった動作をすることは得意だが、自ら考えることは苦手 ロボットに動作を学習させることが昔から行われている。 学習と身体性に言及するロボット工学もある。 得意:はんだ付け作業 苦手:収穫作業 ロボットと 親和性が高い
32.
ロボットとのかかわり 中野 馨 1985~90年ごろ 「銅谷ロボット(歩行パターン学習ロボット)」
33.
アソシアトロンによる ロボット動作 6足ロボット 2013年 ニューロンを再帰方向も含めて全結合したネットワーク 思い出しながら歩く状況に対応した動作ができる
34.
深層強化学習の実機実装の例 学習に要する時間: 普通のPCで1時間
35.
実機実装した例 深層学習の結果により大まかに動作し、 深層強化学習で動作の調整を行った。 シミュレーションで学習した結果を用いた。
36.
目次 • 歴史と概要 • 強化学習とは •
深層学習とは • ロボットと学習 • 問題設定と利点 • 計算機と今後 原理を知ることで 問題設定をしやすく
37.
向く・向かない問題 向く問題 向かない問題 • 良い状態が一意に決まらない問題 • 環境とのインタラクションがない問題 •
良い状態が明確な問題 • 環境が行動によって変化する問題 病気の診断、天気予報、文書作成など ロボットの動作、対戦ゲーム、テレビゲーム 問題設定が難しい
38.
深層強化学習の問題点と利点 学習前の問題 • 問題設定が難しい • 報酬の与え方 学習中の問題 •
学習中は危なくて使えない • 学習に時間がかかる • シミュレーションとの整合性 • 学習の収束性がない • 必ずしも収束結果が一意に決まらない 学習後の問題 • 安全性の確保 • 人間の想定外の行動 利点 人間活動との親和性が高い
39.
目次 • 歴史と概要 • 強化学習とは •
深層学習とは • ロボットと学習 • 問題設定と利点 • 計算機と今後 原理を知ることで 問題設定をしやすく
40.
計算機の進歩 ニューラルネットワーク 深層学習 (ディープラーニング) ブレークスルー 深層学習の進歩 パーセプトロン 1960年代 1980年代 2000年代 2010年代 1990年代 1950年代 1940年代 ヘッブの シナプス強化法則 マッカロ・ピッツの ニューロンモデル 深層学習 第1次人工知能ブーム 第2次人工知能ブーム 第3次人工知能ブーム コンピュータが実用化され、アポロ計画に代表される ように計算機を使った成果が出始める。 IBMやアップルなどパーソナルコンピュータの普及 があった。普及に伴い計算機の性能が飛躍的に 向上した。 インターネットの普及も要因の一つであるが、NVIDIAから 公開されたCUDAライブラリによるGPUによる並列ベクトル 計算の普及が大きく貢献した。これにより深層学習に必要 な計算が飛躍的に高速になった。
41.
エッジデバイスと5G エッジコンピューティング 深層学習のモデルを作成するには強力な計算機が必要だが、そのモデルを使った推論には必要がない。 モデルを各デバイスへ 入力 推論結果 各デバイスは入力を各端末内で処理 5Gによる大容量・高速データ通信 強力な通信回線を通じてサーバにデータを送り、サーバで推論する。 サーバで推論 入力 推論結果 各デバイスは入力を各端末内で処理
42.
量子コンピュータ 人口知能の発展には計算機の進歩があった。 今後の計算機 次のブームは量子コンピュータを用いて人間 のひらめきを取り入れた人工知能の可能性 量子コンピュータ 問題点: 計算方法が全く異なるため、これまでの計算が速くなるわけではない。 利点: 例えば、人間はいくつかの訪問先を効率よく回るための計画をするこ とができるが、現在のコンピュータではこれは非常に難しい問題である。 一方、量子コンピュータにとってこの問題は得意な問題の1つである。
43.
まとめ • 歴史と概要 • 強化学習とは •
深層学習とは • ロボットと学習 • 問題設定と利点 • 計算機と今後 原理を知ることで 問題設定をしやすく
44.
共同研究について 牧野の研究分野 西崎の研究分野 連絡先: 山梨大学 社会連携・知財管理センター •
医療福祉ロボット • 暗黙知の工学的解析 • 人工知能 kohjim@yamanashi.ac.jp hnishi@yamanashi.ac.jp renkei-as@yamanashi.ac.jp ディープラーニングを用いたマルチメディア情報 処理の基礎研究と応用研究 • 認識分類系:音声(音)認識,感情認識,AI- OCR(文字認識),画像認識 • 応用系:ぶどうの色判定や歩行解析(画像 認識応用),電子ノート・技術伝承支援シス テム(音声認識応用),聞き耳インタフェース (音声認識応用),など アンケートのお願い
Download now