実世界に埋め込まれる深層学習

国立研究開発法人産業技術総合研究所人工知能研究センター
実世界に埋め込まれる深層学習
Microsoft Deep Learning Lab.
DLLAB DAY 2018
2018年6月21日
国立研究開発法人産業技術総合研究所
人工知能研究センター
麻生英樹
1

深層学習
• 複雑なモデル（層の多いニューラルネット）
× 大量のデータ × 計算機パワー（GPU/TPU）
→ 複雑なタスクで人間を上回る性能
• 表現学習：タスクに適した階層的な特徴表現の
データからの獲得（End-to-End の学習）
• 音声認識、画像・動画認識・分類、機械翻訳、
行動認識、・・・
2

深層学習技術の発展
• 畳込みネットワーク:
Convolutional Neural Network
– 画像などのパターン認識
• LSTM: Long Short-Term Memory
– （時）系列の認識と生成
• GAN: Generative Adversarial Network
VAE: Variational Auto-Encoder
– 画像などのパターン生成
• DQN: Deep Q Network
– 強化学習との統合
→ゲームやロボットの学習
3

深層学習のインパクトと課題
• 画像・音声の認識性能などの大幅な向上
– 「目や耳を持った機械」、スマートスピーカー、
写真や動画の整理、検索、各種のモニタリング、・・・
• テキスト処理の大幅な性能向上
– 文書の分類、翻訳、OCR、・・・
• 今後の課題
– 強化学習、記号的知識処理との組み合わせ
• 知能ロボット、汎用的人工知能
• 学習結果や推論結果の説明性、人間との相互理解
• 領域知識の活用、転移学習
– エッジデバイス上での利活用
（サーバで学習＋エッジで推論、FOGコンピューティング）
– 信頼度の評価、品質保証
– 人間の脳に較べて、まだまだ単純
• 学習の効率（データ利用効率）向上
• 消費電力削減
4

• 発足：2015年5月1日設立、産総研臨海副都心センター＋つくばセンター
• 狙い：大規模研究を推進し、産学官連携を促進する国内最大の研究拠点
※国内外の大学・研究機関等と連携（客員・招聘研究員、クロスアポイントメント、ポスドク、リサー
チ・アシスタント等）
• 取組（応用面）：AI技術の社会実装に向けて、優れたAI技術を企業等に橋渡し
• 規模：研究職員 67名（ほか兼任32名）、全体では466名（2018年2月1日現在）
産総研人工知能研究センター（AIRC）
5

実世界に埋め込まれるAI
人間と協働して社会課題を解決するAI
人間と相互理解できるAI
研究開発のコンセプト
6

実世界に埋め込まれる AI
－インターネットから実世界へ－
• 「実世界に埋め込まれる」
– インターネットサービスデータ
→ 実世界 IoT センシングデータ
– ネット上のお薦め・マッチング等
→ ロボットも含む実世界へのリアルな介入
– 大規模データ＋ラベリング
→ 現場の人材に埋め込まれた領域知識を活用
– 定型的な大規模データ
→ 多様な現場への柔軟で効率的な対応
• 日本の強みを活かす AI
– 実世界のフィールドと人を活かす AI
7

実世界に埋め込まれるAI=AI x IoT/Robot
8
AI コア技術
機械学習シミュレーション
知識表現
オントロジー
認識モデリング行動計画センシング制御
推論
実世界実世界
データの獲得と認識行動の実行と制御
AI × IoT AI × Robot
人工知能計算機
半導体技術

AIRC における深層学習研究事例
9
【衛星情報からの地上物体の検出】
- 地球規模のビッグデータへの深層学習の適用
- 経済活動や災害のモニタリング、意思決定支援
衛星画像からの
メガソーラーの検出例
背景画像©Google
【物体のカテゴリと姿勢の同時認識】
- 物体を見る角度を変えることで、徐々に認識精度が向上
- 姿勢推定モジュールを持つ深層学習
- RotationNet
- ３次元物体検索の国際的コンペで２部門優勝
ARシステム HoloLens への組込み
（実世界物体認識・検索）
【NEDO次世代人工知能・ロボット中核技術開発の成果】

10
【動画からの日常動作認識】
- 100種類の日常動作を認識
【動画への説明文付与】
- リカレントニューラルネットワークにより、
ビデオの内容を説明する文章を自動的に付与
（従来より高精度化を実現）
- ビデオの検索や質問応答を可能にする技術
回答=“A girl is doing makeup.” 【NEDO次世代人工知能・ロボット中核技術開発の成果】
【図の提供：竹内彰一千葉工業大学 STAIR Lab 首席研究員】
【移動ロボットの経路計画】
- DNN を用いた View-based の経路計画
【AI用計算機のベンチマーク構築】
-人工知能に特化した大規模インフラの公正な評価
- 従来のスパコン向けベンチマークではAIの処理能力を
測れない
- ベンダ主導のベンチマークでは再現性・公平性に疑問
- 複数の有識者からヒアリングを行い、AAICを用いた
包括的な実験を通して決定
- その過程で Green 500で世界3位獲得（17/06）

11
【ディープラーニングを用いた模倣学習】
- これまで難しかった柔軟な物体の取り扱いを、少数回の教示で学習させる技術
- 多種類の動作への対応、言葉での命令（右に畳む）への対応等も研究開発中
【映像提供：尾形哲也 AIRC 特定フェロー／早稲田大学教授】

学習・評価用データ構築・公開
12
【建物被害推定用データ】
- 津波の前後の画像と建物被害ラベル（国交省提供）のペア
- 航空画像からの被災域推定を可能にする技術
- ABCD (AIST Building Change Detection)
データセットとして公開中
https://github.com/gistairc/ABCDdataset
【日常動作認識の学習・評価用データ】
- 100種類の日常動作の動画（各1,000本）に
動作名のラベルを付与
- 生活支援・見守りロボット等に人間の動作を
理解させることを可能にする技術
- STAIR Actions データセットとして公開中
https://stair-lab-cit.github.io/STAIR-actions-web/
笛を吹く
お辞儀
をする
ピアノ
を弾く
収録データの一例

今後日本の取り組むべきAI基盤技術（案）
https://www.airc.aist.go.jp/info_details/ai_strategy180523.html
13
• 機械学習、深層学習等の第三次ブームの人工知能技術は、インターネット上のサービスで
ビッグデータを収集し、学習してサービスを向上させるネット企業がけん引。
• 今後、AI の利活用分野が、IoTやロボット等を用いた実世界のサービスへと拡がる中、現場
のデータ・知識に関して日本が強い分野（生産性、健康・医療／介護、空間の移動など）
で必要とされる人工知能基盤技術に取り組むべきではないか。
＜日本型AIの目指すべき方向＞
米国・中国型AI（AI 3.0）
（ネット型AI）
日本型AI（AI 4.0）
（実社会型/
人間協調型AI）
データ・
知識
• ネットで収集した大規模デー
タにより学習
• クラウドソーシング（大衆）
による正解データの構築
• 現場にある良質なデータ
を活用。
• 現場の熟練者等の専門的
知識を活用。
信頼性 • ネットサービスとして、β版で
発表、徐々に精度アップ
• 実世界適用にあたり、事
前に信頼性の評価・確認。
開発工程 • 大量のAI人材活用による自社
大規模ビジネス
• ユーザーベースによる個
別開発、改善
AI4.0の必要性
健康・医療・介護生産性空間の移動（自動運転）
データ • がん登録推進法に基づく、
多量の良質のデータ等
• 工場・サービス現場に
おけるIoTデータ等
• （ヒヤリハットを含
む走行データの収
集）
知識 • 良質な医療従事者、介護
現場における熟練知識
• 工場における熟練工等
の現場知識、ノウハウ
• （交通ルール・運転
現場理解の必要性）
・人間と協調できるAI
（データ・知識融合等）
・実世界で信頼できるAI
（説明できるAI等）
・容易に構築できるAI
（AI工学の確立等）
平成30年5月23日
産業技術総合研究所
情報・人間工学領域
人工知能研究戦略部

取り組むべきAI基盤技術の方向性
14
• 具体的には、必要なAI基盤技術開発として、
「人間と協調できるAI」（データ・知識融合等）
「実世界で信頼できるAI」
• 「容易に構築できるAI」の３つの方向について検討している。
AI基盤技術
＜人間と協調できるAI＞
・人間の知識の機械学習への組込み
・人間と対話し、学習するAI
・熟練・暗黙・社会知のAI化
＜実世界で信頼できるAI ＞
・機械学習の説明可能化
・AIの有効範囲の検証手法、
品質評価手法
＜容易に構築できるAI＞
・AI開発・導入プロセスの明確化、自動化
・AIのモジュール化、再利用可能化、
AIの標準化、相互接続性の確保
AI社会実装推進＜空間の移動＞
地理空間情報など
＜生産性の向上＞
AI×ロボットなど
＜健康、医療・介護＞
創薬・診断、人間拡張など
AI基盤インフラ＜ABCI：AI橋渡しクラウド＞
＜産総研AIRCの考える取り組むべきAI基盤技術＞

深層学習に関連する共通基盤的な課題
• 信頼度の評価
– 学習結果、推論結果の信頼度の評価や可視化
• 説明可能性の向上
– 学習結果、推論結果の可視化、理由の説明
– 理解可能性の向上
• モジュール性・再利用性の向上
– 理解可能性の向上
– 再利用可能性の向上
• シンボルグラウンディング問題
– 言語的記号とパターン的データの紐づけ
– イメージレベルの利用
– 人間との相互理解、意味レベルのインタラクション
15

信頼度の評価
• ベイジアン深層学習 Bayesian Deep Learning
• 深層ベイズ学習 Deep Bayesian Learning
– NIPS Workshop 2016～
• 推論結果の信頼度評価
– Dropout による近似的ベイズ推論
– バッチ正規化による近似的ベイズ推論
• 深層ニューラルネットのベイズ的学習
– モンテカルロ法
– 自動変分学習
• 深層生成モデル
– 学習データの分布学習
– 階層的潜在変数のある確率分布モデル
16

深層 NN 向けの近似ベイズ推論手法
• Dropout によるベイズ推論
推論時にも dropout を適用して推論を繰り返す
→ 推論結果の揺らぎ
→ 正規化して不確実性を評価
• バッチ正規化によるベイズ推論
Monte Carlo Batch Normalization
ランダムにミニバッチを構成して推論を繰り返す
→ 推論結果の揺らぎ
17
[Y. Gal, J. Hron, A. Kendall: Concrete Dropout, NIPS 2017.]
[M. Teye, H. Arizpour, K. Smith: Bayesian uncertainty estimation
for batch normalized deep networks, arXiv 2018.]

不確実性の二つの起源
• A. Kendall and Y. Gal: What uncertainties do we need in
Bayesian deep learning for computer vision? NIPS 2017
• Aleatoric（偶然的）Uncertainty: 入力データの
雑音などに由来する推論結果の不確実性（デー
タサイズに依らず存在）
• Epistemic（認識的） Uncertainty: 学習結果の
モデルの不確実性に由来する推論結果の不確実
性（データが大きくなると減少）
18

確率的プログラミング
• 様々な確率的生成モデルと学習・推論アルゴリズムを
効率よく利用するためのプログラミング言語
– BUGS, Jags, Stan
– PRISM, BLOG, Anglican, Church, Venture, WebPPL, ...
– DARPA Probabilistic Programing for Advanced
Machine Learning (PPAML) (2015～2018)
• PRISM: PRogramming in Statistical Modeling
[佐藤+: 1995～]
– 計算可能な離散分布をプログラム可能
• 複雑な確率モデルを簡単に記述可能
– Prolog ベースのインタフェース
– 説明グラフを使った汎用高速処理
19

深層確率コンピューティング
• 確率的プログラミング
＋深層ニューラルネット
• 確率的オブジェクトの扱い
• 複雑な生成モデルの容易な実装・評価
– 確率モデル記述と推論・学習アルゴリズムの分離
• Edward on TensorFlow+Keras [Blei+ 2016]
• Tars on Theano+Lasagne [鈴木 2016]
• Pyro on PyTorch [Goodman+ 2017]
20

VAE by Tars
x = InputLayer((None,n_x))
q_0 = DenseLayer(x,num_units=512,nonlinearity=activation)
q_1 = DenseLayer(q_0,num_units=512,nonlinearity=activation)
q_mean = DenseLayer(q_1,num_units=n_z,nonlinearity=linear)
q_var = DenseLayer(q_1,num_units=n_z,nonlinearity=softplus)
q = Gaussian(q_mean,q_var,given=[x]) #q(z|x)
z = InputLayer((None,n_z))
p_0 = DenseLayer(z,num_units=512,nonlinearity=activation)
p_1 = DenseLayer(p_0,num_units=512,nonlinearity=activation)
p_mean = DenseLayer(p_1,num_units=n_x,nonlinearity=sigmoid)
p = Bernoulli(p_mean,given=[z]) #p(x|z)
model = VAE(q, p,
n_batch=n_batch, optimizer=adam,
optimizer_params=optimizer_params,
clip_grad=clip_grad, max_norm_constraint=max_norm_constraint)
21
[ソースコードの出典: https://github.com/masa-su/Tars/tree/master/examples]

説明可能性の向上
• DARPA XAI (Explainable AI) プログラム 2017～2021
• 説明可能性と学習性能のトレードオフの克服
• 説明とは何か？どんな説明が良いのか？
• 説明の有効性の評価
– 人間とシステムの共同作業の効率向上
– ユーザスタディの方法
– タスクの選択
• データ解析タスク
• ミッション遂行タスク
• Visual Q&A
• など
22
[DARPA XAI Program
https://www.darpa.mil/attachments/XAIIndustryDay_Final.pptx]

説明可能性へのアプローチ
• 説明可能、解釈容易なモデルの利用・蒸留
– 決定木、スパースモデリング、因果モデル、等
– 帰納論理プログラムへの深層学習導入
• 重要因子の抽出、可視化
– Attention や Feature Attribute の説明としての利用
• モジュール化学習
– 微分可能な物理エンジンを使った
深層強化学習
23
［Xu+ Show, Attend and Tell: Neural Image
Caption Generation with Visual Attention, 2015］

タスク設定と評価
• タスク設定
– 分類・検索タスク
– Visual Q&A
– 強化学習タスク
• 評価指標
– ユーザスタディ
説明ありと説明なしで、タスクのパフォーマンス、
信頼度、納得度などを比較
24

モジュール性・再利用性の向上
• Devin+: Learning Modular Neural Network Policies
for Multi-Task and Multi-Robot Transfer, arXiv
2016
• 現在は、主にロボット分野で探求
• End-to-End を１つのネットワークで学習
→ 再利用性が悪い
• モジュール化 → 再利用性向上、説明性向上
• モジュール型深層強化学習
25

微分可能な物理エンジン
• 剛体の衝突を扱う力学シミュレータ
• 剛体を扱うタスクの学習の学習に利用可能
• シミュレーション結果を、シミュレータのパ
ラメータと初期状態に関して微分可能に
• シミュレータのパラメータ学習を、
End-to-End で可能に
• 剛体を扱う深層強化学習等に応用可能
26

学習結果の蓄積と再利用
• 学習工場 [松尾 2016]
– モデルのプログラミング技術
– データの前処理
– 超パラメータ最適化のノウハウ
– モデルライブラリの整備
– 適切な学習済モデルの再利用
27

AI 橋渡しクラウド ABCI
2828［スライド提供：産総研人工知能研究センター小川宏高研究チーム長］
H30 夏サービス開始
Top500で世界5位獲得！
(H30.6)

AI プラットフォームのエコシステム構築
29

シンボルグラウンディング問題
• 言語記号の感覚データへの接地
• 記号処理 AI とパターン処理 AI の融合
• 「（画像や音声といった）アナログ情報がシンボル化以前のある種のイメージ
として記憶されることは間違いないし、これが人間の知的機能であるシンボル
と深層にある情動との間をつなぐ重要なキーとして働いていることも確かであ
る。（中略）
ニューラルネットワークのような非シンボル的取扱いを（記号処理的な人工知
能に）組み込んだ総合的なシステムを検討することは重要なことである。しか
しそれを行ったからといって、どこまで人間的なことを実現できるかはわから
ない。できる、できないと議論するのではなく、やってみる以外に方法はな
い。」（長尾真「人工知能と人間」（岩波新書），1992）
• 「二つのモデル（コネクショニストモデルと記号表現モデル）の弱点を乗り越
えた情報処理モデルは、まだ現れているとはいえない。この点を乗り越え、記
号を使う心のはたらきとそうでないはたらきが意識のうえと意識下でどう相互
作用しているのか、とくに、人が知覚や運動の機能をはたらかせながら、その
一方で記号によってことばを操れるのはなぜかという問題に答を与えることは、
多くの認知科学者が挑戦してきた主要な課題の一つである。」（安西祐一郎
「心と脳 –認知科学入門」（岩波新書），2011 ）
30

二種類の知識
• 明示的知識：言葉で表しやすい知識
–論理的思考、推論のための知識
• 事実関係（東京大学は文京区にある）
物理法則、数学の定理、
論理推論規則、作業手順、ゲームのルール
• 暗黙的知識：言葉で表しにくい知識
–認識、運動のための知識
• 人の顔の見分け方
自転車の乗り方
将棋や囲碁の盤面評価
31

二つのシステム
[Daniel Kahneman: Thinking, Fast and Slow, 2011]
• スローな（熟考的）システム
– 論理的推論、計算
– 注意と意識が必要なプロセス
• ファストな（反射的・即応的）
システム
– 連想的な情報補間
– 異常検知（気づき）
– 瞬間的な認識・理解
– 運動制御
– 無意識的、直観的なプロセス

言語理解・対話・機械翻訳
ダートマス会議
1956
人工知能研究の二つの流れ
1960 70 80 90 00 10
明示的知識を扱うAI
記号処理的 AI
暗黙的知識を扱うAI
パターン処理的 AI
（AI とは呼ばれていなかった）
パーセプトロン
パターン認識・理解、運動学習・制御
誤差逆伝播学習
サポートベクトルマシン
深層学習
ベイズモデリング
統計的パターン認識
リアルワールド
コンピューティング
定理証明・問題解決
第五世代
コンピュータ
エキスパートシステム
Semantic Web
大規模知識グラフ
Watson
それぞれの夏と冬
33
強化学習

柔らかな記号に向けて
• 硬い記号
– 現在の計算機が操作する記号
– 組み合せ構造の生成や操作
が得意
• 柔らかな記号
– 人間の脳の中で
分散表現された記号
– 連想と組み合わせ構造生成
の両方ができる
[麻生 1988]
34

脳と記号処理
• 脳は連想ベースのパターン情報処理装置
• 記号処理は本来は苦手
– 記憶、計算、先読み計画、などは
計算機のほうがはるかに得意
• だから紙などの外部記憶装置や
計算装置を発明した
• それなのに記号的推論や言語を使っている
• それが人間の強みになっている
35

パターン処理と記号処理の統合
• 脳の情報処理原理の観点から [JNNS 2017プレイベント]
– ボトムアップとトップダウン
– 識別モデルと生成モデル
– ベイズ的順－逆計算
– 予測符号化、自由エネルギー最小化
– Auto-encoding Variational Bayes
– Bayesian Deep Learning
• もう少し工学的（人工知能的？）な観点から
– 記号的なシミュレーショの、
プラニングの利用（計算削減）
– 機械学習における事前知識・領域知識の活用
– 人間と相互理解できる人工知能、XAI
– Semantic Prior
– 言語記号の使用
36

視覚情報処理の計算理論
[Marr 1982, 川人 1996]
• 視覚情報処理を
2D 表現（網膜像）→ 3D 世界の状況
の推定問題（逆問題）として定式化
– 視差からの 3D形状復元
– 陰影からの 3D形状復元
– ・・・
• 自然画像の生成モデルと逆問題推論！
• 近似逆モデルによる高速緩和ベイズ計算
[川人光男：脳の計算理論, 産業図書, 1996]
[David Marr： Vision, 1982]

いろいろなアイデア
• 視覚系の階層ベイズモデル [Rao and Ballad 1998]
• PredNet: Predictive Coding + DNN
• 自由エネルギー原理による脳の情報処理の包括的説明]
• Deep Kalman Filter
– カルマンフィルタ（時系列生成モデル） + VAE
– 非線形変換（DNN）＋ガウス雑音
– 反実仮想推論
• 一般化状態空間モデル、PF への拡張 [樋口 2017～]
38
［W. Lotter+ Deep predictive coding networks for
video prediction and unsupervised learning, arXiv 2016］
[K. Friston et al.: Dopamine, Affordance, and Active Inference,
ProsOne, 2012]
[R. G. Krishnan+ Deep Kalman filters, arXiv 2015］

イメージを利用した深層強化学習
• T. Weber+: Imagination-Augmented Agents
for Deep Reinforcement Learning, arXiv 2017
• イマジネーション＝環境の不正確なモデル
– シミュレーション
＝物理学などにもとづく厳密なモデル
– モデルフリーとモデルベースの中間
• Sokoban, MiniPackman などの
先読みが必要なゲームを、環境モデルも含めて
効率的に学習
– ※AlphaGo では囲碁のルールは Given だった
39

言語記号のグラウンディング
• 何がどこまでできているのか？
– 名詞的概念、形容詞的概念、名詞句的概念
(entity) のグラウンディング
– 集合概念のグラウンディング
– 動詞的概念、副詞的概念、動詞句的概念 (event)
のグラウンディング
– 動作系列（event が並んだ現象）のグラウンディ
ング
– より長い記憶・文脈を含めた
グラウンディング
– 体系的なタスク設定と統合的な解法は？
– 人間の発達過程もあまりはっきりしていない？
40

集合概念の扱い
• VQA での How many 質問の正答率は
他に較べてまだ低い
• 「２人の画像」、「３人の画像」、・・・
から「５人の画像」を作れるか？
• 「１人だけ帽子を被っていない３人の画像」
を作れるか？
41

時間や空間の扱い
• イベントの系列
– 例：「出張」概念
出発－移動－到着－宿泊－仕事－食事－・・・
– イベントの組み合わせは定長で可変
• 記述の粒度
– 概念形成のノンパラメトリック的な自由さ
42

構造的な意味表現の必要性
• End-to-End （＋メタ学習）で良いのか？
• 構造的な意味表現は必要か？
– Semantic Parsing
テキスト ⇔ 意味表現（λ式、DCSなど）
• 事前知識として何を入れられるのか？
• Visual Q&A、対話＋ Semantic Parsing？
• 予測・プラニング・シミュレーション
強化学習との融合？
43

イメージを介したグラウンディング
イメージ
L(t)
パターン
O(t)
記号
S(t)
比較的安定した
記号の組み合わせ構造
文法構造
時空間的な局所構造と
その組合せの時間発展
概念依存構造の
埋め込み分散表現
感覚・運動・報酬信号テキスト・言語
潜在空間
意味
文脈情報保持
想起、予測と
問題解決行動計画
L の構造に対する事前分布
𝑃𝑃(𝑂𝑂(𝑡𝑡)|𝐿𝐿(𝑡𝑡)) 𝑃𝑃(𝑆𝑆(𝑡𝑡)|𝐿𝐿(𝑡𝑡))
𝑃𝑃(𝐿𝐿(𝑡𝑡)|𝐿𝐿(𝑡𝑡 − 1))Cf: Y. Bengio: The Consciousness Prior
arXiv arXiv:1709.08568

実世界 Q&A タスク
• 感覚・運動情報に
関する質問応答
• 質問応答を通じた知識獲得
（人間も答える）
• 知識を使って適切に
行動/介入
• 強化学習（Theory of Fun）
や模倣学習との組み合わせ
45
対話から学習する事情通ロボット
[Asoh+ 1997]

実世界 Q&A タスク
46
内部知識
ベース
潜在意味
構造
イメージ
感覚・運動
情報
入力文
運動出力
応答文
中長期の予測・行動計画
因果推論
Web 等の外部知識ベース

まとめ
• 深層学習を始めとする機械学習技術を
実世界の課題でより一層活用するための
今後の基盤技術の方向性と萌芽的研究を紹介
• 信頼性評価
• 説明可能性向上
• モジュール性・再利用性向上
• シンボルグラウンディング問題
• ベイズ的な情報処理の枠組みが全体を包括
47

実世界に埋め込まれる深層学習

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Similar to 実世界に埋め込まれる深層学習

Similar to 実世界に埋め込まれる深層学習 (20)

More from Deep Learning Lab（ディープラーニング・ラボ）

More from Deep Learning Lab（ディープラーニング・ラボ） (20)

Recently uploaded

Recently uploaded (10)

実世界に埋め込まれる深層学習