深層強化学習を用いた複合機の搬送制御

© KONICA MINOLTA
2021/1/22
コニカミノルタ株式会社第2デバイス制御開発部
深層強化学習を用いた複合機の搬送制御
DLLAB 強化学習Day 2021

© KONICA MINOLTA
目次
1
• コニカミノルタのご紹介
• 強化学習取り組みの動機
• 強化学習適用のスコープ
• 強化学習適用のステップ
• Step0 状態、行動、報酬を設定する
• Step1 シミュレータ上で用紙を搬送する
• Step2 実際の機械で用紙を搬送する
• Step3 実際の機械で安定的に用紙を搬送する
• まとめ

コニカミノルタのご紹介

© KONICA MINOLTA
3
※2020年3月31日現在
170社
連結子会社数
約150カ国
セールス/サービス体制
43,961人
従業員数
約200万社
顧客企業数
日本
1,918億円
19.3％
アジア
（日本を除く）
その他
2,303億円
23.1％
欧州
2,942億円
29.5％
米国
2,798億円
28.1％
19年度
売上高
9,961億円
地域別売上高

© KONICA MINOLTA
4
お客様の
ワークフロー改革を
支援する
ソリューション
を提供
医療のデジタル化を支え
診断のデジタル化に貢献
オフィス事業プロフェッショナルプリント事業
ヘルスケア事業産業用材料・機器事業
デジタル印刷ニーズ
に応える最適な
出力ソリューション
を提供
光学・材料技術を結集し
モノづくりに革新を

強化学習の取り組みの動機

© KONICA MINOLTA
6
目指す姿
既存コア技術
（制御、組み込みノウハウ）
エ
ッ
ジ
セ
ン
シ
ン
グ
技
術
多
様
化
す
る
要
望
お客様制御の自動生成技術
お客様環境の再現
要望の定量化
共
通
動
作
お客様の要望に沿ったメカトロニクス動作を即座に提供する

強化学習適用スコープ

© KONICA MINOLTA
プリンタ
オフィス複合機
プロダクションプリント機
大判インクジェット機
8
開発対象製品はA4プリンタから産業用プリンタまで多岐にわたる

© KONICA MINOLTA
9
①給紙
②搬送
③現像
⑤定着
④転写
⑥排紙・印刷された用紙を排紙して積載する
・用紙を一枚ごとに捌いて印刷部に給紙する
・用紙を真っすぐな姿勢に保ちながら搬送する
・静電気を制御して印刷したい画を作り出す
・静電気を制御して印刷したい画を用紙に移す
・画と用紙に熱を与え用紙に画を定着する

© KONICA MINOLTA
10
①給紙
②搬送
③現像
⑤定着
④転写
⑥排紙・印刷された用紙を排紙して積載する
・用紙を一枚ごとに捌いて印刷部に給紙する
・用紙を真っすぐな姿勢に保ちながら搬送する
・静電気を制御して印刷したい画を作り出す
・静電気を制御して印刷したい画を用紙に移す
・画と用紙に熱を与え用紙に画を定着する
プリンタ～大判インクジェット機で共通する用紙搬送技術に適用する

© KONICA MINOLTA
11
給紙搬送排紙

© KONICA MINOLTA
12
給紙搬送排紙
停止ローラへの衝突用紙同士の衝突進行方向に対するの用紙傾き
進行方向

© KONICA MINOLTA
13
２．所定時
間内で所定
の枚数を機
外へ排出す
る
１．用紙に
ダメージを
与えずに搬
送する
用紙を機外へ排
出できること
所定時間内に狙
いの枚数排出で
きること
経路内で搬送中の
用紙が衝突しない
こと
用紙傾きを補正で
きること
用紙搬送の「真っ直ぐダメージ無く」「所定枚数」搬送することをスコープとする
目的要件

強化学習の適用ステップ

© KONICA MINOLTA
強化学習とは
15
エージェント環境
報酬
行動
状態
AIの一つで報酬を設定して試行錯誤することで学習の精度を上げていく仕組み
機械学習
教師なし学習教師あり学習
AI
強化学習
ニューラルネット
ワーク

© KONICA MINOLTA 16
Step1
シミュレータ上で
用紙を搬送する
Step2
実際の機械で
Step3
実際の機械で
安定的に用紙を搬送する
強化学習により達成したいこと：用紙を「真っ直ぐダメージ無く」「所定枚数」搬送する
Step0
状態、行動、報酬
を設定する

© KONICA MINOLTA
17
Step1
Step2
実際の機械で
Step3
実際の機械で
採用
アルゴリズム
狙い
取り組み
• Q学習
• シミュレータ上で強化学習
により自動設計が可能であ
るか確認
• Q学習に必要な用紙位置情
報を仮想センサで対応
• シミュレータ上でQ学習で
動作する搬送環境を構築
• DQN
• シミュレータ上で動作した
学習モデルを使って実際の
機械を動かす
• 実機に合わせたNNを構成
• 実機動作と推論実行可能な
HW環境を構築
• PPO
• 実際の機械で安定的に用紙
を搬送できるかを確認
• 学習すべきバラつき要因を
設定
• シミュレータSim2Real環
境を構築
Step0
を設定する

Step0 状態、行動、報酬を設定する
Step1
Step2
実際の機械で
Step3
実際の機械で
Step0
を設定する

© KONICA MINOLTA
19
③報酬
②行動
①状態
Step2 Step3
Step1
Step0

© KONICA MINOLTA
20
③報酬
②負荷出力制御
①用紙位置情報
③報酬
②行動
①状態
①状態＝用紙位置情報、②行動＝負荷出力制御（モータ、クラッチ）とする
Step2 Step3
Step1
Step0

© KONICA MINOLTA
21
③報酬
用紙位置情報
負荷出力制御
③報酬
②行動
①状態
①状態＝用紙位置情報、②行動＝負荷出力制御（モータ、クラッチ）とする
Step2 Step3
Step1
Step0

© KONICA MINOLTA
22
③報酬＝「真っ直ぐダメージ無く」「所定枚数」搬送するための報酬を設定
用紙を1枚排出
できた
1分間に狙いの
枚数を排出でき
た
用紙が衝突した
用紙傾き補正し
ない/できない
＋報酬
＋報酬
－報酬
－報酬
所定時間内
で所定の枚
数を機外へ
排出する
用紙にダ
メージを与
えずに搬送
する
用紙を機外へ排
出できること
所定時間内に狙
いの枚数排出で
きること
用紙が衝突しない
こと
用紙傾きを補正で
きること
目的要件報酬定義
Step2 Step3
Step1
Step0

Step1 シミュレータ上で用紙を搬送する
Step1
Step2
実際の機械で
Step3
実際の機械で
Step0
を設定する

© KONICA MINOLTA
24
Step1
Step2
実際の機械で
Step3
実際の機械で
採用アルゴリズム
狙い
取り組み
• Q学習
るか確認
• DQN
機械を動かす
HW環境を構築
• PPO
設定
境を構築
Step0
を設定する
Step2 Step3
Step1
Step0

© KONICA MINOLTA
25
Step2 Step3
Step1
メインモータ
排紙CL
給紙CL
給紙R 排紙R
給紙カセット
TmgCL
S1 S2 S3 S4 S5 S10 S11 S12 S13 S14
TmgR
DmmyR
S6 S7 S8
ループ距離
S9
Q学習に合わせて用紙状態を仮想センサON/OFF で表現した
Step0

© KONICA MINOLTA
26
メインモータ
排紙CL
給紙CL
給紙R 排紙R
給紙カセット
TmgCL
S1 S2 S3 S4 S5 S10 S11 S12 S13 S14
TmgR
DmmyR
S6 S7 S8
ループ距離
S9
仮想センサの全組合せに対する行動テーブルを用意して行動する度に更新する
Step2 Step3
Step1
Step0

© KONICA MINOLTA
27
③報酬
メインモータ
排紙CL
給紙CL
給紙R 排紙R
給紙カセット
TmgCL
S1 S2 S3 S4 S5 S10 S11 S12 S13 S14
TmgR
DmmyR
S6 S7 S8
ループ距離
S9
簡易構成シミュレータ
Step2 Step3
Step1
Step0
Q学習と簡易構成シミュレータにより、学習環境を構築

© KONICA MINOLTA
28
－報酬の影響が大きく、＋報酬を獲得しても状態価値が維持できず学習が進まない
用紙を1枚排出
できた
1分間に狙いの
た
ない/できない
＋報酬
＋報酬
－報酬
－報酬
報酬定義
Step2 Step3
Step1
Step0
タイミングよく
褒たり、叱った
りしてほしい

© KONICA MINOLTA
29
用紙1枚ごとの＋報酬を追加することで状態価値を安定することができた
用紙を1枚排出
できた
1分間に狙いの
た
ない/できない
＋報酬
＋報酬
－報酬
－報酬
報酬定義
追加
Step2 Step3
Step1
Step0

© KONICA MINOLTA
30
報酬を適切なタイミングで与え、繰り返し学習することで性能が向上することを確認
シミュレータ上で強化学習により自動設計が可能
1回目 2回目 3回目
Step2 Step3
Step1
Step0

Step2 実際の機械で用紙を搬送する
Step1
Step2
実際の機械で
Step3
実際の機械で
Step0
を設定する

© KONICA MINOLTA
32
Step1
Step2
実際の機械で
Step3
実際の機械で
狙い
取り組み
• Q学習
るか確認
• DQN
機械を動かす
HW環境を構築
• PPO
設定
境を構築
Step0
を設定する
Step2 Step3
Step1
Step0

© KONICA MINOLTA
33
機構制御と推論実行に必要なパフォーマンスを満たすHW環境を構築
MFP制御CPU
機器制御実行
推論CPU
RX65N
NN推論実行
用紙位置情報
出力制御情報
ループ量：3.3[mm]に必要な
学習周期 20[msec]
入力層は最大3枚分の用紙位置
NNの隠れ層は最大128x2
1枚目先端位置
1枚目後端位置
2枚目先端位置
2枚目後端位置
3枚目先端位置
3枚目後端位置
Step2 Step3
Step1
Step0

© KONICA MINOLTA
35
ハイパーパラメータ調整を行ったが安定して狙いの性能を達成できない
散発的に狙いとする所定枚数
を排出できる場合がある
安定するが、狙いとする
所定枚数を排出できない
パラメータ調整では
トレードオフ解消できず
Case1
Case2
Step2 Step3
Step1
Step0

© KONICA MINOLTA
36
用紙傾き補正タイミング判断できる補助情報により、狙いの性能と安定性を確保
補助情報（用紙傾き補正タイミング）を状態に追加することでNNが迷うことが減ると仮定した
用紙傾き補正タイミング情報
Step2 Step3
Step1
Step0
ヒントを貰える
と短い時間で効
率的に学べます

Step3 実際の機械で安定的に用紙を搬送する
Step1
Step2
実際の機械で
Step3
実際の機械で
Step0
を設定する

© KONICA MINOLTA
41
Step1
Step2
実際の機械で
Step3
実際の機械で
狙い
取り組み
• Q学習
るか確認
• DQN
機械を動かす
HW環境を構築
• PPO
設定
境を構築
Step0
を設定する
Step2 Step3
Step1
Step0

© KONICA MINOLTA
42
給紙バラつきにより狙いの制御ができていない ⇒ バラつきも学習する必要がある
• 27ppmを発揮するモデルを使用して実機を動作させた結果
18ppm
学習時にできていた、
狙いとする所定枚数の排出を再現できない
通紙センサによる
用紙到着待機が発生
→用紙が想定より遅い
給送ログ波形より給紙ローラ送り速度を試算した結果、
理論値：175.2mm/sec に対し
実測値：154.5mm/sec
実機とSimの送り速度差により
推論がうまくいかない？
Step2 Step3
Step1
Step0
教えてもらって
いないことはで
きません

© KONICA MINOLTA
43
バラつきを学習するために Sim2Real（Domain Randomization）の適用を検討
Env1
Env2
Env3
Simulatorによる学習搬送用NN
ダイナミクスパラメータを振りつつ
シミュレートして学習
実機における推論
マシン固有のダイナミクスパラメータ
システムは値を知る手段はない
ダイナミクスパラメータは中央値で
シミュレートして学習
入力は理想の搬送のみを想定している
出力も理想の搬送のみを想定している
入力はバラツクことを想定している
出力はバラツクことを想定している
状態
理想的な動き
行動
理想的な動きをしたときの状態
状態
理想的な動き
行動
理想的な動きをしたときの状態
マシン固有の動き
GAP
理想的な動き
GAP
状態
マシン固有の動きを考慮
行動
マシン固有の動きをしたときの状態
マシン固有の動き
マシン固有のダイナミクスパラメータ
システムは値を知る手段はない
DomainRandomization
Step2 Step3
Step1
Step0

© KONICA MINOLTA
45
設計上の最大バラつきをDRに設定し、狙いの搬送を学習できるか検討中
120
122
124
126
128
130
132
134
136
138
140
142
0 20 40 60 80 100 120 140
DR環境下におけるTmgR到達までの理想位置と実位置のGAP
理想実1(MAX) 実2(MIN)
171mm/sec
150mm/sec
TmgR位置
給紙CL OFF可能
給紙CL OFF不可
給紙CL OFF可能
（次ステップでTmgR到達）
ループ量：1.1mm
ループ量：3.62mm
制御タイミング
給紙CL OFF可能
どちらも成立するタイミング OK NG
NG
搬送速度が最大１４％ば
らついても正常搬送可能
な給紙クラッチ制御を学
習する
正常搬送できる
用紙位置領域
搬送速度が最大14％バラついても狙いのタイミングで給紙クラッチを制御を学習する
Step2 Step3
Step1
Step0

© KONICA MINOLTA
まとめ
47
適切なタイミングで報酬
を与えることで、学習が
進み、負荷出力の動作タ
イミングを自動設計可能
であると判断できた。
用紙状態の表現が複雑に
なったが、補助情報を与
えることでシミュレータ
上で狙いの性能に到達で
きた。
実機にDQNで学習したモ
デルを搭載して用紙を一
定間隔で搬送することが
できた。
安定的に搬送するために、
バラつきを含めた学習を
行うことが重要。
給紙速度と用紙状態の組
み合わせは膨大になり学
習を性能を向上するため
の更なる施策が必要。
Step1
Step2
実際の機械で
Step3
実際の機械で
取り組みで得られたこと
Step0
を設定する

深層強化学習を用いた複合機の搬送制御

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Similar to 深層強化学習を用いた複合機の搬送制御

Similar to 深層強化学習を用いた複合機の搬送制御 (20)

More from Deep Learning Lab（ディープラーニング・ラボ）

More from Deep Learning Lab（ディープラーニング・ラボ） (20)

Recently uploaded

Recently uploaded (10)

深層強化学習を用いた複合機の搬送制御