SlideShare a Scribd company logo
1 of 17
『Large-Scale Order Dispatch in On-Demand Ride-Hailing Platforms:
A Learning and Planning Approach』
AI Labs, Didi Chuxing @KDD2018
さえない / Yamamuro Saeru
@saeeeeru
Outline
1. Motivation
2. Problem Statment
3. Proposed Framework
4. Experiment Result
5. Conclusion
2
1. Motivation
3
タクシードライバーと顧客の配車オーダーの割り当ての最適化
❏ 資源の利活用とユーザー体験の最適化を
地理的、時間的な観点で行う
➢ 現在の乗客の需要を満たすだけでなく
予想される将来の利益も最適化
– 例えば、dt = 18:00
Taxi A
passenger A
50km
1. Motivation
4
タクシードライバーと顧客の配車オーダーの割り当ての最適化
❏ 資源の利活用とユーザー体験の最適化を
地理的、時間的な観点で行う
➢ 現在の乗客の需要を満たすだけでなく
予想される将来の利益も最適化
– 例えば、dt = 18:30
passenger A
Taxi A
Taxi B
50km
passenger B
5km
5km
3. Proposed Framework
5
オフラインで状態価値関数を推定、
オンラインで報酬と将来価値からマッチング
Given : ユーザー行動履歴 (時間, 地点情報:メッシュ, 配車オーダー)
Model : マルコフ決定過程 (MDP)
❏ 系列的な意思決定問題をモデル化するための方法
❏ エージェント(ドライバー) はある 環境 下における 方策(行動するルール)
に基づいて振る舞う
❏ MDPの各 状態(時間、地点情報) でエージェントは 行動(乗客を迎えに行く / アイドル) する
❏ MDPを解くために, 目的関数として 状態価値関数 や 行動価値関数 といったものを
定義する
Goal : エージェント の目的は 利得(システム全体) の最大化
❏ 総流通量総額 : the Gross Merchandise Volume
2. Problem Statement
6
Model : マルコフ決定過程 (MDP)
❏ 系列的な意思決定問題をモデル化するための方法
❏ エージェント(ドライバー) はある 環境 下における
方策(行動するルール) に基づいて振る舞う
❏ MDPの各 状態(時間、地点情報) でエージェントは
行動(乗客を迎えに行く / アイドル) する
❏ MDPを解くために, 目的関数として 状態価値関数 や
行動価値関数 といったものを定義する
Goal : エージェント の目的は
利得(システム全体) の最大化
❏ 総流通量総額
2. Problem Statement
7
3. Proposed Framework
8
オフラインで状態価値関数を推定、
オンラインで報酬と将来価値からマッチング
3. Proposed Framework
Policy Evaluation :
9
・行動 アイドル :
❏ 状態価値関数のみ
・行動 お迎え :
❏ 時間はピックするまでに要する時間と
乗客の待ち時間、送り届ける時間の総和
❏ 行動と状態の価値の足し算
→ TD (the Temporal-Differences) Rule
❏ 今回のケースだと全状態を計算するのは無謀
(地点×時間の状態数になるため)
❏ 価値関数の計算においては
動的計画法(Dynamic Programming) で実装
❏ 有限時間に絞ることで実装可能
3. Proposed Framework
行動価値関数、Discount Factor : γ
e.g )
● 00:00にエリアAにおいて地点BからCへのオーダーをうけたドライバー
● このトリップは20分で、30ドルのコスト(利益)
● 加えて、乗客をピックするために10分要する
● 10分間のtime-windowを定義
● discount factorを0.9とする
● T = (20 + 10) / 10 = 3
● Rγ = 10 + 10 * 0.9 + 10 * 0.9^2 = 27.1
➢ 直感的には、減価償却みたいなもの?時間がかかるオーダーはdiscount
10
3. Proposed Framework
● ユーザー行動履歴をも
とに方策を決定
● 時間的には逆順に価値
関数を更新
● 更新はオーダーから得
られた価値をもとに計
算
● 最終的に全状態(時間、
場所)での価値関数が
計算される
11
3. Proposed Framework
12
オフラインで状態価値関数を推定、
オンラインで報酬と将来価値からマッチング
3. Proposed Framework
Planning : Learningフェーズで学習した価値関数をもとにリアルタイムで配車
13
❏ 各time-windowにおいて
左記の目的関数で表現される組合せ最適化問題を解く
❏ 各ディスパッチ(taxi -> passenger)
で算出される価値関数:Qπの総和を最大化する
➢ 実世界ではこの組み合わせの個数が膨大であるため
現実的に計算不可能
➢ ハンガリアン法で解決
❏ 計算量の削減のために
default actionsを表現するエッジを除外する
具体的には ...
❏ 同状態に残る = 何も行動しないとモデル化された
driverとpassengerへのエッジは除外
3. Proposed Framework
ハンガリアン法
14
❏ Order Price
❏ Driver’s Location
❏ Order Destination
❏ Pickup Distance
4. Experiment Result
➢ 仮想環境におけるシミュレーションで既存手法より総収入↑
❏ カスタマイズ化されたA/Bテストにて効果検証:時間でスライス
- 一般的には同一時期のユーザーをA/Bに分けるが
Dispatchの最適化問題におけるテストは不可能)
➢ 既存のアルゴリズムと比較して
中国の全ての街においてGlobal GMVが0.5~5%増加
➢ 平均のDispatch時間も既存のものと変わらない
(passengerをより待たせることにはなっていない)
15
4. Experiment Result
16
✓ 時間帯ごとに
価値関数をマップ化
✓ 朝のピーク後は
たくさんのドライバー
が中央に集まるため
価値関数は中央を
低く算出する
✓ その時点での利得でなく
長期的な利益の最大化を目指したDispatchの最適化アルゴリズムを提案
✓ オフラインで強化学習によって導出された価値関数をもとに
オンラインで報酬と将来価値からDriverとPassengerをマッチング
✓ 実環境にて時間スライスによるA/Bテストにて効果検証したところ
総収入を意味するGMVの増加が見られた
➢ 今後は深層強化学習を用いたアルゴリズムを開発
➢ GPSのローデータを入力とすることでメッシュの影響をなくす
➢ 他の特徴の追加も検討
5. Conclusion
17

More Related Content

What's hot

強化学習における好奇心
強化学習における好奇心強化学習における好奇心
強化学習における好奇心Shota Imai
 
密度比推定による時系列データの異常検知
密度比推定による時系列データの異常検知密度比推定による時系列データの異常検知
密度比推定による時系列データの異常検知- Core Concept Technologies
 
【DL輪読会】HyperDiffusion: Generating Implicit Neural Fields withWeight-Space Dif...
【DL輪読会】HyperDiffusion: Generating Implicit Neural Fields withWeight-Space Dif...【DL輪読会】HyperDiffusion: Generating Implicit Neural Fields withWeight-Space Dif...
【DL輪読会】HyperDiffusion: Generating Implicit Neural Fields withWeight-Space Dif...Deep Learning JP
 
【DL輪読会】ConvNeXt V2: Co-designing and Scaling ConvNets with Masked Autoencoders
【DL輪読会】ConvNeXt V2: Co-designing and Scaling ConvNets with Masked Autoencoders【DL輪読会】ConvNeXt V2: Co-designing and Scaling ConvNets with Masked Autoencoders
【DL輪読会】ConvNeXt V2: Co-designing and Scaling ConvNets with Masked AutoencodersDeep Learning JP
 
[DL輪読会]Meta Reinforcement Learning
[DL輪読会]Meta Reinforcement Learning[DL輪読会]Meta Reinforcement Learning
[DL輪読会]Meta Reinforcement LearningDeep Learning JP
 
Optimizer入門&最新動向
Optimizer入門&最新動向Optimizer入門&最新動向
Optimizer入門&最新動向Motokawa Tetsuya
 
勾配降下法の 最適化アルゴリズム
勾配降下法の最適化アルゴリズム勾配降下法の最適化アルゴリズム
勾配降下法の 最適化アルゴリズムnishio
 
SSII2021 [SS1] Transformer x Computer Visionの 実活用可能性と展望 〜 TransformerのCompute...
SSII2021 [SS1] Transformer x Computer Visionの 実活用可能性と展望 〜 TransformerのCompute...SSII2021 [SS1] Transformer x Computer Visionの 実活用可能性と展望 〜 TransformerのCompute...
SSII2021 [SS1] Transformer x Computer Visionの 実活用可能性と展望 〜 TransformerのCompute...SSII
 
[DL輪読会]Deep Learning 第15章 表現学習
[DL輪読会]Deep Learning 第15章 表現学習[DL輪読会]Deep Learning 第15章 表現学習
[DL輪読会]Deep Learning 第15章 表現学習Deep Learning JP
 
Recent Advances on Transfer Learning and Related Topics Ver.2
Recent Advances on Transfer Learning and Related Topics Ver.2Recent Advances on Transfer Learning and Related Topics Ver.2
Recent Advances on Transfer Learning and Related Topics Ver.2Kota Matsui
 
ベイズ統計学の概論的紹介
ベイズ統計学の概論的紹介ベイズ統計学の概論的紹介
ベイズ統計学の概論的紹介Naoki Hayashi
 
KDDCUP2020 RL Track : 強化学習部門入賞の手法紹介
KDDCUP2020 RL Track : 強化学習部門入賞の手法紹介KDDCUP2020 RL Track : 強化学習部門入賞の手法紹介
KDDCUP2020 RL Track : 強化学習部門入賞の手法紹介NTTDOCOMO-ServiceInnovation
 
【宝くじ仮説】The Lottery Ticket Hypothesis: Finding Small, Trainable Neural Networks
【宝くじ仮説】The Lottery Ticket Hypothesis: Finding Small, Trainable Neural Networks【宝くじ仮説】The Lottery Ticket Hypothesis: Finding Small, Trainable Neural Networks
【宝くじ仮説】The Lottery Ticket Hypothesis: Finding Small, Trainable Neural NetworksYosuke Shinya
 
「世界モデル」と関連研究について
「世界モデル」と関連研究について「世界モデル」と関連研究について
「世界モデル」と関連研究についてMasahiro Suzuki
 
【DL輪読会】Mastering Diverse Domains through World Models
【DL輪読会】Mastering Diverse Domains through World Models【DL輪読会】Mastering Diverse Domains through World Models
【DL輪読会】Mastering Diverse Domains through World ModelsDeep Learning JP
 
[DL輪読会]“SimPLe”,“Improved Dynamics Model”,“PlaNet” 近年のVAEベース系列モデルの進展とそのモデルベース...
[DL輪読会]“SimPLe”,“Improved Dynamics Model”,“PlaNet” 近年のVAEベース系列モデルの進展とそのモデルベース...[DL輪読会]“SimPLe”,“Improved Dynamics Model”,“PlaNet” 近年のVAEベース系列モデルの進展とそのモデルベース...
[DL輪読会]“SimPLe”,“Improved Dynamics Model”,“PlaNet” 近年のVAEベース系列モデルの進展とそのモデルベース...Deep Learning JP
 
POMDP下での強化学習の基礎と応用
POMDP下での強化学習の基礎と応用POMDP下での強化学習の基礎と応用
POMDP下での強化学習の基礎と応用Yasunori Ozaki
 
強化学習の基礎的な考え方と問題の分類
強化学習の基礎的な考え方と問題の分類強化学習の基礎的な考え方と問題の分類
強化学習の基礎的な考え方と問題の分類佑 甲野
 
Hyperoptとその周辺について
Hyperoptとその周辺についてHyperoptとその周辺について
Hyperoptとその周辺についてKeisuke Hosaka
 
[読会]Long tail learning via logit adjustment
[読会]Long tail learning via logit adjustment[読会]Long tail learning via logit adjustment
[読会]Long tail learning via logit adjustmentshima o
 

What's hot (20)

強化学習における好奇心
強化学習における好奇心強化学習における好奇心
強化学習における好奇心
 
密度比推定による時系列データの異常検知
密度比推定による時系列データの異常検知密度比推定による時系列データの異常検知
密度比推定による時系列データの異常検知
 
【DL輪読会】HyperDiffusion: Generating Implicit Neural Fields withWeight-Space Dif...
【DL輪読会】HyperDiffusion: Generating Implicit Neural Fields withWeight-Space Dif...【DL輪読会】HyperDiffusion: Generating Implicit Neural Fields withWeight-Space Dif...
【DL輪読会】HyperDiffusion: Generating Implicit Neural Fields withWeight-Space Dif...
 
【DL輪読会】ConvNeXt V2: Co-designing and Scaling ConvNets with Masked Autoencoders
【DL輪読会】ConvNeXt V2: Co-designing and Scaling ConvNets with Masked Autoencoders【DL輪読会】ConvNeXt V2: Co-designing and Scaling ConvNets with Masked Autoencoders
【DL輪読会】ConvNeXt V2: Co-designing and Scaling ConvNets with Masked Autoencoders
 
[DL輪読会]Meta Reinforcement Learning
[DL輪読会]Meta Reinforcement Learning[DL輪読会]Meta Reinforcement Learning
[DL輪読会]Meta Reinforcement Learning
 
Optimizer入門&最新動向
Optimizer入門&最新動向Optimizer入門&最新動向
Optimizer入門&最新動向
 
勾配降下法の 最適化アルゴリズム
勾配降下法の最適化アルゴリズム勾配降下法の最適化アルゴリズム
勾配降下法の 最適化アルゴリズム
 
SSII2021 [SS1] Transformer x Computer Visionの 実活用可能性と展望 〜 TransformerのCompute...
SSII2021 [SS1] Transformer x Computer Visionの 実活用可能性と展望 〜 TransformerのCompute...SSII2021 [SS1] Transformer x Computer Visionの 実活用可能性と展望 〜 TransformerのCompute...
SSII2021 [SS1] Transformer x Computer Visionの 実活用可能性と展望 〜 TransformerのCompute...
 
[DL輪読会]Deep Learning 第15章 表現学習
[DL輪読会]Deep Learning 第15章 表現学習[DL輪読会]Deep Learning 第15章 表現学習
[DL輪読会]Deep Learning 第15章 表現学習
 
Recent Advances on Transfer Learning and Related Topics Ver.2
Recent Advances on Transfer Learning and Related Topics Ver.2Recent Advances on Transfer Learning and Related Topics Ver.2
Recent Advances on Transfer Learning and Related Topics Ver.2
 
ベイズ統計学の概論的紹介
ベイズ統計学の概論的紹介ベイズ統計学の概論的紹介
ベイズ統計学の概論的紹介
 
KDDCUP2020 RL Track : 強化学習部門入賞の手法紹介
KDDCUP2020 RL Track : 強化学習部門入賞の手法紹介KDDCUP2020 RL Track : 強化学習部門入賞の手法紹介
KDDCUP2020 RL Track : 強化学習部門入賞の手法紹介
 
【宝くじ仮説】The Lottery Ticket Hypothesis: Finding Small, Trainable Neural Networks
【宝くじ仮説】The Lottery Ticket Hypothesis: Finding Small, Trainable Neural Networks【宝くじ仮説】The Lottery Ticket Hypothesis: Finding Small, Trainable Neural Networks
【宝くじ仮説】The Lottery Ticket Hypothesis: Finding Small, Trainable Neural Networks
 
「世界モデル」と関連研究について
「世界モデル」と関連研究について「世界モデル」と関連研究について
「世界モデル」と関連研究について
 
【DL輪読会】Mastering Diverse Domains through World Models
【DL輪読会】Mastering Diverse Domains through World Models【DL輪読会】Mastering Diverse Domains through World Models
【DL輪読会】Mastering Diverse Domains through World Models
 
[DL輪読会]“SimPLe”,“Improved Dynamics Model”,“PlaNet” 近年のVAEベース系列モデルの進展とそのモデルベース...
[DL輪読会]“SimPLe”,“Improved Dynamics Model”,“PlaNet” 近年のVAEベース系列モデルの進展とそのモデルベース...[DL輪読会]“SimPLe”,“Improved Dynamics Model”,“PlaNet” 近年のVAEベース系列モデルの進展とそのモデルベース...
[DL輪読会]“SimPLe”,“Improved Dynamics Model”,“PlaNet” 近年のVAEベース系列モデルの進展とそのモデルベース...
 
POMDP下での強化学習の基礎と応用
POMDP下での強化学習の基礎と応用POMDP下での強化学習の基礎と応用
POMDP下での強化学習の基礎と応用
 
強化学習の基礎的な考え方と問題の分類
強化学習の基礎的な考え方と問題の分類強化学習の基礎的な考え方と問題の分類
強化学習の基礎的な考え方と問題の分類
 
Hyperoptとその周辺について
Hyperoptとその周辺についてHyperoptとその周辺について
Hyperoptとその周辺について
 
[読会]Long tail learning via logit adjustment
[読会]Long tail learning via logit adjustment[読会]Long tail learning via logit adjustment
[読会]Long tail learning via logit adjustment
 

More from SaeruYamamuro

NIPS2019 Amazon「think globally, act locally : a deep neural network approach...
NIPS2019  Amazon「think globally, act locally : a deep neural network approach...NIPS2019  Amazon「think globally, act locally : a deep neural network approach...
NIPS2019 Amazon「think globally, act locally : a deep neural network approach...SaeruYamamuro
 
フォーメーションを自動で検知する
フォーメーションを自動で検知するフォーメーションを自動で検知する
フォーメーションを自動で検知するSaeruYamamuro
 
サッカーにおけるトラッキングデータの取得と分析と可視化
サッカーにおけるトラッキングデータの取得と分析と可視化サッカーにおけるトラッキングデータの取得と分析と可視化
サッカーにおけるトラッキングデータの取得と分析と可視化SaeruYamamuro
 
サラーがリバプールにくれたもの
サラーがリバプールにくれたものサラーがリバプールにくれたもの
サラーがリバプールにくれたものSaeruYamamuro
 
平成30年度 UNIVAS 事業報告
平成30年度 UNIVAS 事業報告平成30年度 UNIVAS 事業報告
平成30年度 UNIVAS 事業報告SaeruYamamuro
 
ボール保持力・奪取力マップから見るロシアW杯2018
ボール保持力・奪取力マップから見るロシアW杯2018ボール保持力・奪取力マップから見るロシアW杯2018
ボール保持力・奪取力マップから見るロシアW杯2018SaeruYamamuro
 

More from SaeruYamamuro (6)

NIPS2019 Amazon「think globally, act locally : a deep neural network approach...
NIPS2019  Amazon「think globally, act locally : a deep neural network approach...NIPS2019  Amazon「think globally, act locally : a deep neural network approach...
NIPS2019 Amazon「think globally, act locally : a deep neural network approach...
 
フォーメーションを自動で検知する
フォーメーションを自動で検知するフォーメーションを自動で検知する
フォーメーションを自動で検知する
 
サッカーにおけるトラッキングデータの取得と分析と可視化
サッカーにおけるトラッキングデータの取得と分析と可視化サッカーにおけるトラッキングデータの取得と分析と可視化
サッカーにおけるトラッキングデータの取得と分析と可視化
 
サラーがリバプールにくれたもの
サラーがリバプールにくれたものサラーがリバプールにくれたもの
サラーがリバプールにくれたもの
 
平成30年度 UNIVAS 事業報告
平成30年度 UNIVAS 事業報告平成30年度 UNIVAS 事業報告
平成30年度 UNIVAS 事業報告
 
ボール保持力・奪取力マップから見るロシアW杯2018
ボール保持力・奪取力マップから見るロシアW杯2018ボール保持力・奪取力マップから見るロシアW杯2018
ボール保持力・奪取力マップから見るロシアW杯2018
 

KDD2018 DiDi 「large-scale order dispatch in on-demand ride-hailing platforms: a learning and planning approach」

Editor's Notes

  1. いままでは近い乗客を貪欲法で迎えに行っていた
  2. driver-select-order mode -> platform-assign-order-to-driver mode = completion rate improve by 10% combinatiorial optimization algorithm
  3. 状態価値関数 = 現在時刻の現在地点の価値(T時刻後までの累積将来報酬の期待値) 行動価値関数 = オーダーを受けてもらえる報酬計算のための関数
  4. 行動価値はどう計算?
  5. ガンマはどれだけ先を見るかをコントロールする ガンマが小さいほど将来的に価値関数の分散が大きくなる->動かなくなる? この計算をどうするか
  6. 報酬の最大化とは言っても大切なのはユーザーエクスペリメンス その向上のためにハイパラのチューニングはオフラインでのシミュレーションによって行なっている