Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

KDDCUP2020 RL Track : 強化学習部門入賞の手法紹介

KDDCUP2020 RL Track (強化学習部門)でのオンデマンド型交通の車両再配置タスクで,3位入賞となった手法について紹介する.
(Data Science Cafe #4 発表資料)

  • Be the first to comment

  • Be the first to like this

KDDCUP2020 RL Track : 強化学習部門入賞の手法紹介

  1. 1. NTT DOCOMO Confidential ©2020 NTT DOCOMO, INC. All Rights Reserved. 出⽔ 宰 株式会社NTTドコモ 2020年11⽉24⽇ KDD Cup 2020 RL Track: Learning to Dispatch and Reposition Competition 3rd Place Solution Data Science Cafe #4
  2. 2. サマリー • KDDCup2020 強化学習部⾨(Task2)で世界3位を獲得した • NTT DOCOMO LABSのアプローチと結果について紹介する 1
  3. 3. KDD Cupとは • KDD Cupは年に1度開催されて,毎年1,000以上のチームと競う • NTT DOCOMO LABSチームとして,R&D組織の有志メンバで参加 2 • KDD Cupは世界最⾼峰のAI競技会 • 毎年,異なるテーマで精度を競う • 協賛企業提供データでのリアルな課題 1.機械学習に関連するスキルの向上 2.分析におけるチームワークの醸成 3.⾃社の技術⼒の対外向けアピール ObjectiveCompetition
  4. 4. 参加を通じての実績 • 現在までに,2019年世界1位,2020年3部⾨⼊賞(最⾼3位)を獲得 3 2019 2020 優勝 3部⾨で⼊賞 機械学習 部⾨ Open Research/Application Challenge 強化学習 部⾨(世界3位) 機械学習 2部⾨(4位, 7位)
  5. 5. KDD Cup 2020 RL Track • オンデマンド交通プラットフォーム上の⾞両群を強化学習で制御する • 配⾞マッチング(Task1)と⾞両再配置(Task2)の最適化AIを開発する 4 Task1: 配⾞マッチング Task2: ⾞両再配置 ドライバー報酬合計の最⼤化 ドライバー報酬効率性の最⼤化 配⾞制御 エージェント 強化学習
  6. 6. 強化学習とは • システム⾃⾝が試⾏錯誤を通じ,最適な制御を実現させる機械学習の⼿法 • 深層学習と組み合わせた深層強化学習が,近年,⼤きな進歩を⾒せている – 例︓Google DeepMindが構築したAlphaGo(アルファ碁)が囲碁世界チャンピオンに勝利 5 ⾏動 𝑎! 状態 𝑠! 報酬 𝑟! エージェント 環境 𝜋 𝑎|𝑠 報酬を最⼤化するような⽅策を 環境を通じて学習する機構 概要 実社会への適⽤事例 ゲーム分野だけでなく,交通・広告分野など 多くのドメインに適⽤され始めている ゲーム分野 システム制御 コンシューマ向け ボードゲーム TVゲーム 社内オペレーション エネルギー制御 モビリティ制御 広告配信 対話・チャット ファイナンス
  7. 7. 強化学習における利点 • 教師あり学習では,学習データが与えられた上での予測を⾏う →強化学習はデータ(⾏動空間)の探索を通じて成⻑していく • ⻑期先の報酬の多寡も考慮した上での,最適な⾏動選択が可能 →囲碁のように,今の⼀⼿ではなく将来を⾒据えた⼀⼿が可能 6 教師あり学習 強化学習 •「予測」することが⽬的 •学習データが全てのため,過去に乗⾞がない 場所への予測は難しい •「⾏動」を決定し報酬の最⼤化が⽬的 •不確実な部分は「探索」によりデータを取る •⻑期的な報酬を考慮し先読みを⾏う 予測値の⾼い場所に集中 探索 先読み ⾞両配⾞制御での例
  8. 8. データ概要 • DiDi社が過去実績データ(配⾞実績や⾛⾏ログ等)を提供 7 提供データ(DiDi社提供) • 期間︓2016年11⽉ • 地域︓中国 成都市 ü 第⼆環状道路内の指定グリッド ü 約65平⽅キロメートル • 配⾞実績 • ⾛⾏履歴 • 空⾞ドライバの遷移確率 • 乗⾞のキャンセル確率 • エリアのグリッド情報 対象グリッドの時間帯別の報酬分布を可視化
  9. 9. 今回コンペの難しさ 1. タスク同⼠の依存関係 – 乗⾞マッチングと再配置の各アクションは影響し合うはず – 双⽅のアルゴリズムを実装し,1ファイルとしてサブミット 2. 公式なシミュレータは未提供 – 過去実績のデータが与えられるのみ – サブミット時のログは残らない(スコアのみ開⽰) 3. ダイナミクスにおける情報量の少なさ – ⾞両の細かな挙動条件が明かされていない部分がある 8
  10. 10. DOCOMO LABS アプローチ概要 • 強化学習と組合せ最適化⼿法の駆使や,シミュレータの構築 により⾼精度かつ安定的なエージェントの⽣成に成功 9 1 2 3 強化学習の適⽤ 最適化⼿法の活⽤ シミュレータの構築 Max $ 𝐴 𝑖, 𝑗 𝑎!"𝑉 𝑠 ← 𝑉 𝑠 + 𝛼 1 − 𝑝 𝑅" + 𝛾𝑉 𝑠# − 𝑉 𝑠 𝑉∗ 𝑠 𝑠 𝑠#𝑅! 指定エリア内の時間的・空間的な 報酬傾向を強化学習TD(0)で習得 グラフマッチングの最適化や 最良グリッド探索の戦略を導⼊ オフラインシミュレーションで 価値関数の良い初期値を獲得
  11. 11. ❶ 価値関数の学習 • 各⾞両をエージェントとして,時空間的な状態価値を学習 • 状態価値の更新にはTD学習を利⽤(Xu et al. KDD2018) 10 TD学習 時間ステップ (decision epoch) 状態 (State) ⾏動 (Action) 報酬 (Reward) 𝑡: 離散時間 (2-second window) 𝑠 = 𝑔, ℎ : ドライバーの時空間状態, グリッドID 𝑔 ∈ 𝐺, 時間index ℎ ∈ 𝐻 𝑎: 乗⾞ or アイドル 𝑅": ドライバー収⼊(乗⾞料⾦) 状態価値関数 (Value function) 𝑉# 𝑠 : 状態𝑠における収⼊期待値 マルコフ決定過程(MDP)の詳細 Zhe Xu, Zhixin Li, Qingwen Guan, Dingshui Zhang, Qiang Li, Junxiao Nan, Chunyang Liu, Wei Bian, and Jieping Ye. 2018. Large-scale order dispatch in on-demand ride-hailing platforms: A learning and planning approach. In Proceedings of the 24th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining. 905–913. 𝑉+ 𝑠 ← 𝑉+ 𝑠 + 𝛼 1 − 𝑝 𝑅, + 𝛾𝑉+ 𝑠- − 𝑉+ 𝑠 現在の 価値関数 収⼊ 次ステップの 価値関数 学習率 TD誤差 𝑠 𝑠-𝑅% キャンセル 確率
  12. 12. ❷ プランニング(乗⾞割当) • 将来の利得分も考慮した乗⾞割当てを2部グラフで表現 • 最適化ではハンガリアン法(Kuhn-Munkres algo.)を利⽤ 11 James Munkres.1957. Algorithms for the assignment and transportation problems. Journal of the society for industrial and applied mathematics 5, 1 (1957), 32–38. 𝐴# 𝑖, 𝑗 driver 𝑖order 𝑗 2部グラフのマッチング 組合せ最適化問題へと定式化 アドバンテージ関数: 𝐴# 𝑖, 𝑗 = 𝛾𝑉# 𝑠$% & − 𝑉 𝑠$ + 𝑅" 𝑗 ハンガリアン法 (KM algorithm)で求解 3 $'( ) 3 %'( * 𝐴# 𝑖, 𝑗 𝑎$% 3 $'( ) 𝑎$% = 1 , 𝑗 = 1,2, ⋯ , 𝑛, 3 %'( * 𝑎$% = 1 , 𝑖 = 1,2, ⋯ , 𝑚. Maximize subject to 𝑎$% = H 1 if order 𝑗 is assigned to driver 𝑖 0 if order 𝑗 is not assigned to driver 𝑖 where 利得の期待値 (遅延報酬) 乗⾞料⾦ (即時報酬)
  13. 13. ❷ プランニング(再配置) • 時空間の状態価値関数を再配置のプランニングにおいても利⽤ • グリッド探索のために𝜀-Greedy algorithmでスコアを検証 12 探索と活⽤のトレードオフ 再配置における𝜺-Greedy algorithの適⽤ 𝑉 𝑠$ 𝛾∆, 𝑉 𝑠$ & ∆𝑡 活⽤ (Exploitation) 探索 (Exploration) グリッド 𝑔 argmax - 𝛾∆, 𝑉 𝑠$ & − 𝑉 𝑠$ a random action with probability 1 − 𝜀 活⽤ (Exploitation) 探索 (Exploration) with probability 𝜀 グリッドの ランダム選択 現状ベストを選択 パラメータ𝜀によってランダム性を制御. サブミット・検証を通じて最終的にはperfect greedy (𝜀 = 0)で実⾏ 移動時間に応じ 価値が減衰
  14. 14. ❸ シミュレータ • 本タスク向けの⾞両配⾞制御に関するシミュレータを実装 • 履歴データを⽤いた試⾏を通じて,価値関数の初期値を導出 13 履歴データ オフライン・シミュレーション 初期値に設定 • Trajectory Data • Ride Request Data • Idle Transition Probability • Order Cancellation Probability • Hexagon Grid Data • Area: Chengdu, China • Time: November 1-30, 2016 grid id time index 𝑉" ∗ 𝑠 386c78bc3c226d88 0 0.8381491 80ce837ff676416e 0 0.0 8639109257d7a656 1 2.1697201 9454535ceb37eba4 2 0.2200934 ⋮ ⋮ ⋮ Spatial & Temporal Value Function 𝑉& ∗ 𝑠 データをサンプリング
  15. 15. コンペティション結果 • 再配置タスクで決勝進出し,3位を獲得(重付けスコアで算定) • 最終フェーズの環境においてはトップのスコアを達成した 14 Agents Task2 : Vehicle Repositioning ①開発フェーズ スコア ②最終フェーズ スコア 合計スコア ①40%, ②60%の重付けで算出 1st 13.2838* 8.90542 10.6568* 2nd 10.733 9.17102 9.7958 3rd (NTT DOCOMO LABS) 9.88515 9.62997* 9.73204 4th 11.6646 8.34264 9.67144 5th 10.4263 9.09716 9.62882
  16. 16. 強化学習のビジネス活⽤ • 広告・コンテンツ配信で強化学習(Bandit algorithm)を活⽤中 • ⾃動化や最適化といった観点で,様々なドメインで適⽤可能 15 ビジネスシーン例︓広告選択 Bandit algorithm (強化学習の⼀種) Bandit 探索と活⽤をバランスし 累計クリック数を最⼤化させる (A/Bテストをより⾼度化) Web site Landing CTR Landing A 0.1% Landing B 0.5% http:// Access user ・Sex ・Age ・Occupation 課題︓適切な広告をユーザに訴求したいが 表⽰してみないとクリック率は判らない ←A/B testing 効果的な広告を⾃動で 選択 CTR
  17. 17. 最後に • NTTドコモR&Dでは,データサイエンス領域のスキル向上・ビジネス応⽤を進めている • KDD CUPにて技術⼒を確かめており,昨年の優勝に続いて今年は3部⾨⼊賞を果たした • 若⼿社員を中⼼に,データサイエンス領域の技術⼒アピールの活動も⾏っている – NTTドコモR&D Advent Calendar 2020 (Qiita) – https://qiita.com/advent-calendar/2020/nttdocomo 16

×