SlideShare a Scribd company logo
1 of 16
Download to read offline
A Gang of Bandis
by Nicolo Casa-Bianchi, Claudio Gentile
Yoshifumi Seki(Gunosy Inc.)
2014.1.23 NIPS読み会
本日の発表で分かること

•  この論文で挑戦している問題
bandit problemとは?
o  contextual bandit problemとは?
o  Gang of Banditでは何を目指しているか?
どのように問題を解いたか?
結果どのような成果を上げることができたか?
o 

• 
• 

本日の発表で分からないこと

•  なぜこの方法でうまくいくのかの数学的解釈
•  なぜGangなのか
Bandit Problemとは

•  探索と活用
•  スロットマシンが目の前にあったとき当た
りやすい台にどのようにベットすべきか?
Contextual Bandit Problemとは

•  調べる対象がそれぞれcontextを持つ
o 

特徴量から得られる報酬を予測しながら行動し,その
結果から予測モデルを修正していく
学習のプロセス

•  ある時間tにユーザuiに対してアイテム集合C
• 
• 
• 

(x1,...xct)が提示される
システムはロジックに基づいてあるアイテ
ムを選ぶ
ユーザの行動からシステムはその選択に関
する評価値を得る(-1, 1)
評価値を元にユーザのfeatureを更新する
LinUCB
研究の概要

•  Contextual Bandit ProblemをSocial Networksで表現す
る
o 
o 
o 

複数のユーザの興味関心(feature)を特定したい
§  アイテムを推薦したい
ユーザ間にはエッジが存在する
§  重みなし無向グラフ
隣接するuser間でfeatureは類似していると仮定

•  LinUCBという Contextual Bandit Problemの
代表的な手法をネットワークに拡張
o 

network上のcontextual banditはこれまで実行されて
いなかった
提案手法: GOB.Lin

L: Graph Laplacian

クロネッカー積
Graph Laplacian

•  対角成分は各ノードの次数
•  エッジが存在する箇所には-1

Wikipediaより
クロネッカー積
Wikipediaより
更新式はどうなるのか?

•  エッジがあるユーザの部分に-1が乗じられた値になる
•  対象ユーザと重なる部分は次数分乗じられた値になる
l  結果的に隣接ユーザに対して自身の-1/degreeの影響を与
えるような形になる
•  類似ユーザの評価値がわかっていれば探索の必要性が下
がるので負を乗じるのかな?
•  Degreeが大きければ類似ユーザに与える影響が大きくて
結果探索の重要性があがりそう
実験
•  人工的なデータ
• 
• 

4つのクリークと25のノード
同じクリークの正解featureは同一

•  リアルデータ
• 

Delicious, Last.fm

•  LinUCB-IND
• 

各ユーザに独立にLinUCBを適用

•  LinUCB-SIN
• 

ユーザ間でLinUCBのパラメータを共有
graph noise: 一定確率でエッジを消す
payoff noise:
提案手法はpayoff-noiseに強い
Graph noiseが低いとUCB-SINは辛い
比較手法
GOB.Lin.MACRO
•  ノードを元のグラフのクラスタとした重み
付きグラフとして扱う
•  エッジはinter-cluster-edgeの数
GOB.Lin.BLOCK
•  各クラスタを非結合グラフとして扱う
結果

• 

Last.fmではINDが, DeliciousではBlockが高い
•  Last.fmでは多くのユーザが評価しているアイテムが殆ど無く
ネットワークが疎であるためクラスタをノードとするのが有
効
•  Deliciousは多くのユーザに評価されるアイテムが存在するた
めクラスタごとに実行しても効果が出る
まとめと感想
•  Banditの拡張。アイデアはヒューリス
ティックだけど成果がでている
•  Banditの難しいところはUCBの設定でタス
ク依存に最終的にはなるのでは?
• 
• 

現状はLinUCBの値をそのまま使っているのは多い
かなり理解するのがヘビー

•  Contextual banditが実際に使えるのはもう
ちょっと先かも・・・

More Related Content

Viewers also liked

NIPS2013読み会: Scalable kernels for graphs with continuous attributes
NIPS2013読み会: Scalable kernels for graphs with continuous attributesNIPS2013読み会: Scalable kernels for graphs with continuous attributes
NIPS2013読み会: Scalable kernels for graphs with continuous attributes
Yasuo Tabei
 

Viewers also liked (6)

NIPS2013読み会: Scalable kernels for graphs with continuous attributes
NIPS2013読み会: Scalable kernels for graphs with continuous attributesNIPS2013読み会: Scalable kernels for graphs with continuous attributes
NIPS2013読み会: Scalable kernels for graphs with continuous attributes
 
あなただけにそっと教える弊社の分析事情 #data analyst meetup tokyo vol.1 LT
あなただけにそっと教える弊社の分析事情 #data analyst meetup tokyo vol.1 LTあなただけにそっと教える弊社の分析事情 #data analyst meetup tokyo vol.1 LT
あなただけにそっと教える弊社の分析事情 #data analyst meetup tokyo vol.1 LT
 
Paper intoduction "Playing Atari with deep reinforcement learning"
Paper intoduction   "Playing Atari with deep reinforcement learning"Paper intoduction   "Playing Atari with deep reinforcement learning"
Paper intoduction "Playing Atari with deep reinforcement learning"
 
Go, memcached, microservices
Go, memcached, microservicesGo, memcached, microservices
Go, memcached, microservices
 
ニュースパスのクローラーアーキテクチャとマイクロサービス
ニュースパスのクローラーアーキテクチャとマイクロサービスニュースパスのクローラーアーキテクチャとマイクロサービス
ニュースパスのクローラーアーキテクチャとマイクロサービス
 
マイクロにしすぎた結果がこれだよ!
マイクロにしすぎた結果がこれだよ!マイクロにしすぎた結果がこれだよ!
マイクロにしすぎた結果がこれだよ!
 

Similar to A gang of bandit

マイニング探検会#09 情報レコメンデーションとは
マイニング探検会#09 情報レコメンデーションとはマイニング探検会#09 情報レコメンデーションとは
マイニング探検会#09 情報レコメンデーションとは
Yoji Kiyota
 
mi-8. 人工知能とコンピュータビジョン
mi-8. 人工知能とコンピュータビジョンmi-8. 人工知能とコンピュータビジョン
mi-8. 人工知能とコンピュータビジョン
kunihikokaneko1
 
平均レスポンスタイム50msをPerlで捌く中規模サービスの実装/運用
平均レスポンスタイム50msをPerlで捌く中規模サービスの実装/運用平均レスポンスタイム50msをPerlで捌く中規模サービスの実装/運用
平均レスポンスタイム50msをPerlで捌く中規模サービスの実装/運用
Tatsuro Hisamori
 

Similar to A gang of bandit (20)

[DL輪読会]Transframer: Arbitrary Frame Prediction with Generative Models
[DL輪読会]Transframer: Arbitrary Frame Prediction with Generative Models[DL輪読会]Transframer: Arbitrary Frame Prediction with Generative Models
[DL輪読会]Transframer: Arbitrary Frame Prediction with Generative Models
 
Geotag Data Mining (メタサーベイ )
Geotag Data Mining (メタサーベイ )Geotag Data Mining (メタサーベイ )
Geotag Data Mining (メタサーベイ )
 
AIがAIを生み出す?
AIがAIを生み出す?AIがAIを生み出す?
AIがAIを生み出す?
 
プロジェクトの基本
プロジェクトの基本プロジェクトの基本
プロジェクトの基本
 
アイデアワークショップ for SmartTech Award 2013
アイデアワークショップ for SmartTech Award 2013アイデアワークショップ for SmartTech Award 2013
アイデアワークショップ for SmartTech Award 2013
 
第1回SIA研究会(例会)プレゼン資料
第1回SIA研究会(例会)プレゼン資料第1回SIA研究会(例会)プレゼン資料
第1回SIA研究会(例会)プレゼン資料
 
地図を捨ててコンパスを頼りに進め
地図を捨ててコンパスを頼りに進め地図を捨ててコンパスを頼りに進め
地図を捨ててコンパスを頼りに進め
 
地図を捨ててコンパスを頼りに進め
地図を捨ててコンパスを頼りに進め地図を捨ててコンパスを頼りに進め
地図を捨ててコンパスを頼りに進め
 
東方ゲームAIとその歴史
東方ゲームAIとその歴史東方ゲームAIとその歴史
東方ゲームAIとその歴史
 
20150930
2015093020150930
20150930
 
Opensource and Value creation by community
Opensource and Value  creation by community Opensource and Value  creation by community
Opensource and Value creation by community
 
楽天の中のわたしと勉強会
楽天の中のわたしと勉強会楽天の中のわたしと勉強会
楽天の中のわたしと勉強会
 
Deep learningの概要とドメインモデルの変遷
Deep learningの概要とドメインモデルの変遷Deep learningの概要とドメインモデルの変遷
Deep learningの概要とドメインモデルの変遷
 
20210707 ut triz発明9画面slideshare
20210707 ut triz発明9画面slideshare20210707 ut triz発明9画面slideshare
20210707 ut triz発明9画面slideshare
 
マイニング探検会#09 情報レコメンデーションとは
マイニング探検会#09 情報レコメンデーションとはマイニング探検会#09 情報レコメンデーションとは
マイニング探検会#09 情報レコメンデーションとは
 
論文 Solo Advent Calendar
論文 Solo Advent Calendar論文 Solo Advent Calendar
論文 Solo Advent Calendar
 
mi-8. 人工知能とコンピュータビジョン
mi-8. 人工知能とコンピュータビジョンmi-8. 人工知能とコンピュータビジョン
mi-8. 人工知能とコンピュータビジョン
 
20120508 アジャイルサムライ読書会 第3回
20120508 アジャイルサムライ読書会 第3回20120508 アジャイルサムライ読書会 第3回
20120508 アジャイルサムライ読書会 第3回
 
平均レスポンスタイム50msをPerlで捌く中規模サービスの実装/運用
平均レスポンスタイム50msをPerlで捌く中規模サービスの実装/運用平均レスポンスタイム50msをPerlで捌く中規模サービスの実装/運用
平均レスポンスタイム50msをPerlで捌く中規模サービスの実装/運用
 
正しいものをともに考え、正しくともにつくる
正しいものをともに考え、正しくともにつくる正しいものをともに考え、正しくともにつくる
正しいものをともに考え、正しくともにつくる
 

Recently uploaded

Recently uploaded (7)

Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
 
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
 
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
 
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアルLoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
 
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
LoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイスLoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイス
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
 
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
 
新人研修 後半 2024/04/26の勉強会で発表されたものです。
新人研修 後半        2024/04/26の勉強会で発表されたものです。新人研修 後半        2024/04/26の勉強会で発表されたものです。
新人研修 後半 2024/04/26の勉強会で発表されたものです。
 

A gang of bandit