NIPS 2012 読む会

坪坂正志
mail : m.tsubosaka(at)gmail(dot)com

紹介論文
 Linear submodular bandits and their
application to diversified retrieval
 Yisong Yue, Carlos Guestrin (Carnegie
Mellon University)

問題
 ニュース記事のレコメンドなどでユーザに
対して複数の記事を提示したい
 提示結果はパーソナライズしたい

Challenge
 Diversification
 なるべく同じ記事が並ばないようにしたい
 Feature-based exploration
 ユーザに記事を提示して、その結果クリックさ
れる/されないというフィードバックを受け取り、
そのユーザがスポーツに興味はあるけど政治に
は興味がないなどの嗜好を効率的に学習したい

Diversification
 ニュース記事が𝑑個のトピック確率によって
表されるとする
 例えば記事Aはスポーツ0.5, 芸能 0.5
 記事Bは政治0.8, 経済0.2など
 Probabilistic coverage
 トピック𝑖に関するcoverageを
 𝐹𝑖 𝐴 = 1 − 𝑎∈𝐴(1 − 𝑃 𝑖 𝑎 )と定義する
 たとえば提示した記事リストの中に𝑃 𝑖 𝑎 = 1と
なるものが入っていれば、他の記事をどれだけ
追加したかに関わらず𝐹𝑖 𝑎 = 1

評価関数
 記事の集合𝐴に対して、ユーザに関しての評
価関数を
 𝐹 𝐴 𝑤 = 𝑤 𝑇 𝐹1 𝐴 , … , 𝐹 𝑑 𝐴 (𝑤 ≥ 0)
 とする
 ここで𝑤はユーザがどのトピックを好むかを
表すベクトルである

Local Linearity
 記事集合𝐴に対して、記事𝑎を追加した場合の利
得は𝑤 𝑇 Δ(𝑎|𝐴)で表される
Δ 𝑎 𝐴 =
 < 𝐹1 𝐴 ∪ 𝑎 − 𝐹1 𝐴 , … , 𝐹 𝑑 𝐴 ∪ 𝑎 − 𝐹 𝑑 𝐴 >
 ユーザの興味に合致したトピックでもすでに記事
集合に含まれてるものの利得は小さくなる

Optimization
 argmax 𝐴:𝐴≤ 𝐿 𝐹(𝐴|𝑤)を求める
ここで𝐹にsubmodular性があることを使う
と
 𝑤 𝑇 Δ(𝑎|𝐴)が最大となるような記事𝑎を貪欲
1
に追加することで最適解の 1 − ≃ 0.63倍
𝑒
の解が達成できることが保証されている

Submodularとは
 𝐹 𝐴 ∪ 𝑎 ≥ 𝐹 𝐴 かつ𝐴 ⊂ 𝐵のとき
 𝐹 𝐴 ∪ 𝑎 − 𝐹 𝐴 ≥ 𝐹 𝐵 ∪ 𝑎 − 𝐹(𝐵)
 が成立するとき𝐹はSubmodular関数である
と言う

Linear Submodular Bandits
Problem
 時刻𝑡 = 1, … , 𝑇まで以下の処理を行う
 アルゴリズムは記事の集合𝐴 𝑡 = (𝑎1 , … , 𝑎 𝑡𝐿 )
𝑡
を選択する
 ユーザは記事集合に関して報酬(クリックす
るor 無視する)𝑟 𝑡 (𝐴 𝑡 )を与える

報酬モデル
 ユーザは記事を上から下に見ていく
 ユーザは𝑙番目の記事に関して、
 確率 w ∗ T Δ(𝑎 𝑙 |𝐴1:𝑙−1 )に従ってクリックする
𝐿
 報酬は和の形𝑟 𝑡 𝐴 = 𝑙=1 𝑟 𝑡𝑙 (𝐴)で表されるとす
る
 このとき期待値は
 𝐸 𝑟 𝑡𝑙 𝐴 = 𝑤 ∗ 𝑇 Δ(𝑎 𝑙 |𝐴1:𝑙−1 )

Regret
 最適な集合の選択をした場合との実際の報
酬との差分
1
 𝑅𝑒𝑔 𝑇 = 1− 𝑡 𝐸 𝑟 𝑡 𝐴∗𝑡 − 𝑡 𝑟 𝑡 (𝐴 𝑡 )
𝑒
1
 = 1− 𝑂𝑃𝑇 − 𝑡 𝑟 𝑡 (𝐴 𝑡 )
𝑒
∗
 ここで最適な𝑤 が求まっても、集合の選択
1
を貪欲に行うと最適解の(1 − )倍までしか
𝑒
達成できないので最適解にかける

Algorithm
データ対(Δ 𝑙𝜏 , 𝑟𝜏𝑙 )を使って線形回帰に
より重みベクトル𝑤 𝑡 を計算する

Algorithm

𝑙番目の記事に関する期待利得と信頼区間を計
算する
信頼区間の上限の部分まで考えて記事を選択
する

Confidence interval
記事1 記事1の方が期待値は低いが信頼区間の
上限は大きいので記事1を選択
記事2

 記事の利得の期待値だけではなく、信頼区
間の大きさも利用して記事を選択する
 データが少ないものについては信頼区間が大き
くなり、値が大きくなる (explore : 探索)
 データが多いものについては期待値をそのまま
利用する

Theory

 logの項を無視するとRegretは𝑂(𝑑 𝑇𝐿)で抑
えられる

他のBandit algorithmとの関係
 特徴量を使わない場合
 UCBなど
 固定された記事(数個程度)において最もクリックされやす
いものを探索する
 cf. Finite-time analysis of the multiarmed bandit problem,
Machine Learning 2002
 特徴量を使うが１つだけ選択する場合
 LinUCB
 ユーザや記事の特徴量を用いて記事を選択する(新規記事
に対しても特徴量を使ってCTRを予測できる)
 今回の論文では特徴量はトピックにあたる
 cf. A contextual-bandit approach to personalized news
article recommendation, WWW 2010

Experiment (Simulation)
 正解の𝑤 ∗ が分かっているという状況でシ
ミュレーションを行う
 Synthetic data
 𝑑 = 25, 𝑤 ∗ はランダムに作成
 Blog dataset
 𝑑 = 100, 𝑤 ∗ は事前のユーザスタディにより決定

Competing method
 Multiplicative Weighting
 explorationを行わない手法
 RankLinUCB
 𝐿個の独立なLinUCBを利用する
 ε-Greedy
 確率εでランダムな記事を選択、そうでない場合
最もCTRの高い記事を選ぶ

ユーザによる評価

 2つのアルゴリズムの出力をInterleavingして
どちらのアルゴリズムが好ましいか、ユー
ザの評価から確認した
 static baselineはパーソナライズを行わないもの
になる

まとめ
 ユーザのフィードバックを受け取りながら
Diversified retrievalを行うための一般的なフ
レームワークを提案した
 提案したアルゴリズムであるLSBGreedyが
ユーザアンケートの結果ニュース記事のレ
コメンドにおいては最も良い結果となった

NIPS 2012 読む会

Recommended

Recommended

More Related Content

Viewers also liked

Viewers also liked (20)

Similar to NIPS 2012 読む会

Similar to NIPS 2012 読む会 (11)

More from 正志坪坂

More from 正志坪坂 (14)