More Related Content
Similar to NIPS 2012 読む会 (11)
NIPS 2012 読む会
- 2. 紹介論文
Linear submodular bandits and their
application to diversified retrieval
Yisong Yue, Carlos Guestrin (Carnegie
Mellon University)
- 4. Challenge
Diversification
なるべく同じ記事が並ばないようにしたい
Feature-based exploration
ユーザに記事を提示して、その結果クリックさ
れる/されないというフィードバックを受け取り、
そのユーザがスポーツに興味はあるけど政治に
は興味がないなどの嗜好を効率的に学習したい
- 5. Diversification
ニュース記事が𝑑個のトピック確率によって
表されるとする
例えば記事Aはスポーツ0.5, 芸能 0.5
記事Bは政治0.8, 経済0.2など
Probabilistic coverage
トピック𝑖に関するcoverageを
𝐹𝑖 𝐴 = 1 − 𝑎∈𝐴(1 − 𝑃 𝑖 𝑎 )と定義する
たとえば提示した記事リストの中に𝑃 𝑖 𝑎 = 1と
なるものが入っていれば、他の記事をどれだけ
追加したかに関わらず𝐹𝑖 𝑎 = 1
- 8. Optimization
argmax 𝐴:𝐴≤ 𝐿 𝐹(𝐴|𝑤)を求める
ここで𝐹にsubmodular性があることを使う
と
𝑤 𝑇 Δ(𝑎|𝐴)が最大となるような記事𝑎を貪欲
1
に追加することで最適解の 1 − ≃ 0.63倍
𝑒
の解が達成できることが保証されている
- 9. Submodularとは
𝐹 𝐴 ∪ 𝑎 ≥ 𝐹 𝐴 かつ𝐴 ⊂ 𝐵のとき
𝐹 𝐴 ∪ 𝑎 − 𝐹 𝐴 ≥ 𝐹 𝐵 ∪ 𝑎 − 𝐹(𝐵)
が成立するとき𝐹はSubmodular関数である
と言う
- 12. Regret
最適な集合の選択をした場合との実際の報
酬との差分
1
𝑅𝑒𝑔 𝑇 = 1− 𝑡 𝐸 𝑟 𝑡 𝐴∗𝑡 − 𝑡 𝑟 𝑡 (𝐴 𝑡 )
𝑒
1
= 1− 𝑂𝑃𝑇 − 𝑡 𝑟 𝑡 (𝐴 𝑡 )
𝑒
∗
ここで最適な𝑤 が求まっても、集合の選択
1
を貪欲に行うと最適解の(1 − )倍までしか
𝑒
達成できないので最適解にかける
- 14. Algorithm
データ対(Δ 𝑙𝜏 , 𝑟𝜏𝑙 )を使って線形回帰に
より重みベクトル𝑤 𝑡 を計算する
- 15. Algorithm
𝑙番目の記事に関する期待利得と信頼区間を計
算する
信頼区間の上限の部分まで考えて記事を選択
する
- 16. Confidence interval
記事1 記事1の方が期待値は低いが信頼区間の
上限は大きいので記事1を選択
記事2
記事の利得の期待値だけではなく、信頼区
間の大きさも利用して記事を選択する
データが少ないものについては信頼区間が大き
くなり、値が大きくなる (explore : 探索)
データが多いものについては期待値をそのまま
利用する
- 17. Theory
logの項を無視するとRegretは𝑂(𝑑 𝑇𝐿)で抑
えられる
- 18. 他のBandit algorithmとの関係
特徴量を使わない場合
UCBなど
固定された記事(数個程度)において最もクリックされやす
いものを探索する
cf. Finite-time analysis of the multiarmed bandit problem,
Machine Learning 2002
特徴量を使うが1つだけ選択する場合
LinUCB
ユーザや記事の特徴量を用いて記事を選択する(新規記事
に対しても特徴量を使ってCTRを予測できる)
今回の論文では特徴量はトピックにあたる
cf. A contextual-bandit approach to personalized news
article recommendation, WWW 2010
- 20. Competing method
Multiplicative Weighting
explorationを行わない手法
RankLinUCB
𝐿個の独立なLinUCBを利用する
ε-Greedy
確率εでランダムな記事を選択、そうでない場合
最もCTRの高い記事を選ぶ
- 22. ユーザによる評価
2つのアルゴリズムの出力をInterleavingして
どちらのアルゴリズムが好ましいか、ユー
ザの評価から確認した
static baselineはパーソナライズを行わないもの
になる
- 24. まとめ
ユーザのフィードバックを受け取りながら
Diversified retrievalを行うための一般的なフ
レームワークを提案した
提案したアルゴリズムであるLSBGreedyが
ユーザアンケートの結果ニュース記事のレ
コメンドにおいては最も良い結果となった