多腕バンディット問題: 定式化と応用 (第13回ステアラボ人工知能セミナー)

2.   ➢ ➢  ➢

3.  𝐾  (image from http://www.directgamesroom.com )

5. ➢ ➢ ➢

6. 𝑡 = 1,2, … , 𝑇 𝐼 𝑡 ∈ 𝐾 = 1, … , 𝐾 ෠𝑋𝐼 𝑡 𝑡

7.  ➢ ➢ ➢

8. Bernoulli: 1= , 0= )

9. 𝑡 = 1,2, … , 𝑇 𝐼 𝑡 ∈ 𝐾 = 1, … , 𝐾 ෠𝑋𝐼 𝑡 𝑡

10. 𝑡 = 1,2, … , 𝑇 𝐼 𝑡 ∈ 𝐾 = 1, … , 𝐾 ෠𝑋𝐼 𝑡 𝑡

11. ベイズ的確率的敵対的モデルベイズ頻度論任意未来の報酬は？割引今と同じ今と同じアルゴリズム Gittins指数 UCB/TS/MED Exp3 (指数重み) https://www.slideshare.net /JohnTyndall /an-introduction-to-bayesian-statistics より

14. • 𝛽 ∈ (0,1) 𝝁𝒊(𝟎) 𝒊 𝑡 = 1,2, … , 𝑇 𝐼 𝑡 ∈ 𝐾 ෠𝑋𝐼 𝑡 𝜇𝐼 𝑡 (𝑡)

17.  𝐺𝑖 𝑡 𝑖 

18. 😁 😁 😣 😣 𝛽 😣

19. • 𝑡 = 1,2, … , 𝑇 𝐼 𝑡 ∈ 𝐾 ෠𝑋𝐼 𝑡 𝑡 ~𝑃(𝜇𝐼 𝑡 ) E σ 𝑡=1 𝑇 ෠𝑋𝐼 𝑡 𝑡

20. • 𝑡 = 1,2, … , 𝑇 𝐼 𝑡 ∈ 𝐾 ෠𝑋𝐼 𝑡 𝑡 ~𝑃(𝜇𝐼 𝑡 ) E σ 𝑡=1 𝑇 ෠𝑋𝐼 𝑡 𝑡

21.  Regret 𝑇 = ෍ 𝑡=1 𝑇 max 𝑖 𝜇𝑖 − ෍ 𝑡=1 𝑇 𝜇𝐼 𝑡 .   ➢ lim 𝑇→∞ Regret(𝑇) log 𝑇 → 𝐶∗ w. p. 1 ➢ 𝐶∗ 𝜇𝑖 𝑖

24.  𝐵UCB1 𝑖, 𝑡 𝐵UCB1 𝑖, 𝑡 = ො𝜇𝑖(𝑡) + log(𝑡) 𝑁𝑖(𝑡) ො𝜇𝑖 𝐵UCB1 𝑖, 𝑡

25.  𝐵UCB1 𝑖, 𝑡 𝐵UCB1 𝑖, 𝑡 = ො𝜇𝑖(𝑡) + log(𝑡) 𝑁𝑖(𝑡) ො𝜇𝑖 𝐵UCB1 𝑖, 𝑡

26. 😁 😁 😣

27. • 𝑡 = 1,2, … , 𝑇 { ෠𝑋𝑖 𝑡 } 𝐼 𝑡 ∈ 𝐾 ෠𝑋𝐼 𝑡 ∈ [0,1] E σ 𝑡=1 𝑇 ෠𝑋𝐼 𝑡 𝑡

28.  Regret 𝑇 = max 𝑖 σ 𝑡=1 𝑇 ෠𝑋𝑖 𝑡 − σ 𝑡=1 𝑇 ෠𝑋𝐼(𝑡) 𝑡 .  Ω(𝑇)  𝑜(𝑇) ➢

29.  𝑝𝑖(𝑡) • 𝛾 𝜂 ෨𝑂( 𝐾𝑇) 総報酬の不偏推定量: 総報酬に対して指数的に高い確率でアームを引く

30. 😁 😣

31.   ➢ ➢

32.   ➢ ➢

35.   ➢ ➢  ➢

36. 𝑡 = 1,2, … , 𝑇 𝑐(𝑡) 𝐼 𝑡 ∈ 𝐾 ෠𝑋𝐼 𝑡 𝑡

37.  ➢ ➢ 𝜋: C → [𝐾] 

38.   

39.    ➢ ➢ Leaf node

42.   ➢ ➢ ➢ 

43.  ➢  ➢ ➢ 

44.   ➢ ➢

45.   https://ambervincent.wordpress.com/2015/01/15/this-is-an-a-b- conversation-so-c-your-way-out-ab-testing/

46.  ➢ ➢  ➢ ➢

47.  • • 

48. •

49. •

50. https://people.duke.edu/~rnau/411rand.htm

52.     

53.  ➢ ➢ 

多腕バンディット問題: 定式化と応用 (第13回ステアラボ人工知能セミナー)

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Viewers also liked

Viewers also liked (17)

Similar to 多腕バンディット問題: 定式化と応用 (第13回ステアラボ人工知能セミナー)

Similar to 多腕バンディット問題: 定式化と応用 (第13回ステアラボ人工知能セミナー) (20)

More from STAIR Lab, Chiba Institute of Technology

More from STAIR Lab, Chiba Institute of Technology (20)

多腕バンディット問題: 定式化と応用 (第13回ステアラボ人工知能セミナー)