SlideShare a Scribd company logo
1 of 15
Download to read offline
Analysis of Learning from Positive and
Unlabeled Data
Marthinus C, etc
担当: Quasi_quant2010
NIPS2014読み会1
【NIPS2014読み会】
本論文を読んだ動機
- ラベルなしデータにおける情報推薦の考察 -
NIPS2014読み会2
 PU Learning + 表現学習
 表現学習で正例らしさを自動獲得する半教師有学習が流行る?
 語義曖昧性解消・同義語獲得の際、データに意味が必ずしも付
与されてない為、データが与えられた時、自動獲得できれば最高
 その他
 例①:混合モデルによる定式化 [G.Blanchard, 10]
 正例以外はラベルなしとして扱い、
ラベルなしデータは正例・負例を混合した分布に従うとして定式化
 例②:Delayed Feedback [O.Chapelle, 14]
 1/18に推薦した記事は閲覧しなかったが、1/19に閲覧した
 タイミングを考慮し、負例->正例の変化をモデル化する
本論文の貢献
- 損失関数を適当に選んではいけない!! -
 期待誤分類率に従って正しい決定境界を得る際、PU-
-Learningでは、損失関数は対称で、非凸な関数にすべき
 PU LearningとCost-Sensitive Learningの関係
 期待誤分類率の事前分布(P[X~f1])は
主に、有効事前分布に従う
 ラベルなしデータの多くが正例に従っていれば(現実に確認できない
が) 、誤分類率は事前分布の選択にあまり影響されない
 PU Learningにおける期待誤分類率の汎化誤差解析
NIPS2014読み会3
問題設定とノーテーション
- PU Learningにおける期待誤分類率最小化-
 正例 : X1,…,Xm ~ f1(x)
 ラベルなしデータ:Xm+1,…,Xm+n ~ fX(x) = (1-α) f-1(x) + α f1(x)
 α ∈ [0, 1], label ∈ {-1, 1}
 Unkown Prior P[X ~ f1(x)]
 期待誤分類率(=JL(g))を最小にする
 JL(g) ≡ α*E1[Loss{g(X)}] + (1-α)*E-1[Loss{-g(X)}]
 g(・) : Learning Function
NIPS2014読み会4
ノーテーション 確率
FPR R-1 P[g(X)=1 | X~f-1]
FNR1 R1 P[g(X)=-1 | X~f1]
FNRx Rx P[g(X)=1 | X~fx]
ん?f1の分布は推定できるが、
f-1の分布は分からない
→ f-1をfxに変換し定式化。
すると, PUでは損失関数が
対称であって欲しい
Cost-Sensitive Learning
- FNRとFPRの非対称性 -
 対象によって予測の誤りに非対称性がある
 FPR = 癌と診断したものの、実際は癌でなかった
 FNR = 癌と診断しなかったものの、実際は癌だった
 誤診という意味では等しいが、FNRは起こってはいけない誤り
 定式化
R(g) = α*c1*R1(g) + (1-α)*c-1*R-1(g)
 注1) g(・)はlearning function, α = P[X~f1(x)]
 注2) 詳細は[C.Elkan, 01] ・ [G.Blanchard, 10]参照
 式の通り、非対称性を考慮しており、
混合比率αをreweightしていると解釈できる
NIPS2014読み会5
PU LearningとCost-Sensitive Learning
- PUは f1 と fx を混合したCost-Sensitive Learningと同等 -
 期待誤分類率 in Cost-Sensitive
R(g) = α*c1*FNR1 + (1-α)*c-1*FPR
= α*c1*R1(g) + (1-α)*c-1*R-1(g)
, α = P[X~f1(x)]
 期待誤分類率 in PU Learning
R(g) = α*FNR1 + (1-α)*FPR
= α*R1(g) + (1-α)*R-1(g)
= 2α*R1(g) + (1-α)* Rx(g) – α
= c1*η*R1(g) + cx*(1-η)*Rx(g) - α
, Rx(g) = α*TPR + (1-α)*FPR
= α*(1-R1(g)) + (1-α)*R-1(g)
c1=2α/η, cx=1/(1-η)
NIPS2014読み会6
R-1をRxに変換
上式と比較すると、
CS設定 = f1とf-1を混合
PU設定 = f1とfxを混合
とみることができる
FNRとFPRの
非対称性を考慮して
reweight
なぜ損失関数を適当に選んではいけないのか
- 損失関数の非対称性がSuperfluous penaltyを生む -
 Surpervied 設定:損失関数はHinge Loss
JH(g) ≡ α*E1[LH{g(X)}] + (1-α)*E-1[LH{-g(X)}]
, LH(z) = 1/2 * max(1-z,0)
 PU 設定:損失関数はHinge Loss
JPU-H(g) ≡ α*E1[LH{g(X)}] + (1-α)*E-1[LH{-g(X)}]
+ α*E1[LH{g(X)} + LH{-g(X)}] – α
JPU-H(g) = JH(g) + α*E1[LH{g(X)} + LH{-g(X)}] – α
 Hinge Lossの場合、PU設定はSupervied設定と比べ、
Superfluous penaltyが決定境界を悪化させる
NIPS2014読み会7
Superfluous penalty
 Surpervied 設定:損失関数はRamp Loss
JR(g) ≡ α*E1[LH{g(X)}] + (1-α)*E-1[LH{-g(X)}]
, LR(z) = 1/2 * max(0, min(2,1-z))
 PU 設定:損失関数はRamp Loss
JPU-R(g) ≡ α*E1[LR{g(X)}] + (1-α)*E-1[LR{-g(X)}]
+ α*E1[LR{g(X)} + LR{-g(X)}] – α
JPU-R(g) = JR(g) (∵ LR{g(X)} + LR{-g(X)} = 1 )
 Ramp Lossの対称性より
PU設定はSupervied設定の決定境界と等しくなる
NIPS2014読み会8
Superfluous penalty
なぜ損失関数を適当に選んではいけないのか
- 損失関数の対称性がSuperfluous penaltyを消去 -
なぜ損失関数を適当に選んではいけないのか
- Superfluous penaltyの影響 -
 正例 : X1,…,Xm ~ f1(x) = N(-3,1)
 負例:Xm+1,…,Xm+n ~ f-1(x) = N(3,1)
 ラベルなしデータ:Xm+1,…,Xm+n ~ fX(x) = (1-α) f-1(x) + α f1(x)
 Miss[PU設定(Ramp)] = Miss[Supervied設定(Ramp)]
 Miss[PU設定(Hinge)] ≠ Miss[Supervied設定(Hinge)]
→ PU Learningでは、損失関数は対称にすべき
NIPS2014読み会9
注)Figure2より引用
Surpervied 設定
PU設定(Ramp)
PU 設定(Hinge)
事前分布が超過リスクに与える影響
- 有効事前分布は超過リスクを最小にする -
 超過リスクを小さくしたい
 ExR(α) ≡ R(g*, α) - R(g, α)
 g* = infg∈G R(g, α), g*は誤分類率を最小化する学習関数
 R(g,α) ≡ 2α × R1(g) + (1-α) × Rx(g) – α
 この時、有効事前分布をtilde{α}とすると
tilde{α} = argminα∈P[X ~ f1(x)] ExR(α)
= (2*hat{α} – α) / Z(hat{α}, α)
, Z(hat{α}, α) = (2*hat{α} – α) + (1-α), Zは正規化項
 導出? 次ページのグラフにて示唆
R(g, hat{α}) ≡ 2*hat{α}*R1(g) + Rx(g) - hat{α}
=(2*hat{α} – α)*R1(g) + (1-α)*R-1(g) + (hat{α} – α)
NIPS2014読み会10
最小化問題に対する事前分布の感応度
- 事前分布の選択方法 -
 ①:超過リスクは
有効事前分布の時、最小
 tilde{α} =
argminα∈P[X ~ f1(x)] ExR(α)
が成立している
→ 推定事前分布が有効事前
分布に一致すると最高
 ②:真の事前分布が
大きい程、有効事前分布は
真値の周辺でほぼ一定
→ P[X~f1(x)]が大きければ、
事前分布の推定はラフでいい
注)Figure3より引用
①:超過リスク
有効事前分布
事前分布推定は[G.Blanchard, 10]を参照
推定事前分布
= 真の事前分布
事前分布
誤分類率
有効事前分布
推定事前分布
②
評価実験
- 損失関数の対称性で誤分類率が下がるか -
 タスク
 ”0”と”N”が異なることを認識, N=1,…,9
 手書き数字データ: USPSセット
 米国郵便公社より収集した数字の画像データ(MNIST)
 訓練データ:7291サンプル、テストデータ:2007サンプル
 サイト報告のエラーレートは2.5%が最高
 実験では、Positive・Unlabel、各々550サンプルを使用
 モデル(損失関数・事前分布)
 Hinge Loss
 Ramp Loss
 α = P[X~f1(x)]は0.2~0.95から決め打ち
NIPS2014読み会12
評価実験
- 損失関数の対称性で誤分類率が下がった!!-
 見どころ
 損失関数にRampを用いた方がHingeより予測が正確
 さらに、αが大きければその結果は顕著
→ superfluous penalty termによるバイアスに起因
 結果: 0 vs 6,8,9
 サイト報告の最高エラーレート2.5%を上回っている
 Ramp > Hinge
 αが大きくなる程エラー率が低下
NIPS2014読み会13
注)Table1より引用
感想
- PU設定では損失関数を適当に決めない!! -
NIPS2014読み会14
 全体
 PU設定では、対称な損失関数を使えば
Supervised設定と同程度の性能が見込める
 有効事前分布という量を導入し、
誤分類率が推定した事前分布にどの程度、依存するかを考察
 超過リスクの上限バウンドに関する理論は整理されているので、
事前分布が超過リスクに及ぼす影響をKLDなどで整理し、
既存の上限バウンドがタイトになる理論ができれば凄い
 実験
 PU設定下、Ramp・Hingeの違いによる予測率を比較するだけ
でなく、負例も使い、Supervied設定の予測も比較すべきでは?
 Miss[PU設定(Ramp)] ≒ Miss[Supervied設定(Ramp)]
 Miss[PU設定(Hinge)] ≠ Miss[Supervied設定(Hinge)]
参照
 [C.Elkan, 01] The Foundations of Cost-Sensitive
Learning, IJCA
 *[T.Zhang, 04] Statistical behavior and consistency
of classification methods based on convex risk
minimization, The Annals of Statistics
 *[G.Blanchard, 10] Semi-Supervised Novelty
Detection, JMLR
 [M.C.Plessis, 14] Class prior estimation from
positive and unlabeled data, TIS
 [O.Chapelle, 14] Modeling Delayed Feedback in
Display Advertising, KDD
NIPS2014読み会15

More Related Content

What's hot

Evolved policy gradients
Evolved policy gradientsEvolved policy gradients
Evolved policy gradientsKenshi Abe
 
[DL輪読会]Set Transformer: A Framework for Attention-based Permutation-Invariant...
[DL輪読会]Set Transformer: A Framework for Attention-based Permutation-Invariant...[DL輪読会]Set Transformer: A Framework for Attention-based Permutation-Invariant...
[DL輪読会]Set Transformer: A Framework for Attention-based Permutation-Invariant...Deep Learning JP
 
公平性を保証したAI/機械学習
アルゴリズムの最新理論
公平性を保証したAI/機械学習
アルゴリズムの最新理論公平性を保証したAI/機械学習
アルゴリズムの最新理論
公平性を保証したAI/機械学習
アルゴリズムの最新理論Kazuto Fukuchi
 
海鳥の経路予測のための逆強化学習
海鳥の経路予測のための逆強化学習海鳥の経路予測のための逆強化学習
海鳥の経路予測のための逆強化学習Tsubasa Hirakawa
 
Decision Transformer: Reinforcement Learning via Sequence Modeling
Decision Transformer: Reinforcement Learning via Sequence ModelingDecision Transformer: Reinforcement Learning via Sequence Modeling
Decision Transformer: Reinforcement Learning via Sequence ModelingYasunori Ozaki
 
単語の分散表現と構成性の計算モデルの発展
単語の分散表現と構成性の計算モデルの発展単語の分散表現と構成性の計算モデルの発展
単語の分散表現と構成性の計算モデルの発展Naoaki Okazaki
 
強化学習アルゴリズムPPOの解説と実験
強化学習アルゴリズムPPOの解説と実験強化学習アルゴリズムPPOの解説と実験
強化学習アルゴリズムPPOの解説と実験克海 納谷
 
第五回統計学勉強会@東大駒場
第五回統計学勉強会@東大駒場第五回統計学勉強会@東大駒場
第五回統計学勉強会@東大駒場Daisuke Yoneoka
 
強化学習の基礎と深層強化学習(東京大学 松尾研究室 深層強化学習サマースクール講義資料)
強化学習の基礎と深層強化学習(東京大学 松尾研究室 深層強化学習サマースクール講義資料)強化学習の基礎と深層強化学習(東京大学 松尾研究室 深層強化学習サマースクール講義資料)
強化学習の基礎と深層強化学習(東京大学 松尾研究室 深層強化学習サマースクール講義資料)Shota Imai
 
Active Learning 入門
Active Learning 入門Active Learning 入門
Active Learning 入門Shuyo Nakatani
 
finite time analysis of the multiarmed bandit problem
finite time analysis of the multiarmed bandit problemfinite time analysis of the multiarmed bandit problem
finite time analysis of the multiarmed bandit problemshima o
 
20170422 数学カフェ Part2
20170422 数学カフェ Part220170422 数学カフェ Part2
20170422 数学カフェ Part2Kenta Oono
 
パターン認識 第10章 決定木
パターン認識 第10章 決定木 パターン認識 第10章 決定木
パターン認識 第10章 決定木 Miyoshi Yuya
 
Deep learning for acoustic modeling in parametric speech generation
Deep learning for acoustic modeling in parametric speech generationDeep learning for acoustic modeling in parametric speech generation
Deep learning for acoustic modeling in parametric speech generationYuki Saito
 
Imputation of Missing Values using Random Forest
Imputation of Missing Values using  Random ForestImputation of Missing Values using  Random Forest
Imputation of Missing Values using Random ForestSatoshi Kato
 
dont_count_predict_in_acl2014
dont_count_predict_in_acl2014dont_count_predict_in_acl2014
dont_count_predict_in_acl2014Sho Takase
 
テキストデータの理論的サンプリング
テキストデータの理論的サンプリングテキストデータの理論的サンプリング
テキストデータの理論的サンプリングNaohiro Matsumura
 
居場所を隠すために差分プライバシーを使おう
居場所を隠すために差分プライバシーを使おう居場所を隠すために差分プライバシーを使おう
居場所を隠すために差分プライバシーを使おうHiroshi Nakagawa
 

What's hot (19)

Evolved policy gradients
Evolved policy gradientsEvolved policy gradients
Evolved policy gradients
 
[DL輪読会]Set Transformer: A Framework for Attention-based Permutation-Invariant...
[DL輪読会]Set Transformer: A Framework for Attention-based Permutation-Invariant...[DL輪読会]Set Transformer: A Framework for Attention-based Permutation-Invariant...
[DL輪読会]Set Transformer: A Framework for Attention-based Permutation-Invariant...
 
公平性を保証したAI/機械学習
アルゴリズムの最新理論
公平性を保証したAI/機械学習
アルゴリズムの最新理論公平性を保証したAI/機械学習
アルゴリズムの最新理論
公平性を保証したAI/機械学習
アルゴリズムの最新理論
 
海鳥の経路予測のための逆強化学習
海鳥の経路予測のための逆強化学習海鳥の経路予測のための逆強化学習
海鳥の経路予測のための逆強化学習
 
Decision Transformer: Reinforcement Learning via Sequence Modeling
Decision Transformer: Reinforcement Learning via Sequence ModelingDecision Transformer: Reinforcement Learning via Sequence Modeling
Decision Transformer: Reinforcement Learning via Sequence Modeling
 
単語の分散表現と構成性の計算モデルの発展
単語の分散表現と構成性の計算モデルの発展単語の分散表現と構成性の計算モデルの発展
単語の分散表現と構成性の計算モデルの発展
 
強化学習アルゴリズムPPOの解説と実験
強化学習アルゴリズムPPOの解説と実験強化学習アルゴリズムPPOの解説と実験
強化学習アルゴリズムPPOの解説と実験
 
第五回統計学勉強会@東大駒場
第五回統計学勉強会@東大駒場第五回統計学勉強会@東大駒場
第五回統計学勉強会@東大駒場
 
強化学習の基礎と深層強化学習(東京大学 松尾研究室 深層強化学習サマースクール講義資料)
強化学習の基礎と深層強化学習(東京大学 松尾研究室 深層強化学習サマースクール講義資料)強化学習の基礎と深層強化学習(東京大学 松尾研究室 深層強化学習サマースクール講義資料)
強化学習の基礎と深層強化学習(東京大学 松尾研究室 深層強化学習サマースクール講義資料)
 
Active Learning 入門
Active Learning 入門Active Learning 入門
Active Learning 入門
 
finite time analysis of the multiarmed bandit problem
finite time analysis of the multiarmed bandit problemfinite time analysis of the multiarmed bandit problem
finite time analysis of the multiarmed bandit problem
 
20170422 数学カフェ Part2
20170422 数学カフェ Part220170422 数学カフェ Part2
20170422 数学カフェ Part2
 
パターン認識 第10章 決定木
パターン認識 第10章 決定木 パターン認識 第10章 決定木
パターン認識 第10章 決定木
 
Deep learning for acoustic modeling in parametric speech generation
Deep learning for acoustic modeling in parametric speech generationDeep learning for acoustic modeling in parametric speech generation
Deep learning for acoustic modeling in parametric speech generation
 
Imputation of Missing Values using Random Forest
Imputation of Missing Values using  Random ForestImputation of Missing Values using  Random Forest
Imputation of Missing Values using Random Forest
 
dont_count_predict_in_acl2014
dont_count_predict_in_acl2014dont_count_predict_in_acl2014
dont_count_predict_in_acl2014
 
テキストデータの理論的サンプリング
テキストデータの理論的サンプリングテキストデータの理論的サンプリング
テキストデータの理論的サンプリング
 
居場所を隠すために差分プライバシーを使おう
居場所を隠すために差分プライバシーを使おう居場所を隠すために差分プライバシーを使おう
居場所を隠すために差分プライバシーを使おう
 
はじめての「R」
はじめての「R」はじめての「R」
はじめての「R」
 

Viewers also liked

論文紹介 Advances in Learning Bayesian Networks of Bounded Treewidth
論文紹介 Advances in Learning Bayesian Networks of Bounded Treewidth論文紹介 Advances in Learning Bayesian Networks of Bounded Treewidth
論文紹介 Advances in Learning Bayesian Networks of Bounded Treewidthirrrrr
 
A Safe Rule for Sparse Logistic Regression
A Safe Rule for Sparse Logistic RegressionA Safe Rule for Sparse Logistic Regression
A Safe Rule for Sparse Logistic RegressionKimikazu Kato
 
NIPS2014読み会 NIPS参加報告
NIPS2014読み会 NIPS参加報告NIPS2014読み会 NIPS参加報告
NIPS2014読み会 NIPS参加報告Hidekazu Oiwa
 
論文紹介 Semi-supervised Learning with Deep Generative Models
論文紹介 Semi-supervised Learning with Deep Generative Models論文紹介 Semi-supervised Learning with Deep Generative Models
論文紹介 Semi-supervised Learning with Deep Generative ModelsSeiya Tokui
 
Python for Data Analysis第1回勉強会(+git入門)
Python for Data Analysis第1回勉強会(+git入門)Python for Data Analysis第1回勉強会(+git入門)
Python for Data Analysis第1回勉強会(+git入門)Makoto Kawano
 
Topic modeling with Poisson factorization (2)
Topic modeling with Poisson factorization (2)Topic modeling with Poisson factorization (2)
Topic modeling with Poisson factorization (2)Tomonari Masada
 
A Simple Stochastic Gradient Variational Bayes for the Correlated Topic Model
A Simple Stochastic Gradient Variational Bayes for the Correlated Topic ModelA Simple Stochastic Gradient Variational Bayes for the Correlated Topic Model
A Simple Stochastic Gradient Variational Bayes for the Correlated Topic ModelTomonari Masada
 
A Simple Stochastic Gradient Variational Bayes for Latent Dirichlet Allocation
A Simple Stochastic Gradient Variational Bayes for Latent Dirichlet AllocationA Simple Stochastic Gradient Variational Bayes for Latent Dirichlet Allocation
A Simple Stochastic Gradient Variational Bayes for Latent Dirichlet AllocationTomonari Masada
 
第3章 変分近似法 LDAにおける変分ベイズ法・周辺化変分ベイズ法
第3章 変分近似法 LDAにおける変分ベイズ法・周辺化変分ベイズ法第3章 変分近似法 LDAにおける変分ベイズ法・周辺化変分ベイズ法
第3章 変分近似法 LDAにおける変分ベイズ法・周辺化変分ベイズ法ksmzn
 
LDA等のトピックモデル
LDA等のトピックモデルLDA等のトピックモデル
LDA等のトピックモデルMathieu Bertin
 
第二回機械学習アルゴリズム実装会 - LDA
第二回機械学習アルゴリズム実装会 - LDA第二回機械学習アルゴリズム実装会 - LDA
第二回機械学習アルゴリズム実装会 - LDAMasayuki Isobe
 
OpenCVを用いたロボコンにおける画像処理(2013年ロボコン交流会)
OpenCVを用いたロボコンにおける画像処理(2013年ロボコン交流会)OpenCVを用いたロボコンにおける画像処理(2013年ロボコン交流会)
OpenCVを用いたロボコンにおける画像処理(2013年ロボコン交流会)Yuma Yoshimoto
 
Kernel entropy component analysis
Kernel entropy component analysisKernel entropy component analysis
Kernel entropy component analysisKoichiro Suzuki
 
SMO徹底入門 - SVMをちゃんと実装する
SMO徹底入門 - SVMをちゃんと実装するSMO徹底入門 - SVMをちゃんと実装する
SMO徹底入門 - SVMをちゃんと実装するsleepy_yoshi
 
インターネッツの繋がるしくみ(物理層編) #sa_study
インターネッツの繋がるしくみ(物理層編) #sa_studyインターネッツの繋がるしくみ(物理層編) #sa_study
インターネッツの繋がるしくみ(物理層編) #sa_studyShinichiro Yoshida
 
ICML読み会2016@早稲田
ICML読み会2016@早稲田ICML読み会2016@早稲田
ICML読み会2016@早稲田Taikai Takeda
 

Viewers also liked (20)

論文紹介 Advances in Learning Bayesian Networks of Bounded Treewidth
論文紹介 Advances in Learning Bayesian Networks of Bounded Treewidth論文紹介 Advances in Learning Bayesian Networks of Bounded Treewidth
論文紹介 Advances in Learning Bayesian Networks of Bounded Treewidth
 
A Safe Rule for Sparse Logistic Regression
A Safe Rule for Sparse Logistic RegressionA Safe Rule for Sparse Logistic Regression
A Safe Rule for Sparse Logistic Regression
 
NIPS2014読み会 NIPS参加報告
NIPS2014読み会 NIPS参加報告NIPS2014読み会 NIPS参加報告
NIPS2014読み会 NIPS参加報告
 
論文紹介 Semi-supervised Learning with Deep Generative Models
論文紹介 Semi-supervised Learning with Deep Generative Models論文紹介 Semi-supervised Learning with Deep Generative Models
論文紹介 Semi-supervised Learning with Deep Generative Models
 
Python for Data Analysis第1回勉強会(+git入門)
Python for Data Analysis第1回勉強会(+git入門)Python for Data Analysis第1回勉強会(+git入門)
Python for Data Analysis第1回勉強会(+git入門)
 
Topic modeling with Poisson factorization (2)
Topic modeling with Poisson factorization (2)Topic modeling with Poisson factorization (2)
Topic modeling with Poisson factorization (2)
 
A Simple Stochastic Gradient Variational Bayes for the Correlated Topic Model
A Simple Stochastic Gradient Variational Bayes for the Correlated Topic ModelA Simple Stochastic Gradient Variational Bayes for the Correlated Topic Model
A Simple Stochastic Gradient Variational Bayes for the Correlated Topic Model
 
Poisson factorization
Poisson factorizationPoisson factorization
Poisson factorization
 
A Simple Stochastic Gradient Variational Bayes for Latent Dirichlet Allocation
A Simple Stochastic Gradient Variational Bayes for Latent Dirichlet AllocationA Simple Stochastic Gradient Variational Bayes for Latent Dirichlet Allocation
A Simple Stochastic Gradient Variational Bayes for Latent Dirichlet Allocation
 
第3章 変分近似法 LDAにおける変分ベイズ法・周辺化変分ベイズ法
第3章 変分近似法 LDAにおける変分ベイズ法・周辺化変分ベイズ法第3章 変分近似法 LDAにおける変分ベイズ法・周辺化変分ベイズ法
第3章 変分近似法 LDAにおける変分ベイズ法・周辺化変分ベイズ法
 
LDA等のトピックモデル
LDA等のトピックモデルLDA等のトピックモデル
LDA等のトピックモデル
 
第二回機械学習アルゴリズム実装会 - LDA
第二回機械学習アルゴリズム実装会 - LDA第二回機械学習アルゴリズム実装会 - LDA
第二回機械学習アルゴリズム実装会 - LDA
 
OpenCVを用いたロボコンにおける画像処理(2013年ロボコン交流会)
OpenCVを用いたロボコンにおける画像処理(2013年ロボコン交流会)OpenCVを用いたロボコンにおける画像処理(2013年ロボコン交流会)
OpenCVを用いたロボコンにおける画像処理(2013年ロボコン交流会)
 
Kernel entropy component analysis
Kernel entropy component analysisKernel entropy component analysis
Kernel entropy component analysis
 
20151221 public
20151221 public20151221 public
20151221 public
 
20141008物体検出器
20141008物体検出器20141008物体検出器
20141008物体検出器
 
SMO徹底入門 - SVMをちゃんと実装する
SMO徹底入門 - SVMをちゃんと実装するSMO徹底入門 - SVMをちゃんと実装する
SMO徹底入門 - SVMをちゃんと実装する
 
インターネッツの繋がるしくみ(物理層編) #sa_study
インターネッツの繋がるしくみ(物理層編) #sa_studyインターネッツの繋がるしくみ(物理層編) #sa_study
インターネッツの繋がるしくみ(物理層編) #sa_study
 
Topological data analysis
Topological data analysisTopological data analysis
Topological data analysis
 
ICML読み会2016@早稲田
ICML読み会2016@早稲田ICML読み会2016@早稲田
ICML読み会2016@早稲田
 

More from Takanori Nakai

Sentence-State LSTM for Text Representation
Sentence-State LSTM for Text RepresentationSentence-State LSTM for Text Representation
Sentence-State LSTM for Text RepresentationTakanori Nakai
 
WSDM2018 読み会 Latent cross making use of context in recurrent recommender syst...
WSDM2018 読み会 Latent cross making use of context in recurrent recommender syst...WSDM2018 読み会 Latent cross making use of context in recurrent recommender syst...
WSDM2018 読み会 Latent cross making use of context in recurrent recommender syst...Takanori Nakai
 
ICLR2017読み会 Data Noising as Smoothing in Neural Network Language Models @Dena
ICLR2017読み会 Data Noising as Smoothing in Neural Network Language Models @DenaICLR2017読み会 Data Noising as Smoothing in Neural Network Language Models @Dena
ICLR2017読み会 Data Noising as Smoothing in Neural Network Language Models @DenaTakanori Nakai
 
Note : Noise constastive estimation of unnormalized statictics methods
Note : Noise constastive estimation of unnormalized statictics methodsNote : Noise constastive estimation of unnormalized statictics methods
Note : Noise constastive estimation of unnormalized statictics methodsTakanori Nakai
 
Adaptive subgradient methods for online learning and stochastic optimization ...
Adaptive subgradient methods for online learning and stochastic optimization ...Adaptive subgradient methods for online learning and stochastic optimization ...
Adaptive subgradient methods for online learning and stochastic optimization ...Takanori Nakai
 
GBDTを使ったfeature transformationの適用例
GBDTを使ったfeature transformationの適用例GBDTを使ったfeature transformationの適用例
GBDTを使ったfeature transformationの適用例Takanori Nakai
 
Learning Better Embeddings for Rare Words Using Distributional Representations
Learning Better Embeddings for Rare Words Using Distributional RepresentationsLearning Better Embeddings for Rare Words Using Distributional Representations
Learning Better Embeddings for Rare Words Using Distributional RepresentationsTakanori Nakai
 
Preference-oriented Social Networks_Group Recommendation and Inference
Preference-oriented Social Networks_Group Recommendation and InferencePreference-oriented Social Networks_Group Recommendation and Inference
Preference-oriented Social Networks_Group Recommendation and InferenceTakanori Nakai
 
高次元データの統計:スパース正則化の近似誤差と推定誤差
高次元データの統計:スパース正則化の近似誤差と推定誤差高次元データの統計:スパース正則化の近似誤差と推定誤差
高次元データの統計:スパース正則化の近似誤差と推定誤差Takanori Nakai
 
Positive Unlabeled Learning for Deceptive Reviews Detection
Positive Unlabeled Learning for Deceptive Reviews DetectionPositive Unlabeled Learning for Deceptive Reviews Detection
Positive Unlabeled Learning for Deceptive Reviews DetectionTakanori Nakai
 
Modeling Mass Protest Adoption in Social Network Communities using Geometric ...
Modeling Mass Protest Adoption in Social Network Communities using Geometric ...Modeling Mass Protest Adoption in Social Network Communities using Geometric ...
Modeling Mass Protest Adoption in Social Network Communities using Geometric ...Takanori Nakai
 
Similarity component analysis
Similarity component analysisSimilarity component analysis
Similarity component analysisTakanori Nakai
 
Query driven context aware recommendation
Query driven context aware recommendationQuery driven context aware recommendation
Query driven context aware recommendationTakanori Nakai
 
Unsupervised Graph-based Topic Labelling using DBpedia
Unsupervised Graph-based Topic Labelling using DBpediaUnsupervised Graph-based Topic Labelling using DBpedia
Unsupervised Graph-based Topic Labelling using DBpediaTakanori Nakai
 
Psychological Advertising_Exploring User Psychology for Click Prediction in S...
Psychological Advertising_Exploring User Psychology for Click Prediction in S...Psychological Advertising_Exploring User Psychology for Click Prediction in S...
Psychological Advertising_Exploring User Psychology for Click Prediction in S...Takanori Nakai
 
PUCKモデルの適用例:修論を仕上げた後、個人的にやっていたリサーチ
PUCKモデルの適用例:修論を仕上げた後、個人的にやっていたリサーチPUCKモデルの適用例:修論を仕上げた後、個人的にやっていたリサーチ
PUCKモデルの適用例:修論を仕上げた後、個人的にやっていたリサーチTakanori Nakai
 
金利期間構造について:Forward Martingale Measureの導出
金利期間構造について:Forward Martingale Measureの導出金利期間構造について:Forward Martingale Measureの導出
金利期間構造について:Forward Martingale Measureの導出Takanori Nakai
 
Topic discovery through data dependent and random projections
Topic discovery through data dependent and random projectionsTopic discovery through data dependent and random projections
Topic discovery through data dependent and random projectionsTakanori Nakai
 

More from Takanori Nakai (18)

Sentence-State LSTM for Text Representation
Sentence-State LSTM for Text RepresentationSentence-State LSTM for Text Representation
Sentence-State LSTM for Text Representation
 
WSDM2018 読み会 Latent cross making use of context in recurrent recommender syst...
WSDM2018 読み会 Latent cross making use of context in recurrent recommender syst...WSDM2018 読み会 Latent cross making use of context in recurrent recommender syst...
WSDM2018 読み会 Latent cross making use of context in recurrent recommender syst...
 
ICLR2017読み会 Data Noising as Smoothing in Neural Network Language Models @Dena
ICLR2017読み会 Data Noising as Smoothing in Neural Network Language Models @DenaICLR2017読み会 Data Noising as Smoothing in Neural Network Language Models @Dena
ICLR2017読み会 Data Noising as Smoothing in Neural Network Language Models @Dena
 
Note : Noise constastive estimation of unnormalized statictics methods
Note : Noise constastive estimation of unnormalized statictics methodsNote : Noise constastive estimation of unnormalized statictics methods
Note : Noise constastive estimation of unnormalized statictics methods
 
Adaptive subgradient methods for online learning and stochastic optimization ...
Adaptive subgradient methods for online learning and stochastic optimization ...Adaptive subgradient methods for online learning and stochastic optimization ...
Adaptive subgradient methods for online learning and stochastic optimization ...
 
GBDTを使ったfeature transformationの適用例
GBDTを使ったfeature transformationの適用例GBDTを使ったfeature transformationの適用例
GBDTを使ったfeature transformationの適用例
 
Learning Better Embeddings for Rare Words Using Distributional Representations
Learning Better Embeddings for Rare Words Using Distributional RepresentationsLearning Better Embeddings for Rare Words Using Distributional Representations
Learning Better Embeddings for Rare Words Using Distributional Representations
 
Preference-oriented Social Networks_Group Recommendation and Inference
Preference-oriented Social Networks_Group Recommendation and InferencePreference-oriented Social Networks_Group Recommendation and Inference
Preference-oriented Social Networks_Group Recommendation and Inference
 
高次元データの統計:スパース正則化の近似誤差と推定誤差
高次元データの統計:スパース正則化の近似誤差と推定誤差高次元データの統計:スパース正則化の近似誤差と推定誤差
高次元データの統計:スパース正則化の近似誤差と推定誤差
 
Positive Unlabeled Learning for Deceptive Reviews Detection
Positive Unlabeled Learning for Deceptive Reviews DetectionPositive Unlabeled Learning for Deceptive Reviews Detection
Positive Unlabeled Learning for Deceptive Reviews Detection
 
Modeling Mass Protest Adoption in Social Network Communities using Geometric ...
Modeling Mass Protest Adoption in Social Network Communities using Geometric ...Modeling Mass Protest Adoption in Social Network Communities using Geometric ...
Modeling Mass Protest Adoption in Social Network Communities using Geometric ...
 
Similarity component analysis
Similarity component analysisSimilarity component analysis
Similarity component analysis
 
Query driven context aware recommendation
Query driven context aware recommendationQuery driven context aware recommendation
Query driven context aware recommendation
 
Unsupervised Graph-based Topic Labelling using DBpedia
Unsupervised Graph-based Topic Labelling using DBpediaUnsupervised Graph-based Topic Labelling using DBpedia
Unsupervised Graph-based Topic Labelling using DBpedia
 
Psychological Advertising_Exploring User Psychology for Click Prediction in S...
Psychological Advertising_Exploring User Psychology for Click Prediction in S...Psychological Advertising_Exploring User Psychology for Click Prediction in S...
Psychological Advertising_Exploring User Psychology for Click Prediction in S...
 
PUCKモデルの適用例:修論を仕上げた後、個人的にやっていたリサーチ
PUCKモデルの適用例:修論を仕上げた後、個人的にやっていたリサーチPUCKモデルの適用例:修論を仕上げた後、個人的にやっていたリサーチ
PUCKモデルの適用例:修論を仕上げた後、個人的にやっていたリサーチ
 
金利期間構造について:Forward Martingale Measureの導出
金利期間構造について:Forward Martingale Measureの導出金利期間構造について:Forward Martingale Measureの導出
金利期間構造について:Forward Martingale Measureの導出
 
Topic discovery through data dependent and random projections
Topic discovery through data dependent and random projectionsTopic discovery through data dependent and random projections
Topic discovery through data dependent and random projections
 

Analysis of Learning from Positive and Unlabeled Data

  • 1. Analysis of Learning from Positive and Unlabeled Data Marthinus C, etc 担当: Quasi_quant2010 NIPS2014読み会1 【NIPS2014読み会】
  • 2. 本論文を読んだ動機 - ラベルなしデータにおける情報推薦の考察 - NIPS2014読み会2  PU Learning + 表現学習  表現学習で正例らしさを自動獲得する半教師有学習が流行る?  語義曖昧性解消・同義語獲得の際、データに意味が必ずしも付 与されてない為、データが与えられた時、自動獲得できれば最高  その他  例①:混合モデルによる定式化 [G.Blanchard, 10]  正例以外はラベルなしとして扱い、 ラベルなしデータは正例・負例を混合した分布に従うとして定式化  例②:Delayed Feedback [O.Chapelle, 14]  1/18に推薦した記事は閲覧しなかったが、1/19に閲覧した  タイミングを考慮し、負例->正例の変化をモデル化する
  • 3. 本論文の貢献 - 損失関数を適当に選んではいけない!! -  期待誤分類率に従って正しい決定境界を得る際、PU- -Learningでは、損失関数は対称で、非凸な関数にすべき  PU LearningとCost-Sensitive Learningの関係  期待誤分類率の事前分布(P[X~f1])は 主に、有効事前分布に従う  ラベルなしデータの多くが正例に従っていれば(現実に確認できない が) 、誤分類率は事前分布の選択にあまり影響されない  PU Learningにおける期待誤分類率の汎化誤差解析 NIPS2014読み会3
  • 4. 問題設定とノーテーション - PU Learningにおける期待誤分類率最小化-  正例 : X1,…,Xm ~ f1(x)  ラベルなしデータ:Xm+1,…,Xm+n ~ fX(x) = (1-α) f-1(x) + α f1(x)  α ∈ [0, 1], label ∈ {-1, 1}  Unkown Prior P[X ~ f1(x)]  期待誤分類率(=JL(g))を最小にする  JL(g) ≡ α*E1[Loss{g(X)}] + (1-α)*E-1[Loss{-g(X)}]  g(・) : Learning Function NIPS2014読み会4 ノーテーション 確率 FPR R-1 P[g(X)=1 | X~f-1] FNR1 R1 P[g(X)=-1 | X~f1] FNRx Rx P[g(X)=1 | X~fx] ん?f1の分布は推定できるが、 f-1の分布は分からない → f-1をfxに変換し定式化。 すると, PUでは損失関数が 対称であって欲しい
  • 5. Cost-Sensitive Learning - FNRとFPRの非対称性 -  対象によって予測の誤りに非対称性がある  FPR = 癌と診断したものの、実際は癌でなかった  FNR = 癌と診断しなかったものの、実際は癌だった  誤診という意味では等しいが、FNRは起こってはいけない誤り  定式化 R(g) = α*c1*R1(g) + (1-α)*c-1*R-1(g)  注1) g(・)はlearning function, α = P[X~f1(x)]  注2) 詳細は[C.Elkan, 01] ・ [G.Blanchard, 10]参照  式の通り、非対称性を考慮しており、 混合比率αをreweightしていると解釈できる NIPS2014読み会5
  • 6. PU LearningとCost-Sensitive Learning - PUは f1 と fx を混合したCost-Sensitive Learningと同等 -  期待誤分類率 in Cost-Sensitive R(g) = α*c1*FNR1 + (1-α)*c-1*FPR = α*c1*R1(g) + (1-α)*c-1*R-1(g) , α = P[X~f1(x)]  期待誤分類率 in PU Learning R(g) = α*FNR1 + (1-α)*FPR = α*R1(g) + (1-α)*R-1(g) = 2α*R1(g) + (1-α)* Rx(g) – α = c1*η*R1(g) + cx*(1-η)*Rx(g) - α , Rx(g) = α*TPR + (1-α)*FPR = α*(1-R1(g)) + (1-α)*R-1(g) c1=2α/η, cx=1/(1-η) NIPS2014読み会6 R-1をRxに変換 上式と比較すると、 CS設定 = f1とf-1を混合 PU設定 = f1とfxを混合 とみることができる FNRとFPRの 非対称性を考慮して reweight
  • 7. なぜ損失関数を適当に選んではいけないのか - 損失関数の非対称性がSuperfluous penaltyを生む -  Surpervied 設定:損失関数はHinge Loss JH(g) ≡ α*E1[LH{g(X)}] + (1-α)*E-1[LH{-g(X)}] , LH(z) = 1/2 * max(1-z,0)  PU 設定:損失関数はHinge Loss JPU-H(g) ≡ α*E1[LH{g(X)}] + (1-α)*E-1[LH{-g(X)}] + α*E1[LH{g(X)} + LH{-g(X)}] – α JPU-H(g) = JH(g) + α*E1[LH{g(X)} + LH{-g(X)}] – α  Hinge Lossの場合、PU設定はSupervied設定と比べ、 Superfluous penaltyが決定境界を悪化させる NIPS2014読み会7 Superfluous penalty
  • 8.  Surpervied 設定:損失関数はRamp Loss JR(g) ≡ α*E1[LH{g(X)}] + (1-α)*E-1[LH{-g(X)}] , LR(z) = 1/2 * max(0, min(2,1-z))  PU 設定:損失関数はRamp Loss JPU-R(g) ≡ α*E1[LR{g(X)}] + (1-α)*E-1[LR{-g(X)}] + α*E1[LR{g(X)} + LR{-g(X)}] – α JPU-R(g) = JR(g) (∵ LR{g(X)} + LR{-g(X)} = 1 )  Ramp Lossの対称性より PU設定はSupervied設定の決定境界と等しくなる NIPS2014読み会8 Superfluous penalty なぜ損失関数を適当に選んではいけないのか - 損失関数の対称性がSuperfluous penaltyを消去 -
  • 9. なぜ損失関数を適当に選んではいけないのか - Superfluous penaltyの影響 -  正例 : X1,…,Xm ~ f1(x) = N(-3,1)  負例:Xm+1,…,Xm+n ~ f-1(x) = N(3,1)  ラベルなしデータ:Xm+1,…,Xm+n ~ fX(x) = (1-α) f-1(x) + α f1(x)  Miss[PU設定(Ramp)] = Miss[Supervied設定(Ramp)]  Miss[PU設定(Hinge)] ≠ Miss[Supervied設定(Hinge)] → PU Learningでは、損失関数は対称にすべき NIPS2014読み会9 注)Figure2より引用 Surpervied 設定 PU設定(Ramp) PU 設定(Hinge)
  • 10. 事前分布が超過リスクに与える影響 - 有効事前分布は超過リスクを最小にする -  超過リスクを小さくしたい  ExR(α) ≡ R(g*, α) - R(g, α)  g* = infg∈G R(g, α), g*は誤分類率を最小化する学習関数  R(g,α) ≡ 2α × R1(g) + (1-α) × Rx(g) – α  この時、有効事前分布をtilde{α}とすると tilde{α} = argminα∈P[X ~ f1(x)] ExR(α) = (2*hat{α} – α) / Z(hat{α}, α) , Z(hat{α}, α) = (2*hat{α} – α) + (1-α), Zは正規化項  導出? 次ページのグラフにて示唆 R(g, hat{α}) ≡ 2*hat{α}*R1(g) + Rx(g) - hat{α} =(2*hat{α} – α)*R1(g) + (1-α)*R-1(g) + (hat{α} – α) NIPS2014読み会10
  • 11. 最小化問題に対する事前分布の感応度 - 事前分布の選択方法 -  ①:超過リスクは 有効事前分布の時、最小  tilde{α} = argminα∈P[X ~ f1(x)] ExR(α) が成立している → 推定事前分布が有効事前 分布に一致すると最高  ②:真の事前分布が 大きい程、有効事前分布は 真値の周辺でほぼ一定 → P[X~f1(x)]が大きければ、 事前分布の推定はラフでいい 注)Figure3より引用 ①:超過リスク 有効事前分布 事前分布推定は[G.Blanchard, 10]を参照 推定事前分布 = 真の事前分布 事前分布 誤分類率 有効事前分布 推定事前分布 ②
  • 12. 評価実験 - 損失関数の対称性で誤分類率が下がるか -  タスク  ”0”と”N”が異なることを認識, N=1,…,9  手書き数字データ: USPSセット  米国郵便公社より収集した数字の画像データ(MNIST)  訓練データ:7291サンプル、テストデータ:2007サンプル  サイト報告のエラーレートは2.5%が最高  実験では、Positive・Unlabel、各々550サンプルを使用  モデル(損失関数・事前分布)  Hinge Loss  Ramp Loss  α = P[X~f1(x)]は0.2~0.95から決め打ち NIPS2014読み会12
  • 13. 評価実験 - 損失関数の対称性で誤分類率が下がった!!-  見どころ  損失関数にRampを用いた方がHingeより予測が正確  さらに、αが大きければその結果は顕著 → superfluous penalty termによるバイアスに起因  結果: 0 vs 6,8,9  サイト報告の最高エラーレート2.5%を上回っている  Ramp > Hinge  αが大きくなる程エラー率が低下 NIPS2014読み会13 注)Table1より引用
  • 14. 感想 - PU設定では損失関数を適当に決めない!! - NIPS2014読み会14  全体  PU設定では、対称な損失関数を使えば Supervised設定と同程度の性能が見込める  有効事前分布という量を導入し、 誤分類率が推定した事前分布にどの程度、依存するかを考察  超過リスクの上限バウンドに関する理論は整理されているので、 事前分布が超過リスクに及ぼす影響をKLDなどで整理し、 既存の上限バウンドがタイトになる理論ができれば凄い  実験  PU設定下、Ramp・Hingeの違いによる予測率を比較するだけ でなく、負例も使い、Supervied設定の予測も比較すべきでは?  Miss[PU設定(Ramp)] ≒ Miss[Supervied設定(Ramp)]  Miss[PU設定(Hinge)] ≠ Miss[Supervied設定(Hinge)]
  • 15. 参照  [C.Elkan, 01] The Foundations of Cost-Sensitive Learning, IJCA  *[T.Zhang, 04] Statistical behavior and consistency of classification methods based on convex risk minimization, The Annals of Statistics  *[G.Blanchard, 10] Semi-Supervised Novelty Detection, JMLR  [M.C.Plessis, 14] Class prior estimation from positive and unlabeled data, TIS  [O.Chapelle, 14] Modeling Delayed Feedback in Display Advertising, KDD NIPS2014読み会15