Positive-Unlabeled Learning with Non-Negative Risk Estimator

Positive-Unlabeled Learning with
Non-Negative Risk Estimator
1
Ryuichi
Kiryo1,2
Gang
Niu1,2
Marthinus
Christoffel du
Plessis
Masashi
Sugiyama2,1
1 2
NIPS2017読み会 Jan 7th

2クラス分類問題 2
入力データをクラス（カテゴリ）に分類する問題
例ねこかどうか
ねこ
ねこです
ねこ
ねこではない
ねこではない

教師あり学習 3
分類器が正例と負例から学習される
たくさんラベル付きデータがあれば高い分類精度
正クラス負クラス

負例が手に入らない時の分類問題 4
両方のクラスが常に手に入るとは限らない
例1：クリック広告
クリックされた：正
されなかった：ラベルなし（興味ない or 気付かなかった）
例2：新薬開発
論文として報告された：正
報告されていない：ラベルなし（上手くいかない or 未調査）
正(Positive)例とラベルなし(Unlabeled)例から
正負を出力する分類器を学習したい

PU学習（Positive-Unlabeled学習） 5
分類器が正例とラベルなし例から学習される
クラスの割合（推定できる）さえ分かっていれば解ける
正クラス負クラス

発表の流れ 6
1. 導入
2. 問題設定と従来法
3. 動機と提案法
4. 理論解析と大規模アルゴリズム
5. 実験
6. 結論

問題設定 7
入力データ𝑋 ∈ ℝ 𝑑
をクラス𝑌 ∈ +1, −1 に分類する問題
 正例 𝒳p = 𝑥𝑖
p
𝑖=1
𝑛p
~
𝑖.𝑖.𝑑.
𝑝 𝑥 𝑌 = +1
 負例 𝒳n = 𝑥𝑖
n
𝑖=1
𝑛n
~
𝑖.𝑖.𝑑.
𝑝 𝑥 𝑌 = −1
 ラベルなし例 𝒳u = 𝑥𝑖
u
𝑖=1
𝑛u
~
𝑖.𝑖.𝑑.
𝑝 𝑥 ≔ 𝜋p 𝑝 𝑥|𝑌 = +1 +
正・負クラス事前分布 𝜋p ≔ 𝑝 𝑌 = +1 , 𝜋n ≔ 𝑝(𝑌 = −1)
分類器 𝑔: ℝ 𝑑 → ℝ (例：SVMやCNNなど)
損失関数 𝑙: ℝ × ±1 → ℝ+
例：0-1損失・・・誤分類したかどうかで0/1を出力
シグモイド損失・・・0-1損失の滑らかな近似
期待損失 𝑅 𝑔 = 𝔼 𝑋,𝑌 ~𝑝 𝑥,𝑦 𝑙 𝑔 𝑋 , 𝑌
期待損失を最小化する
分類器が欲しい

教師あり学習 (PN学習) 8
目標：期待損失の最小化
実際：経験損失（手元にあるデータでの近似）の最小化
𝑅 𝑔 = 𝔼 𝑋,𝑌 ~𝑝 𝑥,𝑦 𝑙 𝑔 𝑋 , 𝑌 = 𝜋p 𝔼p 𝑙 𝑔 𝑋 , +1 + 𝜋n 𝔼n 𝑙 𝑔 𝑋 , −1
𝑅pn 𝑔 =
𝜋p
𝑛p
𝑥∈𝒳p
𝑙(𝑔 𝑥 , +1) +
𝜋n
𝑛n
𝑥∈𝒳n
𝑙(𝑔 𝑥 , −1)
正クラス
に対する損失
負クラス
に対する損失
入力データ 𝑋 ∈ ℝ 𝑑
クラスラベル 𝑌 ∈ ±1
損失関数 𝑙: ℝ × ±1 → ℝ+
𝔼p ⋅ ≔ 𝔼 𝑋~𝑝 𝑥|𝑌=+1 ⋅
𝔼n ⋅ ≔ 𝔼 𝑋~𝑝 𝑥|𝑌=−1 ⋅
𝜋p ≔ 𝑝 𝑌 = +1
𝜋n ≔ 𝑝 𝑌 = −1

不偏PU学習 [du Plessis+, NIPS 2014, ICML 2015] 9
目標：PN学習と同じ期待損失の最小化
アイデア：ラベルなし例 = 正例 + 負例
損失が正例とラベルなし例だけで表せる
𝑅 𝑔 = 𝜋p 𝔼p[𝑙(𝑔 𝑋 , +1)] + 𝜋n 𝔼n[𝑙(𝑔 𝑋 , −1)]
負例は持っていない
𝑅pu 𝑔 = 𝜋p 𝔼p 𝑙 𝑔 𝑋 , +1 + 𝔼u 𝑙 𝑔 𝑋 , −1 − 𝜋p 𝔼p 𝑙 𝑔 𝑋 , −1
𝔼u 𝑙 𝑔 𝑋 , −1 = 𝜋p 𝔼p 𝑙 𝑔 𝑋 , −1 + 𝜋n 𝔼n 𝑙 𝑔 𝑋 , −1
𝔼u ⋅ = 𝔼 𝑋~𝑝(𝑥) ⋅ , 𝒳u = 𝑥𝑖
u
𝑖=1
𝑛u
~
𝑖.𝑖.𝑑.
𝑝 𝑥 ≔ 𝜋p 𝑝 𝑥|𝑌 = +1 +

導出過程 10
PN学習の目的関数
この式は常に成り立つ
これを式変形する
一番上の式に代入して完成！
𝑅 𝑔 = 𝜋p 𝔼p[𝑙(𝑔 𝑋 , +1)] + 𝜋n 𝔼n[𝑙(𝑔 𝑋 , −1)]
𝑅pu 𝑔 = 𝜋p 𝔼p 𝑙 𝑔 𝑋 , +1 + 𝔼u 𝑙 𝑔 𝑋 , −1 − 𝜋p 𝔼p 𝑙 𝑔 𝑋 , −1
𝔼u 𝑙 𝑔 𝑋 , −1 = 𝜋p 𝔼p 𝑙 𝑔 𝑋 , −1 + 𝜋n 𝔼n 𝑙 𝑔 𝑋 , −1
𝜋n 𝔼n 𝑙 𝑔 𝑋 , −1 = 𝔼u 𝑙 𝑔 𝑋 , −1 − 𝜋p 𝔼p 𝑙 𝑔 𝑋 , −1

不偏PU学習の理論的性質
[du Plessis+, NIPS 2014, ICML 2015; Niu+, NIPS 2016]
11
損失推定量が不偏
パラメータについて線形なモデルに対し
推定誤差が最適なオーダーで0になる
次式を満たすときPU学習は PN 学習より
良い可能性がある
𝒪 𝑝
𝜋p
𝑛p
+ 1
𝑛u
𝒪 𝑝
𝜋p
𝑛p
+ 𝜋n
𝑛n
cf. PN学習
𝜋p
𝑛p
+ 1
𝑛u
< 𝜋n
𝑛n
𝔼 𝑅pu 𝑔 = 𝑅pu 𝑔 = 𝑅(𝑔)

発表の流れ 12
1. 導入
5. 実験
6. 結論

13
ディープニューラルネットワークではどうなの？
不偏PU学習はパラメータについて線形な
モデルに対しては実験的にも上手く動く
[du Plessis+, NIPS 2014, ICML 2015; Niu+, NIPS 2016]
𝑦𝜙(𝑥) 𝑤
From: http://book.paddlepaddle.org/02.recognize_digits/index.html

柔軟なモデルにおける不偏PU学習 14
MNISTの奇数と偶数を3層パーセプトロンで分類する実験
 𝑛p=100, 𝑛n=50, 𝑛u=59900
Epoch of SGD
Error
経験損失が負
過学習！
不偏PU テスト
不偏PU 訓練
PN テスト
PN 訓練
0

不偏PU学習での過学習と負の損失値 15
 正例を正クラスに、ラベルなし例を負クラスに
完璧に分類する分類器の0-1損失に基づいた訓練損失を考える
クラス:+1 クラス:-1
:正例
:ラベルなし例
𝜋p
𝑛p
𝑥∈𝒳p
𝑙 𝑔 𝑥 , +1 +
1
𝑛u
𝑥∈𝒳u
𝑙 𝑔 𝑥 , −1 −
𝜋p
𝑛p
𝑥∈𝒳p
𝑙 𝑔 𝑥 , −1
正クラスに対する
損失
負クラスに対する
損失

不偏PU学習での過学習と負の損失値 16
 正例を正クラスに、ラベルなし例を負クラスに
完璧に分類する分類器の0-1損失に基づいた訓練損失を考える
クラス:+1 クラス:-1
:正例
:ラベルなし例
𝜋p
𝑛p
𝑥∈𝒳p
𝑙 𝑔 𝑥 , +1 +
1
𝑛u
𝑥∈𝒳u
𝑙 𝑔 𝑥 , −1 −
𝜋p
𝑛p
𝑥∈𝒳p
𝑙 𝑔 𝑥 , −1
正クラスに対する
損失
負クラスに対する
損失
0 𝜋p ⋅ 1 < 0𝜋 𝑝 ⋅ 0

非負推定量を用いたPU学習（非負PU学習） 17
アイデア
常に非負の新しい損失推定量を提案する
𝑅pu 𝑔 =
𝜋p
𝑛p
𝑥∈𝒳p
𝑙 𝑔 𝑥 , +1 + 𝐦𝐚𝐱 𝟎,
1
𝑛u
𝑥∈𝒳u
𝑙 𝑔 𝑥 , −1 −
𝜋p
𝑛p
𝑥∈𝒳p
𝑙 𝑔 𝑥 , −1
負クラスの損失を0以上にする

発表の流れ 18
1. 導入
5. 実験
6. 結論

非負PU学習の理論的解析 19
損失推定量は一致性を持ちバイアスが指数的に減少する
実際にはバイアスは無視できる
損失推定量は平均二乗誤差を減らすことがある
非負損失推定量はより安定であり得る
パラメータについて線形なモデルに対し
推定誤差が最適なオーダーで0になる
𝒪 𝑝 exp − 1 𝜋p
2 𝑛p + 1 𝑛u
𝒪 𝑝
𝜋p
𝑛p
+ 1
𝑛u
𝔼 𝒳p,𝒳u
𝑅pu 𝑔 − 𝑅 𝑔
2
≤ 𝔼 𝒳p,𝒳u
𝑅pu 𝑔 − 𝑅 𝑔
2
非負PU学習不偏PU学習

大規模アルゴリズムを使えるかどうか 20
•SGD（確率的降下勾配法）を使いたい
•最小化したい目的関数
•ミニバッチでの損失の和
𝒳p
𝑖, 𝒳u
𝑖 : 𝑖番目のミニバッチ(𝑖 = 1, … , 𝑁)
𝑖=1
𝑁
𝜋p
𝑛p
𝑥∈𝒳 𝑝
𝑖
𝑙 𝑔 𝑥 , +1 + max 0,
𝑖
𝑁
1
𝑛 𝑢
𝑥∈𝒳 𝑢
𝑖
𝑙 𝑔 𝑥 , −1 −
𝜋 𝑝
𝑛 𝑝
𝑥∈𝒳 𝑝
𝑙 𝑔 𝑥 , −1
𝑖=1
𝑁
𝜋p
𝑛p
𝑥∈𝒳p
𝑖
𝑙 𝑔 𝑥 , +1 + 𝐦𝐚𝐱 𝟎,
1
𝑛u
𝑥∈𝒳u
𝑖
𝑙 𝑔 𝑥 , −1 −
𝜋p
𝑛p
𝑥∈𝒳p
𝑙 𝑔 𝑥 , −1
≤しかし、上界は最小化できる！
𝑖=1
𝑁
𝜋p
𝑛p
𝑥∈𝒳p
𝑖
𝑙 𝑔 𝑥 , +1 + 𝐦𝐚𝐱 𝟎,
1
𝑛u
𝑥∈𝒳u
𝑖
𝑙 𝑔 𝑥 , −1 −
𝜋p
𝑛p
𝑥∈𝒳p
𝑙 𝑔 𝑥 , −1

大規模アルゴリズム 21
負例に対する損失の項が負になると起こる過学習を防ぐため、
負になりすぎた時に少し正の値に戻すようにする
0
1
𝑛u
𝑥∈𝒳u
𝑖
𝑙 𝑔 𝑋 , −1 −
𝜋p
𝑛p
𝑥∈𝒳p
𝑖
𝑙 𝑔 𝑋 , −1

大規模アルゴリズム 22
負になりすぎたら
戻す部分

発表の流れ 23
1. 導入
5. 実験
6. 結論

実験の動機 24
1. パラメータについて線形なモデルにおいて次の式を満たす
時不偏PU学習はPN学習より良いことが期待される
[Niu+, NIPS 2016]
これを満たす負例の数の状況でディープニューラルネット
において非負PU学習、不偏PU学習を比較し、目安となるPN
学習との差を見る
2. 現実にPU学習を使うことを想定して、𝜋pの推定誤差による
非負PU学習の性能への影響を比較
𝜋p
𝑛p
+ 1
𝑛u
< 𝜋n
𝑛n

実験設定 25
データセット CIFAR10 Epsilon MNIST 20news
ネットワーク 13-layer CNN
[Springenberg+, ICLR2015]
6-layer MLP 6-layer MLP 5-layer MLP
正例の数 𝒏 𝐩 1000
負例の数 𝒏 𝐧 𝜋p 2𝜋p
2
𝑛p
ラベルなし例
の数 𝐧 𝐮
50,000 400,000 60,000 11,314
正例の割合
𝝅 𝐩
0.40 0.50 0.49 0.44

CIFAR10実験結果 26
提案法は
不偏PU学習が達成する
ことを期待されたが
達成できなかった
テスト誤差を達成した
Epoch (of SGD)
不偏PU テスト
PN テスト
非負PU テスト
非負PU 訓練
PN 訓練
不偏PU 訓練
Error
テスト誤差は不偏
PU学習より低く、
PN学習よりも低い
訓練誤差→ 0

他データセットでの実験結果 27
他のデータでも非負PU学習は不偏PU学習を上回り、
PN学習以上の性能も出た
MNIST epsilon 20news

𝜋pの推定誤差による分類誤差への影響の実験結果 28
• 推定された正例の割合を𝜋 𝑝
′
∈ {0.8𝜋p, 0.9𝜋p, … , 1.2𝜋p}とした
• 𝜋p
′
> 𝜋pは𝜋p
′
< 𝜋pのときよりも悪影響が少なかった
• わずかに大きい𝜋p
′
(e.g. 1.1𝜋p, 1.2𝜋p)は不偏PU学習から更に異なる
ために1.0𝜋pより良い性能が出ることがあると考えられる
MNIST epsilon CIFAR1020news
Best: 1.0𝜋p Best: 1.1𝜋p
Best: 1.1𝜋p Best: 1.2𝜋p

発表の流れ 29
1. 導入
5. 実験
6. 結論

結論 30
PU学習の非負損失推定量を提案し最先端手法である不偏PU学
習を改善した
新しい大規模PU学習アルゴリズムを提案した
バイアス、平均二乗誤差、推定誤差を理論解析した
新しい損失推定量は過学習に頑健であり、とても複雑なモデ
ルの限られた正例からの学習が可能になることを示した
負クラスの損失を0以上にすることで、不偏PU学習に対して
著しい性能の向上を実験的に示した

関連研究 31
少数の負例が手に入る時は？
PN学習とPU学習を組み合わせる半教師あり学習[Sakai+, ICML 2016]
 PN学習と同じだけの弱い仮定で半教師あり学習ができる
正例の割合が極端に少ない時は？
十分に複雑なモデルを使う
PN学習の式での正例の期待損失の重みを大きくする
AUCを最適化する [Zhang+, ICDIM 2008]
 𝜋pを推定しなくてよいというメリットがある
マルチラベルランキングへの応用 [Kanehira+, CVPR 2016]
マルチクラス分類への応用 [Yixing+, IJCAI 2017]

Reference 32
M. C. du Plessis, G. Niu, and M. Sugiyama. Analysis of learning from
positive and unlabeled data. In NIPS, 2014.
M. C. du Plessis, G. Niu, and M. Sugiyama. Convex formulation for
learning from positive and unlabeled data. In ICML, 2015.
G. Niu, M. C. du Plessis, T. Sakai, Y. Ma, and M. Sugiyama.
Theoretical comparisons of positive unlabeled learning against
positive-negative learning. In NIPS, 2016.
J. T. Springenberg, A. Dosovitskiy, T. Brox, and M. Riedmiller. Striving
for simplicity: The all convolutional net. 2015.

Positive-Unlabeled Learning with Non-Negative Risk Estimator

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Similar to Positive-Unlabeled Learning with Non-Negative Risk Estimator

Similar to Positive-Unlabeled Learning with Non-Negative Risk Estimator (17)

Positive-Unlabeled Learning with Non-Negative Risk Estimator

Editor's Notes