SlideShare a Scribd company logo
1 of 32
Positive-Unlabeled Learning with
Non-Negative Risk Estimator
1
Ryuichi
Kiryo1,2
Gang
Niu1,2
Marthinus
Christoffel du
Plessis
Masashi
Sugiyama2,1
1 2
NIPS2017読み会 Jan 7th
2クラス分類問題 2
入力データをクラス(カテゴリ)に分類する問題
例 ねこかどうか
ねこ
ねこです
ねこ
ねこではない
ねこではない
教師あり学習 3
分類器が 正例と 負例から学習される
たくさんラベル付きデータがあれば高い分類精度
正クラス 負クラス
負例が手に入らない時の分類問題 4
両方のクラスが常に手に入るとは限らない
例1:クリック広告
クリックされた: 正
されなかった: ラベルなし ( 興味ない or 気付かなかった)
例2:新薬開発
論文として報告された: 正
報告されていない: ラベルなし ( 上手くいかない or 未調査)
正(Positive)例と ラベルなし(Unlabeled)例から
正負を出力する分類器を学習したい
PU学習(Positive-Unlabeled学習) 5
分類器が 正例と ラベルなし例から学習される
クラスの割合(推定できる)さえ分かっていれば解ける
正クラス 負クラス
発表の流れ 6
1. 導入
2. 問題設定と従来法
3. 動機と提案法
4. 理論解析と大規模アルゴリズム
5. 実験
6. 結論
問題設定 7
入力データ𝑋 ∈ ℝ 𝑑
をクラス𝑌 ∈ +1, −1 に分類する問題
 正例 𝒳p = 𝑥𝑖
p
𝑖=1
𝑛p
~
𝑖.𝑖.𝑑.
𝑝 𝑥 𝑌 = +1
 負例 𝒳n = 𝑥𝑖
n
𝑖=1
𝑛n
~
𝑖.𝑖.𝑑.
𝑝 𝑥 𝑌 = −1
 ラベルなし例 𝒳u = 𝑥𝑖
u
𝑖=1
𝑛u
~
𝑖.𝑖.𝑑.
𝑝 𝑥 ≔ 𝜋p 𝑝 𝑥|𝑌 = +1 +
正・負クラス事前分布 𝜋p ≔ 𝑝 𝑌 = +1 , 𝜋n ≔ 𝑝(𝑌 = −1)
分類器 𝑔: ℝ 𝑑 → ℝ (例:SVMやCNNなど)
損失関数 𝑙: ℝ × ±1 → ℝ+
例:0-1損失・・・誤分類したかどうかで0/1を出力
シグモイド損失・・・0-1損失の滑らかな近似
期待損失 𝑅 𝑔 = 𝔼 𝑋,𝑌 ~𝑝 𝑥,𝑦 𝑙 𝑔 𝑋 , 𝑌
期待損失を最小化する
分類器が欲しい
教師あり学習 (PN学習) 8
目標:期待損失の最小化
実際:経験損失(手元にあるデータでの近似)の最小化
𝑅 𝑔 = 𝔼 𝑋,𝑌 ~𝑝 𝑥,𝑦 𝑙 𝑔 𝑋 , 𝑌 = 𝜋p 𝔼p 𝑙 𝑔 𝑋 , +1 + 𝜋n 𝔼n 𝑙 𝑔 𝑋 , −1
𝑅pn 𝑔 =
𝜋p
𝑛p
𝑥∈𝒳p
𝑙(𝑔 𝑥 , +1) +
𝜋n
𝑛n
𝑥∈𝒳n
𝑙(𝑔 𝑥 , −1)
正クラス
に対する損失
負クラス
に対する損失
入力データ 𝑋 ∈ ℝ 𝑑
クラスラベル 𝑌 ∈ ±1
損失関数 𝑙: ℝ × ±1 → ℝ+
𝔼p ⋅ ≔ 𝔼 𝑋~𝑝 𝑥|𝑌=+1 ⋅
𝔼n ⋅ ≔ 𝔼 𝑋~𝑝 𝑥|𝑌=−1 ⋅
𝜋p ≔ 𝑝 𝑌 = +1
𝜋n ≔ 𝑝 𝑌 = −1
不偏PU学習 [du Plessis+, NIPS 2014, ICML 2015] 9
目標:PN学習と同じ期待損失の最小化
アイデア: ラベルなし例 = 正例 + 負例
損失が 正例と ラベルなし例だけで表せる
𝑅 𝑔 = 𝜋p 𝔼p[𝑙(𝑔 𝑋 , +1)] + 𝜋n 𝔼n[𝑙(𝑔 𝑋 , −1)]
負例は持っていない
𝑅pu 𝑔 = 𝜋p 𝔼p 𝑙 𝑔 𝑋 , +1 + 𝔼u 𝑙 𝑔 𝑋 , −1 − 𝜋p 𝔼p 𝑙 𝑔 𝑋 , −1
𝔼u 𝑙 𝑔 𝑋 , −1 = 𝜋p 𝔼p 𝑙 𝑔 𝑋 , −1 + 𝜋n 𝔼n 𝑙 𝑔 𝑋 , −1
𝔼u ⋅ = 𝔼 𝑋~𝑝(𝑥) ⋅ , 𝒳u = 𝑥𝑖
u
𝑖=1
𝑛u
~
𝑖.𝑖.𝑑.
𝑝 𝑥 ≔ 𝜋p 𝑝 𝑥|𝑌 = +1 +
導出過程 10
PN学習の目的関数
この式は常に成り立つ
これを式変形する
一番上の式に代入して完成!
𝑅 𝑔 = 𝜋p 𝔼p[𝑙(𝑔 𝑋 , +1)] + 𝜋n 𝔼n[𝑙(𝑔 𝑋 , −1)]
𝑅pu 𝑔 = 𝜋p 𝔼p 𝑙 𝑔 𝑋 , +1 + 𝔼u 𝑙 𝑔 𝑋 , −1 − 𝜋p 𝔼p 𝑙 𝑔 𝑋 , −1
𝔼u 𝑙 𝑔 𝑋 , −1 = 𝜋p 𝔼p 𝑙 𝑔 𝑋 , −1 + 𝜋n 𝔼n 𝑙 𝑔 𝑋 , −1
𝜋n 𝔼n 𝑙 𝑔 𝑋 , −1 = 𝔼u 𝑙 𝑔 𝑋 , −1 − 𝜋p 𝔼p 𝑙 𝑔 𝑋 , −1
不偏PU学習の理論的性質
[du Plessis+, NIPS 2014, ICML 2015; Niu+, NIPS 2016]
11
損失推定量が不偏
パラメータについて線形なモデルに対し
推定誤差が最適なオーダーで0になる
次式を満たすときPU学習は PN 学習より
良い可能性がある
𝒪 𝑝
𝜋p
𝑛p
+ 1
𝑛u
𝒪 𝑝
𝜋p
𝑛p
+ 𝜋n
𝑛n
cf. PN学習
𝜋p
𝑛p
+ 1
𝑛u
< 𝜋n
𝑛n
𝔼 𝑅pu 𝑔 = 𝑅pu 𝑔 = 𝑅(𝑔)
発表の流れ 12
1. 導入
2. 問題設定と従来法
3. 動機と提案法
4. 理論解析と大規模アルゴリズム
5. 実験
6. 結論
13
ディープニューラルネットワークではどうなの?
不偏PU学習はパラメータについて線形な
モデルに対しては実験的にも上手く動く
[du Plessis+, NIPS 2014, ICML 2015; Niu+, NIPS 2016]
𝑦𝜙(𝑥) 𝑤
From: http://book.paddlepaddle.org/02.recognize_digits/index.html
柔軟なモデルにおける不偏PU学習 14
MNISTの奇数と偶数を3層パーセプトロンで分類する実験
 𝑛p=100, 𝑛n=50, 𝑛u=59900
Epoch of SGD
Error
経験損失が負
過学習!
不偏PU テスト
不偏PU 訓練
PN テスト
PN 訓練
0
不偏PU学習での過学習と負の損失値 15
 正例を 正クラスに、 ラベルなし例を 負クラスに
完璧に分類する分類器の0-1損失に基づいた訓練損失を考える
クラス:+1 クラス:-1
:正例
:ラベルなし例
𝜋p
𝑛p
𝑥∈𝒳p
𝑙 𝑔 𝑥 , +1 +
1
𝑛u
𝑥∈𝒳u
𝑙 𝑔 𝑥 , −1 −
𝜋p
𝑛p
𝑥∈𝒳p
𝑙 𝑔 𝑥 , −1
正クラスに対する
損失
負クラスに対する
損失
不偏PU学習での過学習と負の損失値 16
 正例を 正クラスに、 ラベルなし例を 負クラスに
完璧に分類する分類器の0-1損失に基づいた訓練損失を考える
クラス:+1 クラス:-1
:正例
:ラベルなし例
𝜋p
𝑛p
𝑥∈𝒳p
𝑙 𝑔 𝑥 , +1 +
1
𝑛u
𝑥∈𝒳u
𝑙 𝑔 𝑥 , −1 −
𝜋p
𝑛p
𝑥∈𝒳p
𝑙 𝑔 𝑥 , −1
正クラスに対する
損失
負クラスに対する
損失
0 𝜋p ⋅ 1 < 0𝜋 𝑝 ⋅ 0
非負推定量を用いたPU学習(非負PU学習) 17
アイデア
常に非負の新しい損失推定量を提案する
𝑅pu 𝑔 =
𝜋p
𝑛p
𝑥∈𝒳p
𝑙 𝑔 𝑥 , +1 + 𝐦𝐚𝐱 𝟎,
1
𝑛u
𝑥∈𝒳u
𝑙 𝑔 𝑥 , −1 −
𝜋p
𝑛p
𝑥∈𝒳p
𝑙 𝑔 𝑥 , −1
負クラスの損失を0以上にする
発表の流れ 18
1. 導入
2. 問題設定と従来法
3. 動機と提案法
4. 理論解析と大規模アルゴリズム
5. 実験
6. 結論
非負PU学習の理論的解析 19
損失推定量は一致性を持ちバイアスが指数的に減少する
実際にはバイアスは無視できる
損失推定量は平均二乗誤差を減らすことがある
非負損失推定量はより安定であり得る
パラメータについて線形なモデルに対し
推定誤差が最適なオーダーで0になる
𝒪 𝑝 exp − 1 𝜋p
2 𝑛p + 1 𝑛u
𝒪 𝑝
𝜋p
𝑛p
+ 1
𝑛u
𝔼 𝒳p,𝒳u
𝑅pu 𝑔 − 𝑅 𝑔
2
≤ 𝔼 𝒳p,𝒳u
𝑅pu 𝑔 − 𝑅 𝑔
2
非負PU学習 不偏PU学習
大規模アルゴリズムを使えるかどうか 20
•SGD(確率的降下勾配法)を使いたい
•最小化したい目的関数
•ミニバッチでの損失の和
𝒳p
𝑖, 𝒳u
𝑖 : 𝑖番目のミニバッチ(𝑖 = 1, … , 𝑁)
𝑖=1
𝑁
𝜋p
𝑛p
𝑥∈𝒳 𝑝
𝑖
𝑙 𝑔 𝑥 , +1 + max 0,
𝑖
𝑁
1
𝑛 𝑢
𝑥∈𝒳 𝑢
𝑖
𝑙 𝑔 𝑥 , −1 −
𝜋 𝑝
𝑛 𝑝
𝑥∈𝒳 𝑝
𝑙 𝑔 𝑥 , −1
𝑖=1
𝑁
𝜋p
𝑛p
𝑥∈𝒳p
𝑖
𝑙 𝑔 𝑥 , +1 + 𝐦𝐚𝐱 𝟎,
1
𝑛u
𝑥∈𝒳u
𝑖
𝑙 𝑔 𝑥 , −1 −
𝜋p
𝑛p
𝑥∈𝒳p
𝑙 𝑔 𝑥 , −1
≤しかし、上界は最小化できる!
𝑖=1
𝑁
𝜋p
𝑛p
𝑥∈𝒳p
𝑖
𝑙 𝑔 𝑥 , +1 + 𝐦𝐚𝐱 𝟎,
1
𝑛u
𝑥∈𝒳u
𝑖
𝑙 𝑔 𝑥 , −1 −
𝜋p
𝑛p
𝑥∈𝒳p
𝑙 𝑔 𝑥 , −1
大規模アルゴリズム 21
負例に対する損失の項が負になると起こる過学習を防ぐため、
負になりすぎた時に少し正の値に戻すようにする
0
1
𝑛u
𝑥∈𝒳u
𝑖
𝑙 𝑔 𝑋 , −1 −
𝜋p
𝑛p
𝑥∈𝒳p
𝑖
𝑙 𝑔 𝑋 , −1
大規模アルゴリズム 22
負になりすぎたら
戻す部分
発表の流れ 23
1. 導入
2. 問題設定と従来法
3. 動機と提案法
4. 理論解析と大規模アルゴリズム
5. 実験
6. 結論
実験の動機 24
1. パラメータについて線形なモデルにおいて次の式を満たす
時不偏PU学習はPN学習より良いことが期待される
[Niu+, NIPS 2016]
これを満たす負例の数の状況でディープニューラルネット
において非負PU学習、不偏PU学習を比較し、目安となるPN
学習との差を見る
2. 現実にPU学習を使うことを想定して、𝜋pの推定誤差による
非負PU学習の性能への影響を比較
𝜋p
𝑛p
+ 1
𝑛u
< 𝜋n
𝑛n
実験設定 25
データセット CIFAR10 Epsilon MNIST 20news
ネットワーク 13-layer CNN
[Springenberg+, ICLR2015]
6-layer MLP 6-layer MLP 5-layer MLP
正例の数 𝒏 𝐩 1000
負例の数 𝒏 𝐧 𝜋p 2𝜋p
2
𝑛p
ラベルなし例
の数 𝐧 𝐮
50,000 400,000 60,000 11,314
正例の割合
𝝅 𝐩
0.40 0.50 0.49 0.44
CIFAR10実験結果 26
提案法は
不偏PU学習が達成する
ことを期待されたが
達成できなかった
テスト誤差を達成した
Epoch (of SGD)
不偏PU テスト
PN テスト
非負PU テスト
非負PU 訓練
PN 訓練
不偏PU 訓練
Error
テスト誤差は不偏
PU学習より低く、
PN学習よりも低い
訓練誤差→ 0
他データセットでの実験結果 27
他のデータでも非負PU学習は不偏PU学習を上回り、
PN学習以上の性能も出た
MNIST epsilon 20news
𝜋pの推定誤差による分類誤差への影響の実験結果 28
• 推定された正例の割合を𝜋 𝑝
′
∈ {0.8𝜋p, 0.9𝜋p, … , 1.2𝜋p}とした
• 𝜋p
′
> 𝜋pは𝜋p
′
< 𝜋pのときよりも悪影響が少なかった
• わずかに大きい𝜋p
′
(e.g. 1.1𝜋p, 1.2𝜋p)は不偏PU学習から更に異なる
ために1.0𝜋pより良い性能が出ることがあると考えられる
MNIST epsilon CIFAR1020news
Best: 1.0𝜋p Best: 1.1𝜋p
Best: 1.1𝜋p Best: 1.2𝜋p
発表の流れ 29
1. 導入
2. 問題設定と従来法
3. 動機と提案法
4. 理論解析と大規模アルゴリズム
5. 実験
6. 結論
結論 30
PU学習の非負損失推定量を提案し最先端手法である不偏PU学
習を改善した
新しい大規模PU学習アルゴリズムを提案した
バイアス、平均二乗誤差、推定誤差を理論解析した
新しい損失推定量は過学習に頑健であり、とても複雑なモデ
ルの限られた正例からの学習が可能になることを示した
負クラスの損失を0以上にすることで、不偏PU学習に対して
著しい性能の向上を実験的に示した
関連研究 31
少数の負例が手に入る時は?
PN学習とPU学習を組み合わせる半教師あり学習[Sakai+, ICML 2016]
 PN学習と同じだけの弱い仮定で半教師あり学習ができる
正例の割合が極端に少ない時は?
十分に複雑なモデルを使う
PN学習の式での正例の期待損失の重みを大きくする
AUCを最適化する [Zhang+, ICDIM 2008]
 𝜋pを推定しなくてよいというメリットがある
マルチラベルランキングへの応用 [Kanehira+, CVPR 2016]
マルチクラス分類への応用 [Yixing+, IJCAI 2017]
Reference 32
M. C. du Plessis, G. Niu, and M. Sugiyama. Analysis of learning from
positive and unlabeled data. In NIPS, 2014.
M. C. du Plessis, G. Niu, and M. Sugiyama. Convex formulation for
learning from positive and unlabeled data. In ICML, 2015.
G. Niu, M. C. du Plessis, T. Sakai, Y. Ma, and M. Sugiyama.
Theoretical comparisons of positive unlabeled learning against
positive-negative learning. In NIPS, 2016.
J. T. Springenberg, A. Dosovitskiy, T. Brox, and M. Riedmiller. Striving
for simplicity: The all convolutional net. 2015.

More Related Content

What's hot

機械学習におけるオンライン確率的最適化の理論
機械学習におけるオンライン確率的最適化の理論機械学習におけるオンライン確率的最適化の理論
機械学習におけるオンライン確率的最適化の理論Taiji Suzuki
 
グラフィカル Lasso を用いた異常検知
グラフィカル Lasso を用いた異常検知グラフィカル Lasso を用いた異常検知
グラフィカル Lasso を用いた異常検知Yuya Takashina
 
Optuna Dashboardの紹介と設計解説 - 2022/12/10 Optuna Meetup #2
Optuna Dashboardの紹介と設計解説 - 2022/12/10 Optuna Meetup #2Optuna Dashboardの紹介と設計解説 - 2022/12/10 Optuna Meetup #2
Optuna Dashboardの紹介と設計解説 - 2022/12/10 Optuna Meetup #2Preferred Networks
 
時系列予測にTransformerを使うのは有効か?
時系列予測にTransformerを使うのは有効か?時系列予測にTransformerを使うのは有効か?
時系列予測にTransformerを使うのは有効か?Fumihiko Takahashi
 
機械学習モデルのハイパパラメータ最適化
機械学習モデルのハイパパラメータ最適化機械学習モデルのハイパパラメータ最適化
機械学習モデルのハイパパラメータ最適化gree_tech
 
機械学習のためのベイズ最適化入門
機械学習のためのベイズ最適化入門機械学習のためのベイズ最適化入門
機械学習のためのベイズ最適化入門hoxo_m
 
変分推論法(変分ベイズ法)(PRML第10章)
変分推論法(変分ベイズ法)(PRML第10章)変分推論法(変分ベイズ法)(PRML第10章)
変分推論法(変分ベイズ法)(PRML第10章)Takao Yamanaka
 
敵対的学習に対するラデマッハ複雑度
敵対的学習に対するラデマッハ複雑度敵対的学習に対するラデマッハ複雑度
敵対的学習に対するラデマッハ複雑度Masa Kato
 
不均衡データのクラス分類
不均衡データのクラス分類不均衡データのクラス分類
不均衡データのクラス分類Shintaro Fukushima
 
機械学習による統計的実験計画(ベイズ最適化を中心に)
機械学習による統計的実験計画(ベイズ最適化を中心に)機械学習による統計的実験計画(ベイズ最適化を中心に)
機械学習による統計的実験計画(ベイズ最適化を中心に)Kota Matsui
 
深層学習の数理
深層学習の数理深層学習の数理
深層学習の数理Taiji Suzuki
 
PyData.Tokyo Meetup #21 講演資料「Optuna ハイパーパラメータ最適化フレームワーク」太田 健
PyData.Tokyo Meetup #21 講演資料「Optuna ハイパーパラメータ最適化フレームワーク」太田 健PyData.Tokyo Meetup #21 講演資料「Optuna ハイパーパラメータ最適化フレームワーク」太田 健
PyData.Tokyo Meetup #21 講演資料「Optuna ハイパーパラメータ最適化フレームワーク」太田 健Preferred Networks
 
[DL輪読会]Temporal Abstraction in NeurIPS2019
[DL輪読会]Temporal Abstraction in NeurIPS2019[DL輪読会]Temporal Abstraction in NeurIPS2019
[DL輪読会]Temporal Abstraction in NeurIPS2019Deep Learning JP
 
【DL輪読会】Scaling Laws for Neural Language Models
【DL輪読会】Scaling Laws for Neural Language Models【DL輪読会】Scaling Laws for Neural Language Models
【DL輪読会】Scaling Laws for Neural Language ModelsDeep Learning JP
 
ゼロから始める深層強化学習(NLP2018講演資料)/ Introduction of Deep Reinforcement Learning
ゼロから始める深層強化学習(NLP2018講演資料)/ Introduction of Deep Reinforcement Learningゼロから始める深層強化学習(NLP2018講演資料)/ Introduction of Deep Reinforcement Learning
ゼロから始める深層強化学習(NLP2018講演資料)/ Introduction of Deep Reinforcement LearningPreferred Networks
 
DQNからRainbowまで 〜深層強化学習の最新動向〜
DQNからRainbowまで 〜深層強化学習の最新動向〜DQNからRainbowまで 〜深層強化学習の最新動向〜
DQNからRainbowまで 〜深層強化学習の最新動向〜Jun Okumura
 
Disentanglement Survey:Can You Explain How Much Are Generative models Disenta...
Disentanglement Survey:Can You Explain How Much Are Generative models Disenta...Disentanglement Survey:Can You Explain How Much Are Generative models Disenta...
Disentanglement Survey:Can You Explain How Much Are Generative models Disenta...Hideki Tsunashima
 

What's hot (20)

機械学習におけるオンライン確率的最適化の理論
機械学習におけるオンライン確率的最適化の理論機械学習におけるオンライン確率的最適化の理論
機械学習におけるオンライン確率的最適化の理論
 
グラフィカル Lasso を用いた異常検知
グラフィカル Lasso を用いた異常検知グラフィカル Lasso を用いた異常検知
グラフィカル Lasso を用いた異常検知
 
Optuna Dashboardの紹介と設計解説 - 2022/12/10 Optuna Meetup #2
Optuna Dashboardの紹介と設計解説 - 2022/12/10 Optuna Meetup #2Optuna Dashboardの紹介と設計解説 - 2022/12/10 Optuna Meetup #2
Optuna Dashboardの紹介と設計解説 - 2022/12/10 Optuna Meetup #2
 
時系列予測にTransformerを使うのは有効か?
時系列予測にTransformerを使うのは有効か?時系列予測にTransformerを使うのは有効か?
時系列予測にTransformerを使うのは有効か?
 
機械学習モデルのハイパパラメータ最適化
機械学習モデルのハイパパラメータ最適化機械学習モデルのハイパパラメータ最適化
機械学習モデルのハイパパラメータ最適化
 
機械学習のためのベイズ最適化入門
機械学習のためのベイズ最適化入門機械学習のためのベイズ最適化入門
機械学習のためのベイズ最適化入門
 
変分推論法(変分ベイズ法)(PRML第10章)
変分推論法(変分ベイズ法)(PRML第10章)変分推論法(変分ベイズ法)(PRML第10章)
変分推論法(変分ベイズ法)(PRML第10章)
 
敵対的学習に対するラデマッハ複雑度
敵対的学習に対するラデマッハ複雑度敵対的学習に対するラデマッハ複雑度
敵対的学習に対するラデマッハ複雑度
 
不均衡データのクラス分類
不均衡データのクラス分類不均衡データのクラス分類
不均衡データのクラス分類
 
A3C解説
A3C解説A3C解説
A3C解説
 
主成分分析
主成分分析主成分分析
主成分分析
 
機械学習による統計的実験計画(ベイズ最適化を中心に)
機械学習による統計的実験計画(ベイズ最適化を中心に)機械学習による統計的実験計画(ベイズ最適化を中心に)
機械学習による統計的実験計画(ベイズ最適化を中心に)
 
深層学習の数理
深層学習の数理深層学習の数理
深層学習の数理
 
PyData.Tokyo Meetup #21 講演資料「Optuna ハイパーパラメータ最適化フレームワーク」太田 健
PyData.Tokyo Meetup #21 講演資料「Optuna ハイパーパラメータ最適化フレームワーク」太田 健PyData.Tokyo Meetup #21 講演資料「Optuna ハイパーパラメータ最適化フレームワーク」太田 健
PyData.Tokyo Meetup #21 講演資料「Optuna ハイパーパラメータ最適化フレームワーク」太田 健
 
Rで学ぶロバスト推定
Rで学ぶロバスト推定Rで学ぶロバスト推定
Rで学ぶロバスト推定
 
[DL輪読会]Temporal Abstraction in NeurIPS2019
[DL輪読会]Temporal Abstraction in NeurIPS2019[DL輪読会]Temporal Abstraction in NeurIPS2019
[DL輪読会]Temporal Abstraction in NeurIPS2019
 
【DL輪読会】Scaling Laws for Neural Language Models
【DL輪読会】Scaling Laws for Neural Language Models【DL輪読会】Scaling Laws for Neural Language Models
【DL輪読会】Scaling Laws for Neural Language Models
 
ゼロから始める深層強化学習(NLP2018講演資料)/ Introduction of Deep Reinforcement Learning
ゼロから始める深層強化学習(NLP2018講演資料)/ Introduction of Deep Reinforcement Learningゼロから始める深層強化学習(NLP2018講演資料)/ Introduction of Deep Reinforcement Learning
ゼロから始める深層強化学習(NLP2018講演資料)/ Introduction of Deep Reinforcement Learning
 
DQNからRainbowまで 〜深層強化学習の最新動向〜
DQNからRainbowまで 〜深層強化学習の最新動向〜DQNからRainbowまで 〜深層強化学習の最新動向〜
DQNからRainbowまで 〜深層強化学習の最新動向〜
 
Disentanglement Survey:Can You Explain How Much Are Generative models Disenta...
Disentanglement Survey:Can You Explain How Much Are Generative models Disenta...Disentanglement Survey:Can You Explain How Much Are Generative models Disenta...
Disentanglement Survey:Can You Explain How Much Are Generative models Disenta...
 

Similar to Positive-Unlabeled Learning with Non-Negative Risk Estimator

TokyoNLP#5 パーセプトロンで楽しい仲間がぽぽぽぽ~ん
TokyoNLP#5 パーセプトロンで楽しい仲間がぽぽぽぽ~んTokyoNLP#5 パーセプトロンで楽しい仲間がぽぽぽぽ~ん
TokyoNLP#5 パーセプトロンで楽しい仲間がぽぽぽぽ~んsleepy_yoshi
 
【Zansa】第12回勉強会 -PRMLからベイズの世界へ
【Zansa】第12回勉強会 -PRMLからベイズの世界へ【Zansa】第12回勉強会 -PRMLからベイズの世界へ
【Zansa】第12回勉強会 -PRMLからベイズの世界へZansa
 
第2回 メドレー読書会
第2回 メドレー読書会第2回 メドレー読書会
第2回 メドレー読書会Toshifumi
 
星野「調査観察データの統計科学」第1&2章
星野「調査観察データの統計科学」第1&2章星野「調査観察データの統計科学」第1&2章
星野「調査観察データの統計科学」第1&2章Shuyo Nakatani
 
人工知能2018 強化学習の応用
人工知能2018 強化学習の応用人工知能2018 強化学習の応用
人工知能2018 強化学習の応用Hirotaka Hachiya
 
人工知能2018 6 強化学習の基礎
人工知能2018 6 強化学習の基礎人工知能2018 6 強化学習の基礎
人工知能2018 6 強化学習の基礎Hirotaka Hachiya
 
星野「調査観察データの統計科学」第3章
星野「調査観察データの統計科学」第3章星野「調査観察データの統計科学」第3章
星野「調査観察データの統計科学」第3章Shuyo Nakatani
 
[Dl輪読会]introduction of reinforcement learning
[Dl輪読会]introduction of reinforcement learning[Dl輪読会]introduction of reinforcement learning
[Dl輪読会]introduction of reinforcement learningDeep Learning JP
 
第4回数理モデル勉強会(日本植物学会第84回大会関連集会)
第4回数理モデル勉強会(日本植物学会第84回大会関連集会)第4回数理モデル勉強会(日本植物学会第84回大会関連集会)
第4回数理モデル勉強会(日本植物学会第84回大会関連集会)TakaakiYonekura
 
「現実世界に活かす数学」 (麻布高等学校、教養総合、数学講義 5 回目)
「現実世界に活かす数学」 (麻布高等学校、教養総合、数学講義 5 回目)「現実世界に活かす数学」 (麻布高等学校、教養総合、数学講義 5 回目)
「現実世界に活かす数学」 (麻布高等学校、教養総合、数学講義 5 回目)Kensuke Otsuki
 
基礎強化数学 第1回 計算の基礎①
基礎強化数学 第1回 計算の基礎①基礎強化数学 第1回 計算の基礎①
基礎強化数学 第1回 計算の基礎①studyplace0
 
AtCoder Regular Contest 017
AtCoder Regular Contest 017AtCoder Regular Contest 017
AtCoder Regular Contest 017AtCoder Inc.
 
PRML復々習レーン#3 3.1.3-3.1.5
PRML復々習レーン#3 3.1.3-3.1.5PRML復々習レーン#3 3.1.3-3.1.5
PRML復々習レーン#3 3.1.3-3.1.5sleepy_yoshi
 
Psychophysical functions@BCM勉強会
Psychophysical functions@BCM勉強会Psychophysical functions@BCM勉強会
Psychophysical functions@BCM勉強会Shushi Namba
 

Similar to Positive-Unlabeled Learning with Non-Negative Risk Estimator (17)

TokyoNLP#5 パーセプトロンで楽しい仲間がぽぽぽぽ~ん
TokyoNLP#5 パーセプトロンで楽しい仲間がぽぽぽぽ~んTokyoNLP#5 パーセプトロンで楽しい仲間がぽぽぽぽ~ん
TokyoNLP#5 パーセプトロンで楽しい仲間がぽぽぽぽ~ん
 
【Zansa】第12回勉強会 -PRMLからベイズの世界へ
【Zansa】第12回勉強会 -PRMLからベイズの世界へ【Zansa】第12回勉強会 -PRMLからベイズの世界へ
【Zansa】第12回勉強会 -PRMLからベイズの世界へ
 
第2回 メドレー読書会
第2回 メドレー読書会第2回 メドレー読書会
第2回 メドレー読書会
 
星野「調査観察データの統計科学」第1&2章
星野「調査観察データの統計科学」第1&2章星野「調査観察データの統計科学」第1&2章
星野「調査観察データの統計科学」第1&2章
 
人工知能2018 強化学習の応用
人工知能2018 強化学習の応用人工知能2018 強化学習の応用
人工知能2018 強化学習の応用
 
人工知能2018 6 強化学習の基礎
人工知能2018 6 強化学習の基礎人工知能2018 6 強化学習の基礎
人工知能2018 6 強化学習の基礎
 
星野「調査観察データの統計科学」第3章
星野「調査観察データの統計科学」第3章星野「調査観察データの統計科学」第3章
星野「調査観察データの統計科学」第3章
 
[Dl輪読会]introduction of reinforcement learning
[Dl輪読会]introduction of reinforcement learning[Dl輪読会]introduction of reinforcement learning
[Dl輪読会]introduction of reinforcement learning
 
双対性
双対性双対性
双対性
 
T-sne
T-sneT-sne
T-sne
 
第4回数理モデル勉強会(日本植物学会第84回大会関連集会)
第4回数理モデル勉強会(日本植物学会第84回大会関連集会)第4回数理モデル勉強会(日本植物学会第84回大会関連集会)
第4回数理モデル勉強会(日本植物学会第84回大会関連集会)
 
「現実世界に活かす数学」 (麻布高等学校、教養総合、数学講義 5 回目)
「現実世界に活かす数学」 (麻布高等学校、教養総合、数学講義 5 回目)「現実世界に活かす数学」 (麻布高等学校、教養総合、数学講義 5 回目)
「現実世界に活かす数学」 (麻布高等学校、教養総合、数学講義 5 回目)
 
基礎強化数学 第1回 計算の基礎①
基礎強化数学 第1回 計算の基礎①基礎強化数学 第1回 計算の基礎①
基礎強化数学 第1回 計算の基礎①
 
AtCoder Regular Contest 017
AtCoder Regular Contest 017AtCoder Regular Contest 017
AtCoder Regular Contest 017
 
Machine Learning Fundamentals IEEE
Machine Learning Fundamentals IEEEMachine Learning Fundamentals IEEE
Machine Learning Fundamentals IEEE
 
PRML復々習レーン#3 3.1.3-3.1.5
PRML復々習レーン#3 3.1.3-3.1.5PRML復々習レーン#3 3.1.3-3.1.5
PRML復々習レーン#3 3.1.3-3.1.5
 
Psychophysical functions@BCM勉強会
Psychophysical functions@BCM勉強会Psychophysical functions@BCM勉強会
Psychophysical functions@BCM勉強会
 

Positive-Unlabeled Learning with Non-Negative Risk Estimator

Editor's Notes

  1. ご紹介ありがとうございます。Positive-unlabeled learning with non-negative estimatorについて発表させていただきます。本研究はガンニウさん、マルティヌスクリストフェルデュプレシスさん、杉山将先生との共同研究です。
  2. 本研究のトピックは2クラス分類問題、つまり入力データをクラスY:正か負に分類する問題です。この例ですと、画像を入力データとしてねこかどうかのクラスを出力するという問題になります。
  3. 2クラス分類問題では教師あり学習と呼ばれる手法がよく使われます。分類器を正にラベル付けされたデータ、正例と負にラベル付けされたデータ、負例から学習する手法です。
  4. しかし、2クラスの内の片方、例えば負例は手に入らないことがあります。例えばクリック広告です。クリックされた広告はユーザーが興味を持ってクリックするので正例と見なせます。しかし、クリックされてない広告は負例と見なせません。なぜなら、私たちはユーザーの興味をひかない広告だったのか、ユーザーに気付かれなかっただけでクリックされていたはずだった広告だったのか区別ができないからです。他にも新薬発見のための手掛かりを探す時に、既に論文で報告されている有用な化合物を正例と見なすことができます。しかし、報告されていない化合物というのは上手くいかなかったから論文で報告されていないのか、単に誰も調べていないから論文で報告されていないのか分かりません。しかしこうした例のように、正例とラベルなし例だけからでも正例か負例か分類してくれる分類器を学習したい状況が存在します。
  5. この分類器を正例とラベルなし例から学習する問題設定のことをPositive-Unlabeled学習、あるいはPU学習と呼びます。PU学習では正クラスと負クラスの割合さえ分かっていれば解くことができ、これまで様々な研究がなされてきました。本研究はこのPU学習がテーマになります。
  6. 本発表の流れです。次に問題設定と従来法を詳しく説明し、従来法が抱える問題を動機として提案法を説明します。また、本研究で行った理論解析と大規模アルゴリズムについても軽くお話します。で、実験・結論という流れです。
  7. 本発表の問題設定は、入力データXをクラスY:+1か-1に分類する問題になります。正例、負例はそれぞれクラス条件付確率から独立に同一の分布からサンプルされます。ラベルなしデータはそれぞれのクラス事前分布×クラス条件付確率の和からサンプルされます。正と負のクラス事前分布:正例と負例の割合をそれぞれpi_p, pi_nで表します。分類器をgとし、損失関数をlとします。損失関数の例としては0-1損失というのがあり間違えたかどうかで1か0かを取る関数があるのですが微分不可能なので、それを微分可能な形で近似したシグモイド損失などが使われることがあります。期待損失というのは損失関数lに分類結果g(x)とクラスYを入れたもののXとYの同時分布上での期待値になります。本発表では期待損失最小化に基づいた学習方法を取り扱うので、目的は期待損失を最小化する分類器を求めることになります。
  8. この発表では教師あり学習のことをPositive dataとNegative dataから学習する手法という意味でPN学習と呼びます。PN学習では期待損失を最小化することを目標とします。期待損失は2つの項で表すことができます。正クラスに対する損失:正クラスの割合pi_p×正例上での期待損失と負クラスに対する損失:負クラスの割合pi_n×負例上での期待損失です。詳しい記号は一番下に書いてあります。今は両方のラベル付きデータを持っているので、経験損失と呼ばれる手元にあるデータを用いた近似を最小化することができます。
  9. 次に先ほどのPN学習と同じ期待損失の最小化を目的とした最先端のPU学習手法が不偏PU学習という手法です。不偏PU学習のゴールはPN学習と同じ期待損失の最小化です。負例は手に入らないのですが、シンプルなアイデアで解決できます。ラベルなし例が正例と負例からなっているということを利用します。なので、負クラスに対する損失をラベルなし例での損失ー正例での損失で表すことができて、損失を正例とラベルなし例だけで表すことができるようになります。
  10. 不偏PU学習はいくつか良い理論的性質を持っています。1つめに損失推定量が不偏、つまり経験損失の期待値が期待損失に一致します。2つめにパラメータについて線形なモデルに対し推定誤差が最適なオーダー:1/ルートの訓練データ数で収束します。これはPN学習:つまり通常の教師あり学習とオーダーの意味で等しいです。3つ目にPU学習はPN学習より良くなることがあります。推定誤差がこの不等式を満たす時にPN学習より小さくなります。この不等式は直感的には正例の数とラベルなし例の数が負例の数より十分に多いかどうかという意味です。もし負例を手に入れるのが難しいか不可能であれば、PU学習は良い代わりの手法になります。
  11. 次にこの不偏PU学習が抱える問題点とそれを改善した提案法についてお話します。
  12. パラメータについて線形なモデルに対しては実験的にも不偏PU学習は上手く動きます。なので、不偏PU学習はパラメータについて線形なモデルに対しては良い手法というのはまあ認めましょう。ではとても複雑なモデル、例えばディープニューラルネットワークではどうなんでしょうか、という疑問が出てきます。
  13. 私たちは3層パーセプトロンを使って手書き数字の奇数と偶数を分類する実験をとても少ないラベル付きデータで行いました。この図は今はPN学習の結果を見せています。横軸がパラメータの更新回数で、縦軸が損失の値です。訓練損失が下がっていくと、テスト損失も下がっていく妥当な結果です。では不偏PU学習の値を赤線で示します。テスト損失を見ると過学習が起こっています。 訓練損失を見ると経験損失が過学習と同時に負になっています。どうしてこんなことが起こるのでしょうか?
  14. この現象は正例を正クラスにラベルなし例を負クラスに完璧に分類する分類器を考えると説明できます。この分類器はラベルなし例の中に存在するはずのたくさんの正例を負に分類してしまうので明らかに過学習を起こしています。しかし、この分類器は訓練損失を最小にします。0-1損失に基づいた訓練損失を考えてみましょう。正クラスに対する損失は全ての正例を正に分類しているので0です。負クラスに対しては、ラベルなし例の損失は全てのラベルなし例を負に分類しているので0で、正例の損失は全ての正例を負に分類していないので負クラスと見なした時の損失は1になります。なので、訓練損失は0+0-[正例の割合]となり0未満になります。これが訓練損失が負になると過学習が起こることの説明になります。
  15. この現象は正例を正クラスにラベルなし例を負クラスに完璧に分類する分類器を考えると説明できます。この分類器はラベルなし例の中に存在するはずのたくさんの正例を負に分類してしまうので明らかに過学習を起こしています。しかし、この分類器は訓練損失を最小にします。0-1損失に基づいた訓練損失を考えてみましょう。正クラスに対する損失は全ての正例を正に分類しているので0です。負クラスに対しては、ラベルなし例の損失は全てのラベルなし例を負に分類しているので0で、正例の損失は全ての正例を負に分類していないので負クラスと見なした時の損失は1になります。なので、訓練損失は0+0-[正例の割合]となり0未満になります。これが訓練損失が負になると過学習が起こることの説明になります。
  16. ではどうすれば負になってしまうのを克服できるでしょうか?アイデアはとても単純です。負クラスの損失が0以上になるようにします。私たちは常に非負の新しい損失推定量を提案します。しかし、この非負損失推定量はもはや不偏ではないですし、本当に良くなったのか考える必要があります。
  17. まずは提案した非負PU学習の理論解析と大規模アルゴリズムについてお話します。
  18. 理論解析は大きく3つの結果があります。1つ目は非負損失推定量の一致性です。もし無限のデータを持っていれば、期待損失に一致するので負クラスに対する損失は常に非負になります。更に、バイアスがデータ数に対し指数的に減少するので、実際にはバイアスは無視できます。2つ目に、非負損失推定量の平均二乗誤差はいくつかの仮定の下で不偏推定量の平均二乗誤差以下になります。非負損失推定量は不偏損失推定量より安定した推定量といえます。3つ目にパラメータについて線形なモデルに対し推定誤差が最適なオーダー:不偏PU学習と同じオーダーで減少します。以上から、非負損失推定量は良い理論的性質を持っているといえます。
  19. ディープニューラルネットを使いたい時にはたくさんのデータがあることが多いです。なのでミニバッチを用いた確率的降下勾配法を用いてPU学習を大規模に扱えるようにしたいです。並列化する時に問題があり、訓練データ全体での経験損失とミニバッチでの経験損失の和が等しくありません。しかし幸いミニバッチでの損失の和は全体での経験損失の上界になっているので、ミニバッチでの損失を計算するだけで大丈夫です。
  20. また、先ほどお話した訓練損失が負になると過学習が起こるという観察から、学習のイタレーション中に負になりすぎた時に正の値に戻すようにしています。
  21. 学習アルゴリズム全体はざっくりこんな感じになります。いろいろ書いてはあるんですが特徴的なのは負になりすぎたら戻す部分だけで、基本的には普通のミニバッチを使った最適化と一緒です。
  22. 次に実験です。
  23. 実験の動機を説明します。パラメータについて線形なモデルにおいて次の式を満たす時不偏PU学習はPN学習より汎化誤差上界の意味で良くなるので、性能が良くなることが期待されます。これを満たすような数の正例と負例があるときにディープニューラルネットワークにおいて非負PU学習、不偏PU学習を比較し、更に目安となるPN学習との差を見ました。更に現実にPU学習を使うことを想定して、クラス事前分布pi_pの推定誤差による非負PU学習の性能への影響を比較しました。
  24. 今回は4つのデータセット、自然画像データCIFAR10、大規模人工データepsilon、手書き数字データMNIST、自然言語データ20newsです。CIFAR10、MNIST、20newsは多クラスのデータセットなので、CIFAR10は乗り物と生き物、MNISTは偶数と奇数、20newsはなんだかいい感じに2クラスになるように分けました。学習モデルはCIFAR10には13層の畳み込みニューラルネットワークを、他は6層あるいは5層の全結合ニューラルネットワークを用いました。他の設定は割愛します。
  25. 今回はCIFAR10の結果について詳しく見ていきます。まずは不偏PU学習とPN学習の結果をお見せしています。正例と負例の関係は不偏PU学習がPN学習より良くなりやすい設定ですが、前にお見せしたように赤線の不偏PU学習を見ると訓練損失は負になりテスト損失はひどい値に収束してPN学習に完全に負けています。では提案法の非負PU学習を黄色い線で示します。訓練損失が0へ収束し、テスト損失は不偏PU学習よりも低く、更にPN学習よりも低い値に収束しました。つまり非負PU学習は不偏PU学習が期待されながらも不偏PU学習には出せなかった性能を達成することができます。
  26. 他のデータセットでも同様に非負PU学習は不偏PU学習を上回り、PN学習以上の性能も出ました。
  27. 次にクラス事前分布pi_pの推定誤差による分類誤差への影響を見た実験結果です。推定された正例の割合をpi_p’として真のpi_pに0.8倍したものから1.2倍したものまでを比較しました。赤が0.8倍の時の結果で、そこから1.2倍の紫まで赤黄色緑青紫の順で色がついています。図が細かいので見づらいですが、一番テスト誤差が小さくなったpi_p’の値をデータセットの名前の舌にのせました。MNISTでは真のpi_pが、epsilonと20newsでは1.1倍したもの、CIFAR10では1.2倍したものが一番いい結果を示しました。総評すると、推定された正例の割合が真の割合より小さく推定された時は常に悪化しました。しかし、1.1倍や1.2倍が良い場合もありました。これは、わずかに大きいpi_p’はまるでダメだった不偏PU学習から更に異なる方向にバイアスがかかるためにいい方向にバイアスがかかる場合があるためだと考えられます。
  28. 最後に結論です。
  29. まとめますと、私たちはPU学習のための最先端の不偏推定量を改良した非負損失推定量を提案しました。新しい大規模PU学習アルゴリズムを開発しました。バイアス、平均二乗誤差、推定誤差を理論的に解析しました。新しい推定量は過学習に頑健であり、とても複雑なモデルを限られた正例から学習できることを示しました。負クラスの損失を0以上にすることで、不偏PU学習に対して著しい性能の向上を実験的に示しました。発表は以上になります。ご清聴ありがとうございました。