機械学習におけるオンライン確率的最適化の理論

機械学習における
オンライン確率的最適化の理論
鈴木大慈
東京大学
情報理工学系研究科
数理情報学専攻
2013/6/26
1

本発表の狙い
オンライン確率的最適化の理論
いろいろな手法
簡単な手法を軸にして基本となる考え方を紹介
2

発表の構成
• 最適化問題としての定式化
• オンライン確率的最適化
– 確率的勾配降下法
– 正則化学習におけるオンライン確率的最適化
– 構造的正則化学習におけるオンライン確率的最適化
• バッチデータに対する確率的最適化
3

教師有り学習の
最適化問題としての定式化
4

5
経験リスク関数
正則化項付きリスク関数
: t個目のサンプルに対するロス
: 過学習を避けるためのペナルティ項
機械学習における最適化問題
（“誤り” へのペナルティ）

6
• 回帰
-二乗ロス
-分位点回帰
ロス関数の例
• 判別
-ヒンジロス
-ロジッスティックロス

7
• 回帰
ロス関数の図
• 判別
squared loss
tau loss (分位点回帰)
Huber loss

勾配法
8
とする．
（劣）
劣勾配：

9
ステップサイズの決定には
• Armijoの規準
• Wolfeの規準
等がある．

Newton法
10
ロス関数は二回微分可能とする．

近接勾配法としての定式化
11
線形近似
近接項は近傍との距離を定めている．
自然勾配法も同様に定式化できる．
→ 距離の定め方でいろいろ出てくる．

Mirror Descent
12
さらに一般化
（近接勾配法）
Bregman-ダイバージェンス：
例：Exponentiated Gradient [Kivinen&Warmuth,97]
有限確率分布上での最適化：KL-ダイバージェンスを近接項に用いる
一般化

• これからの議論は簡単のため近接項として
を用いる．
• 近接勾配法としての見方は確率的最適化と
の関係を明確にする（後述）．
• Mirror descentのように距離を変えても以下
と同様の議論は成り立つ．
13

収束レート
• 最急降下法
– 滑らかな凸関数：
– 強凸関数：一次収束
• Newton法
– 二次収束
14

正則化項付きリスク最小化
15c.f. FOBOS [Duchi&Singer,09], FISTA [Beck, Teboulle 08]
この更新式はオンライン学習においても重要

発表の構成
16

オンライン確率的最適化
17

問題点
18
• サンプル数nが巨大な場合，関数値の評価，勾配の計算，Hessianの計算
に多大な時間がかかる．
• 次から次にやってくるデータは従来の方法では処理できない（nは固定）．
• 巨大なデータはメモリに収められない．
確率的最適化（オンライン学習）
• 機械学習で大事なのは汎化誤差
• 高度な最適化手法による速い収束も経験誤差を小さくするのみ
→ 最適化の精度が推定誤差に埋もれる
→ 少しくらいサボってもよい
[Bottou&Bousquet,08]

確率的勾配降下法
19
(Stochastic Gradient Descent, SGD)
ではない．
•t個目のサンプルのみを用いて更新ができる．
•ステップサイズはが普通（後述）．
•バッチの最適化と比べてステップサイズは重要．
Polyak-Ruppert平均化：

収束レート解析：用語の定義
• ロス関数の滑らかさ
20
• 目的関数の強凸性
ある正の定数が存在して，

ステップサイズでもPolyak-Ruppert平均化すれ
ば強凸性に適応して収束が速くなる．[Bach&Moulines,11]
収束レート
• 一般の凸ロス関数
21
• 期待リスクが滑らかな強凸関数
：期待リスク（汎化誤差）
※本当はもっと細かい条件が必要だが，ここでは省略
これらの収束レートはミニマックス最適[Nemirovski&Yudin,83][Agarwal+etal,10]

• 滑らかでない一般の強凸リスクの収束レート
22
強凸期待リスクに対する収束レートの理論はまだまだ発展途上
例：ステップサイズは滑らかでない場合でもにして良いか？
• Polyak-Ruppert 平均化
• α-suffix平均化
• 多項式減衰平均化
[Rakhlin et al. (2011), Shamir&Zhang (2012)]
[Lacoste-Julien et al. (2012), Shamir&Zhang (2012)]
ステップサイズ：

バッチ最適化との比較
23
なめらかな強凸関数において比較する．
：minimax最適レート
だけ得をする
→サンプル数が巨大な時は確率的最適化が有用
[Nemirovski&Yudin,83][Agarwal+etal,10]
（最悪な期待リスク）
：経験リスクと期待リスクの差
[Bottou,10]

正則化学習における
24

正則化学習での確率的勾配法
25
を小さくしたい．
c.f. FOBOS [Duchi&Singer,09]
例：Ｌ1正則化（高次元モデルにおけるスパース学習）
Soft threshold
更新途中でもスパース！

26
: proximal operation
先の更新式は次のように書ける：
proximal operationが簡単に計算できる正則化関数の例．
① グループ正則化
② トレースノルム最小化（）
とＳＶＤされている時，
低ランク性
グループスパーシティ

ミニバッチ法
27
各反復での勾配計算を一サンプルだけでなく，
小規模のまとまったサンプルを用いて計算．

Regularized Dual Averaging
28
RDA: 確率的最適化（オンライン最適化）の別の方法 [Xiao,09; Nesterov,09]
：勾配の平均を用いる
FOBOSよりも途中の解がスパースになりやすい

関連手法
29
Composite Objective Mirror Descent
Adaptive Subgradient Methods
[Duchi+etal,10]
KL-divergenceを用いればexponentiated gradient descent
あまり発火しない特徴量を強調する．
[Duchi+etal,10]
(FOBOS型)
(RDA型)

構造的正則化学習における
30

構造的スパース正則化
31
例１：ＧｒｏｕｐＬａｓｓｏ
グ
ル
ー
プ
構
造
重
複
あ
り

32
例2：低ランクテンソル推定
＝
12
3
低ランク

33
例3：グラフ型正則化
1
2
3
4
5

応用例
34
ゲノムワイド相関解析 (GWAS) (Balding ‘06, McCarthy et al. ‘08)
Gpoup1 Gpoup2 Gpoup3

構造的正則化学習の難しさ
• Proximal operationが簡単に計算できない
35
重
複
あ
り
重
複
な
し
簡単難しい

•各正則化関数に応じた賢い方法で解く [Yuan et al. 2011]
•変数を増やして問題を簡単にする (汎用的)
を満たしが計算しやすい
• 重複ありグループ正則化
36
重
複
あ
り
グループ間に変数の絡み
• 解決策
を利用する．
idea:

37分離凸
と変形．
重複なし

• FOBOS型ADMM
38
• RDA型ADMM
線形近似スムージング
確率的ADMM
交互方向乗数法 + 確率的最適化
[Suzuki, ICML2013]
[Ouyang+etal, ICML2013]

確率的ADMM
• FOBOS型ADMM
39
• RDA型ADMM
交互方向乗数法 + 確率的最適化
実装が簡単！
[Suzuki, ICML2013]
[Ouyang+etal, ICML2013]

収束レート
40
条件
データ：
• 一般の凸ロス関数
• 強凸正則化関数
•データはi.i.d.系列
•ロスと正則化項はLipschitz連続
•wのドメインは有界

数値実験：確率的ADMM
41
人工データ実データ（Adult, a9a
@LIVSVM data sets)
1,024次元
512サンプル
重複ありグループ正則化
15,252次元
32,561サンプル
重複ありグループ正則化+ L1正則化
最
適
値
と
の
差
テ
ス
ト
デ
ー
タ
で
の
判
別
誤
差
提案手法
[Suzuki, ICML2013]

発表の構成
42

43
バッチデータに対する
確率的最適化

• オンライン最適化：
サンプルを一回しか見ないことを想定
• バッチの設定：
44
サンプルを何度も利用してよいなら
もっと速い収束が望めるのでは？
→ Yes
- Stochastic Average Gradient (SAG):
Le Roux, Schmidt, Bach (NIPS 2012)
- Stochastic Dual Coordinate Ascent (SDCA):
Shalev-Shwartz, Zhang (NIPS OPT-WS 2012 )
線形収束 (目的関数が指数的に減少)

Stochastic Average Gradient
(SAG)
45
[Le Roux, Schmidt, Bach (NIPS 2012)]
各ステップにおいてをランダムに選択し，
ロス関数が滑らか，かつ目的関数Lが強凸の時，とすると
指数的収束

46
[Le Roux, Schmidt, Bach,12]
データ１
データ2
データ3
経験リスク期待リスク判別誤差
緑色がSAG

SAGの性質
• 指数的収束→サンプルを複数回観測すると確率的勾配法よりも
高い精度を得る．
• 一回の更新にかかる計算時間は確率的勾配法と同じオーダー．
• バッチ最適化と確率的勾配法の中間的位置づけ．
• 問題点：全てのサンプルでの勾配の値を記憶しておかなくてはい
けない．
→巨大データではメモリが足りなくなる．
次に紹介するSDCAではメモリの問題がない．
47

正則化学習の双対問題
48
Fenchel双対定理
Fenchel双対定理：例えばRockafeller, Convex Analysis (1970) のCorollary 31.2.1
双対問題
主問題
L*らはLをLegendre変換したもの（次ページ）
ＳＤＣＡの定式化

Legendre変換
49
凸関数を傾きの情報から眺めたもの

Stochastic Dual Coordinate Ascent
52
1. をランダムに選択
２.次元方向に最適化
３. 上の1,2を繰り返す．
が強凸でが滑らかな時，
双対ギャップの期待値
[Shalev-Shwartz&Zhang,2012]
指数的収束
関連手法：Lacoste-Julien et al., 2012 (Stochastic block-coordinate Frank-Wolfe法)
（一次元最適化）
※ 正則化関数（の双対関数）を線形近似することも可能．

53
指数的収束
[Shalev-Shwartz&Zhang,2012]

まとめ
– 大サンプル学習問題においてサンプルを一つ見るごとに
逐次的に更新する手法
– 経験誤差最小化は厳密に解く必要はない
– サンプルを複数回利用可能
→ 逐次的更新で指数オーダの収束
54
一般のロス関数：（滑らかな）強凸リスク関数：収束レート

機械学習におけるオンライン確率的最適化の理論

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

More from Taiji Suzuki

More from Taiji Suzuki (14)

機械学習におけるオンライン確率的最適化の理論