SlideShare a Scribd company logo
1 of 40
Download to read offline
特徴選択のためのLasso解列挙(AAAI’17)
原 聡1,2、前原 貴憲3
1
ERATO感謝祭 Season IV
1) 国立情報学研究所
2) JST, ERATO, 河原林巨大グラフプロジェクト
3) 理研AIP
研究背景
2
研究背景:特徴選択は完璧か?
n 『特徴選択を使うと、タスクに関連する特徴量と、タスクに関連し
ない特徴量とを識別することができる』と言われている。
• Lassoを使うとモデルのスパースな表現が得られる。
• Lassoによって選ばれた特徴量が重要な特徴量だと言われている。
3
研究背景:特徴選択は完璧か?
n 『特徴選択を使うと、タスクに関連する特徴量と、タスクに関連し
ない特徴量とを識別することができる』と言われている。
• Lassoを使うとモデルのスパースな表現が得られる。
• Lassoによって選ばれた特徴量が重要な特徴量だと言われている。
n しかし、機械学習に完璧はありえない。
• 有限のデータから学習する以上、ある程度のエラーは起こりうる。
• データ由来・学習手法由来のバイアスがのることがある。
4
研究背景:特徴選択は完璧か?
n 『特徴選択を使うと、タスクに関連する特徴量と、タスクに関連し
ない特徴量とを識別することができる』と言われている。
• Lassoを使うとモデルのスパースな表現が得られる。
• Lassoによって選ばれた特徴量が重要な特徴量だと言われている。
n しかし、機械学習に完璧はありえない。
• 有限のデータから学習する以上、ある程度のエラーは起こりうる。
• データ由来・学習手法由来のバイアスがのることがある。
5
機械学習は時として間違える。
機械学習がミスすると。。。
研究背景:機械学習がミスすると。。。
6
専門家
Xという病気には「体
重」と「血圧」が関連す
るはず!
研究背景:機械学習がミスすると。。。
7
専門家
Xという病気には「体
重」と「血圧」が関連す
るはず!
Xという病気に関連す
る項目は「身長」と「血
圧」です!
機械学習モデル
!?
研究背景:機械学習がミスすると。。。
n 理想的には
8
自分の理解が
間違っていたかも。
調べ直そう。
専門家
Xという病気には「体
重」と「血圧」が関連す
るはず!
Xという病気に関連す
る項目は「身長」と「血
圧」です!
機械学習モデル
!?
研究背景:機械学習がミスすると。。。
n 最悪の場合は
9
このモデルは
間違っている!
こんなモデル
使えるか!!
専門家
Xという病気には「体
重」と「血圧」が関連す
るはず!
Xという病気に関連す
る項目は「身長」と「血
圧」です!
機械学習モデル
!?
研究背景:機械学習がミスすると。。。
n 最悪の場合は
10
このモデルは
間違っている!
こんなモデル
使えるか!!
悲劇
たとえ精度の高いモデルでも、
ユーザの信頼が得られないと
使われない。
専門家
Xという病気には「体
重」と「血圧」が関連す
るはず!
Xという病気に関連す
る項目は「身長」と「血
圧」です!
!?
機械学習モデル
研究背景:ユーザに信頼される特徴選択をしたい。
n しかし、“間違えない特徴選択”は難しい。
• Lassoは選ばれた特徴量が“真に重要な特徴量”であることが保証されな
い。
- Adaptive Lassoをはじめ、様々な改善法が考案されている。
- しかし、有限のデータから学習している以上、エラーは避けられない。
11
研究背景:ユーザに信頼される特徴選択をしたい。
n しかし、“間違えない特徴選択”は難しい。
• Lassoは選ばれた特徴量が“真に重要な特徴量”であることが保証されな
い。
- Adaptive Lassoをはじめ、様々な改善法が考案されている。
- しかし、有限のデータから学習している以上、エラーは避けられない。
n 本研究のアイディア
• そもそも“重要な特徴量の組”を一つ探そうとしているから難しい。
12
研究背景:ユーザに信頼される特徴選択をしたい。
n しかし、“間違えない特徴選択”は難しい。
• Lassoは選ばれた特徴量が“真に重要な特徴量”であることが保証されな
い。
- Adaptive Lassoをはじめ、様々な改善法が考案されている。
- しかし、有限のデータから学習している以上、エラーは避けられない。
n 本研究のアイディア
• そもそも“重要な特徴量の組”を一つ探そうとしているから難しい。
• “重要な特徴量の組”をたくさん見つけて、それをユーザに提示したらどう
か?
→ 「Lasso解を複数列挙する問題」を考える。
13
研究背景:ユーザに信頼される特徴選択をしたい。
n しかし、“間違えない特徴選択”は難しい。
• Lassoは選ばれた特徴量が“真に重要な特徴量”であることが保証されな
い。
- Adaptive Lassoをはじめ、様々な改善法が考案されている。
- しかし、有限のデータから学習している以上、エラーは避けられない。
n 本研究のアイディア
• そもそも“重要な特徴量の組”を一つ探そうとしているから難しい。
• “重要な特徴量の組”をたくさん見つけて、それをユーザに提示したらどう
か?
→ 「Lasso解を複数列挙する問題」を考える。
14
Xという病気に関連す
る項目は。。。
研究背景:ユーザに信頼される特徴選択をしたい。
n しかし、“間違えない特徴選択”は難しい。
• Lassoは選ばれた特徴量が“真に重要な特徴量”であることが保証されな
い。
- Adaptive Lassoをはじめ、様々な改善法が考案されている。
- しかし、有限のデータから学習している以上、エラーは避けられない。
n 本研究のアイディア
• そもそも“重要な特徴量の組”を一つ探そうとしているから難しい。
• “重要な特徴量の組”をたくさん見つけて、それをユーザに提示したらどう
か?
→ 「Lasso解を複数列挙する問題」を考える。
15
Xという病気に関連す
る項目は。。。
「身長」と「血圧」
う〜ん?
研究背景:ユーザに信頼される特徴選択をしたい。
n しかし、“間違えない特徴選択”は難しい。
• Lassoは選ばれた特徴量が“真に重要な特徴量”であることが保証されな
い。
- Adaptive Lassoをはじめ、様々な改善法が考案されている。
- しかし、有限のデータから学習している以上、エラーは避けられない。
n 本研究のアイディア
• そもそも“重要な特徴量の組”を一つ探そうとしているから難しい。
• “重要な特徴量の組”をたくさん見つけて、それをユーザに提示したらどう
か?
→ 「Lasso解を複数列挙する問題」を考える。
16
Xという病気に関連す
る項目は。。。
「身長」と「血圧」
う〜ん?
「体重」と「血糖値」
う〜ん?
研究背景:ユーザに信頼される特徴選択をしたい。
n しかし、“間違えない特徴選択”は難しい。
• Lassoは選ばれた特徴量が“真に重要な特徴量”であることが保証されな
い。
- Adaptive Lassoをはじめ、様々な改善法が考案されている。
- しかし、有限のデータから学習している以上、エラーは避けられない。
n 本研究のアイディア
• そもそも“重要な特徴量の組”を一つ探そうとしているから難しい。
• “重要な特徴量の組”をたくさん見つけて、それをユーザに提示したらどう
か?
→ 「Lasso解を複数列挙する問題」を考える。
17
Xという病気に関連す
る項目は。。。
「身長」と「血圧」
う〜ん?
「体重」と「血糖値」
う〜ん?
「体重」と「血圧」
これだ!!
Lasso
18
Lassoによる特徴選択
スパース線形回帰問題
Given: 入出力のペア 𝑥", 𝑦" ∈ ℝ'×ℝ	 𝑖 = 1, 2, … , 𝑁
Find: 回帰係数𝛽 ∈ ℝ' s.t. 𝑥"
1
𝛽 ≈ 𝑦	(𝑖 = 1, 2, … , 𝑁)
ただし、𝛽は非ゼロ要素が少ない(スパース)
n スパース性
• 物理的要請
- 大量の特徴量のうち、効く特徴量は少ないはずという直感。
• 解釈性向上
- 解から意味のある特徴量を見出したい。変数の絞込み。
解法:Lasso回帰( ℓ6正則化)
𝛽∗ = argmin
>
	
1
2
	 𝑋𝛽 − 𝑦 A + 𝜌 𝛽 6
• Lasso解𝛽∗はスパース。supp(𝛽∗) = {𝑖 ∶ 𝛽"
∗
≠ 0}が重要な特徴量。
19
Lassoの理論的正当性:復元定理
Lasso解:𝛽∗ = argmin
>
	
6
A
	 𝑋𝛽 − 𝑦 A + 𝜌 𝛽 6
適当な設定の元で、Lasso解𝛽∗は真のパラメータ𝛽Lのサポート(非
零要素)を高い確率で復元する。
n 仮定
• 真のモデルが𝑦 = 𝑋𝛽L + 𝑤;	𝛽Lはスパース, 𝑤 ∼ 𝑁(0, 𝜎A)
• 正則化パラメータ𝜌は十分小さい。
• 𝑋の各行は十分独立(高相関な特徴量はない)。
n 上記仮定の元で、高い確率で真のパラメータ𝛽Lのサポートが復
元できる。
supp(𝛽∗) = 	supp(𝛽L)
20
Lassoの限界:重要な特徴量を見落とす。
n 高次元データでは、類似した特徴量が存在することが多い。
• 類似特徴量のうち、どれを使っても同等の予測精度のモデルが作れる。
• 「𝑋の各行は十分独立(高相関な特徴量はない)」という仮定が成立しない
場合に相当。
→このような場合、Lassoは類似特徴量の一部だけを使い残りを無
視する。
n Lassoの限界:類似特徴量の中の重要な特徴量を見落とす。
• 例えば、「身長」と「体重」のような相関の高い特徴量のうち、片方(例えば
「身長」)だけを使ったモデルを出力する。
→「体重」を見落とす。「体重」を使ったモデルを期待するユーザとの間に齟
齬が起きる。
n 本研究:「身長」、「体重」それぞれを使ったモデルを両方出力す
る。
21
本研究の成果:Lasso解の列挙
成果1:アルゴリズム
Lassoの解を目的関数値の昇順にサポートを列挙するアルゴリズム。
列挙した解からユーザに気に入った解を選んでもらう。
成果2:列挙版の復元定理
正則化パラメータ𝜌が十分小さければ、適当な個数だけ解を列挙すれば真の
パラメータ𝛽Lのサポートを復元するものが見つかる。
- どれがサポート復元するかは特定不能(なんらかの別基準が必要)。
- 何個列挙すればいいかは問題依存(傾向は理論的にわかる)。
副次的な成果
Lassoで得られた特徴量を安易に信頼するのは危険。
実データで、実際に同等な解が無数に存在することを確認。
22
問題の定式化と提案法
23
問題の定式化:Lasso解の列挙
n 解のサポートを𝑆 ⊆ {𝑥6, 𝑥A, … , 𝑥'}に制限したLasso:
Lasso 𝑆 = min
>
	
6
A
	 𝑋𝛽 − 𝑦 A + 𝜌 𝛽 6	 s.t. supp 𝛽 ⊆ 𝑆
問題:Lasso解の列挙
Lasso 𝑆 の小さい順に極小の𝑆を𝑘個列挙する。
(極小:supp 𝛽 = 𝑆となるもの。それ以外は冗長。)
【注意】正則化パスに基づいた解の列挙ではない。
• 正則化パスでは疎な解から密な解へと𝜌を変化させた時の解を列挙する。
• 本問題では𝜌固定の元で、目的関数値が昇順になるように解のサポートを列
挙する。
• 𝑥6, 𝑥A, 𝑥V , 𝑥6, 𝑥A, 𝑥W , 𝑥6, 𝑥W, 𝑥X , 𝑥6, 𝑥A , …
24
最適解での目的関数値をLasso 𝑆 とする。
アルゴリズム:『Lawlerの 𝒌-best列挙』
アルゴリズム概略
1. サポート𝑆を入力して、特徴量の集合𝑇が出力されたとする。
2. 全ての𝑡 ∈ 𝑇について
𝑆からを𝑡を取り除いた𝑆
= 𝑆 ∖ {𝑡}を作る 。
Lasso(𝑆′)の解𝑇′を得る。
(𝑇
, 𝑆′)を解の候補としてヒープに保持する。
3. 保持している解の候補のうち、目的関数値が最小のものを出力する。
4. 以上、繰り返し。
25
アルゴリズム:『Lawlerの 𝒌-best列挙』
アルゴリズム概略
1. サポート 𝑺を入力して、特徴量の集合 𝑻が出力されたとする。
2. 全ての𝑡 ∈ 𝑇について
𝑆からを𝑡を取り除いた𝑆
= 𝑆 ∖ {𝑡}を作る 。
Lasso(𝑆′)の解𝑇′を得る。
(𝑇
, 𝑆′)を解の候補としてヒープに保持する。
3. 保持している解の候補のうち、目的関数値が最小のものを出力する。
4. 以上、繰り返し。
26
解の候補
Lasso
ソルバ
𝑇 = 𝑥6, 𝑥A, 𝑥V
出力
𝑆 = 𝑥6, 𝑥A, 𝑥W, 𝑥V, 𝑥X
𝑇6 = 𝑥6, 𝑥A, 𝑥V
𝑆6 = 𝑥6, 𝑥A, 𝑥W, 𝑥V, 𝑥X
アルゴリズム:『Lawlerの 𝒌-best列挙』
アルゴリズム概略
1. サポート𝑆を入力して、特徴量の集合𝑇が出力されたとする。
2. 全ての 𝒕 ∈ 𝑻について
𝑺からを 𝒕を取り除いた 𝑺
= 𝑺 ∖ {𝒕}を作る 。
Lasso(𝑆′)の解𝑇′を得る。
(𝑇
, 𝑆′)を解の候補としてヒープに保持する。
3. 保持している解の候補のうち、目的関数値が最小のものを出力する。
4. 以上、繰り返し。
27
解の候補
𝑆6

= 𝑥A, 𝑥W, 𝑥V, 𝑥X
𝑆A

= 𝑥6, 𝑥W, 𝑥V, 𝑥X
𝑆W

= 𝑥6, 𝑥A, 𝑥W, 𝑥X
𝑆6 = 𝑥6, 𝑥A, 𝑥W, 𝑥V, 𝑥X
Lasso
ソルバ
𝑇6 = 𝑥6, 𝑥A, 𝑥V
𝑆6 = 𝑥6, 𝑥A, 𝑥W, 𝑥V, 𝑥X
アルゴリズム:『Lawlerの 𝒌-best列挙』
アルゴリズム概略
1. サポート𝑆を入力して、特徴量の集合𝑇が出力されたとする。
2. 全ての 𝒕 ∈ 𝑻について
𝑆からを𝑡を取り除いた𝑆
= 𝑆 ∖ {𝑡}を作る 。
𝐋𝐚𝐬𝐬𝐨(𝑺′)の解 𝑻′を得る。
(𝑻
, 𝑺′)を解の候補としてヒープに保持する。
3. 保持している解の候補のうち、目的関数値が最小のものを出力する。
4. 以上、繰り返し。
28
解の候補
(𝑇6

= 𝑥A, 𝑥V, 𝑥X , 𝑆6

)𝑆6

= 𝑥A, 𝑥W, 𝑥V, 𝑥X
𝑆A

= 𝑥6, 𝑥W, 𝑥V, 𝑥X
𝑆W

= 𝑥6, 𝑥A, 𝑥W, 𝑥X
𝑆6 = 𝑥6, 𝑥A, 𝑥W, 𝑥V, 𝑥X
Lasso
ソルバ
𝑇6 = 𝑥6, 𝑥A, 𝑥V
𝑆6 = 𝑥6, 𝑥A, 𝑥W, 𝑥V, 𝑥X
アルゴリズム:『Lawlerの 𝒌-best列挙』
アルゴリズム概略
1. サポート𝑆を入力して、特徴量の集合𝑇が出力されたとする。
2. 全ての 𝒕 ∈ 𝑻について
𝑆からを𝑡を取り除いた𝑆
= 𝑆 ∖ {𝑡}を作る 。
𝐋𝐚𝐬𝐬𝐨(𝑺′)の解 𝑻′を得る。
(𝑻
, 𝑺′)を解の候補としてヒープに保持する。
3. 保持している解の候補のうち、目的関数値が最小のものを出力する。
4. 以上、繰り返し。
29
解の候補
(𝑇6

= 𝑥A, 𝑥V, 𝑥X , 𝑆6

)𝑆6

= 𝑥A, 𝑥W, 𝑥V, 𝑥X
𝑆A

= 𝑥6, 𝑥W, 𝑥V, 𝑥X
𝑆W

= 𝑥6, 𝑥A, 𝑥W, 𝑥X
𝑆6 = 𝑥6, 𝑥A, 𝑥W, 𝑥V, 𝑥X
Lasso
ソルバ
(𝑇A

= 𝑥6, 𝑥W, 𝑥V , 𝑆A

)
𝑇6 = 𝑥6, 𝑥A, 𝑥V
𝑆6 = 𝑥6, 𝑥A, 𝑥W, 𝑥V, 𝑥X
アルゴリズム:『Lawlerの 𝒌-best列挙』
アルゴリズム概略
1. サポート𝑆を入力して、特徴量の集合𝑇が出力されたとする。
2. 全ての 𝒕 ∈ 𝑻について
𝑆からを𝑡を取り除いた𝑆
= 𝑆 ∖ {𝑡}を作る 。
𝐋𝐚𝐬𝐬𝐨(𝑺′)の解 𝑻′を得る。
(𝑻
, 𝑺′)を解の候補としてヒープに保持する。
3. 保持している解の候補のうち、目的関数値が最小のものを出力する。
4. 以上、繰り返し。
30
解の候補
(𝑇6

= 𝑥A, 𝑥V, 𝑥X , 𝑆6

)𝑆6

= 𝑥A, 𝑥W, 𝑥V, 𝑥X
𝑆A

= 𝑥6, 𝑥W, 𝑥V, 𝑥X
𝑆W

= 𝑥6, 𝑥A, 𝑥W, 𝑥X
𝑆6 = 𝑥6, 𝑥A, 𝑥W, 𝑥V, 𝑥X
Lasso
ソルバ
(𝑇A

= 𝑥6, 𝑥W, 𝑥V , 𝑆A

)
(𝑇W

= 𝑥6, 𝑥A, 𝑥X , 𝑆W

)𝑇6 = 𝑥6, 𝑥A, 𝑥V
𝑆6 = 𝑥6, 𝑥A, 𝑥W, 𝑥V, 𝑥X
アルゴリズム:『Lawlerの 𝒌-best列挙』
アルゴリズム概略
1. サポート𝑆を入力して、特徴量の集合𝑇が出力されたとする。
2. 全ての𝑡 ∈ 𝑇について
𝑆からを𝑡を取り除いた𝑆
= 𝑆 ∖ {𝑡}を作る 。
𝐿𝑎𝑠𝑠𝑜(𝑆′)の解𝑇′を得る。
(𝑇
, 𝑆′)を解の候補としてヒープに保持する。
3. 保持している解の候補のうち、目的関数値が最小のものを出力する。
4. 以上、繰り返し。
31
解の候補
(𝑇6

= 𝑥A, 𝑥V, 𝑥X , 𝑆6

)
Lasso
ソルバ
(𝑇A

= 𝑥6, 𝑥W, 𝑥V , 𝑆A

)
(𝑇W

= 𝑥6, 𝑥A, 𝑥X , 𝑆W

)出力
𝑇A = 𝑥A, 𝑥V, 𝑥X
𝑆A = 𝑥A, 𝑥W, 𝑥V, 𝑥X
𝑇6 = 𝑥6, 𝑥A, 𝑥V
𝑆6 = 𝑥6, 𝑥A, 𝑥W, 𝑥V, 𝑥X
アルゴリズム:『Lawlerの 𝒌-best列挙』
アルゴリズム概略
1. サポート𝑆を入力して、特徴量の集合𝑇が出力されたとする。
2. 全ての 𝒕 ∈ 𝑻について
𝑺からを 𝒕を取り除いた 𝑺
= 𝑺 ∖ {𝒕}を作る 。
Lasso(𝑆′)の解𝑇′を得る。
(𝑇
, 𝑆′)を解の候補としてヒープに保持する。
3. 保持している解の候補のうち、目的関数値が最小のものを出力する。
4. 以上、繰り返し。
32
解の候補
Lasso
ソルバ
𝑇6 = 𝑥6, 𝑥A, 𝑥V
𝑆6 = 𝑥6, 𝑥A, 𝑥W, 𝑥V, 𝑥X
(𝑇A

= 𝑥6, 𝑥W, 𝑥V , 𝑆A

)
(𝑇W

= 𝑥6, 𝑥A, 𝑥X , 𝑆W

)
𝑇A = 𝑥A, 𝑥V, 𝑥X
𝑆A = 𝑥A, 𝑥W, 𝑥V, 𝑥X
𝑆V

= 𝑥W, 𝑥V, 𝑥X
𝑆X

= 𝑥A, 𝑥W, 𝑥X
𝑆j

= 𝑥A, 𝑥W, 𝑥V	
𝑆A = 𝑥A, 𝑥W, 𝑥V, 𝑥X
アルゴリズムの妥当性
定理
提案法によりLasso 𝑆 の小さい順に極小の𝑆を列挙できる。
n 不要な探索をスキップすることで、提案法を効率化できる。
• 既に探索した𝑆を重複して探索しないようにする。取り除く変数の履歴を保
持する。
• 探索したことのない𝑆	についても、Lassoの最適性条件から解が既に探索
済みのものと一致することが判定できることがある。
33
列挙版の復元定理
定理概略
適当な仮定の元で、十分たくさん列挙すれば、高い確率で列挙した解の中に
supp(𝛽L)が含まれる。
n 適当な仮定・⾼い確率:
• 正則化パラメータ𝜌は⼗分⼩さい(𝛽Lの⾮ゼロ成分を下からバウンド)。
• ノイズが⼩さいほど確率は⾼い。
n 列挙個数について⾔えること:
• 正則化パラメータ𝜌が⼩さいほど列挙すべき要素が増える。
• 𝑋の独⽴性が低い(高相関の特徴量が多い)ほど列挙すべき要素が増え
る。
34
実験結果
35
実験1. シロイズナの開花
n Thaliana gene expression data (Atwell et al. ’10):
どの遺伝⼦が開花に効くかを知りたい。
• 𝑥 ∈	ℝA6j6Wk:遺伝⼦各パターンが⽣起しているかどうか(2 値)
• 𝑦 ∈ ℝ:発現量
• データ数(個体数):134
36
50個列挙しても、目的関数値は0.05%
しか増加しなかった。
大域解が6個あった。
解のサポートのサイズは
大体40~45くらい。
大域解が複数ある = 単純にLassoを適用すると、6個のうちの1つが見つかるだけ。他の特徴量は見落とす。
実験2. ニュース記事の分類
n 20 Newsgroups Data (Lang’95); ibm vs mac
ニュース記事を二つのカテゴリに分類するのに特徴的な単語を知りたい。
• 𝑥 ∈	ℝ66jVl:単語の発現(実数値、tf-idf)
• 𝑦 ∈ {ibm, mac}	:記事のカテゴリ(2値)
• データ数(投稿数):1168
→ 分類問題なので、ロジスティック回帰に提案法を適用。
37
大域解にあった語 列挙解で置き換わった語
drive, os, diskのようなibmマシン(Windows
機)に特有の単語が見落とされていたのが
見つかった。
040, 610のようなmacマシン(型番)に特有
の単語が見落とされていたのが見つかった。
まとめ
n 問題意識:ユーザに信頼される特徴選択をしたい。
• 単一の特徴選択結果を出力するのでなく、複数の結果を列挙して出力す
る。
n 「Lasso解のサポート列挙」として問題を定式化した。
n Lawlerの𝑘-best フレームワークを適⽤した効率的なアルゴリズ
ムを設計。
n 列挙版のスパース復元定理を証明した。
• どれだけ列挙するかは問題パラメタ依存。
n 実験より,実際の特徴選択問題には「同じくらいの品質の解が
⼤量に存在する」ことを確認。
• Lasso で得られた特徴量を安易に信じるのは危険。
38
GitHub: sato9hara/LassoVariants
補足資料
39
列挙版の復元定理(完全版)
n 仮定:𝑦 = 𝑋𝛽L + 𝑤; 𝛽Lスパース, 𝑤 ∼ 𝑁(0, 𝜎^2)
• 𝑋𝛽L − 𝑦 A ≤ 𝛿 𝑋𝛽∗ − 𝑦 A for some 𝛿 ≥ 0
• 𝑋𝛽∗ − 𝑦 A ≤ 𝜖 for some 𝜖 ≥ 0
• ∀𝑢 ≠ 0 with 𝑋𝑢 A ≤ 1 + 𝛿 𝜖, 𝑢vw 6 ≤ 𝛾 𝑢vwy 6	for some 𝛾 ≥
max{1, 𝛿A}
定理1:No False Inclusion
By enumerating solutions up to 𝐿 𝛽 ℓ ≥ 𝛾𝐿(𝛽∗), we can find 𝛽 { , 𝑆 { ,
1 ≤ 𝑘 ≤ ℓ such that supp 𝛽 { ⊆ supp 𝛽L ⊆ 𝑆 { and 𝐿 𝛽 { ≤ 𝐿(𝛽L).
定理2:No False Exclusion
Let 𝛽 { , 𝑆 { be an enumerated solution where supp 𝛽 { ⊆
supp 𝛽L ⊆ 𝑆 { . If 𝑋vw
1
𝑋vw is invertible, then we have
supp 𝛽 { 	⊇ 𝑖 ∶ 𝛽"
L
> 2𝜌 𝑋vw
1
𝑋vw
~6
•
with probability 1	 − 𝑆L	 exp −𝜌A/2𝜎 𝜆ƒ„… 𝑋vw
1
𝑋vw .
40

More Related Content

What's hot

SHAP値の考え方を理解する(木構造編)
SHAP値の考え方を理解する(木構造編)SHAP値の考え方を理解する(木構造編)
SHAP値の考え方を理解する(木構造編)Kazuyuki Wakasugi
 
機械学習モデルのハイパパラメータ最適化
機械学習モデルのハイパパラメータ最適化機械学習モデルのハイパパラメータ最適化
機械学習モデルのハイパパラメータ最適化gree_tech
 
最適輸送の計算アルゴリズムの研究動向
最適輸送の計算アルゴリズムの研究動向最適輸送の計算アルゴリズムの研究動向
最適輸送の計算アルゴリズムの研究動向ohken
 
変分推論法(変分ベイズ法)(PRML第10章)
変分推論法(変分ベイズ法)(PRML第10章)変分推論法(変分ベイズ法)(PRML第10章)
変分推論法(変分ベイズ法)(PRML第10章)Takao Yamanaka
 
【DL輪読会】時系列予測 Transfomers の精度向上手法
【DL輪読会】時系列予測 Transfomers の精度向上手法【DL輪読会】時系列予測 Transfomers の精度向上手法
【DL輪読会】時系列予測 Transfomers の精度向上手法Deep Learning JP
 
[DL輪読会]The Neural Process Family−Neural Processes関連の実装を読んで動かしてみる−
[DL輪読会]The Neural Process Family−Neural Processes関連の実装を読んで動かしてみる−[DL輪読会]The Neural Process Family−Neural Processes関連の実装を読んで動かしてみる−
[DL輪読会]The Neural Process Family−Neural Processes関連の実装を読んで動かしてみる−Deep Learning JP
 
[DL輪読会]近年のエネルギーベースモデルの進展
[DL輪読会]近年のエネルギーベースモデルの進展[DL輪読会]近年のエネルギーベースモデルの進展
[DL輪読会]近年のエネルギーベースモデルの進展Deep Learning JP
 
不均衡データのクラス分類
不均衡データのクラス分類不均衡データのクラス分類
不均衡データのクラス分類Shintaro Fukushima
 
[DL輪読会]Temporal DifferenceVariationalAuto-Encoder
[DL輪読会]Temporal DifferenceVariationalAuto-Encoder[DL輪読会]Temporal DifferenceVariationalAuto-Encoder
[DL輪読会]Temporal DifferenceVariationalAuto-EncoderDeep Learning JP
 
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
【DL輪読会】Efficiently Modeling Long Sequences with Structured State SpacesDeep Learning JP
 
最適輸送入門
最適輸送入門最適輸送入門
最適輸送入門joisino
 
機械学習のためのベイズ最適化入門
機械学習のためのベイズ最適化入門機械学習のためのベイズ最適化入門
機械学習のためのベイズ最適化入門hoxo_m
 
スパースモデリング、スパースコーディングとその数理(第11回WBA若手の会)
スパースモデリング、スパースコーディングとその数理(第11回WBA若手の会)スパースモデリング、スパースコーディングとその数理(第11回WBA若手の会)
スパースモデリング、スパースコーディングとその数理(第11回WBA若手の会)narumikanno0918
 
【DL輪読会】Which Shortcut Cues Will DNNs Choose? A Study from the Parameter-Space...
【DL輪読会】Which Shortcut Cues Will DNNs Choose? A Study from the Parameter-Space...【DL輪読会】Which Shortcut Cues Will DNNs Choose? A Study from the Parameter-Space...
【DL輪読会】Which Shortcut Cues Will DNNs Choose? A Study from the Parameter-Space...Deep Learning JP
 
機械学習におけるオンライン確率的最適化の理論
機械学習におけるオンライン確率的最適化の理論機械学習におけるオンライン確率的最適化の理論
機械学習におけるオンライン確率的最適化の理論Taiji Suzuki
 
モンテカルロサンプリング
モンテカルロサンプリングモンテカルロサンプリング
モンテカルロサンプリングKosei ABE
 
Semi supervised, weakly-supervised, unsupervised, and active learning
Semi supervised, weakly-supervised, unsupervised, and active learningSemi supervised, weakly-supervised, unsupervised, and active learning
Semi supervised, weakly-supervised, unsupervised, and active learningYusuke Uchida
 
機械学習による統計的実験計画(ベイズ最適化を中心に)
機械学習による統計的実験計画(ベイズ最適化を中心に)機械学習による統計的実験計画(ベイズ最適化を中心に)
機械学習による統計的実験計画(ベイズ最適化を中心に)Kota Matsui
 
Rで階層ベイズモデル
Rで階層ベイズモデルRで階層ベイズモデル
Rで階層ベイズモデルYohei Sato
 

What's hot (20)

SHAP値の考え方を理解する(木構造編)
SHAP値の考え方を理解する(木構造編)SHAP値の考え方を理解する(木構造編)
SHAP値の考え方を理解する(木構造編)
 
機械学習モデルのハイパパラメータ最適化
機械学習モデルのハイパパラメータ最適化機械学習モデルのハイパパラメータ最適化
機械学習モデルのハイパパラメータ最適化
 
最適輸送の計算アルゴリズムの研究動向
最適輸送の計算アルゴリズムの研究動向最適輸送の計算アルゴリズムの研究動向
最適輸送の計算アルゴリズムの研究動向
 
変分推論法(変分ベイズ法)(PRML第10章)
変分推論法(変分ベイズ法)(PRML第10章)変分推論法(変分ベイズ法)(PRML第10章)
変分推論法(変分ベイズ法)(PRML第10章)
 
【DL輪読会】時系列予測 Transfomers の精度向上手法
【DL輪読会】時系列予測 Transfomers の精度向上手法【DL輪読会】時系列予測 Transfomers の精度向上手法
【DL輪読会】時系列予測 Transfomers の精度向上手法
 
[DL輪読会]The Neural Process Family−Neural Processes関連の実装を読んで動かしてみる−
[DL輪読会]The Neural Process Family−Neural Processes関連の実装を読んで動かしてみる−[DL輪読会]The Neural Process Family−Neural Processes関連の実装を読んで動かしてみる−
[DL輪読会]The Neural Process Family−Neural Processes関連の実装を読んで動かしてみる−
 
[DL輪読会]近年のエネルギーベースモデルの進展
[DL輪読会]近年のエネルギーベースモデルの進展[DL輪読会]近年のエネルギーベースモデルの進展
[DL輪読会]近年のエネルギーベースモデルの進展
 
不均衡データのクラス分類
不均衡データのクラス分類不均衡データのクラス分類
不均衡データのクラス分類
 
一般化線形モデル (GLM) & 一般化加法モデル(GAM)
一般化線形モデル (GLM) & 一般化加法モデル(GAM) 一般化線形モデル (GLM) & 一般化加法モデル(GAM)
一般化線形モデル (GLM) & 一般化加法モデル(GAM)
 
[DL輪読会]Temporal DifferenceVariationalAuto-Encoder
[DL輪読会]Temporal DifferenceVariationalAuto-Encoder[DL輪読会]Temporal DifferenceVariationalAuto-Encoder
[DL輪読会]Temporal DifferenceVariationalAuto-Encoder
 
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
 
最適輸送入門
最適輸送入門最適輸送入門
最適輸送入門
 
機械学習のためのベイズ最適化入門
機械学習のためのベイズ最適化入門機械学習のためのベイズ最適化入門
機械学習のためのベイズ最適化入門
 
スパースモデリング、スパースコーディングとその数理(第11回WBA若手の会)
スパースモデリング、スパースコーディングとその数理(第11回WBA若手の会)スパースモデリング、スパースコーディングとその数理(第11回WBA若手の会)
スパースモデリング、スパースコーディングとその数理(第11回WBA若手の会)
 
【DL輪読会】Which Shortcut Cues Will DNNs Choose? A Study from the Parameter-Space...
【DL輪読会】Which Shortcut Cues Will DNNs Choose? A Study from the Parameter-Space...【DL輪読会】Which Shortcut Cues Will DNNs Choose? A Study from the Parameter-Space...
【DL輪読会】Which Shortcut Cues Will DNNs Choose? A Study from the Parameter-Space...
 
機械学習におけるオンライン確率的最適化の理論
機械学習におけるオンライン確率的最適化の理論機械学習におけるオンライン確率的最適化の理論
機械学習におけるオンライン確率的最適化の理論
 
モンテカルロサンプリング
モンテカルロサンプリングモンテカルロサンプリング
モンテカルロサンプリング
 
Semi supervised, weakly-supervised, unsupervised, and active learning
Semi supervised, weakly-supervised, unsupervised, and active learningSemi supervised, weakly-supervised, unsupervised, and active learning
Semi supervised, weakly-supervised, unsupervised, and active learning
 
機械学習による統計的実験計画(ベイズ最適化を中心に)
機械学習による統計的実験計画(ベイズ最適化を中心に)機械学習による統計的実験計画(ベイズ最適化を中心に)
機械学習による統計的実験計画(ベイズ最適化を中心に)
 
Rで階層ベイズモデル
Rで階層ベイズモデルRで階層ベイズモデル
Rで階層ベイズモデル
 

Similar to 特徴選択のためのLasso解列挙

機械学習モデルの列挙
機械学習モデルの列挙機械学習モデルの列挙
機械学習モデルの列挙Satoshi Hara
 
わかりやすいパターン認識 4章
わかりやすいパターン認識 4章わかりやすいパターン認識 4章
わかりやすいパターン認識 4章Motokawa Tetsuya
 
scala.collection 再入門 (改)
scala.collection 再入門 (改)scala.collection 再入門 (改)
scala.collection 再入門 (改)Ryuichi ITO
 
Yamadai.Rデモンストレーションセッション
Yamadai.RデモンストレーションセッションYamadai.Rデモンストレーションセッション
Yamadai.Rデモンストレーションセッション考司 小杉
 
純粋関数型アルゴリズム入門
純粋関数型アルゴリズム入門純粋関数型アルゴリズム入門
純粋関数型アルゴリズム入門Kimikazu Kato
 
表現論 ゼミ資料
表現論 ゼミ資料表現論 ゼミ資料
表現論 ゼミ資料HanpenRobot
 
ゼロから始めるScala文法 (再)
ゼロから始めるScala文法 (再)ゼロから始めるScala文法 (再)
ゼロから始めるScala文法 (再)Suguru Hamazaki
 
プログラミングHaskell(第1章)
プログラミングHaskell(第1章)プログラミングHaskell(第1章)
プログラミングHaskell(第1章)yaju88
 
Fisher線形判別分析とFisher Weight Maps
Fisher線形判別分析とFisher Weight MapsFisher線形判別分析とFisher Weight Maps
Fisher線形判別分析とFisher Weight MapsTakao Yamanaka
 
ベイズ識別 一般化逆行列
ベイズ識別 一般化逆行列ベイズ識別 一般化逆行列
ベイズ識別 一般化逆行列HanpenRobot
 
[DL輪読会]Learn What Not to Learn: Action Elimination with Deep Reinforcement Le...
[DL輪読会]Learn What Not to Learn: Action Elimination with Deep Reinforcement Le...[DL輪読会]Learn What Not to Learn: Action Elimination with Deep Reinforcement Le...
[DL輪読会]Learn What Not to Learn: Action Elimination with Deep Reinforcement Le...Deep Learning JP
 
パターン認識と機械学習 13章 系列データ
パターン認識と機械学習 13章 系列データパターン認識と機械学習 13章 系列データ
パターン認識と機械学習 13章 系列データemonosuke
 
Introduction of "the alternate features search" using R
Introduction of  "the alternate features search" using RIntroduction of  "the alternate features search" using R
Introduction of "the alternate features search" using RSatoshi Kato
 
圏論のモナドとHaskellのモナド
圏論のモナドとHaskellのモナド圏論のモナドとHaskellのモナド
圏論のモナドとHaskellのモナドYoshihiro Mizoguchi
 
初心者講習会資料(Osaka.r#6)
初心者講習会資料(Osaka.r#6)初心者講習会資料(Osaka.r#6)
初心者講習会資料(Osaka.r#6)Masahiro Hayashi
 
Fourier analysis on symmetric group
Fourier analysis on symmetric groupFourier analysis on symmetric group
Fourier analysis on symmetric groupHanpenRobot
 

Similar to 特徴選択のためのLasso解列挙 (16)

機械学習モデルの列挙
機械学習モデルの列挙機械学習モデルの列挙
機械学習モデルの列挙
 
わかりやすいパターン認識 4章
わかりやすいパターン認識 4章わかりやすいパターン認識 4章
わかりやすいパターン認識 4章
 
scala.collection 再入門 (改)
scala.collection 再入門 (改)scala.collection 再入門 (改)
scala.collection 再入門 (改)
 
Yamadai.Rデモンストレーションセッション
Yamadai.RデモンストレーションセッションYamadai.Rデモンストレーションセッション
Yamadai.Rデモンストレーションセッション
 
純粋関数型アルゴリズム入門
純粋関数型アルゴリズム入門純粋関数型アルゴリズム入門
純粋関数型アルゴリズム入門
 
表現論 ゼミ資料
表現論 ゼミ資料表現論 ゼミ資料
表現論 ゼミ資料
 
ゼロから始めるScala文法 (再)
ゼロから始めるScala文法 (再)ゼロから始めるScala文法 (再)
ゼロから始めるScala文法 (再)
 
プログラミングHaskell(第1章)
プログラミングHaskell(第1章)プログラミングHaskell(第1章)
プログラミングHaskell(第1章)
 
Fisher線形判別分析とFisher Weight Maps
Fisher線形判別分析とFisher Weight MapsFisher線形判別分析とFisher Weight Maps
Fisher線形判別分析とFisher Weight Maps
 
ベイズ識別 一般化逆行列
ベイズ識別 一般化逆行列ベイズ識別 一般化逆行列
ベイズ識別 一般化逆行列
 
[DL輪読会]Learn What Not to Learn: Action Elimination with Deep Reinforcement Le...
[DL輪読会]Learn What Not to Learn: Action Elimination with Deep Reinforcement Le...[DL輪読会]Learn What Not to Learn: Action Elimination with Deep Reinforcement Le...
[DL輪読会]Learn What Not to Learn: Action Elimination with Deep Reinforcement Le...
 
パターン認識と機械学習 13章 系列データ
パターン認識と機械学習 13章 系列データパターン認識と機械学習 13章 系列データ
パターン認識と機械学習 13章 系列データ
 
Introduction of "the alternate features search" using R
Introduction of  "the alternate features search" using RIntroduction of  "the alternate features search" using R
Introduction of "the alternate features search" using R
 
圏論のモナドとHaskellのモナド
圏論のモナドとHaskellのモナド圏論のモナドとHaskellのモナド
圏論のモナドとHaskellのモナド
 
初心者講習会資料(Osaka.r#6)
初心者講習会資料(Osaka.r#6)初心者講習会資料(Osaka.r#6)
初心者講習会資料(Osaka.r#6)
 
Fourier analysis on symmetric group
Fourier analysis on symmetric groupFourier analysis on symmetric group
Fourier analysis on symmetric group
 

More from Satoshi Hara

Explanation in Machine Learning and Its Reliability
Explanation in Machine Learning and Its ReliabilityExplanation in Machine Learning and Its Reliability
Explanation in Machine Learning and Its ReliabilitySatoshi Hara
 
“機械学習の説明”の信頼性
“機械学習の説明”の信頼性“機械学習の説明”の信頼性
“機械学習の説明”の信頼性Satoshi Hara
 
【論文調査】XAI技術の効能を ユーザ実験で評価する研究
【論文調査】XAI技術の効能を ユーザ実験で評価する研究【論文調査】XAI技術の効能を ユーザ実験で評価する研究
【論文調査】XAI技術の効能を ユーザ実験で評価する研究Satoshi Hara
 
機械学習で嘘をつく話
機械学習で嘘をつく話機械学習で嘘をつく話
機械学習で嘘をつく話Satoshi Hara
 
機械学習モデルの判断根拠の説明(Ver.2)
機械学習モデルの判断根拠の説明(Ver.2)機械学習モデルの判断根拠の説明(Ver.2)
機械学習モデルの判断根拠の説明(Ver.2)Satoshi Hara
 
異常の定義と推定
異常の定義と推定異常の定義と推定
異常の定義と推定Satoshi Hara
 
Convex Hull Approximation of Nearly Optimal Lasso Solutions
Convex Hull Approximation of Nearly Optimal Lasso SolutionsConvex Hull Approximation of Nearly Optimal Lasso Solutions
Convex Hull Approximation of Nearly Optimal Lasso SolutionsSatoshi Hara
 
Theoretical Linear Convergence of Unfolded ISTA and its Practical Weights and...
Theoretical Linear Convergence of Unfolded ISTA and its Practical Weights and...Theoretical Linear Convergence of Unfolded ISTA and its Practical Weights and...
Theoretical Linear Convergence of Unfolded ISTA and its Practical Weights and...Satoshi Hara
 
機械学習モデルの判断根拠の説明
機械学習モデルの判断根拠の説明機械学習モデルの判断根拠の説明
機械学習モデルの判断根拠の説明Satoshi Hara
 
Maximally Invariant Data Perturbation as Explanation
Maximally Invariant Data Perturbation as ExplanationMaximally Invariant Data Perturbation as Explanation
Maximally Invariant Data Perturbation as ExplanationSatoshi Hara
 
アンサンブル木モデル解釈のためのモデル簡略化法
アンサンブル木モデル解釈のためのモデル簡略化法アンサンブル木モデル解釈のためのモデル簡略化法
アンサンブル木モデル解釈のためのモデル簡略化法Satoshi Hara
 
KDD'17読み会:Anomaly Detection with Robust Deep Autoencoders
KDD'17読み会:Anomaly Detection with Robust Deep AutoencodersKDD'17読み会:Anomaly Detection with Robust Deep Autoencoders
KDD'17読み会:Anomaly Detection with Robust Deep AutoencodersSatoshi Hara
 

More from Satoshi Hara (12)

Explanation in Machine Learning and Its Reliability
Explanation in Machine Learning and Its ReliabilityExplanation in Machine Learning and Its Reliability
Explanation in Machine Learning and Its Reliability
 
“機械学習の説明”の信頼性
“機械学習の説明”の信頼性“機械学習の説明”の信頼性
“機械学習の説明”の信頼性
 
【論文調査】XAI技術の効能を ユーザ実験で評価する研究
【論文調査】XAI技術の効能を ユーザ実験で評価する研究【論文調査】XAI技術の効能を ユーザ実験で評価する研究
【論文調査】XAI技術の効能を ユーザ実験で評価する研究
 
機械学習で嘘をつく話
機械学習で嘘をつく話機械学習で嘘をつく話
機械学習で嘘をつく話
 
機械学習モデルの判断根拠の説明(Ver.2)
機械学習モデルの判断根拠の説明(Ver.2)機械学習モデルの判断根拠の説明(Ver.2)
機械学習モデルの判断根拠の説明(Ver.2)
 
異常の定義と推定
異常の定義と推定異常の定義と推定
異常の定義と推定
 
Convex Hull Approximation of Nearly Optimal Lasso Solutions
Convex Hull Approximation of Nearly Optimal Lasso SolutionsConvex Hull Approximation of Nearly Optimal Lasso Solutions
Convex Hull Approximation of Nearly Optimal Lasso Solutions
 
Theoretical Linear Convergence of Unfolded ISTA and its Practical Weights and...
Theoretical Linear Convergence of Unfolded ISTA and its Practical Weights and...Theoretical Linear Convergence of Unfolded ISTA and its Practical Weights and...
Theoretical Linear Convergence of Unfolded ISTA and its Practical Weights and...
 
機械学習モデルの判断根拠の説明
機械学習モデルの判断根拠の説明機械学習モデルの判断根拠の説明
機械学習モデルの判断根拠の説明
 
Maximally Invariant Data Perturbation as Explanation
Maximally Invariant Data Perturbation as ExplanationMaximally Invariant Data Perturbation as Explanation
Maximally Invariant Data Perturbation as Explanation
 
アンサンブル木モデル解釈のためのモデル簡略化法
アンサンブル木モデル解釈のためのモデル簡略化法アンサンブル木モデル解釈のためのモデル簡略化法
アンサンブル木モデル解釈のためのモデル簡略化法
 
KDD'17読み会:Anomaly Detection with Robust Deep Autoencoders
KDD'17読み会:Anomaly Detection with Robust Deep AutoencodersKDD'17読み会:Anomaly Detection with Robust Deep Autoencoders
KDD'17読み会:Anomaly Detection with Robust Deep Autoencoders
 

特徴選択のためのLasso解列挙