機械学習モデルの列挙

機械学習モデルの列挙
原聡1,2、石畠正和3、前原貴憲4
1
1) 大阪大学産業科学研究所
2) JST, ERATO, 河原林巨大グラフプロジェクト
3) 北海道大学
4) 理研AIP

【参考】論文は以下の通り
n Satoshi Hara and Takanori Maehara. “Enumerate Lasso
Solutions for Feature Selection”, AAAI'17.
n Satoshi Hara and Masakazu Ishihata. “Approximate and
Exact Enumeration of Rule Models”, AAAI'18 (accepted).
2

突然ですが
n abc
3
あなたの機械学習モデル、信頼できますか？
n こんなことはありませんか？
n 回帰係数の値、おかしくないですか？
n 見つかった予測ルールに納得できますか？
回帰係数がおかしい。
このモデル大丈夫？
エンジンの出力に寄与す
るはずのエンジン回転数
の係数がゼロだぞ。。。
ルールに納得できない。
このモデル大丈夫？
血圧が高いと病気になり
やすいはずなのに、ルー
ルに血圧が出てこない！

本研究の貢献
4
本研究の貢献
• 良いモデルの列挙手法を提案
• 対象 : 線形モデル、ルールモデル
本研究の仮説
• 信頼できるモデルは良いモデルの中にある
• 良いモデル = 学習精度が（比較的）高い
n 信頼できるモデルって何？
• 予測が当たればOK？ - No! それだけでは不十分
• 納得できればOK？ - Yes! 納得できないものは使えない
n 信頼できるモデルはどうしたら見つかる？

研究背景：機械学習は完璧か？
n 『機械学習技術を使うと、データから有用な知見が見つ
かる』と言われている。
• 少数の非零な回帰係数を持つモデルを学習できれば、解き
たいタスクに関連するデータの特徴量（=重要な特徴量）が特
定できる。
• 人間に解釈しやすい予測ルールをデータから獲得できれば、
データの背後にある仕組みを推測できる。
n しかし、機械学習に完璧はありえない。
• 有限のデータから学習する以上、エラーは起こりうる。
• データ由来・学習手法由来のバイアスがのることがある。
6
機械学習は時として間違える。
機械学習がミスすると。。。

研究背景：機械学習がミスすると。。。
7
専門家
Xという病気には
「体重」と「血圧」が
関連するはず！

8
Xという病気に関
連する項目は
「身長」と「血圧」
です！
!?専門家機械学習モデル

n 理想的には
9
専門家
連する項目は
です！
!? 機械学習モデル
自分の理解が
間違っていたかも。
調べ直そう。

n 最悪の場合は
10
このモデルは
間違っている！
こんなモデル
信頼できるか！!
専門家
連する項目は
です！

n 最悪の場合は
11
悲劇
たとえ精度の高いモデルで
も、ユーザの信頼が得られ
ないと使われない。
せっかく見つかった知見も、
間違っていると思われてし
まったら意味がない。
専門家
連する項目は
です！
このモデルは
間違っている！
こんなモデル
信頼できるか！!

研究背景：ユーザに信頼されるモデルを作りたい。
n しかし、“間違えない機械学習”は難しい。
• 例えば『少数の非零な回帰係数』を探す問題では
- Lassoと呼ばれる手法が広く使われている。
- しかし、Lassoは選ばれた非零の特徴量が“真に重要な特徴量”であ
ることが一般には保証されない。
12

n 本研究のアイディア
• そもそも“良いモデル”を一つ作ろうとしているから難しい。
• “良いモデル”をたくさん作って、それをユーザに提示したらど
うか？
→ 「機械学習モデルを列挙する問題」を考える。
13

うか？
14
Xという病気に関連す
る項目は。。。

うか？
15
う〜ん？

うか？
16
う〜ん？
「体重」と「血糖値」
う〜ん？

うか？
17
う〜ん？
「体重」と「血糖値」
う〜ん？
「体重」と「血圧」
これだ！！

本研究で列挙する機械学習モデル
18
• 線形回帰モデル（Lasso）
• ルールモデル
人間が意味を解釈しや
すいモデルの代表例

スパース線形回帰モデル（Lasso）
スパース線形回帰問題
Given: 入出力のペア 𝑥", 𝑦" ∈ ℝ'×ℝ 𝑖 = 1, 2, … , 𝑁
Find: 回帰係数𝛽 ∈ ℝ' s.t. 𝑥"
1
𝛽 ≈ 𝑦 (𝑖 = 1, 2, … , 𝑁)
ただし、𝛽は非ゼロ要素が少ない（スパース）
n スパース性
• 物理的要請：予測に効く特徴量は少ないはずという直感。
• 解釈性向上：意味のある少数の特徴量を絞り込みたい。
解法：Lasso回帰（ℓ6正則化）
𝛽∗ = argmin
>

1
2
𝑋𝛽 − 𝑦 A + 𝜌 𝛽 6
• 凸最適化問題。多項式時間で効率的に大域解が求まる。
• 𝛽∗はスパース。supp(𝛽∗) = {𝑖 ∶ 𝛽"
∗
≠ 0}が重要な特徴量。
19

ルールモデル（その１）：ルールリスト
n ルールリスト： If-Then-Elseで記述されるモデル
• 例：ルールリストによる再犯の予測
If （性別=男性 and 若年犯罪=True） Then 再犯=True
Else If （前科 > 3） Then 再犯=True
Else 再犯=False
n ルールリストの定義
• データ: 入出力のペア 𝑥", 𝑦" ∈ 2 L ×[𝐶] 𝑖 = 1, 2, … , 𝑁
• ルールリスト： 𝑔 𝑥 𝑍, 𝑈) = ∑ 𝑧" cap 𝑥 𝑈, 𝑖)V
"W6
- 𝑍 = 𝑧" ∈ [𝐶] "W6
V
, 𝑈 = 𝑢" ∈ 2 L
"W6
V
- ただし cap 𝑥 𝑈, 𝑖) = Y1 if 𝑢" ⊆ 𝑥 and ∧"^W6
"_6
¬(𝑢"a ⊆ 𝑥)
0 otherwise
20
𝐿個のアイテム（属性）の有無

ルールモデル（その１）：ルールリスト
n ルールリストの学習
• 前処理：アイテムセットマイニング（Frequent, Emergingなど）
- Find: 𝑇 = 𝑡j ∶ 𝑡j ⊆ 𝑥 ⇒ 𝑦 = 𝑐 with some confidence
jW6
m
n 組み合わせ最適化
• 探索+枝刈りを駆使して（小さい問題の）厳密解が求められる。
- CORELS（Angelino et al., KDD’17）
- ただし指数時間。
21
max
o∈ p q,r∈sq,V

1
𝑁
t 𝕀 𝑦 v = 𝑔 𝑥 v | 𝑍, 𝑈
x
vW6
− 𝜌𝐼
正則化付きの訓練精度
の最大化問題

ルールモデル（その２）：ルールセット
n ルールリスト： If-Or-Thenで記述されるモデル
• 例：ルールセットによる再犯の予測
If （性別=男性 and 重罪=True）
Or （前科 > 3）
Then 再犯=True
n ルールセットの定義
• ルールセット： 𝑔 𝑥 𝑉) = {
1 ∃𝑖, 𝑣" ⊆ 𝑥
0 otherwise
- 𝑉 = 𝑣" ∈ 2 L
"W6
V
22

ルールモデル（その２）：ルールセット
n ルールセットの学習
• 前処理：アイテムセットマイニング（Frequent, Emergingなど）
- Find: 𝑇 = 𝑡j ∶ 𝑡j ⊆ 𝑥 ⇒ 𝑦 = 𝑐 with some confidence
jW6
m
n 組み合わせ最適化
• 被覆最大化問題なので、貪欲法で多項式時間で(1 − 1/𝑒)
近似解が求まる。
• あまり大きくない問題なら厳密解も求まる。
- Filtered Search(Chen et al, AISTATS’15)
- ただし指数時間。 23
max
€∈sq

1
𝑁•
t 𝕀 𝑦 v = 𝑔 𝑥 v | 𝑉
v:„ … W•
, s. t. 𝑉 ≤ 𝐼
サイズ制約付きの訓練
精度の最大化問題

本研究の成果：線形モデル/ルールモデルの列挙
列挙アルゴリズムの提案
モデルを目的関数値の順に列挙するアルゴリズム。
列挙したモデルからユーザに気に入ったものを選んでもらう。
副次的な成果
実データで、無数の異なるモデルが同等の予測精度を持つこ
とを確認。
知識発見の観点からは、学習で得られたモデルを唯一絶対の
ものとして安易に信頼するのは危険。
24
Lasso ルールリストルールセット
列挙法1 厳密列挙
多項式時間
厳密列挙
指数時間
近似列挙
多項式時間
厳密列挙
指数時間
列挙法2 NA NA 厳密列挙
指数時間

問題の定式化と提案法
25

問題の定式化：線形モデル/ルールモデルの列挙
n Lassoもルールモデルの学習も、ある集合の部分集合
を選び出すプロセスである。
• Lasso
- 特徴量の集合𝑇の中から𝐼個の特徴量を選んで線形モデルを作る。
• ルールモデル
- アイテムセット集合 𝑇 = 𝑡j ∶ 𝑡j ⊆ 𝑥 ⇒ 𝑦 = 𝑐
jW6
m
から𝐼個のアイテム
セットを選んでモデルを作る。
仮定：適当な学習アルゴリズムの存在
任意の部分集合𝑆からモデルを作るアルゴリズムAlg‹(S) が存
在し、以下を満たす：
(i) Alg‹(S)は𝛼近似解を出力する。
(ii) ∀𝑆, 𝑆a ∈ 2s, Alg‹ S = Alg‹ Sa = 𝑚 if supp 𝑚 ⊆ 𝑆a ⊆ 𝑆.
26モデルとして選ばれた部分集合

問題の定式化：線形モデル/ルールモデルの列挙
n 定義：学習可能な全てのモデルの集合ℳ‘’’
• ℳ‘’’ = {𝑚; 𝑚 = Alg‹ 𝑆 , ∃𝑆 ∈ 2s}
問題：モデルの列挙
目的関数の降順に上位𝐾個のモデルℳ• = 𝑚– –W6
•
⊆ ℳ‘’’を
列挙する。
n 【参考】各モデルの目的関数𝑓(𝑚)
• Lasso
-
6
A
𝑦 A
−
6
A
𝑋𝛽 − 𝑦 A
− 𝜌 𝛽 6
• ルールリスト
-
6
x
∑ 𝕀 𝑦 v
= 𝑔 𝑥 v
| 𝑍, 𝑈x
vW6 − 𝜌𝐼
• ルールセット
-
6
x˜
∑ 𝕀 𝑦 v
= 𝑔 𝑥 v
| 𝑉v:„ … W•
27

アルゴリズム（列挙法1）：『Lawlerの 𝒌-best列挙』
アルゴリズム概略
1. 部分集合𝑆を入力して、モデル𝑚が出力されたとする。
2. 全ての𝑡 ∈ supp(𝑚)について
𝑆からを𝑡を取り除いた𝑆a = 𝑆 ∖ {𝑡}を作る。
Alg‹(𝑆′)の解𝑚′を得る。
(𝑚a, 𝑆′)をモデルの候補としてヒープに保持する。
3. 保持しているモデルの候補のうち、目的関数値が最大の
ものを出力する。
4. 以上、繰り返し。
28

1. 部分集合 𝑺を入力して、モデル 𝒎が出力されたとする。
29
モデル候補
Alg‹
モデル𝑚
𝑠upp(𝑚) = 𝑡6, 𝑡A, 𝑡Ÿ
出力
𝑆 = 𝑡6, 𝑡A, 𝑡 , 𝑡Ÿ, 𝑡¡
𝑚6; supp(𝑚6) = 𝑡6, 𝑡A, 𝑡Ÿ
𝑆6 = 𝑡6, 𝑡A, 𝑡 , 𝑡Ÿ, 𝑡¡

2. 全ての 𝒕 ∈ supp(𝒎)について
𝑺からを 𝒕を取り除いた 𝑺a = 𝑺 ∖ {𝒕}を作る。
30
Alg‹
𝑆6 = 𝑡6, 𝑡A, 𝑡 , 𝑡Ÿ, 𝑡¡
モデル候補
𝑆6
a
= 𝑡A, 𝑡 , 𝑡Ÿ, 𝑡¡
𝑆A
a
= 𝑡6, 𝑡 , 𝑡Ÿ, 𝑡¡
𝑆a
= 𝑡6, 𝑡A, 𝑡 , 𝑡¡
𝑆6 = 𝑡6, 𝑡A, 𝑡 , 𝑡Ÿ, 𝑡¡

𝐀𝐥𝐠 𝜶(𝑺′)の解 𝒎′を得る。
(𝒎a, 𝑺′)をモデルの候補としてヒープに保持する。
31
Alg‹
𝑆6 = 𝑡6, 𝑡A, 𝑡 , 𝑡Ÿ, 𝑡¡
モデル候補
𝑆6
a
= 𝑡A, 𝑡 , 𝑡Ÿ, 𝑡¡
𝑆A
a
= 𝑡6, 𝑡 , 𝑡Ÿ, 𝑡¡
𝑆a
= 𝑡6, 𝑡A, 𝑡 , 𝑡¡
𝑆6 = 𝑡6, 𝑡A, 𝑡 , 𝑡Ÿ, 𝑡¡
(supp(𝑚6
a
) = 𝑥A, 𝑥Ÿ, 𝑥¡ , 𝑆6
a
)

32
Alg‹
𝑆6 = 𝑡6, 𝑡A, 𝑡 , 𝑡Ÿ, 𝑡¡
モデル候補
𝑆6
a
= 𝑡A, 𝑡 , 𝑡Ÿ, 𝑡¡
𝑆A
a
= 𝑡6, 𝑡 , 𝑡Ÿ, 𝑡¡
𝑆a
= 𝑡6, 𝑡A, 𝑡 , 𝑡¡
𝑆6 = 𝑡6, 𝑡A, 𝑡 , 𝑡Ÿ, 𝑡¡
(supp(𝑚6
a
) = 𝑡A, 𝑡Ÿ, 𝑡¡ , 𝑆6
a
)
(supp(𝑚A
a
) = 𝑡6, 𝑡 , 𝑡Ÿ , 𝑆A
a
)

33
Alg‹
𝑆6 = 𝑡6, 𝑡A, 𝑡 , 𝑡Ÿ, 𝑡¡
モデル候補
𝑆6
a
= 𝑡A, 𝑡 , 𝑡Ÿ, 𝑡¡
𝑆A
a
= 𝑡6, 𝑡 , 𝑡Ÿ, 𝑡¡
𝑆a
= 𝑡6, 𝑡A, 𝑡 , 𝑡¡
𝑆6 = 𝑡6, 𝑡A, 𝑡 , 𝑡Ÿ, 𝑡¡
(supp(𝑚6
a
) = 𝑡A, 𝑡Ÿ, 𝑡¡ , 𝑆6
a
)
(supp(𝑚A
a
) = 𝑡6, 𝑡 , 𝑡Ÿ , 𝑆A
a
)
(supp(𝑚a
) = 𝑡6, 𝑡A, 𝑡¡ , 𝑆a
)

34
Alg‹
𝑆6 = 𝑡6, 𝑡A, 𝑡 , 𝑡Ÿ, 𝑡¡
モデル候補
(supp(𝑚A
a
) = 𝑡6, 𝑡 , 𝑡Ÿ , 𝑆A
a
)
(supp(𝑚a
) = 𝑡6, 𝑡A, 𝑡¡ , 𝑆a
)
𝑚A; supp(𝑚A) = 𝑡A, 𝑡Ÿ, 𝑡¡
𝑆A = 𝑡A, 𝑡 , 𝑡Ÿ, 𝑡¡
出力

𝑺からを 𝒕を取り除いた 𝑺a = 𝑺 ∖ {𝒕}を作る。
35
Alg‹
𝑆6 = 𝑡6, 𝑡A, 𝑡 , 𝑡Ÿ, 𝑡¡
モデル候補
(supp(𝑚A
a
) = 𝑡6, 𝑡 , 𝑡Ÿ , 𝑆A
a
)
(supp(𝑚a
) = 𝑡6, 𝑡A, 𝑡¡ , 𝑆a
)
𝑚A; supp(𝑚A) = 𝑡A, 𝑡Ÿ, 𝑡¡
𝑆6
a
= 𝑡 , 𝑡Ÿ, 𝑡¡
𝑆A
a
= 𝑡A, 𝑡 , 𝑡¡
𝑆a
= 𝑡A, 𝑡 , 𝑡Ÿ

列挙法1の妥当性
• ℳ‘’’ = {𝑚; 𝑚 = Alg‹ 𝑆 , ∃𝑆 ∈ 2s}
定理
列挙されたモデル集合ℳ• = 𝑚– –W6
•
について以下が成立。
(i) ∀𝑘, ℓ ≤ 𝐾, 𝑘 < ℓ ⇒ 𝑓 𝑚– ≥ 𝛼𝑓 𝑚ℓ .
(ii) ∀𝑚 ∈ ℳ‘’’, 𝑚 ∈ ℳ• if ∃𝑘 ≤ 𝐾 s. t. 𝛼𝑓 𝑚 ≥ 𝑓 𝑚– .
• (i) 上位のモデルは下位のモデルよりも𝛼倍以上悪くはない。
- アルゴリズムが厳密（𝛼 = 1）なら列挙順序も厳密。
• (ii) 列挙に（大きな）見落としはない。
- アルゴリズムが厳密（𝛼 = 1）なら見落としはゼロ。
36

定理から示されること
• Lassoは厳密列挙が可能。列挙数𝐾が定数なら多項式時間。
- Lassoは多項式時間で厳密解が求まる(𝛼 = 1)。
• ルールリストは厳密列挙が可能。ただし指数時間。
- CORESLが厳密（𝛼 = 1）だが指数時間アルゴリズムなので。
• ルールセットは(1 − 1/𝑒)近似列挙が可能。多項式時間。
- 貪欲法が多項式時間の(1 − 1/𝑒)近似アルゴリズムなので。
• ルールセットは厳密列挙が可能。ただし指数時間。
- Filtered Searchが厳密（𝛼 = 1）だが指数時間アルゴリズムなので。
37
列挙法1 厳密列挙
多項式時間
厳密列挙
指数時間
近似列挙
多項式時間
厳密列挙
指数時間

列挙法1の問題
n 色々な𝑆についてAlg‹(𝑆)を計算する必要がある。
• Filtered Searchのような探索ベースの手法の場合、異なる𝑆と
𝑆′についてもAlg‹の中で同じモデルを探索することがある。
• 同じモデルを何度も探索するのは無駄 = 非効率
n 効率を改善する列挙法2を提案。
• モデルの学習が劣モジュラ最大化の場合に限定。
- ルールセットの学習（被覆最大化）が該当。
• Filtered Searchを拡張することで、同じモデルの探索の重複
を回避して効率化。
38

列挙法2：Filtered Searchの拡張
n Filtered Search：ヒューリスティック関数ℎ(𝑚)を使った探索
• ℎ(𝑚)はモデル𝑚に要素を追加しても改善できない場合にゼ
ロ、改善できる場合は正になる関数（詳細は割愛）。
• 列挙法2では、ヒューリスティック関数ℎ(𝑚)を使って局所解を
順番に探索していく。
初期化： supp 𝑚 = ∅, モデル𝑚をヒープに保持する。
1. ヒープから𝑓 𝑚 + ℎ(𝑚)が最大のモデル𝑚を取り出す。
2-a. ℎ(𝑚)がゼロ。
モデル𝑚を出力する。
2-b. ℎ(𝑚)が正。
全ての𝑡 ∉ supp(𝑚)について
モデル𝑚に𝑡を追加したモデル𝑚’を作ってヒープに保持する。
3. 以上、繰り返し。 39

列挙法2の妥当性
• ℳ‘’’ = {𝑚; 𝑚 = Alg‹ 𝑆 , ∃𝑆 ∈ 2s}
定理
目的関数𝑓 𝑚 が劣モジュラ関数だとする。
列挙されたモデル集合ℳ•について以下が成立。
(i) ∀𝑘, ℓ ≤ 𝐾, 𝑘 < ℓ ⇒ 𝑓 𝑚– ≥ 𝑓 𝑚ℓ .
(ii) ∀𝑚 ∈ ℳ‘’’, 𝑚 ∈ ℳ• if ∃𝑘 ≤ 𝐾 s. t. 𝑓 𝑚 ≥ 𝑓 𝑚– .
• 列挙法1より効率的なルールセットの厳密列挙が可能。
40
列挙法2 NA NA 厳密列挙 / 指数時間

実験1. Lassoの列挙：シロイズナの開花
n Thaliana gene expression data (Atwell et al. ’10):
どの遺伝⼦が開花に効くかを知りたい。
• 𝑥 ∈ ℝA6-6 ®：遺伝⼦各パターンが⽣起しているか（2 値）
• 𝑦 ∈ ℝ：発現量
• データ数（個体数）：134
42
50個列挙しても、目的関数値
は0.05%しか増加しなかった。
大域解が6個
あった。
解のサポートのサイ
ズは大体40~45くらい。
大域解が複数ある
→ 単純にLassoから出てきた大域解一つの特徴量だけを重要だと
判断してしまうと、他の解に含まれる特徴量を見落とす。

実験2. Lassoの列挙：ニュース記事の分類
n 20 Newsgroups data (Lang’95); ibm vs mac
ニュース記事を二つのカテゴリに分類するのに特徴的な単語を
知りたい。
• 𝑥 ∈ ℝ66-Ÿ¯：単語の発現（実数値、tf-idf）
• 𝑦 ∈ {ibm, mac} ：記事のカテゴリ（2値）
• データ数（投稿数）：1168
→ 分類問題なので、ロジスティック回帰+Lassoに提案法を適用。
43
大域解にあった語列挙解で置き換わった語
drive, os, diskのようなibmマシン
（Windows機）に特有の単語が見落とさ
れていたのが見つかった。
040, 610のようなmacマシン（型番）に
特有の単語が見落とされていたのが
見つかった。

実験3. ルールモデルの列挙：再犯の予測
n COMPAS data (https://github.com/nlarusstone/corels)
犯罪者の再犯を予測するモデルを作りたい。
ブラックボックスモデルだと不平等な判定がされているかわか
らないので、人間にわかりやすいルールモデルが好ましい。
• 𝑥 ∈ {0, 1}6±：犯罪歴に関する各種属性があるか（2 値）
• 𝑦 ∈ {再犯有, 再犯無}：再犯の有無
• データ数（人数）：6,489
44
(a) 列挙法1
（ルールリスト、厳密列挙）
(b) 列挙法1
（ルールセット、近似列挙）
近似列挙だけど、
結果は厳密だった
Lasso同様、高い質のモ
デルが複数あった。
実用ではこれら高品質の
モデルを精査して、より納
得感の高いモデルを使う
方が良いかも。
きちんと降順に
列挙できた

実験4. ルールモデルの列挙：毒キノコの識別
n Mushroom data (UCI Repository)
キノコの外観の特徴から毒キノコか識別する。
科学的知見を得るために、人間にわかりやすいルールモデル
が好ましい。
• 𝑥 ∈ {0, 1}AA：キノコ外観に関する各種属性があるか（2 値）
• 𝑦 ∈ {毒キノコ, 食べられる}：毒キノコか否か
• データ数（キノコ数）：6,499
45
(a) 列挙法1
（ルールセット、近似列挙）
(b) 列挙法2
（ルールセット、厳密列挙）
近似列挙なので順番は
完全には正しくない
きちんと降順に
列挙できた
Lasso同様、高い質のモ
デルが複数あった。
ルールリストはCORELS
がメモリ使い果たして停
止したので除外

まとめ
n 問題意識：ユーザに信頼されるモデルを作りたい。
• 単一のモデルを出力するのでなく、複数のモデルを列挙して
出力する。
n 「線形モデル/ルールモデルの列挙」として問題を定式
化した。
n 二つのアルゴリズムを提案した。
• 列挙法1: Lawlerの𝑘-bestフレームワークを利用
• 列挙法2: Filtered Searchを拡張して効率化
n 実験より、実問題には「同じくらいの品質のモデルが大
量に存在する」ことを確認。
• これら“良いモデル”の中に納得感の高いものがあると期待
• 知識発見では、単一のモデルに依存するのは危険 46

機械学習モデルの列挙

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Viewers also liked

Viewers also liked (20)

Similar to 機械学習モデルの列挙

Similar to 機械学習モデルの列挙 (20)

More from Satoshi Hara

More from Satoshi Hara (10)

機械学習モデルの列挙