岩波データサイエンス_Vol.5_勉強会資料01

岩波データサイエンス Vol.5
[特集]スパースモデリングと多変量
データ解析
伊庭「モデル選択超速習」
2017/3/30 岩波DS Vol.5 [特集]スパースモデリングと多変量データ解析 1

はじめに
• 本資料・勉強会の目的
– Ｘ：分かっている人が分からない人に教える
– ○：
• 分からない(知らなかった)人が、分からないなりに勉強し、
整理してみる
• 同じような⽴場・思いの人と、ともに学ぶ“材料”
• ⇒間違いの訂正、補⾜、ご意⾒・コメント等々を
ぜひよろしくお願いします。

この本
• 岩波データサイエンス Vol.5
• [特集]
スパースモデリングと多変量
データ解析
– 岩波データサイエンス刊⾏委
員会編
– 2017年2⽉刊⾏
– 岩波書店

目次
• 特集「スパースモデリングと多変量
データ解析」
• 池田・伊庭・麻生
＜基礎編＞
• モデル選択超速習
– AICからスパースまで
• 伊庭幸人
• スパース性を用いた推定
• 池田思朗
• スパースモデリングを体験してみる
• 岩波データサイエンス刊⾏委員会
＜展開編＞
• 依存関係にスパース性を入れる
– グラフィカルlassoの話
• 井手剛
• 画像処理とスパース
• 本谷秀堅
• 時間遷移のスパース性
– マーケットシェアの遷移を捉える
スパースグラフモデリング
• 日野英逸
＜応用編＞
• ⾏列データの分解
• 麻生英樹
– <コラム>⾏列のトレースノルム
– 麻生英樹
• ⾏列分解をリコメンデーションに活かす
– Rによる実践例
• 尾崎隆

• (副題：AICからスパースまで)
• (導入部分)
• “スパース以前”のモデル選択をめぐる諸問題、“前座”
• ⇒スパースモデリングの位置付け
• (はじめからメインディッシュに⾏きたい⽅は、本特集の池田の解説から
読み始めても、ほぼ問題なく読める)
» ⇒ 「最尤法やベイズには馴染みがないが、重回帰分析は使ったことが
ある」という読者にはむしろ分かりやすいかも

：本解説の構造
• ＜問題の整理＞より
• 3つのレベルの区別
– 1. なぜ変数が少ないモデルが欲しいのか(根本問題)
– 2. 具体的にどういう数式を最適にするのか(数理的表現)
– 3. 最適なモデルをどうやって探すか(アルゴリズム)
• スパースモデリングで重要な進展があったのは「3.」
• 「3. がうまくいくために、2.の表式をどう設定したらよいか」も含む
• この解説では・・・ 1., 2., 3.を含めた問題の全体像の概観

モデルの当てはまりと予測性能は違う
bias-variance dilemma
CV と AIC
変数選択の問題点
リッジ回帰－あえて「すべての変数
を使う」という⽴場
階層ベイズモデリングとの関係
そしてスパース
－やっぱり変数を選びたい
1.
なぜ変数が少
ないモデルが
欲しいのか
2.
具体的にどう
いう数式を最
適にするのか
3.
最適なモデル
をどうやって
探すか
◎
◎
○ ◎
○
○
◎
三つのレベル →
目次 ↓
◎

CV と AIC
1.
なぜ変数が少
ないモデルが
欲しいのか
2.
具体的にどう
いう数式を最
適にするのか
3.
最適なモデル
をどうやって
探すか
◎
◎
○ ◎
○
○
◎
目次 ↓
• N が小さい(有限の)場合、
“単純なモデル”の⽅が予測性能が良い
• 複雑さ“大” → ばらつき”大“
◎ • “真のモデル”が分か
らない中で「予測の良
さ」をどう測るか？
⇒ CV, AIC, etc.
• 各種の“規準”を使っ
た古典的な変数選択
の抱える問題点
• 「縮小推定」の代表格 L2 正則化
• 変数選択と縮小推定の“合流点”と
しての L1 正則化(lasso)
• 縮小推定の(一つの)究極形としての L1 正則化
• ⇒ 自動的にゼロイチの変数選択
• 「最適モデルの探索」については一定の解決

• ＜問題の整理＞
• 「スパースモデリング」、大雑把にいうと、、、
– “与えられたデータに応じて、統計モデルの必要な部分を自動的に抽出
する技術”
– 重回帰分析では、、、
→ 多数の説明変数のリストから少数の必要なものを取り出す
– 昔からある⾔葉・・・「モデル選択」、「変数選択」
» (これらの用語の使い分けにはいろいろ流儀がありそうだが・・)
– この解説の中での呼び分け
• 変数選択／モデル選択：複数のモデルの当てはめ ⇒ その中から選ぶ
• スパースモデリング：
罰則項を加えて推定 ⇒ パラメータ推定＋パラメータ数の削減を同時に

• ＜問題の整理＞(続き)(再掲)
• 3つのレベルの区別
– 1. なぜ変数が少ないモデルが欲しいのか(根本問題)
– 2. 具体的にどういう数式を最適にするのか(数理的表現)
– 3. 最適なモデルをどうやって探すか(アルゴリズム)
• スパースモデリングで重要な進展があったのは「3.」
• 「3. がうまくいくために、2.の表式をどう設定したらよいか」も含む
• この解説では・・・ 1., 2., 3.を含めた問題の全体像の概観

• ＜モデルの当てはまりと予測性能は違う＞
• 「1. なぜ単純なモデルが欲しいのか」を考える
• “変数が少ない”モデル →(⾔い換え)→ “単純な”モデル
» (※サポートページの記述参照)
» 重要なのは、“変数の数”より“未知パラメータの個数”
(回帰分析でいえば、
説明変数の係数のうちデータから推定するものの個数)
• 「予測」、「汎化」の視点
» 現代データサイエンスでは非常に重要
» AIC, CV(※いずれも後述)も「予測を目的とする」ことが大前提

– 簡単な例：多項式回帰の次数選択
• モデルの当てはまり
– 「与えられたデータへの当てはまり」からは
「説明変数が少ないほうがよい」ということは出てこない
• 予測性能
– 「予測」を考えると話が違ってくる
» サンプルサイズ N が小さいときは、複雑なモデル(2)は、単純
なモデル(3)よりも予測性能が悪く、訓練データに当てはめた結
果と真の値との差をあらわす2乗和が大きくなる。
» N が大きくなると、あるところで「逆転」が起きて、複雑なモデル
(2)のほうが単純なモデル(3)より予測性能が良くなる。

• ⇒おおまかにいって、サンプルサイズ N が小さいと
きには単純なモデルのほうが強いのだ
(本文 p.8 より)

• ＜bias-variance dilemma＞
• 前節の議論の重要な点
• 「真の曲線」が2次式の場合でも、より単純な1次式の⽅が良い場
合があること
– N が小さいとき = N が有限のとき
• ⇒ 重回帰分析の変数選択でも、似た状況が起きる
• 直観的な説明
• サンプルサイズ N が有限の場合、
• ⇒ 当てはめた , などのパラメータ推定値は、
サンプルに依存して真の値のまわりでばらつく
• ⇒ パラメータの数が多いほどばらつきが大きくなる
• ⇒ 予測性能の低下

• ＜bias-variance dilemma＞
• bias-variance dilemma
– bias (バイアス)
– モデルによる推定値の平均と真の値との差を表す量
– 「データを無理やり⾃分の型にはめ込んで歪める効果」
– variance (バリアンス)
– サンプルに依存した真の値の周りでの
「ばらつきの効果」
– dilemma (or trade-off)
• モデルが複雑なほど・・・
• ⇒ バイアス：小、バリアンス：大
2017/3/30 岩波DS Vol.5 [特集]スパースモデリングと多変量データ解析 15(本文 p.10 より)

• ＜CV と AIC＞
• 真のモデルなしで「予測の良さ」をどう⾒積もるか？
• 実際のデータ解析では
「真のモデル」がわかっているわけではない
• 「真のモデル」がわかっていない中で、前述の考え⽅で
「予測の良さ」を⾒積もる手段が必要
• ⇒ 従来、よく用いられた“手段・規準”
・・・ CV(Cross Validation; 交差検証法)と AIC

• CV (Cross Validation; 交差検証法)
• 「訓練データ」で学習、「テストデータ」で予測の良さを推定
• 「精度を上げるためにいろいろな分け⽅をして、
その平均を計算することがよく⾏われる」
– 「精度を上げるため」？
» Ｘ：“モデルの精度”を上げるため
» ○：“「予測の良さ」の⾒積もりの精度”を上げるため
– 「いろいろな分け⽅」
» 訓練データ＆テストデータの分け⽅複数 ⇒ 平均 ⇒ 精度up

• CV (Cross Validation; 交差検証法)
– いろいろな⽅法
• leave-p-out cross validation
• K-fold cross validation
– CV の評価基準
• 回帰問題・・・対数尤度等
• 分類問題・・・誤判別率等

• CV と AIC の間の“関係”
– モデルが真の分布を含むとして、以下が成り⽴つ場合、
– モデルの当てはめを最尤法で⾏う
– 予測の良さの評価を対数尤度で⾏う
⇒ CV(CV損失) と AIC は漸近的に等価
– = (−2) log − ・・・ CV損失は [] の中に漸近する
• AIC や Cp 規準は先駆的だった
• モデル選択に使われる各種規準 (CV, AIC, Cp 以外には・・・)
– GIC, EIC, WAIC, DIC, BIC, MDL, 等々

• ＜変数選択の問題点＞
• 重回帰分析における変数選択
• 変数候補 M 個 ⇒ 組み合わせ 2M 個 (“爆発”)
• こうした場合、
たとえば、AIC を使って⾃動的に変数選択をやろうと思っても、
課題・問題が生じてくる
• 変数選択の問題点 (例:AICを使った変数選択)
– 「多重性の効果をどう取り入れるか」
– (〜冒頭の2. “数理的表現”に関連)
– AIC は訓練データに依存する確率変数 → 多重性の問題
– ⇒次頁へ
– 「最適なモデルの探索をどう実装するか」
– (〜冒頭の3. “アルゴリズム”に関連)

• 「多重性の効果をどう取り入れるか」
• AIC は、それ⾃身が訓練データに依存する確率変数
» ⇒ 平均対数尤度の期待値のまわりでランダムに変動・ばらつく
» ⇒ 多重性の問題が発生 (※統計的検定の多重性と同様)
• 多重性を考慮に入れた手法も考案されているが、、、まだ一般的でない
データ
(⺟集団) データ1
モデルm1 モデルm2 モデルm3 モデルm4 モデルm5
データ2
AIC
• 説明変数 m 個のモデル集合 Ωm
• m は大き過ぎる → 予測性能“悪”
• m は候補総数 M より十分小さい
…
• Ωm のモデルの予測性能(→AICで評価)
は、平均的にはどれも同程度に“悪い”
• 予測性能が悪いので本当は選ばれてはいけない Ωm
のモデルが、偶然、相対的に“良い”AICが出てしまい、
“最良モデル”として選ばれてしまう可能性あり。
良
悪
データ● ・・・
• データの取り方によって
右記の結果は変わり得る。
AICの期待値(複数のデータの取り⽅を考慮)
AICの実測値(データ1による)

• 「最適なモデルの探索をどう実装するか」
• 変数の組み合わせ“爆発” ⇒ “総当たり”は非現実的
• (1)古典的な⽅法
» 適当なルールによる“増減法”(例：R の「StepAIC」等)
• (2)汎用の離散最適化手法
» シミュレーテッド・アニーリング法
» 進化的アルゴリズム
• ⇒ いずれにしても、
局所的極小、過大な計算時間の不安は免れず・・・

• ＜リッジ回帰－あえて「すべての変数を使う」という⽴場＞
• 「L1正則化」は「変数選択」と「L2 正則化」の“合流点”
• 「L2 正則化」について
» (※「変数選択」とは“ゼロイチ” → “ハード”な変数選択)
• 変数を選択するのではなく、すべての変数(数多くの変数)をモデルに残そう
• ⇒ ただし、それらを“ソフト”に少しずつ押さえてやる(←予測性能劣化防⽌)
• ⇒ L2 ノルムによる罰則項を誤差二乗和の式に追加
• ⇒ 「L2 正則化」、「リッジ回帰」
• 以下の式を最小化
– ∑ − ∑ ( )
+ ∑
– “縮小推定”の一種 (※ただし、βj はきっちりゼロにはならない)
– あまり有効でない変数の係数の絶対値は早く縮小 ⇒ “ソフト”な変数選択
– 「λ」の値は cross validation 等で決定
• 正則化を⾏う場合、通常、説明変数
x は事前に何らかの標準化処理(例：
平均値を引いて標準偏差で割る)を
⾏う

• ＜階層ベイズモデリングとの関係＞
• (・・・ “リッジ回帰と”階層ベイズモデリングとの関係)
• まずは“形式的な解釈”
– (前提)
• パラメータ {βj} と説明変数 {x(j)}→ y の確率分布として正規分布を仮定
– # , ( )
=
$%&
' ( −
%& − ∑ ( )
– 通常の重回帰分析
– βj の事前分布に「一様分布」を仮定 → MAP推定 (=最小二乗法)
– リッジ回帰
– βj の事前分布に「分散1/2λ の正規分布」(※下記)を仮定 → MAP推定
– # =
)
$
' ( − ∑

• ＜階層ベイズモデリングとの関係＞
• ベイズ的観点からのリッジ回帰に関する論点
– 「λ の値を λ の事後分布からベイズ推定してよいか」
– “βj が j によらず同じ事前分布から生成”という仮定は妥当？
» 「βj 同士が確率変数として交換可能か？」
» ・・・かなり“無理がある”
– 標準化の仕⽅やクラスター分けの有無の影響は？
» デリケートな問題だが、、、
» 実際には、リッジ回帰の「λ」をフルベイズで推定する、ということはあまり
⾒かけない
– 「βj の事前分布の分布形が正規分布でよいか」
– たとえば、、、
「普通の大きさの係数とほとんどゼロの係数が割とはっきり分離して存在」？
– ⇒ 実は、これは L1 正則化へのひとつの入り口になる疑問

• ＜そしてスパース〜やっぱり変数を選びたい＞
• 「L1 正則化」の形式
• 最小化する式 ∑ − ∑ ( )
+ ∑
– βj の事前分布〜両側指数分布(ラプラス分布) とすることに相当
» # =
)
' ( − ∑
• (参考) L2 正則化の場合
» 最小化する式 ∑ − ∑ ( )
+ ∑
» βj の事前分布 # =
)
$
' ( − ∑
• 形式的には、罰則項において
リッジ回帰のをに置き換えている(だけ)

• ＜そしてスパース〜やっぱり変数を選びたい＞
• 「変数選択」の能⼒を持つ「L1 正則化」
• (⾒かけ上はリッジ回帰の拡張版だが、、、)
• ある程度以上「いらない変数」の場合、がきっちりゼロになってしまう！
• ⇒ ⾃動的に「変数選択」を⾏う能⼒が備わっている！
» (→ 詳細は池田解説へ)
• 「L1 正則化」は“解ける”
• (※解析解が得られるリッジ回帰のように簡単には解けないが…)
• 2次計画法の利用、さらに効率のよい⽅法もあり
• ⇒ 現実的に“解ける”ことが L1 正則化のキモ
• ⇒ 冒頭の問題3.の
「最適モデルの探索」には一定の解決をもたらす

：【再掲】本解説の構造
CV と AIC
1.
なぜ変数が少
ないモデルが
欲しいのか
2.
具体的にどう
いう数式を最
適にするのか
3.
最適なモデル
をどうやって
探すか
◎
◎
○ ◎
○
○
◎
目次 ↓
• N が小さい(有限の)場合、
“単純なモデル”の⽅が予測性能が良い
• 複雑さ“大” → ばらつき”大“
◎ • “真のモデル”が分か
らない中で「予測の良
さ」をどう測るか？
⇒ CV, AIC, etc.
• 各種の“規準”を使っ
た古典的な変数選択
の抱える問題点
• 「縮小推定」の代表格 L2 正則化
• 変数選択と縮小推定の“合流点”と
しての L1 正則化(lasso)
• 縮小推定の(一つの)究極形としての L1 正則化
• ⇒ 自動的にゼロイチの変数選択
• 「最適モデルの探索」については一定の解決

参考文献
• [1]荒木孝治(2013), 罰則付き回帰とデータ解析環境R, オペレーションズリサーチ, 2013年5⽉号
• [2]Hastie, T., and Tibshirani, R. (2014), 統計的学習の基礎: データマイニング・推論・予測,
共⽴出版
• [3]廣瀬慧(2014), Lasso タイプの正則化法に基づくスパース推定法を用いた超高次元データ解析,
数理解析研究所講究録 1908 : 57-77
(http://www.kurims.kyoto-u.ac.jp/~kyodo/kokyuroku/contents/pdf/1908-05.pdf)
• [4]⿅島久嗣, 「数理情報⼯学特論第一【機械学習とデータマイニング】1章：概論（３）」講義資
料(www.geocities.co.jp/kashi_pong/1-3.pdf)
• [5]冨岡亮太(2015), スパース性に基づく機械学習, 講談社
• [6]山下信雄(2013), Coordinate Descent 法について, 「最適化の基盤とフロンティア」研究部会
講演資料
(https://www.slideshare.net/amp-kyoto/coordinate-descent)
• [7] Das, K. and Sobel, M.(2015), Dirichlet Lasso: A Bayesian approach to variable
selection, Statistical Modelling, vol.15 (3) (2015), 215–232
• [8] Efron, B., Hastie, T., Johnstone, I., and Tibshirani, R. (2004), Least Angle
Regression(with discussion), The Annals of Statistics, 32, 407–499.

岩波データサイエンス_Vol.5_勉強会資料01

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Similar to 岩波データサイエンス_Vol.5_勉強会資料01

Similar to 岩波データサイエンス_Vol.5_勉強会資料01 (20)

岩波データサイエンス_Vol.5_勉強会資料01