論文紹介 Advances in Learning Bayesian Networks of Bounded Treewidth2. 発表論文
Advances in Learning Bayesian Networks of Bounded Treewidth
S. Nie, D. Maua, C. de Campos, Q. Ji.
概要
木幅制約付きベイジアンネットワークの学習手法の提案
10~100変数くらいのデータセットで実験 → 高速、高精度
2
6. ベイジアンネットワークの学習 (cont.)
ここで
各スコア関数 si は前処理段階で計算しておくことで O(1) 時間で計算できるも
のとする
ただし親集合 πi としてありうるもの 2n-1 通り全部考えると多すぎなので
一部分だけ(たとえば |πi|≤3 のものだけとか)を考えることにする
6
頂点 i の親集合
頂点 i のスコア関数
n 頂点 DAG 全体
頂点集合
7. 既存研究
困難性
残念ながらこの最適化問題は NP 困難 (近似でも[1,18,19,21,38])
– i.e., 変数の個数 n が増えると(理論的にはP≠NP予想の下で)指数時間必要になる
高速なヒューリスティックはあるが良い解が得られる保証が無い
問題の緩和?
木幅が小さいものだけ考えて問題を緩和 [11,33]
木幅を制限するとモデルの表現力が落ちる;計算速度とのトレードオフ
– 実データだとそんなに表現力が落ちないという報告はある [23, 37, 7]
既存手法では木幅が大きいときの計算時間が指数的だった [32]
7
C S R W
?
13. 木幅制限の MILP による定式化
この問題を MILP (整数&線形計画問題) として定式化することを考える
次の2種類の制約が必要になる
「木幅≤w」を表す制約
「DAG」を表す制約
13
頂点 i の親集合
頂点 i のスコア関数
n 頂点の DAG で
木幅≤w なもの全体 頂点集合
14. 木幅制限の MILP による定式化 (cont.)
「木幅≤w」を表す制約
「あるグラフが Chordal ⇔ elimination order を付けられる」という性質を
利用
推定したいグラフではなく、推定したいグラフを Chordal にしたものの
elimination order を変数とする制約を入れる
「DAG」を表す制約
DAG であるならばトポロジカル順序を付けられる
トポロジカル順序と枝の有無を表す変数を導入し、トポロジカル順序が守られ
ているかどうかを制約にいれる
これらをまとめると論文中の式(6a)-(6k)のように定式化できる
14
18. DAGのサンプリング
ここで近似的に解く手法を考えよう (ノリが唐突… MILP だと遅かったから?)
提案手法(近似)
反復法で解を改善していくタイプの手法 (雰囲気はさっきのMILPの手法に基づく)
18
k-tree (極大な木幅 k のグラフ)
をランダムサンプリングする
(既存手法[32]) その k-tree がモラ
ルグラフの superset であるような
最適な DAG を計算(遅い)
何回か反復する
代替手法:DAG のトポロジカル
順序をランダムサンプリングして
一番良いやつを取る
20. まとめ
2種類(厳密・近似)のベイジアンネットワークの学習アルゴリズムの提案
– MILP による定式化
– ランダムサンプリングによる近似手法 (精度証明のようなものは無い)
同年に似た研究が2つ出てきて被ってしまったらしい。競争が激しい分野なのか
個人の感想
直感的には木幅が増えるほど探索範囲が広がって問題が難しくなりそうだけど
ソルバ上では高速になっているのは何故なのか
– 既存のソルバ使う系の手法との本質的な差はどこなのか
近似手法が結構単純そうなのにうまくいくのは面白い
木幅の計算はNP困難なので難しいということが繰り返し書かれていたが
100頂点くらいなら適当なヒューリスティックで求まるんでは? [要出典]
20