SlideShare a Scribd company logo
1 of 31
Download to read offline
2012/12/06 PFI セミナー




  大規模ネットワークの性質と
   先端グラフアルゴリズム

                 秋葉 拓哉 / @iwiwi
自己紹介

秋葉 拓哉 / @iwiwi

• 所属:東大 CS M2 (今井研) → DC1 (来年)
• PFI:インターン (2009) → バイト (夜研等)

• 元プログラミングコンテスト中毒者
  – TopCoder レーティング:3180   (世界で 12 位)

• 研究:大規模グラフのアルゴリズム
  – 最短経路クエリ,コミュニティ検出,……



                                        1
現実世界のグラフを対象とした研究

                                                      複雑ネットワーク理論
                                                             (物理系)
      ウェブ系              データマイニング系
   (WWW, WSDM, …)       (KDD, SDM, ICDM, …)           ・モデル化
                                                      ・コミュニティ検出
                                ・コミュニティ検出
       データベース系
                                ・リンク予測
    (SIGMOD, VLDB, ICDE, …)
                                ・グラフクエリ処理
                                                        生物情報系


                                              ネットワーク系               ・接続性
                                          (INFOCOM, SIGCOMM, …)     ・最適化


 ハイパフォーマンス系                   実験系アルゴリズム                 理論系アルゴリズム
      (SC, ISC, …)            (ALENEX, ESA, SEA, …)     (STOC, FOCS, SODA, …)

・並列分散グラフアルゴリズム
・Graph 500!                                                 グラフ描画系
・最近は中心性等も [Frasca+,SC’12]                                         (GD, …)


                                                                                2
今日の内容


    1. 現実世界のネットワークの性質
            次数分布,平均距離,三角形,…



   2. それを活用したグラフアルゴリズム

        理論系        実験系
        • 近接中心性    • 最短路
        • ルーティング   • 密部分グラフ
        • 支配集合問題   • 可視化


                              3
現実世界のネットワークにおける
特徴量と性質

                  4
対象となるネットワーク

紹介するような性質を持っていることが多い
現実世界のネットワーク:
•   ソーシャルネットワーク
•   ウェブグラフ
•   コンピュータネットワーク
•   生物情報学のネットワーク
• ……

※それらのネットワークが常にこうだと言っているわけではないです

※張り付けている実験結果は,自分がよく対象にするネットワーク達に偏って
いるかもしれません(ソーシャル・ウェブ)



                                      5
対象となるネットワーク

            こういうやつ                                                      こうじゃないやつ




                   共著ネットワーク                                             道路ネットワーク(アメリカ)
 [http://www.cise.ufl.edu/research/sparse/matrices/SNAP/ca-GrQc.html]




                                                                                         6
1. 次数分布 (Power Law, Scale Free)

 次数分布:冪乗則 (Power Law) に従う
                           −𝛾
                𝑝(𝑘) ∝ 𝑘
 • 𝑘:次数
 • 𝑝(𝑘):次数が 𝑘 の頂点の割合
 • 𝛾:定数 (べき指数)
   – 典型的には 2 < 𝛾 < 3

 両対数でプロットすると
 直線っぽくなる
 (累積でプロットしたほうが良い)                 [Mislove+’09,Fig.2]


                                                        7
1. 次数分布 (Power Law, Scale Free)

 冪乗則
 • 人の収入とかも冪乗則らしい
 • 正規分布とかと違い,ちょー大きな値が存在する
   – 一部の人がすごくお金持ち,大半の人は平均以下
   – ネットワークでも,凄く次数が高い頂点がちらほらある

 次数が冪乗則に従っているか?
 1. 雑:両対数でそれっぽくなっているか
 2. 真面目:統計モデルで 𝛾 を推定,検定
 低い次数の部分では従わないことが多い

 アルゴリズム的には,凄い次数が大きい頂点がちょっとある,とかそ
 ういうぐらいの事実が重要な気がする


                                   8
1. 次数分布 (Power Law, Scale Free)

          ウェブグラフの累積次数分布




               う,うーん……

                                  9
2. 距離 (Small World)

 平均距離:短い
 • 距離:二頂点の間の最短路の長さ                          s   t

 • 平均:全二頂点対
 短いとは:𝑂 log 𝑛 である,ランダムに繋ぎ変えても有意に小さくならない等



                距離の分布の例




                [Potamias+,CIKM’09,Fig.2]



                                                10
2. 距離 (Small World)

 実際の人間を通した実験
 • 1960 年代,ミルグラム 「平均距離 6 だー!!!」
   – 手紙を転送して貰って目的の人物に届ける
   – 現代では,破棄の考慮や始点に疑問の声

 • 2002 年,ワッツ 「似たような感じだったー!!!」
   – 電子メール
   – 始点の数や位置,破棄を今度は考慮しているらしい

 コンピュータによるネットワークの解析
 • カジュアルに計算されてる(やっぱ小さい)
 • 2011 年,Backstrom (Facebook社) 「4.74 だー!!!」
   – Facebook のネットワーク (721 M users / 69 B links)
   – [Backstorm+’11] http://arxiv.org/pdf/1111.4570v3.pdf

                                                            11
3. クラスター係数 (Small World)

 クラスター係数:大きい
                  三角形の個数
     クラスター係数 𝐶 =
                 三頂点の組の個数
 大きいとは:同じスケールのランダムに作るグラフより有意に大きい

 • 友達と友達は友達
 • 局所性のようなものがある

 スモールワールド性:
 小さい平均距離と大きいクラスター係数
 (距離だけで言うこともある)
                            ↑やべぇ
                                   12
他にもいっぱい特徴量 & 性質

•   次数相関,結合次数分布 (JDD)
•   中心性:次数,近接,媒介,固有ベクトル,…
•   モチーフ
•   コミュニティ構造
•   極大クリーク分布
•   サイクル分布
•   固有値
• ……



                            13
4. 木っぽさ

 遠目に見るとなんか木っぽい,という主張がしばしば行わ
 れている

 1. Shavitt, Tankel. Hyperbolic embedding of internet graph for distance
    estimation and overlay construction. IEEE/ACM Trans. Netw. 16, 1
    (2008).
 2. Melnik, Hackett, Porter, Mucha, Gleeson. The Unreasonable Effectiveness
    of Tree-Based Theory for Networks with Clustering. Physical Review E,
    Vol. 83, No. 3 (2010).
 3. Gupta, Shankar, Li, Muthukrishnan, Iftode. Finding Hierarchy in Directed
    Online Social Networks. WWW (2011).



 「インターネットは,超繋がった core + 周りの tendril
 だ.パスは基本的に,tendril→core→tendril だ.」
 (1 つめの文献から引用&和訳)


                                                                               14
4. 木っぽさ




        AS のネットワーク (BGP log)                                                              共著ネットワーク
  [http://www.cise.ufl.edu/research/sparse/matrices/SNAP/as-735.html]   [http://www.cise.ufl.edu/research/sparse/matrices/SNAP/ca-GrQc.html]




                                      うーん,確かに??
                                                                                                                                               15
4. 木っぽさ

 関係する実験
                             次数上位 数% の頂点 (Core) を
                             削除 →連結成分はばらばらに
                             (ハブの存在的な話とも関係)


   [Mislove+,IMC’07,Fig.7]


                             次数の低い部分 (Fringe) では
                             クラスター性が非常に高い


   [Mislove+,IMC’07,Fig.9]

   ( Core-Fringe 構造と呼ばれたりもしている)
                                                   16
4. 木っぽさ

 木っぽさを測るのは進行中の課題?
 [Sullivan+,MMDS’12]

 • 𝛿-hyperbolicity [Gromov,’87]
    – 幾何的な指標                 [Sullivan+,MMDS’12,P.8]

    – 双極空間に(距離の意味で)埋め込めたらツリー,を拡張
    – 𝑂 𝑛4 かかってしまう → サンプリング等

 • Tree-width (木幅) [Robertson,’84]
    – 組合せ的な指標
    – 厳密計算は NP-Hard
    – Core 部分はあまり木っぽくはない,元の定義のままでは,この
      部分に完全に引きずられてしまい意味を成さない



                                                  17
ネットワークの性質を活用した
グラフアルゴリズム

                 18
話すこと

1. 理論方面
 i. 近接中心性の近似
 ii. コンパクトルーティング
 iii. 支配集合問題の近似
2. 実用方面
 i. 密部分グラフ列挙
 ii. グラフ可視化
 iii. 最短経路クエリ
1. 近接中心性の近似 (Small World)

                       𝑁
 近接中心性 𝑐 𝑢 =
             𝑑 𝐺 𝑢,𝑣
                   𝑣
 (全頂点からの距離の平均の逆数)


 • 真面目に求めると,全頂点から BFS
 • 𝑂 𝑛𝑚 は無理
 • 頂点集合をランダムサンプル → BFS

 Small World なら嬉しい [Eppstein+,SODA’01]
       log 𝑛
 • Θ           個の頂点を選ぶと
         𝜖2
 • 1 − 𝑜(1) の確率で逆数での誤差が 𝜖Δ 未満
 (Δ は直径)


                                         20
2. コンパクトルーティング

コンパクトルーティング
• 各頂点に情報を蓄えておく
• ある頂点に居て,ある頂点に行きたい.次どこに進め
  ば? をその頂点にある情報だけで計算する
• 移動距離は最短距離に近いほど望ましい

コンピュータネットワークにおけるパケットの輸送みたい
な感じの問題
(ネットワークが静的でいいのかとかそういうツッコミはある)




                                21
2. コンパクトルーティング

A Compact Routing Scheme and Approximate
Distance Oracle for Power-law Graphs
[Chen+, TALG’09]

• 現実のネットワークでは一般的な理論的結果よりも良い
  結果が出ている
• Power Law を入れて解析したら,良い結果が出た
• 理論と実世界のギャップを埋めた!(という主張)

• 実際には FDRG というモデルを仮定し解析
   (クラスター性などはおそらく一切ない)
• 解析が長く,どう効いてるのかはすぐにはわからぬ


                                           22
3. 支配集合問題の近似

Structural and Algorithmic Aspects of Massive
Social Networks
[Eubank+,SODA’04]

• CL-model というモデルに言及
• このモデルの上で, 1 − 𝜖 -支配集合問題 (=NP-Hard)
  が貪欲アルゴリズムで 1 + 𝑜(1) 近似できると主張
• 次数の高いものをとるだけ

ちなみに,Power law の任意のグラフという制限下では色々な問題が
NP-Hard のままで,近似可能性もあまり向上しない
[Shen+,COCOA’12]




                                                23
4. 密部分グラフ列挙

密に接続しあっている頂点集合を知りたい
• 𝑫𝑵-graph [Wang+,VLDB’11]
• 𝒌-truss [Cohen,’08][Wang+,VLDB’12]
古典的な密頂点集合のモデルは,次数・距離
(𝑘-core, quasi-clique, 𝑘-plex, 𝑛-clique, …)
→ あんまり接続してなくても 1 つにされちゃう

防止するため,三角形で制約を行う新しいモデル


                                      次数≧5,距離≦3 だ…手強い…
                                      → こういうのを分断できる



                                                         24
4. 密部分グラフ列挙

 𝒌-core [Seidman,’83]
各頂点の次数 𝑘 以上になるような部分グラフ

𝒌-truss [Cohen,’08][Wang+,VLDB’12]
各辺が 𝑘 − 2 個の三角形に含まれるような部分グラフ
(それぞれ,部分グラフ内での次数・個数,ということに注意)

                        𝒌-core
                        全頂点次数≧5 より,全体で 5-core.
                        𝒌-truss
                        真ん中の辺は三角形 0 個より,分断.
                        両側は 6-truss.

 𝑘-truss は 𝑂 𝑚1.5 ですべての 𝑘 に関して列挙できる
 (三角形列挙の計算量と一致)

                                                 25
5. 可視化

 LGL: Large Graph Layout
 [Adai+’04] http://lgl.sourceforge.net/

 数十万頂点のタンパク質ネットワークを可視化する目的
 最もスケールする公開ソフトウェアの 1 つ
 (sfdpのほうが凄い?)




            [Adai+’04, Fig.4]    “インターネット地図” [www.opte.org]

                                                              26
5. 可視化

 1. 基本はバネモデル          バネモデルは古典的ながら実は未だに最前線っぽい
                      (計算の効率化などの工夫は行われている)


 辺があるところは                    辺が無いところは
 引力(バネ;フックの法則)               斥力(クーロン力)
                             (LGL は斥力はバケット法で適当に処理)



 ただし,スケールさせるため,
 2. 最小全域木を作り,中央から配置
 (木っぽさを活用している?)




                 [Adai+’04, Fig.1]

                                                     27
6. 最短経路クエリ:厳密

木分解に基づく最短路クエリ
[Wei,SIGMOD’10][Akiba+,EDBT’12]


• ヒューリスティクスで木分解
   – Fringe (Tendril) 部分がうまく分解される
   – Core 部分は諦める (Relaxed Tree-Decomposition)

• 最短路行列を各バッグに対して前計算

• クエリには LCA まで DP して答える

tree-like fringes を活用している



                                                28
6. 最短経路クエリ:近似

ランドマークを用いた推定
[Potamias+,CIKM’09]等             s      t


• 頂点集合 𝐿:ランドマーク
• 𝑑 𝐺 𝑙, 𝑣 (𝑙 ∈ 𝐿, 𝑣 ∈ 𝑉)を前計算
• クエリ 𝑠, 𝑡 には,以下を答える
   – min 𝑑 𝐺 𝑠, 𝑙 + 𝑑 𝐺 (𝑙, 𝑡)
      𝑙∈𝐿
   – すなわち,ランドマークを経由した距離の最小値


ランドマークに,中心的な頂点を選ぶようにすると,
平均誤差は驚くほど小さくなる

tendril→core→tendril なので,かなりそれらを通るから
                                       29
まとめ(話したこと)

• ネットワークの性質
  – 次数分布,平均距離,クラスター係数
  – 木っぽさ

• それを活用したアルゴリズム
  – 理論系:中心性,ルーティング,支配集合
  – 実装系:密部分グラフ,可視化,最短路

      ありがとうございました
     (・__________・)/またね

                          30

More Related Content

What's hot

勉強か?趣味か?人生か?―プログラミングコンテストとは
勉強か?趣味か?人生か?―プログラミングコンテストとは勉強か?趣味か?人生か?―プログラミングコンテストとは
勉強か?趣味か?人生か?―プログラミングコンテストとは
Takuya Akiba
 
変分推論法(変分ベイズ法)(PRML第10章)
変分推論法(変分ベイズ法)(PRML第10章)変分推論法(変分ベイズ法)(PRML第10章)
変分推論法(変分ベイズ法)(PRML第10章)
Takao Yamanaka
 
Rでisomap(多様体学習のはなし)
Rでisomap(多様体学習のはなし)Rでisomap(多様体学習のはなし)
Rでisomap(多様体学習のはなし)
Kohta Ishikawa
 

What's hot (20)

有向グラフに対する 非線形ラプラシアンと ネットワーク解析
有向グラフに対する 非線形ラプラシアンと ネットワーク解析有向グラフに対する 非線形ラプラシアンと ネットワーク解析
有向グラフに対する 非線形ラプラシアンと ネットワーク解析
 
勉強か?趣味か?人生か?―プログラミングコンテストとは
勉強か?趣味か?人生か?―プログラミングコンテストとは勉強か?趣味か?人生か?―プログラミングコンテストとは
勉強か?趣味か?人生か?―プログラミングコンテストとは
 
機械学習による統計的実験計画(ベイズ最適化を中心に)
機械学習による統計的実験計画(ベイズ最適化を中心に)機械学習による統計的実験計画(ベイズ最適化を中心に)
機械学習による統計的実験計画(ベイズ最適化を中心に)
 
機械学習モデルのハイパパラメータ最適化
機械学習モデルのハイパパラメータ最適化機械学習モデルのハイパパラメータ最適化
機械学習モデルのハイパパラメータ最適化
 
研究分野をサーベイする
研究分野をサーベイする研究分野をサーベイする
研究分野をサーベイする
 
グラフニューラルネットワーク入門
グラフニューラルネットワーク入門グラフニューラルネットワーク入門
グラフニューラルネットワーク入門
 
最適輸送の解き方
最適輸送の解き方最適輸送の解き方
最適輸送の解き方
 
関数データ解析の概要とその方法
関数データ解析の概要とその方法関数データ解析の概要とその方法
関数データ解析の概要とその方法
 
POMDP下での強化学習の基礎と応用
POMDP下での強化学習の基礎と応用POMDP下での強化学習の基礎と応用
POMDP下での強化学習の基礎と応用
 
失敗から学ぶ機械学習応用
失敗から学ぶ機械学習応用失敗から学ぶ機械学習応用
失敗から学ぶ機械学習応用
 
ニューラルチューリングマシン入門
ニューラルチューリングマシン入門ニューラルチューリングマシン入門
ニューラルチューリングマシン入門
 
変分推論法(変分ベイズ法)(PRML第10章)
変分推論法(変分ベイズ法)(PRML第10章)変分推論法(変分ベイズ法)(PRML第10章)
変分推論法(変分ベイズ法)(PRML第10章)
 
ゼロから始める深層強化学習(NLP2018講演資料)/ Introduction of Deep Reinforcement Learning
ゼロから始める深層強化学習(NLP2018講演資料)/ Introduction of Deep Reinforcement Learningゼロから始める深層強化学習(NLP2018講演資料)/ Introduction of Deep Reinforcement Learning
ゼロから始める深層強化学習(NLP2018講演資料)/ Introduction of Deep Reinforcement Learning
 
Control as Inference (強化学習とベイズ統計)
Control as Inference (強化学習とベイズ統計)Control as Inference (強化学習とベイズ統計)
Control as Inference (強化学習とベイズ統計)
 
SSII2019OS: 深層学習にかかる時間を短くしてみませんか? ~分散学習の勧め~
SSII2019OS: 深層学習にかかる時間を短くしてみませんか? ~分散学習の勧め~SSII2019OS: 深層学習にかかる時間を短くしてみませんか? ~分散学習の勧め~
SSII2019OS: 深層学習にかかる時間を短くしてみませんか? ~分散学習の勧め~
 
SSII2019企画: 点群深層学習の研究動向
SSII2019企画: 点群深層学習の研究動向SSII2019企画: 点群深層学習の研究動向
SSII2019企画: 点群深層学習の研究動向
 
[DL輪読会]Deep Learning 第2章 線形代数
[DL輪読会]Deep Learning 第2章 線形代数[DL輪読会]Deep Learning 第2章 線形代数
[DL輪読会]Deep Learning 第2章 線形代数
 
トピックモデルの評価指標 Perplexity とは何なのか?
トピックモデルの評価指標 Perplexity とは何なのか?トピックモデルの評価指標 Perplexity とは何なのか?
トピックモデルの評価指標 Perplexity とは何なのか?
 
ようやく分かった!最尤推定とベイズ推定
ようやく分かった!最尤推定とベイズ推定ようやく分かった!最尤推定とベイズ推定
ようやく分かった!最尤推定とベイズ推定
 
Rでisomap(多様体学習のはなし)
Rでisomap(多様体学習のはなし)Rでisomap(多様体学習のはなし)
Rでisomap(多様体学習のはなし)
 

Similar to 大規模ネットワークの性質と先端グラフアルゴリズム

Approximate Scalable Bounded Space Sketch for Large Data NLP
Approximate Scalable Bounded Space Sketch for Large Data NLPApproximate Scalable Bounded Space Sketch for Large Data NLP
Approximate Scalable Bounded Space Sketch for Large Data NLP
Koji Matsuda
 

Similar to 大規模ネットワークの性質と先端グラフアルゴリズム (20)

Structural data analysis based on multilayer networks
Structural data analysis based on multilayer networksStructural data analysis based on multilayer networks
Structural data analysis based on multilayer networks
 
When NAS Meets Robustness: In Search of Robust Architectures against Adversar...
When NAS Meets Robustness:In Search of Robust Architectures againstAdversar...When NAS Meets Robustness:In Search of Robust Architectures againstAdversar...
When NAS Meets Robustness: In Search of Robust Architectures against Adversar...
 
MapReduceによる大規模データを利用した機械学習
MapReduceによる大規模データを利用した機械学習MapReduceによる大規模データを利用した機械学習
MapReduceによる大規模データを利用した機械学習
 
Jokyokai
JokyokaiJokyokai
Jokyokai
 
When NAS Meets Robustness: In Search of Robust Architectures against Adversar...
When NAS Meets Robustness:In Search of Robust Architectures againstAdversar...When NAS Meets Robustness:In Search of Robust Architectures againstAdversar...
When NAS Meets Robustness: In Search of Robust Architectures against Adversar...
 
how-calculate-cluster-coefficience
how-calculate-cluster-coefficiencehow-calculate-cluster-coefficience
how-calculate-cluster-coefficience
 
NeurIPS2019参加報告
NeurIPS2019参加報告NeurIPS2019参加報告
NeurIPS2019参加報告
 
LCCC2010:Learning on Cores, Clusters and Cloudsの解説
LCCC2010:Learning on Cores,  Clusters and Cloudsの解説LCCC2010:Learning on Cores,  Clusters and Cloudsの解説
LCCC2010:Learning on Cores, Clusters and Cloudsの解説
 
深層生成モデルと世界モデル, 深層生成モデルライブラリPixyzについて
深層生成モデルと世界モデル,深層生成モデルライブラリPixyzについて深層生成モデルと世界モデル,深層生成モデルライブラリPixyzについて
深層生成モデルと世界モデル, 深層生成モデルライブラリPixyzについて
 
Newman アルゴリズムによるソーシャルグラフのクラスタリング
Newman アルゴリズムによるソーシャルグラフのクラスタリングNewman アルゴリズムによるソーシャルグラフのクラスタリング
Newman アルゴリズムによるソーシャルグラフのクラスタリング
 
20160901 jwein
20160901 jwein20160901 jwein
20160901 jwein
 
Approximate Scalable Bounded Space Sketch for Large Data NLP
Approximate Scalable Bounded Space Sketch for Large Data NLPApproximate Scalable Bounded Space Sketch for Large Data NLP
Approximate Scalable Bounded Space Sketch for Large Data NLP
 
(文献紹介)Deep Unrolling: Learned ISTA (LISTA)
(文献紹介)Deep Unrolling: Learned ISTA (LISTA)(文献紹介)Deep Unrolling: Learned ISTA (LISTA)
(文献紹介)Deep Unrolling: Learned ISTA (LISTA)
 
研究報告 #0 - NII 情報科学の達人 ( R4 / 2 / 5 )
研究報告 #0   - NII 情報科学の達人 ( R4 / 2 / 5 ) 研究報告 #0   - NII 情報科学の達人 ( R4 / 2 / 5 )
研究報告 #0 - NII 情報科学の達人 ( R4 / 2 / 5 )
 
東大大学院 電子情報学特論講義資料「深層学習概論と理論解析の課題」大野健太
東大大学院 電子情報学特論講義資料「深層学習概論と理論解析の課題」大野健太東大大学院 電子情報学特論講義資料「深層学習概論と理論解析の課題」大野健太
東大大学院 電子情報学特論講義資料「深層学習概論と理論解析の課題」大野健太
 
Deep learning勉強会20121214ochi
Deep learning勉強会20121214ochiDeep learning勉強会20121214ochi
Deep learning勉強会20121214ochi
 
第126回 ロボット工学セミナー 三次元点群と深層学習
第126回 ロボット工学セミナー 三次元点群と深層学習第126回 ロボット工学セミナー 三次元点群と深層学習
第126回 ロボット工学セミナー 三次元点群と深層学習
 
LAB-ゼミ資料-1-20150413
LAB-ゼミ資料-1-20150413LAB-ゼミ資料-1-20150413
LAB-ゼミ資料-1-20150413
 
深層生成モデルと世界モデル(2020/11/20版)
深層生成モデルと世界モデル(2020/11/20版)深層生成モデルと世界モデル(2020/11/20版)
深層生成モデルと世界モデル(2020/11/20版)
 
Overview and Roadmap
Overview and RoadmapOverview and Roadmap
Overview and Roadmap
 

More from Takuya Akiba

ACM-ICPC 世界大会 2015 問題 K "Tours" 解説
ACM-ICPC 世界大会 2015 問題 K "Tours" 解説ACM-ICPC 世界大会 2015 問題 K "Tours" 解説
ACM-ICPC 世界大会 2015 問題 K "Tours" 解説
Takuya Akiba
 
大規模グラフ解析のための乱択スケッチ技法
大規模グラフ解析のための乱択スケッチ技法大規模グラフ解析のための乱択スケッチ技法
大規模グラフ解析のための乱択スケッチ技法
Takuya Akiba
 
Cache-Oblivious データ構造入門 @DSIRNLP#5
Cache-Oblivious データ構造入門 @DSIRNLP#5Cache-Oblivious データ構造入門 @DSIRNLP#5
Cache-Oblivious データ構造入門 @DSIRNLP#5
Takuya Akiba
 
プログラミングコンテストでの乱択アルゴリズム
プログラミングコンテストでの乱択アルゴリズムプログラミングコンテストでの乱択アルゴリズム
プログラミングコンテストでの乱択アルゴリズム
Takuya Akiba
 
プログラミングコンテストでの動的計画法
プログラミングコンテストでの動的計画法プログラミングコンテストでの動的計画法
プログラミングコンテストでの動的計画法
Takuya Akiba
 
プログラミングコンテストでのデータ構造
プログラミングコンテストでのデータ構造プログラミングコンテストでのデータ構造
プログラミングコンテストでのデータ構造
Takuya Akiba
 

More from Takuya Akiba (12)

分散深層学習 @ NIPS'17
分散深層学習 @ NIPS'17分散深層学習 @ NIPS'17
分散深層学習 @ NIPS'17
 
Learning Convolutional Neural Networks for Graphs
Learning Convolutional Neural Networks for GraphsLearning Convolutional Neural Networks for Graphs
Learning Convolutional Neural Networks for Graphs
 
TCO15 Algorithm Round 2C 解説
TCO15 Algorithm Round 2C 解説TCO15 Algorithm Round 2C 解説
TCO15 Algorithm Round 2C 解説
 
ACM-ICPC 世界大会 2015 問題 K "Tours" 解説
ACM-ICPC 世界大会 2015 問題 K "Tours" 解説ACM-ICPC 世界大会 2015 問題 K "Tours" 解説
ACM-ICPC 世界大会 2015 問題 K "Tours" 解説
 
大規模グラフ解析のための乱択スケッチ技法
大規模グラフ解析のための乱択スケッチ技法大規模グラフ解析のための乱択スケッチ技法
大規模グラフ解析のための乱択スケッチ技法
 
乱択データ構造の最新事情 -MinHash と HyperLogLog の最近の進歩-
乱択データ構造の最新事情 -MinHash と HyperLogLog の最近の進歩-乱択データ構造の最新事情 -MinHash と HyperLogLog の最近の進歩-
乱択データ構造の最新事情 -MinHash と HyperLogLog の最近の進歩-
 
Cache-Oblivious データ構造入門 @DSIRNLP#5
Cache-Oblivious データ構造入門 @DSIRNLP#5Cache-Oblivious データ構造入門 @DSIRNLP#5
Cache-Oblivious データ構造入門 @DSIRNLP#5
 
プログラミングコンテストでの乱択アルゴリズム
プログラミングコンテストでの乱択アルゴリズムプログラミングコンテストでの乱択アルゴリズム
プログラミングコンテストでの乱択アルゴリズム
 
プログラミングコンテストでのデータ構造 2 ~動的木編~
プログラミングコンテストでのデータ構造 2 ~動的木編~プログラミングコンテストでのデータ構造 2 ~動的木編~
プログラミングコンテストでのデータ構造 2 ~動的木編~
 
プログラミングコンテストでのデータ構造 2 ~平衡二分探索木編~
プログラミングコンテストでのデータ構造 2 ~平衡二分探索木編~プログラミングコンテストでのデータ構造 2 ~平衡二分探索木編~
プログラミングコンテストでのデータ構造 2 ~平衡二分探索木編~
 
プログラミングコンテストでの動的計画法
プログラミングコンテストでの動的計画法プログラミングコンテストでの動的計画法
プログラミングコンテストでの動的計画法
 
プログラミングコンテストでのデータ構造
プログラミングコンテストでのデータ構造プログラミングコンテストでのデータ構造
プログラミングコンテストでのデータ構造
 

Recently uploaded

Recently uploaded (11)

業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
 
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
LoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイスLoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイス
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
 
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
 
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
 
新人研修 後半 2024/04/26の勉強会で発表されたものです。
新人研修 後半        2024/04/26の勉強会で発表されたものです。新人研修 後半        2024/04/26の勉強会で発表されたものです。
新人研修 後半 2024/04/26の勉強会で発表されたものです。
 
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
 
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
 
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
 
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアルLoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
 
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
 
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
 

大規模ネットワークの性質と先端グラフアルゴリズム

  • 1. 2012/12/06 PFI セミナー 大規模ネットワークの性質と 先端グラフアルゴリズム 秋葉 拓哉 / @iwiwi
  • 2. 自己紹介 秋葉 拓哉 / @iwiwi • 所属:東大 CS M2 (今井研) → DC1 (来年) • PFI:インターン (2009) → バイト (夜研等) • 元プログラミングコンテスト中毒者 – TopCoder レーティング:3180 (世界で 12 位) • 研究:大規模グラフのアルゴリズム – 最短経路クエリ,コミュニティ検出,…… 1
  • 3. 現実世界のグラフを対象とした研究 複雑ネットワーク理論 (物理系) ウェブ系 データマイニング系 (WWW, WSDM, …) (KDD, SDM, ICDM, …) ・モデル化 ・コミュニティ検出 ・コミュニティ検出 データベース系 ・リンク予測 (SIGMOD, VLDB, ICDE, …) ・グラフクエリ処理 生物情報系 ネットワーク系 ・接続性 (INFOCOM, SIGCOMM, …) ・最適化 ハイパフォーマンス系 実験系アルゴリズム 理論系アルゴリズム (SC, ISC, …) (ALENEX, ESA, SEA, …) (STOC, FOCS, SODA, …) ・並列分散グラフアルゴリズム ・Graph 500! グラフ描画系 ・最近は中心性等も [Frasca+,SC’12] (GD, …) 2
  • 4. 今日の内容 1. 現実世界のネットワークの性質 次数分布,平均距離,三角形,… 2. それを活用したグラフアルゴリズム 理論系 実験系 • 近接中心性 • 最短路 • ルーティング • 密部分グラフ • 支配集合問題 • 可視化 3
  • 6. 対象となるネットワーク 紹介するような性質を持っていることが多い 現実世界のネットワーク: • ソーシャルネットワーク • ウェブグラフ • コンピュータネットワーク • 生物情報学のネットワーク • …… ※それらのネットワークが常にこうだと言っているわけではないです ※張り付けている実験結果は,自分がよく対象にするネットワーク達に偏って いるかもしれません(ソーシャル・ウェブ) 5
  • 7. 対象となるネットワーク こういうやつ こうじゃないやつ 共著ネットワーク 道路ネットワーク(アメリカ) [http://www.cise.ufl.edu/research/sparse/matrices/SNAP/ca-GrQc.html] 6
  • 8. 1. 次数分布 (Power Law, Scale Free) 次数分布:冪乗則 (Power Law) に従う −𝛾 𝑝(𝑘) ∝ 𝑘 • 𝑘:次数 • 𝑝(𝑘):次数が 𝑘 の頂点の割合 • 𝛾:定数 (べき指数) – 典型的には 2 < 𝛾 < 3 両対数でプロットすると 直線っぽくなる (累積でプロットしたほうが良い) [Mislove+’09,Fig.2] 7
  • 9. 1. 次数分布 (Power Law, Scale Free) 冪乗則 • 人の収入とかも冪乗則らしい • 正規分布とかと違い,ちょー大きな値が存在する – 一部の人がすごくお金持ち,大半の人は平均以下 – ネットワークでも,凄く次数が高い頂点がちらほらある 次数が冪乗則に従っているか? 1. 雑:両対数でそれっぽくなっているか 2. 真面目:統計モデルで 𝛾 を推定,検定 低い次数の部分では従わないことが多い アルゴリズム的には,凄い次数が大きい頂点がちょっとある,とかそ ういうぐらいの事実が重要な気がする 8
  • 10. 1. 次数分布 (Power Law, Scale Free) ウェブグラフの累積次数分布 う,うーん…… 9
  • 11. 2. 距離 (Small World) 平均距離:短い • 距離:二頂点の間の最短路の長さ s t • 平均:全二頂点対 短いとは:𝑂 log 𝑛 である,ランダムに繋ぎ変えても有意に小さくならない等 距離の分布の例 [Potamias+,CIKM’09,Fig.2] 10
  • 12. 2. 距離 (Small World) 実際の人間を通した実験 • 1960 年代,ミルグラム 「平均距離 6 だー!!!」 – 手紙を転送して貰って目的の人物に届ける – 現代では,破棄の考慮や始点に疑問の声 • 2002 年,ワッツ 「似たような感じだったー!!!」 – 電子メール – 始点の数や位置,破棄を今度は考慮しているらしい コンピュータによるネットワークの解析 • カジュアルに計算されてる(やっぱ小さい) • 2011 年,Backstrom (Facebook社) 「4.74 だー!!!」 – Facebook のネットワーク (721 M users / 69 B links) – [Backstorm+’11] http://arxiv.org/pdf/1111.4570v3.pdf 11
  • 13. 3. クラスター係数 (Small World) クラスター係数:大きい 三角形の個数 クラスター係数 𝐶 = 三頂点の組の個数 大きいとは:同じスケールのランダムに作るグラフより有意に大きい • 友達と友達は友達 • 局所性のようなものがある スモールワールド性: 小さい平均距離と大きいクラスター係数 (距離だけで言うこともある) ↑やべぇ 12
  • 14. 他にもいっぱい特徴量 & 性質 • 次数相関,結合次数分布 (JDD) • 中心性:次数,近接,媒介,固有ベクトル,… • モチーフ • コミュニティ構造 • 極大クリーク分布 • サイクル分布 • 固有値 • …… 13
  • 15. 4. 木っぽさ 遠目に見るとなんか木っぽい,という主張がしばしば行わ れている 1. Shavitt, Tankel. Hyperbolic embedding of internet graph for distance estimation and overlay construction. IEEE/ACM Trans. Netw. 16, 1 (2008). 2. Melnik, Hackett, Porter, Mucha, Gleeson. The Unreasonable Effectiveness of Tree-Based Theory for Networks with Clustering. Physical Review E, Vol. 83, No. 3 (2010). 3. Gupta, Shankar, Li, Muthukrishnan, Iftode. Finding Hierarchy in Directed Online Social Networks. WWW (2011). 「インターネットは,超繋がった core + 周りの tendril だ.パスは基本的に,tendril→core→tendril だ.」 (1 つめの文献から引用&和訳) 14
  • 16. 4. 木っぽさ AS のネットワーク (BGP log) 共著ネットワーク [http://www.cise.ufl.edu/research/sparse/matrices/SNAP/as-735.html] [http://www.cise.ufl.edu/research/sparse/matrices/SNAP/ca-GrQc.html] うーん,確かに?? 15
  • 17. 4. 木っぽさ 関係する実験 次数上位 数% の頂点 (Core) を 削除 →連結成分はばらばらに (ハブの存在的な話とも関係) [Mislove+,IMC’07,Fig.7] 次数の低い部分 (Fringe) では クラスター性が非常に高い [Mislove+,IMC’07,Fig.9] ( Core-Fringe 構造と呼ばれたりもしている) 16
  • 18. 4. 木っぽさ 木っぽさを測るのは進行中の課題? [Sullivan+,MMDS’12] • 𝛿-hyperbolicity [Gromov,’87] – 幾何的な指標 [Sullivan+,MMDS’12,P.8] – 双極空間に(距離の意味で)埋め込めたらツリー,を拡張 – 𝑂 𝑛4 かかってしまう → サンプリング等 • Tree-width (木幅) [Robertson,’84] – 組合せ的な指標 – 厳密計算は NP-Hard – Core 部分はあまり木っぽくはない,元の定義のままでは,この 部分に完全に引きずられてしまい意味を成さない 17
  • 20. 話すこと 1. 理論方面 i. 近接中心性の近似 ii. コンパクトルーティング iii. 支配集合問題の近似 2. 実用方面 i. 密部分グラフ列挙 ii. グラフ可視化 iii. 最短経路クエリ
  • 21. 1. 近接中心性の近似 (Small World) 𝑁 近接中心性 𝑐 𝑢 = 𝑑 𝐺 𝑢,𝑣 𝑣 (全頂点からの距離の平均の逆数) • 真面目に求めると,全頂点から BFS • 𝑂 𝑛𝑚 は無理 • 頂点集合をランダムサンプル → BFS Small World なら嬉しい [Eppstein+,SODA’01] log 𝑛 • Θ 個の頂点を選ぶと 𝜖2 • 1 − 𝑜(1) の確率で逆数での誤差が 𝜖Δ 未満 (Δ は直径) 20
  • 22. 2. コンパクトルーティング コンパクトルーティング • 各頂点に情報を蓄えておく • ある頂点に居て,ある頂点に行きたい.次どこに進め ば? をその頂点にある情報だけで計算する • 移動距離は最短距離に近いほど望ましい コンピュータネットワークにおけるパケットの輸送みたい な感じの問題 (ネットワークが静的でいいのかとかそういうツッコミはある) 21
  • 23. 2. コンパクトルーティング A Compact Routing Scheme and Approximate Distance Oracle for Power-law Graphs [Chen+, TALG’09] • 現実のネットワークでは一般的な理論的結果よりも良い 結果が出ている • Power Law を入れて解析したら,良い結果が出た • 理論と実世界のギャップを埋めた!(という主張) • 実際には FDRG というモデルを仮定し解析 (クラスター性などはおそらく一切ない) • 解析が長く,どう効いてるのかはすぐにはわからぬ 22
  • 24. 3. 支配集合問題の近似 Structural and Algorithmic Aspects of Massive Social Networks [Eubank+,SODA’04] • CL-model というモデルに言及 • このモデルの上で, 1 − 𝜖 -支配集合問題 (=NP-Hard) が貪欲アルゴリズムで 1 + 𝑜(1) 近似できると主張 • 次数の高いものをとるだけ ちなみに,Power law の任意のグラフという制限下では色々な問題が NP-Hard のままで,近似可能性もあまり向上しない [Shen+,COCOA’12] 23
  • 25. 4. 密部分グラフ列挙 密に接続しあっている頂点集合を知りたい • 𝑫𝑵-graph [Wang+,VLDB’11] • 𝒌-truss [Cohen,’08][Wang+,VLDB’12] 古典的な密頂点集合のモデルは,次数・距離 (𝑘-core, quasi-clique, 𝑘-plex, 𝑛-clique, …) → あんまり接続してなくても 1 つにされちゃう 防止するため,三角形で制約を行う新しいモデル 次数≧5,距離≦3 だ…手強い… → こういうのを分断できる 24
  • 26. 4. 密部分グラフ列挙 𝒌-core [Seidman,’83] 各頂点の次数 𝑘 以上になるような部分グラフ 𝒌-truss [Cohen,’08][Wang+,VLDB’12] 各辺が 𝑘 − 2 個の三角形に含まれるような部分グラフ (それぞれ,部分グラフ内での次数・個数,ということに注意) 𝒌-core 全頂点次数≧5 より,全体で 5-core. 𝒌-truss 真ん中の辺は三角形 0 個より,分断. 両側は 6-truss. 𝑘-truss は 𝑂 𝑚1.5 ですべての 𝑘 に関して列挙できる (三角形列挙の計算量と一致) 25
  • 27. 5. 可視化 LGL: Large Graph Layout [Adai+’04] http://lgl.sourceforge.net/ 数十万頂点のタンパク質ネットワークを可視化する目的 最もスケールする公開ソフトウェアの 1 つ (sfdpのほうが凄い?) [Adai+’04, Fig.4] “インターネット地図” [www.opte.org] 26
  • 28. 5. 可視化 1. 基本はバネモデル バネモデルは古典的ながら実は未だに最前線っぽい (計算の効率化などの工夫は行われている) 辺があるところは 辺が無いところは 引力(バネ;フックの法則) 斥力(クーロン力) (LGL は斥力はバケット法で適当に処理) ただし,スケールさせるため, 2. 最小全域木を作り,中央から配置 (木っぽさを活用している?) [Adai+’04, Fig.1] 27
  • 29. 6. 最短経路クエリ:厳密 木分解に基づく最短路クエリ [Wei,SIGMOD’10][Akiba+,EDBT’12] • ヒューリスティクスで木分解 – Fringe (Tendril) 部分がうまく分解される – Core 部分は諦める (Relaxed Tree-Decomposition) • 最短路行列を各バッグに対して前計算 • クエリには LCA まで DP して答える tree-like fringes を活用している 28
  • 30. 6. 最短経路クエリ:近似 ランドマークを用いた推定 [Potamias+,CIKM’09]等 s t • 頂点集合 𝐿:ランドマーク • 𝑑 𝐺 𝑙, 𝑣 (𝑙 ∈ 𝐿, 𝑣 ∈ 𝑉)を前計算 • クエリ 𝑠, 𝑡 には,以下を答える – min 𝑑 𝐺 𝑠, 𝑙 + 𝑑 𝐺 (𝑙, 𝑡) 𝑙∈𝐿 – すなわち,ランドマークを経由した距離の最小値 ランドマークに,中心的な頂点を選ぶようにすると, 平均誤差は驚くほど小さくなる tendril→core→tendril なので,かなりそれらを通るから 29
  • 31. まとめ(話したこと) • ネットワークの性質 – 次数分布,平均距離,クラスター係数 – 木っぽさ • それを活用したアルゴリズム – 理論系:中心性,ルーティング,支配集合 – 実装系:密部分グラフ,可視化,最短路 ありがとうございました (・__________・)/またね 30