Newman アルゴリズムによるソーシャルグラフのクラスタリング

Newman
アルゴリズムによる
ソーシャルグラフの
クラスタリング
第９回データマイニング＋WEB勉強会＠東京 2 nd week
2011.1.23
KOMIYA Atsushi (@komiya_atsushi)

AGENDA
1. 自己紹介&本日の発表について
2. グラフの基礎とソーシャルグラフ
3. グラフのクラスタリング
4. Girvan-Newman アルゴリズム
5. Newman アルゴリズム

1.自己紹介＆
本日の発表に
ついて

自己紹介
• 名前 / Twitter ID
• 小宮篤史 (@komiya_atsushi）
• Web/RIA/モバイル系エンジニア
• 研究開発 “支援” もやってます
• レコメンデーション関連
• 学部・院生時代の研究テーマは情報理論
（データ圧縮）でした

※グラフ：総務省統計局 HP より引用 http://www.stat.go.jp/data/kokusei/2010/pdf/jinkou.pdf

社会的な統計情報を
可視化したグラフの
ことではありません

※グラフ：総務省統計局 HP より引用 http://www.stat.go.jp/data/kokusei/2010/pdf/jinkou.pdf

グラフ理論の
「グラフ」です

この発表の目的・ねらい
• グラフのクラスタリング手法について、ざっくり
理解していただく
• ソーシャルグラフのクラスタリングを何に/どの
ように応用できるのか？議論できるように
• 詳細な応用事例については、@doryokujin
さんがいつか、発表してくださるはず！！

2.
グラフの基礎と
ソーシャルグラフ

グラフについて
（おさらい）

グラフ理論における「グラフ」
• グラフ
• ノードとエッジの集合
b d
a f
c e

• グラフ
b d
• ノード
a f
• 点
c e

• グラフ
b d
• ノード
a f
• 点
• エッジ c e

• 二つ(もしくは一つ)の
ノードを繋ぐ

身近にある「グラフ」

※路線図：東京メトロホームページより引用 http://www.tokyometro.jp/station/index.html

身近にある「グラフ」

ノード：駅

エッジ：路線

※路線図：東京メトロホームページより引用 http://www.tokyometro.jp/station/index.html

グラフの本質
• 「もの」と「もの」の「つながり」を抽象的に
表現したもの
• もの … ノード
• つながり … エッジ
• 例（ノード／エッジ）
• 路線図 … 駅／路線
• WWW … ページ／リンク
• ネットワーク構成図 … NW機器／回線

いろいろなグラフ
• 重みつきグラフ
• エッジに重み・コストが与えられている 2.0 2.5

• 路線図：距離、NW構成図：転送速度など 1.5

• 有向グラフ
• エッジに向きが設定されている
• WWW：リンクなど
• 多重グラフ
• １組のノードの間に、２本以上のエッジが
張られている

いろいろなグラフ
• 重みつきグラフ
断りがない限り
• エッジに重み・コストが与えられている 2.0 2.5

『重みなし』『無向』
• 路線図：距離、NW構成図：転送速度など 1.5

• 有向グラフ
『単純（多重でない）』
• エッジに向きが設定されている

• 多重グラフ
グラフを取り扱う
• WWW：リンクなど

ものとします
• １組のノードの間に、２本以上のエッジが
張られている

「ソーシャルグラフ」
• Facebook 現 CEO マーク・ザッカーバーグ
ソーシャルグラフの提唱者はブラッド・フィッツパトリック氏
（Brad Fitzpatrick）でした。大変失礼いたしました。
氏が提唱
• 人間同士のつながりをグラフに見立てたもの

氏が提唱
• ノード … 人間

氏が提唱
• ノード … 人間、がほとんど（例外あり）

氏が提唱

※アイコン：Twitter @gachapinblog より引用 http://twitter.com/gachapinblog

氏が提唱
• エッジ … 関係（友人、ファン・・・）
• mixi … マイミク
• Twitter … フォロー・フォロワー（有向）

※アイコン：Twitter @gachapinblog より引用 http://twitter.com/gachapinblog

ソーシャルグラフの例

※mentionmap ： http://apps.asterisq.com/mentionmap/

ソーシャルグラフの例

mentionmap で、hamadakoichi さんを
中心とした mention/ハッシュタグベース
のソーシャルグラフを可視化してみました

3.
グラフの

まずは一般的な
について説明

＝濱田さん

詳しくは
濱田さんの
過去の発表資料
を熟読すべし！

クラスタリングとは？
• 似ている・近いもの同士の集まりを見つけること
• 「分類（classification）」とは異なる
100

80

60

40

20

0
0 20 40 60 80 100

一般的なクラスタリング特徴

• 一つ以上の「特徴」でがく片がく片花びら花びら
長幅長幅
構成される「要素」を 5 3.3 1.4 0.2
クラスタリング対象と 6.4 2.8 5.6 2.2
する 6.5 2.8 4.6 1.5
6.7 3.1 5.6 2.4
• 特徴をもとに互いの要
6.3 2.8 5.1 1.5
要素の類似性を算出素
4.6 3.4 1.4 0.3
し、類似する要素を 6.9 3.1 5.1 2.3
集めて、「クラスタ」と 6.2 2.2 4.5 1.5
する 5.9 3.2 4.8 1.8
フィッシャーのアヤメのデータ

グラフにおけるクラスタリング
• 「ノード」をクラスタリング対象とする
• ノード間に張られている「エッジ」の密度が高
いノードの集まりを「コミュニティ（クラスタ）」
とする
• コミュニティの内部は、ノード同士が互いに、密に
（たくさん）エッジを張り合っている
• コミュニティと他のコミュニティの間は、エッジの
密度が疎となる（少ない）

グラフのクラスタリング例


コミュニティ内は
エッジ密度が高い


コミュニティ間
はエッジ密度
が低い

一般的なデータに対する
クラスタリング各種手法の分類
帰属度
種類
ハードクラスタリングソフトクラスタリング
• Group Average Method
• Single Linkage Method
階層的 • Complete Linkage Method
手法 • Ward Method
手 • Centroid Method
法 • Median Method
• k-means • Fuzzy k-means
非階層的 • Canopy • Gaussian Discriminative
手法 • Mean-Shift Analysis
• Spectral Clustering • Dirichlet Processing

※表：”Mahout Canopy Clustering - #TokyoWebmining 9” p.48 より引用
http://www.slideshare.net/hamadakoichi/mahout-canopy-clustering-tokyowebmining-9

帰属度
種類
１つの要素は
• Single Linkage Method １つの要素は
手法 • １つのクラスタに
Ward Method １つ以上のクラスタに
手のみ属する
• Centroid Method 属する


帰属度
種類
• Single Linkage Method
手法 • Ward Method
手 • Centroid Method
今回紹介するグラフクラスタリング手法は
階層的・ハードクラスタリングです

グラフにおける階層的クラスタリング
• 大きなコミュニティの中に、小さな複数のコ
ミュニティが存在する入れ子構造をとる

すべてのノードは、
グラフ全体からなる
１つの大きな
コミュニティに属する


エッジを密に
張り合うノードで
構成される中間的な


個々のノードのみ
からなる最小の


グラフ全体から
なるコミュニティ

中間コミュニティ

個々のノードから

階層的クラスタリング
トップダウン／ボトムアップアプローチ
• トップダウンアプローチ
• グラフ全体を一つの大きなコミュニティとした状態か
ら始める
• エッジを一つずつ切り離して、徐々に小さなコミュニ
ティに分割していく
• ボトムアップアプローチ
• 各ノードを個々の独立したコミュニティした状態から
始める
• コミュニティ間のエッジの密度を参考に、コミュニティ
を順次併合していく

トップダウンアプローチ




中間のコミュニティ




個々のノードからなるコミュニティ

ボトムアップアプローチ


階層型クラスタリング
デンドログラム（樹形図）

※図：”Fast algorithm for detecting community structure in networks” より引用


大きく二つのクラスタに
分けることができます



左側のクラスタは、
さらに二つのクラスタに
分けることができます



上で分割すると、
大きなクラスタが得られ



下で分割すると、小さな
クラスタがたくさん得られます



利用者の目的に合わせて
クラスタの粒度を決められます



でも、最適なクラスタの粒度は・・・？


クラスタリングの精度を測るには？
• 「よいクラスタリング」とはどういう状態？
• コミュニティ内のエッジ密度が高い
• コミュニティ間のエッジ密度が低い

• 「悪いクラスタリング」の例

コミュニティ間の
• 「悪いクラスタリング」の例エッジ数が
多すぎる・・・

• 「よいクラスタリング」の例

Modularity “Q”
グラフクラスタリングの精度を測る指標値
• �� = ��(�� − ( �� )�� ) = �� (�� − �� )
��
• ��
• 「総エッジ本数」に対する、コミュニティ i 内部におけ
る「ノード毎のエッジ本数の総和」の割合
• ��
• 「総エッジ本数」に対する、コミュニティ i から j に
張られているエッジ本数の割合
• ��
• 「総エッジ本数」に対する、コミュニティ i から他の
コミュニティに向けて張られているエッジ本数の割合

Modularity “Q”
グラフクラスタリングの精度を測る指標値
• Q の値
• 0≦Q≦1
• 1に近い値ほど、精度が良いことを表す
• 実データでは、たいてい 0.3～0.7 の値になる
• 個々のノードからなる最小コミュニティに分割
されたときに、Q = 0 となる

Modularity の変化
• 削除エッジ本数（x 軸）に対する Modularity
（y 軸）の変化の様子
最適な
クラスタリングが
ここで行える

※図：”Finding and evaluating community structure in networks” より引用

Modularity を計算してみる

コミュニティ g コミュニティ h
内部エッジ本数 14 本 16 本
(※重複含む) (重複なし：7本) (重複なし：8本)
コミュニティ間エッジ本数 3 本 3本


総エッジ本数
=14 + 3 + 16 + 3
コミュニティ g =36 コミュニティ h


コミュニティ g コミュニティ h 総エッジ本数：36 本

コミュニティ間エッジ本数 3本 3本
�� 14/36 16/36
��
�� (3/36)^2 (3/36)^2

総エッジ本数：36 本

(※重複含む)
コミュニティ g (重複なし：7本)
コミュニティ h (重複なし：8本)
�� 14/36 16/36
��
�� (3/36)^2 (3/36)^2
��
• �� = �� − ��
��
= − + − = ��. ��
��

4. Girvan-
Newman
アルゴリズム

Girvan-Newman アルゴリズム概要
• Girvan と Newman らによる提案
• トップダウンアプローチでのクラスタリング
• コミュニティ間を跨ぐ存在になる可能性の
高いエッジから順に切り離す
• エッジに対し、“betweenness” のスコアを付与
• 論文では Shortest-path betweenness を利用
• エッジを切り離す度、”betweenness” を再
計算する

Girvan-Newman アルゴリズム概要
• Girvan と Newman らによる提案
• トップダウンアプローチでのクラスタリング
• コミュニティ間を跨ぐ存在になる可能性の
高いエッジから順に切り離す
• エッジに対し、“betweenness” のスコアを付与
• 論文では Shortest-path betweenness を利用
• エッジを切り離す度、”betweenness” を再
トップダウンアプローチでは、
計算する
このエッジを切り離す戦略が重要

クラスタリング手順
1. グラフ全体からなるコミュニティから始める
2. 現存するすべてのエッジに対し、betweenness
スコアを（再）計算する
3. もっとも高い betweenness スコアを持つエッジ
を切り離す
• 複数のエッジがもっとも高いスコアを持っている場合
は、その中からランダムに１つを選択する
4. 残りのエッジがなければ処理を終了し、存在す
るならば、2. 以降を繰り返し処理する

Girvan-Newman アルゴリズムの欠点
• とにかく計算量が大きい
• Shortest-path betweenness の計算で ��(��)
• クラスタリング処理全体で、 ��(��2 ��)
• m：エッジ本数
• n：ノード数
• エッジが疎なグラフだと、 ��(��3 )
• 2004 年当時の計算機で、数千ノードのグラ
フをクラスタリングするのが限界

計算量の問題を解決するには？
• Shortest-path betweenness の計算によ
るところが大きい
• Modularity がよい値となるクラスタリングを行う
ために必要
• そもそも、 (Shortest-path) betweenness
を計算する必要はあるのか？

Newman アルゴリズム概要
• Girvan-Newman アルゴリズムと比較して、
計算量が小さい
• ボトムアップアプローチでのクラスタリング
• betweenness の計算はせずに、最適な
Modularity を目指す

Modularity を高める
• Girvan-Newman アルゴリズム
• betweenness に基づいたクラスタリングを行った
結果、Modularity が良くなった
• Modularity を高くすることが目的なら、最初
から Modularity に着目して最適化してあげ
ればいいのでは？
• Newman アルゴリズムの基本概念

Modularity に着目したクラスタリング
• ボトムアップアプローチを前提として説明
• あるクラスタリングの状態から次の併合対象
の２つのコミュニティを選ぶ際に、併合後の
Modularity を試算してみる

コミュニティb

コミュニティa

コミュニティc

コミュニティ a と b を
結びつけると、
Modularityは 0.3 になる

コミュニティb

コミュニティa

コミュニティc

コミュニティ a と c を
Modularity は 0.5 になる
コミュニティb

コミュニティa

コミュニティc

コミュニティ b と c を
Modularity を試算してみるは 0.2 になる
Modularity

コミュニティb

コミュニティa

コミュニティc

コミュニティ a と c を
Modularity が一番高く
なるので、この２つを
併合しよう
コミュニティb

コミュニティa

コミュニティc

最適な Modularity の計算
• 本当に最適化しようとすると、膨大な計算量
となる
• Shortest-path betweenness 以上の計算量
• n 個のノードを g 個のコミュニティに分類する組
み合わせ数は、第２スターリング数 S(n, g) にな
る
• 前述した、あるクラスタリングの状態から次の
併合対象のコミュニティを求めるのに
Modularity を試算するだけでも大変
• 計算量が大きくなってしまっては本末転倒

Modularity “Q” ではなく、ΔQ
• 二つのコミュニティを併合したときの増加量に
着目
• 他のコミュニティの状況が変わっても、特定の二
つの組み合わせのコミュニティを併合したときの
Modularity の増加量に変わりはない
• つまり、ΔQ の再計算は併合時を除き不要
• ∆�� = �� + �� − �� = ��(�� − �� )
• このΔQ に着目して、greedy（貪欲）に処理
する

Newman アルゴリズムの処理手順
1. 個々のノードからなるコミュニティから始める
2. すべての２つのコミュニティの組み合わせに対し、そ
れらのコミュニティを併合したときのΔQ を計算する
3. ΔQ のもっとも高いコミュニティの組み合わせを併合
する
4. 併合された２つのコミュニティにエッジを張っている他
のコミュニティとの間のΔQ を再計算する
5. コミュニティの数が１つになったところで、処理を終了
する（２つ以上であれば、3. 以降の処理を繰り返す）

��(��2 )
する

��(��2 )
��(�� + ��)
する

��(��2 )
��(��)
��(�� + ��)
する

��(��2 )
��(��)
��(�� + ��)
する
全体の計算量
する（２つ以上であれば、3. �� )
��( �� + 以降の処理を繰り返す）

Newman アルゴリズムのまとめ
• 全体の計算量は �� + ��
• エッジが疎なグラフだと、��(��2 )
• 後に公開された論文で、 ��(�� log 2 ��) まで高速化
• 2004 年当時の計算機で、100万ノードほどのグ
ラフのクラスタリングが可能
• クラスタリング精度（Modularity）は Girvan-
Newman アルゴリズムと同程度か、少し下回る
くらい
• エッジに重みが付与されたグラフに対しても適用
できる

今日話した内容
• グラフは「もの」を表すノードと「つながり」を表
すエッジからなる
• ソーシャルグラフは、人などが「ノード」、関係が
「つながり」になる
• グラフのクラスタリングは
• 「コミュニティ」を抽出すること
• 階層的・ハードクラスタリングとなる
• クラスタリング精度の良さは、Modularity で
測る

今日話した内容
• トップダウンアプローチ
• Shortest-path betweenness に基づいてエッジ
を切る
• Newman アルゴリズム
• ボトムアップアプローチ
• Modularity を greedy に最適化
• ΔQ に着目して、計算量を削減

ご清聴
ありがとう
ございました！

参考文献
• M.E.J. Newman and M. Girvan.
Finding and evaluating community
structure in networks
• http://arxiv.org/abs/cond-mat/0308217
• Modularity
• M.E.J. Newman.
Fast algorithm for detecting community
structure in networks
• Newman アルゴリズム

参考文献
• A. Clauset, M.E.J. Newman and C.
Moore
Finding community structure in very
large networks
• Newman アルゴリズムの高速な実装

Newman アルゴリズムによるソーシャルグラフのクラスタリング

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Viewers also liked

Viewers also liked (20)

Similar to Newman アルゴリズムによるソーシャルグラフのクラスタリング

Similar to Newman アルゴリズムによるソーシャルグラフのクラスタリング (9)

Newman アルゴリズムによるソーシャルグラフのクラスタリング