YOU は何して VLDB2020 Tokyo へ？ (グラフ編)

YOU は何してYOU は何して
VLDB2020 Tokyo へ︖VLDB2020 Tokyo へ︖
(グラフ編)(グラフ編)
Group Reading 2020-08-21
新井淳也
© 2020 日本電信電話株式会社
1

この発表についてこの発表について
データベース (DB) 分野におけるグラフ界隈の最新情報をお届けします．
VLDB2020 のグラフ関連セッションから公開済みの全論文32件を簡単に紹介．
グラフを専門としない方向けに，各論文の説明よりもグラフに関する諸概念と問題
設定を中心に構成しました．
公式プログラムでは 12/84 が 'graph' を含むセッション．各セッションは論文3件なの
で合計36件．うち4件は論文未公開．
Graph Algorithms [1-8]
Graph Systems [1,2]
Graph Algorithms & Systems
Knowledge Graphs & Hypergraphs
2

発表の構成発表の構成
公式セッション名は内容が分かりにくいため，分野に基づき再分類しました．
Traverse and Path (5件)
Inﬂuence and Relevance (4件)
Isomorphism (6件)
Community (9件)
Embedding and Graph Neural Network (3件)
System and Parallel Computing (5件)
3

Traverse and PathTraverse and Path
4

DFS & BFSDFS & BFS
深さ優先探索 (DFS) や幅優先探索 (BFS)
は様々な場面で使われる︓
到達可能性の判定
連結成分の発見
巡回路 (cycle) の発見
ある頂点からのホップ数の計算
媒介中心性 (betweenness
centrality) の計算
他にも多くのグラフアルゴリズムの
building block になる．
[B. Yang+, PVLDB 13(2) '19]
5

DFS & BFS (続き)DFS & BFS (続き)
Fully Dynamic Depth-First Search in
Directed Graphs (B. Yang et al.)
動的な有向グラフにおいて，変更差
分を加味しつつ DFS tree を維持．
Traversing Large Graphs on GPUs
with Uniﬁed Memory (P. Gera et al.)
Uniﬁed memory 環境で GPU を用い
た BFS の性能を分析．
さらに新しいリオーダリング手法で
BFS を高速化．
私の Rabbit Order [Arai+, IPDPS'16] を引用している�
[B. Yang+, PVLDB 13(2) '19]
6

到達可能性到達可能性
Answering Billion-Scale Label-
Constrained Reachability Queries
within Microsecond (Y. Peng et al.)
辺ラベル付き有向グラフにおいて，
特定のラベル集合のみから成る経路
が与えられた2頂点間に存在するか，
を答える．
[Y. Peng+, PVLDB 13(6) '20]
7

最短経路最短経路
Planting Trees for scalable and eﬃcient Canonical Hub Labeling (K. Lakhotia
et al.)
2頂点間の最短経路クエリ処理のためのインデックス構築 (事前計算) を並列分散処
理で高速化．
具体的には，最短経路クエリ処理の SOTA である Pruned Landmark Labeling
[Akiba+, SIGMOD'13] のインデックス構築処理部分を改良した．
8

経路列挙経路列挙
2頂点間の経路には多くの用途がある．
頂点間の関係の強さを測る (右図)
ML のための特徴量にする
マネーロンダリングを検出する
経路は無数に存在するので，通常何らかの
制約を付けて抽出する．
Hop-constrained s-t Simple Path
Enumeration: Towards Bridging
Theory and Practice (Y. Peng et al.)
2頂点間の長さ以下の経路の列挙．
[秋葉拓哉+, 人工知能学会論文誌 31(2) '16]
2つの赤い頂点の関係は top-k 距離が小さいほど強そうに見える．
k
9

Inﬂuence and RelevanceInﬂuence and Relevance
10

影響最大化影響最大化
影響伝播確率を重みとするグラフ G におい
て，影響の伝搬範囲を最大化する．
口コミによるマーケティングや感染
症の拡大予測などに利用．
Eﬃcient Algorithms for Budgeted
Inﬂuence Maximization on Massive
Social Networks (S. Bian et al.)
各頂点のコストと予算が与えられた
とき，コストの合計が予算内になる
ように影響力を最大化する頂点集合
を発見する．
[S. Bian+, PVLDB 13(9) '20]
11

頂点の関連度頂点の関連度
グラフ上の接続関係から頂点間の関連の強さを算出する手法がいくつかある．
SimRank: 「似たオブジェクトに接続されているオブジェクトは似ている」という
アイデアで頂点同士の類似度を求める．
[Y. Liu+, PVLDB 13(11) '20]
Personalized PageRank (PPR): 特定の頂点集合 (クエリ) に対する重要度が得ら
れるようにバイアスをかけた PageRank.
クエリ頂点が与えられたとき，全ての頂点について SimRank や PPR の値が必要になる
ことはあまりない．代わりに関係が強い上位頂点の値を求める問題設定が多い．k
12

頂点の関連度 (続き)頂点の関連度 (続き)
以下の全ての論文では，品質に理論的保証がある近似解を求める．
SimTab: Accuracy-Guaranteed SimRank Queries through Tighter
Conﬁdence Bounds and Multi-Armed Bandits (Y. Liu et al.)
Top-k，または閾値付きの近似 SimRank クエリ処理．
Realtime Index-Free Single Source SimRank Processing on Web-Scale
Graphs (J. Shi et al.)
与えられたクエリ頂点に対する全頂点の SimRank を 100 ms 以内に求める．
Realtime Top-k Personalized PageRank over Large Graphs on GPUs (J. Shi
et al.)
与えられたクエリ頂点に対する PPR 上位頂点の値を 100 ms 以内に求める．k
13

サブグラフ検索サブグラフ検索
グラフの部分的な構造 (接続関係やラベル) の一致や類似はしばしば重要な情報となる．
例えばサブグラフの検索は情報抽出のために広く用いられる．
15

Motif countingMotif counting
モチーフ (小さなグラフ構造) の出現回数を
数える問題．
モチーフの出現回数はグラフの特徴を表す.
例︓三角形のモチーフが多いほど完
全グラフに近い．
16

Uncertain graph への適用Uncertain graph への適用
実世界のグラフは本来不確実さを含むものが多い︓
統計的な情報 (例︓病気とその症状)
不確実な推論 (例︓Web クロールと自然言語処理で構築した知識グラフ)
そのような情報を例えば存在確率を辺の重みとする uncertain graph で表現する．
ChiSeL: Graph Similarity Search using Chi-Squared Statistics in Large
Probabilistic Graphs (S. Agarwal et al.)
Uncertain graph におけるサブグラフ検索．
「クエリと似ているが存在確率は低い」と「クエリと似ていないが存在確率は高
い」のトレードオフを自動的に調整しつつ検索する．
17

Uncertain graph への適用 (続き)Uncertain graph への適用 (続き)
LINC: A Motif Counting Algorithm
for Uncertain Graphs (C. Ma et al.)
Uncertain graph における motif
counting.
出現回数の代わりに分散，平均，確
率質量関数 (PMF) を求める．
[C. Ma+, PVLDB 13(2) '19]
18

ハイパーグラフへの適用ハイパーグラフへの適用
ハイパーグラフ︓1辺が任意個の頂点を接続するグラフ．
論文の共著関係や商品の同時購入を表すために使われることがある．
[G. Lee+, PVLDB 13(11) '20]
19

ハイパーグラフへの適用 (続き)ハイパーグラフへの適用 (続き)
Hypergraph Motifs: Concepts, Algorithms, and Discoveries (G. Lee et al.)
モチーフの概念をハイパーグラフへ拡張．
3辺の場合を網羅する26モチーフについて，データの種類ごとにモチーフの出現頻
度が一致することを示した．
[G. Lee+, PVLDB 13(11) '20]
20

スーパーグラフ検索スーパーグラフ検索
小さいグラフ (モチーフ) の集合の中か
ら，クエリグラフに含まれるもの (i.e.,
) を抽出する．
応用例︓よく知られたタンパク質相
互作用 (PPI) を予めモチーフの集合
として持ち，ある生物の PPI グラフ
に出現するモチーフを抽出する．
IDAR: Fast Supergraph Search Using
DAG Integration (H. Kim et al.)
高速なスーパーグラフ探索アルゴリ
ズムの提案．
[H. Kim+, PVLDB 13(9) '20]
この例で期待される答えは．
D
Q
{ ∈ D | ⊆ Q}gi gi
{ , }g1 g3
21

頻出サブグラフマイニング頻出サブグラフマイニング
グラフ中に頻出するサブグラフには何らか
の意味があると考えられている．
PPI グラフにおける定型的なタンパク
質反応パターンなど．
Mining Top-k Pairs of Correlated
Subgraphs in a Large Network (A.
Prateek et al.)
著者ら曰く，頻繁に近傍に共起する
サブグラフの対にも意味がある．
これを correlated subgraph mining
(CSM) と定義し，アルゴリズムを提
案．
[A. Prateek+, PVLDB 13(9) '20]
この例では C-C-C-H と O の対が発見され
る．例えば遺伝子間の相互作用を表すグラ
フで，CSM は重要な生物学的形質に関わる
遺伝子を発見し得る (という主張)．
22

新しい問題︓グラフ連関規則新しい問題︓グラフ連関規則
Capturing Associations in Graphs (W. Fan et al.)
「グラフ連関規則」というコンセプトと導出手法の提案．
連関規則︓ 「A が成立すると B も成立する」というルール．
例えば「おむつを買う客はビールも買う」など．
具体的には次ページの例を参照．
23

[W. Fan+, PVLDB 13(11) '20]
グラフ連関規則を用いることで例えば次のような接続関係 (辺) を発見したい︓
: Ada--Denim Mini Skirt (Ada がクリックした商品と一緒に売られている)
: Bob--Joe (共通の友人を持ち同じ場所を訪れている)
: France--France (頂点の属性値は異なるが同じ実体であるはず)
※評価で実際にこれらの規則を導出したわけではない (実験用データセットがなさそう).
G1
G2
G5
24

コミュニティコミュニティ
コミュニティ︓接続が密な頂点のグループ.
コミュニティ内の人やモノは共通し
た性質を持つ (と期待される)．
コミュニティの発見によってできること︓
「知り合いかも」機能
購買履歴に基づく商品推薦
欠落している属性情報の補完
グラフ構造の理解や可視化の補助
[Stanford Network Analysis Project, '20/8/19 閲覧, ]
コミュニティ構造の例．
URL
26

コミュニティ検出・検索コミュニティ検出・検索
問題設定は2種類︓
検出 (detection)︓グラフ中のコミュニティを全て発見．
検索 (search)︓クエリ頂点を含むコミュニティだけ発見．
コミュニティとみなす基準 (「接続が密」の定義) は様々︓
モジュラリティ，辺密度， -clique， -truss，...
どれがベストなのかは不明 (用途次第︖)
以降で紹介するいくつかの論文では 'community' ではなく 'dense subgraph' のような
表現が使われているが，便宜上この発表では全てコミュニティと呼ぶ．
厳密には複雑ネットワークで自然に発生する dense subgraph 構造が community と呼ばれているような気はする．
k k
27

k-corek-core
-core: 各頂点が次数以上になるサブグ
ラフ．一般的には極大のものを指す．
Eﬃcient Progressive Minimum k-
core Search (C. Li et al.)
最小 -core の検索 (近似)．
著者の主張︓広告は対象人数が多い
ほどコストがかかる．真に密な小さ
いグループこそが重要．
右のグラフは全体として 3-core だ
が，提案手法はクエリ頂点に対し
て灰色の背景で示されるサブグラフ
を返す．
[C. Li+, PVLDB 13(3) '19]
k k
k
v0
28

k-trussk-truss
-truss︓全ての辺が個以上の三角形
に含まれるようなサブグラフ．
Truss 分解︓全てのについてグラフ中の
-truss を発見する問題．
Accelerating Truss Decomposition on
Heterogeneous Processors (Y. Che et
al.)
CPU + GPU 処理で高速に truss 分
解をする．
[Y. Che+, PVLDB 13(10) '20]
k k − 2
k
k
29

k-cliquek-clique
-clique: 完全グラフを成す頂点のサブ
グラフ．
-clique densest subgraph:
(含まれる -clique の数) / (頂点数)
が最大になるようなサブグラフ．
KClist++: A Simple Algorithm for
Finding k-Clique Densest Subgraphs
in Large Graphs (B. Sun et al.)
-clique densest subgraph の検出
(近似).
[Y. Che+, PVLDB 13(10) '20]
4-truss の部分は 4-clique でもある．
k k
k
k
k
30

BicliqueBiclique
2部グラフ︓頂点が2グループに分かれており，辺がグループ間にのみ存在するグラフ．
Biclique (2部クリーク): 2部グラフ内で完全2部グラフを成すサブグラフ．
応用例︓顧客と顧客が購入した商品を接続した2部グラフにおいて，同じ商品群を
買って評価を上げようとしている集団 (サクラ) を発見する．
Maximum Biclique Search at Billion Scale (B. Lyu et al.)
最大 biclique の検出 (タイトルは search だがクエリ処理ではない)．
[B. Lyu+, PVLDB 13(9) '20]
31

ラベル付きグラフへの適用ラベル付きグラフへの適用
Eﬀective and Eﬃcient Community
Search over Large Heterogeneous
Information Networks (Y. Fang et al.)
クエリ頂点と同じラベルの頂点から
成るコミュニティの検索．
応用例︓ワークショップの共
同開催者を共著グラフ上のコ
ミュニティから探す．
Meta-path (右図例 ) を用いて
単一ラベルのグラフとみなす．
Meta-path は検索時に与える．
,P1 P2
32

ラベル付きグラフへの適用 (続き)ラベル付きグラフへの適用 (続き)
Eﬀective and Eﬃcient Relational
Community Detection and Search in
Large Dynamic Heterogeneous
Information Networks (X. Jian et al.)
著者曰く，コミュニティ検出・検索
において次のような制約をいくつか
指定できると便利︓
「ラベルの頂点がラベルの頂
点個以上と隣接する」．
-core と似たアイデア．
制約に基づくコミュニティを
'relational community' と定義．検
出と検索のアルゴリズムを提案．
[X. Jian+, PVLDB 13(10) '20]
応用例︓活発な研究チームを見つけるために，各著者 (A) がコミュニテ
ィ内で2本以上の論文 (P) を執筆し，各論文がコミュニティ内の著者3人
以上の共著であるようなコミュニティを探す．
Ta Tb
k
k
33

ハイパーグラフへの適用ハイパーグラフへの適用
MEGA: Multi-View Semi-Supervised
Clustering of Hypergraphs (J. J.
Whang et al.)
1つのグラフだけでなく，複数のグラ
フや頂点属性など色々なデータを統
合して考慮する (mutli-view) クラス
タリング．
一部の頂点についてラベルが与えら
れている (semi-supervised) と精度
がさらに向上．
[J. J. Whang+, PVLDB 13(5) '20]
検索キーワードのクラスタ (payment, place など) を探す例．
34

時間変化するグラフへの適用時間変化するグラフへの適用
Online Density Bursting Subgraph Detection from Temporal Graphs (L. Chu
et al.)
時間変化するグラフから急速に密になりつつある部分を検出する．
応用例︓人や会社のコラボ動向監視，移動航跡に基づく旅行者の行動分析．
論文のケーススタディでは，夕方にオフィス街から商業地域へ向かうタクシ
ーの流れを発見．
35

Bump huntingBump hunting
Bump hunting: 主に地理的なデータであ
る特徴が頻繁にみられる領域を探す技術．
グラフにおいてはコミュニティ検索と似た
問題として定義 [Gionis+ TKDE'17]．
Hunting Multiple Bumps in Graphs
(Y. Sun et al.)
重み付きグラフにおける複数 bump
の同時発見．
著者曰く，bump はコミュニティ検
索よりも小さく密なサブグラフにな
るため有用． [A. Gionis+, TKDE 29(3) '17]
Bump の例．
36

Embedding and Graph NeuralEmbedding and Graph Neural
NetworkNetwork
37

Node embeddingNode embedding
Node embedding: 周辺のグラフ構造を反
映した，頂点の多次元ベクトル表現．
ベクトルにすれば既存の ML 手法を
グラフの諸問題に適用できる．
Homogeneous Network Embedding
for Massive Graphs via Reweighted
Personalized PageRank (R. Yang et
al.)
Billion-edge 規模の大規模グラフで
embedding を求める．
[Stanford Network Analysis Project, WWW'18, ]
Input で近傍にある頂点は Output (embedding) でも近傍にある．
URL
38

Entity alignment への応用Entity alignment への応用
Entity alignment: 異なる知識グラフから
同じ実体を表現する頂点を見つける問題．
A Benchmarking Study of
Embedding-based Entity Alignment
for Knowledge Graphs (Z. Sun et al.)
Embedding に基づく entity
alignment 手法の比較評価．
これまで多くのアルゴリズムが提案
されてきたが，それらの性能は比較
されてこなかった．
[Q. Zhu+ WWW'20] Entity alignment 問題の例．
39

Graph neural network (GNN)Graph neural network (GNN)
GNN: Embedding を求める関数を学習す
るモデル．(発表者の理解が怪しい)
Node embedding はグラフが変わる
と embedding の再計算が必要．
GNN は未知のグラフでも対応可能．
AGL: A Scalable System for
Industrial-purpose Graph Machine
Learning (D. Zhang et al.)
分散処理による GNN の訓練と推論．
著者らの評価では100マシンで約6B
頂点，300B辺のグラフを処理．これ
はグラフ ML で最大規模とのこと． [Y. Li+, Methods 166 '19] GNN の全体構造．
40

System and Parallel ComputingSystem and Parallel Computing
41

グラフ分割グラフ分割
分散処理のため，グラフを分割して各マシ
ンに割り当てる．
並列処理時に通信が減るので，分割
間の結合は疎にしたい．
さらに負荷分散のため，各分割の頂
点または辺の数を均一にする．
Edge-cut vs. vertex-cut
Edge-cut は頂点を，vertex-cut は
辺をグループに分ける．
Edge-cut のほうが昔から使われてい
るが，実世界のグラフでは vertex-
cut のほうが負荷を均一化しやすい．
[M. Hanai+, PVLDB 12(13) '19]
42

グラフ分割 (続き)グラフ分割 (続き)
Distributed Edge Partitioning for Trillion-edge Graphs (M. Hanai et al.)
Trillion-edge 規模に対応可能で高品質な分割を作る vertex-cut partitioning.
Incrementalization of Graph Partitioning Algorithms (W. Fan et al.)
既存の分割アルゴリズムからインクリメンタルな分割アルゴリズムを導出．
インクリメンタル分割︓グラフを一度分割した後で，グラフに対する変更差
分を受け取り，それを反映した分割の差分を生成する．
一から新しいインクリメンタルな分割アルゴリズムを考えるのではなく，既存のア
ルゴリズムをインクリメンタル化することが特徴．さらにインクリメンタル化によ
る品質の劣化度に保証がある．
上の M. Hanai 手法を早速インクリメンタル化して評価している．
43

グラフストレージグラフストレージ
グラフデータは効率的な読み出しと一貫性を維持した書き換えの両立が難しい．
隣接頂点リスト (Dict[Vertex, [Edge]]) の場合︓
辺の追加時にとの隣接頂点リストの同時書き換えが必要．
辺リスト ([Edge]) の場合︓
隣接頂点リストの読み出しが非効率．
LiveGraph: A Transactional Graph Storage System with Purely Sequential
Adjacency List Scans (X. Zhu et al.)
トランザクションが使えて分析処理も高速なグラフストレージの提案．
(u, v) u v
44

グラフ処理基盤グラフ処理基盤
Pangolin: An Eﬃcient and Flexible
Graph Mining System on CPU and
GPU (X. Chen et al.)
グラフパターンマイニングアルゴリ
ズムの効率的な記述と GPU 実行が可
能なフレームワーク．
グラフパターンマイニング︓Motif
counting や頻出サブグラフマイニン
グの総称．
[X. Chen+, PVLDB 13(8) '20]
45

グラフ処理基盤 (続き)グラフ処理基盤 (続き)
Graphite: A NUMA-aware HPC System for Graph Analytics Based on a new
MPI*X Parallelism Model (M. H. Mofrad et al.)
新しい 'MPI*X' というモデルによって効率的に並列分散グラフ処理をする．
MPI+X (既存)︓
マシン単位で処理を分割．
さらに各マシンで OpenMP 等によりコア数分並列化．
MPI*X (提案)︓
最初からマシン数×コア数に処理を分割．
コア間の通信が減り NUMA-aware になる．
(Flat MPI と同じことを言っているように聞こえるが……︖)
46

資料作成時点で未公開だった論文資料作成時点で未公開だった論文
Distributed Subgraph Counting: A General Approach
Many-Core Clique Enumeration with Fast Set Intersections
Ordering Heuristics for k-clique Listing
Maximizing the Reduction Ability for Near-maximum Independent Set
Computation
47

まとめまとめ
VLDB2020 のグラフ関連セッションで扱われる論文36件中32件を俯瞰的に紹介した．
所感︓
VLDB のグラフ界隈はまだまだ元気．
12/84 セッションがグラフなので，全体の15%くらい．
HPC 分野の国際会議ではブームが既に去った印象．
Embedding や GNN はもっと研究されていそうだが，ML 分野に流れている︖
よく知られている問題と uncertain/hyper/property/dynamic/temporal グラフ
の組み合わせで新しい問題設定とアルゴリズムが量産されている．
ニッチになりがちだが研究の取っ掛かりとしては面白そう．
これらのグラフを普通のグラフへうまく変換し，こなれた既存手法で似た答
えを得ることはできないものだろうか︖
48

YOU は何して VLDB2020 Tokyo へ？ (グラフ編)

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Similar to YOU は何して VLDB2020 Tokyo へ？ (グラフ編)

Similar to YOU は何して VLDB2020 Tokyo へ？ (グラフ編) (12)

More from Junya Arai

More from Junya Arai (6)

YOU は何して VLDB2020 Tokyo へ？ (グラフ編)