1. 国際会議参加報告
41st International Conference on Very Large Data Bases
VLDB 2015
東京大学生産技術研究所
特任研究員 早水悠登
2015/12/12 1
2015/12/12 @ 東京大学生産技術研究所
第24回先端的データベースとWeb技術動向講演会 (ACM SIGMOD 日本支部第61回支部大会) 講演資料
15. “Congrats Mike!”
• Michael Stonebraker の
チューリング賞受賞
お祝いムード一色
• 4人目のデータベース分野受賞者
– Charles Bachman (1973)
• ナビゲーショナルデータベース
“The Programmer As Navigator”
– Edgar F. Codd (1981)
• リレーショナルデータベース
“Codd’s biggest overall achievement was to make
database management into a science. ” (Chris Date)
– Jim Gray (1998)
• トランザクション処理
2015/12/12 15
17. VLDB2015 は Stonebraker三昧
• チューリング賞受賞記念講演
• VLDB 40周年記念パネル
• VLDB 10-year Best Paper Award 受賞講演
2015/12/12 17
18. チューリング賞受賞記念講演
The Land Sharks are on the Squawk Box
(How Riding a Bicycle across America and
Building Postgres Have a Lot in Common)
Michael Stonebraker
2015/12/12 18
19. The Land Sharks are on the Squawk Box
(How Riding a Bicycle across America and
Building Postgres Have a Lot in Common)
• Land Sharks
– 地上げ屋
– ここでは”親しみを込めて”投資家のこと
• Squawk Box
– ポリコム的なもの
2015/12/12 19
20. The Land Sharks are on the Squawk Box
(How Riding a Bicycle across America and
Building Postgres Have a Lot in Common)
• 2つの回想録
– Postgresプロジェクト(Illustra創業)
– Stonebraker夫妻のアメリカ横断自転車旅行
• Stonebrakerの 語り が面白い
– 是非YouTubeで視聴しましょう :)
2015/12/12 20
21. The Land Sharks are on the Squawk Box
(How Riding a Bicycle across America and
Building Postgres Have a Lot in Common)
• 2つの回想録
– Postgresプロジェクト(Illustra創業)
– Stonebraker夫妻のアメリカ横断自転車旅行
• Stonebrakerの 語り が面白い
– 是非YouTubeで視聴しましょう :)
2015/12/12 21
38. キャリアを振り返って
• Make It Happen (PhD) – 5年間
• Make It Happen (tenure) – 5年間
• Make It Happen (アメリカ横断旅行) – 2ヶ
月
• “正気の人間がこんなことをやりたがるだ
ろうか?”
2015/12/12 38
42. 40周年記念パネル
VLDBとデータベース業界の40年を語る
パネリスト
• Don Chamberlin, retired IBM Fellow
– データベース業界の40年前を振り返る
• Phil Bernstein, Microsoft Research
– VLDBの40年前を振り返る
• Michael Brodie, MIT, retired Chief Scientist Verizon IT
– VLDBの歩み
• Alfons Kemper, Technical University Munich
– 40年間の流行り廃り
• Michael Stonebraker, MIT and serial entrepreneur
• データベース業界のセレンディピティと苦言
2015/12/12 42
60. 10-year Best Paper Award
2015/12/12 60
C-Store: Looking back and looking forward
Mike Stonebraker, Daniel J. Abadi, Adam Batkin, Xuedong Chen,
Mitch Cherniack, Miguel Ferreira, Edmond Lau, Amerson Lin, Sam
Madden, Elizabeth O’Neil, Pat O’Neil, Alex Rasin, Nga Tran, and
Stan Zdonik
受賞理由
• 従前のカラム指向データベースが抱えていた多くの問題
を解決して、高性能で実用的な設計と実装を示した
• 商業的にも成功を収めたVerticaの土台となった
61. D. Abadi said ...
• カラム毎にデータを保存するというアイディア自体は70年代
からあった
– SybaseIQ
– MonetDB (CWI)
– PAX (Wisconsin)
– Data morphing (Michigan)
– Clotho (CMU)
• C-Storeの特徴
– Hybrid Storage
– 圧縮
– Late Materialization
2015/12/12 61
C-Storeの最大の貢献は、システム全体としての
実用的な設計を示したこと
69. Keynotes
Engineering Database Hardware and Software Together
Juan Loaiza (SVP of Systems Technology at Oracle)
Databases and Hardware: The Beginning and Sequel of a
Beautiful Friendship
Anastasia Ailamaki (Prof. at EPFL)
Big Plateaus of Big Data on the Big Island
Todd Walter (Chief Technologist for Teradata)
Big Data Research: Will Industry Solve all the Problems?
Magdalena Balazinska (Assoc. Prof. at the Univ. of Washington)
2015/12/12 69
Day 1
Day 2
共通テーマで Industry + Academic follow-up という構成
70. Keynotes
Engineering Database Hardware and Software Together
Juan Loaiza (SVP of Systems Technology at Oracle)
Databases and Hardware: The Beginning and Sequel of a
Beautiful Friendship
Anastasia Ailamaki (Prof. at EPFL)
Big Plateaus of Big Data on the Big Island
Todd Walter (Chief Technologist for Teradata)
Big Data Research: Will Industry Solve all the Problems?
Magdalena Balazinska (Assoc. Prof. at the Univ. of Washington)
2015/12/12 70
Day 1
Day 2
共通テーマで Industry + Academic という構成
71. Keynotes
Engineering Database Hardware and Software Together
Juan Loaiza (SVP of Systems Technology at Oracle)
Databases and Hardware: The Beginning and Sequel of a
Beautiful Friendship
Anastasia Ailamaki (Prof. at EPFL)
Big Plateaus of Big Data on the Big Island
Todd Walter (Chief Technologist for Teradata)
Big Data Research: Will Industry Solve all the Problems?
Magdalena Balazinska (Assoc. Prof. at the Univ. of Washington)
2015/12/12 71
Day 1
Day 2
テーマ:ハードウェアとソフトウェアの関係
共通テーマで Industry + Academic という構成
72. Databases and Hardware:
The Beginning and Sequel of a Beautiful Friendship
• Aspirin or Vitamin?
– ハードウェアの進歩 = 頭痛の種
• pipelining, ILP, SMT, multi-core,
heterogeneous H/W, ...
• ハードウェアの変化に振り回される
– 頭痛になってから鎮痛剤を飲むような
技術を作っていてはダメ
– 今だけでなく将来より強力なシステムを作る
ための技術こそが重要
2015/12/12 72
Anastasia Ailamaki (Prof. at EPFL)
76. データベースマシン
• 70年代後半∼80年代初頭に盛り上がり
– “Specialized hardware supporting basic data
base management functions”
– 多数の論文や Britton-Lee, CAFS(ICL) 等の商業化
2015/12/12 76
IEEE Special Issue on Database Machine [‘81]
[Hsiao, ’79]
77. ブームの終焉
“Database Machines, An Idea whose time has
Passed?” [Boral- DeWitt, ‘83]
2015/12/12 77
All failed. Why?
• these don't help much with sort,
join, etc.
• special-purpose hardware is a
losing proposition
• prohibitively expensive (no
economy of scale)
• slow to evolve
Lecture Notes @ Berkeley graduate course
[Hellerstein- Stonebraker]
We conclude that unless mechanisms for
increasing the bandwidth of mass
storage devices are found, highly
parallel database machine architectures
are doomed to extinction.
“Stonebraker’s Warning”
The history of DBMS research is littered
with innumerable proposals to construct
hardware database machines to provide
high performance operations. In general
these have been proposed by hardware
types with a clever solution in searchof a
problem on which it might work.
Readings in Database Systems (second edition), edited
by Michael Stonebraker
アーキテクチャ的
試行錯誤の時代
85. 後半:研究動向紹介
• 投稿論文の傾向
• システム系論文の動向
• 論文紹介
– Constructing an Interactive Natural Language
Interface for Relational Databases
– Resource Bricolage for Parallel Database
Systems
– Coordination Avoidance in Database Systems
2015/12/12 85
best paper
best paper
次点
注目
88. 領域ごとの割合
2015/12/12 88
By courtesy of Volker Markl
Text, Semi-structured data,
and Data Types
Database Engines
Applications
Novel DB
Architectures
Information
Integration
Experiments
and Analysis
90. 主に参加していたセッション
• データベースコア、システム系セッション
– Big Data Systems Analysis
– Caching and Indexing
– [Industrial] Big Data Systems
– [Industrial] Real-time and Interactive Analytics
– Novel Hardware Architectures
– Innovative Systems
– Query Processing
– Transaction Processing
2015/12/12 90
92. システム系論文の動向
• ビッグデータ(分析系)、特にリアルタイム分析が流行
– マーケットの過熱が牽引?
– インメモリデータベース、OLTPとOLAPの融合などをDBベンダが中心となって競い合っ
ている印象
• JetScope: Reliable and Interactive Analytics at Cloud Scale (Microsoft)
• Towards Scalable Real-time Analytics: An Architecture for Scale-out of OLxP Workloads (SAP)
• Real-Time Analytical Processing with SQL Server (Microsoft)
• Distributed Architecture of Oracle Database In-memory (Oracle)
• In-Memory Performance for Big Data (HP Labs)
• 一時の流行感は落ち着いた Flash / NVM系
– NVRAM-aware Logging in Transaction Systems (Georgia Tech)
– REWIND: Recovery Write-Ahead System for In-Memory Non-Volatile Data-Structures
(University of Edinburgh)
– Persistent B+-Trees in Non-Volatile Main Memory (Chinese Academy of Sciences)
• インデックスやオプティマイザのように堅実な研究も一定数
– Indexing Highly Dynamic Hierarchical Data (TU München)
– BF-Tree: Approximate Tree Indexing (EPFL)
– Resource Bricolage for Parallel Database Systems (Google)
– Multi-Objective Parametric Query Optimization (EPFL)
– Uncertainty Aware Query Execution Time Prediction (University of Wisconsin-Madison)
– Join Size Estimation Subject to Filter Conditions (Oracle Labs)
2015/12/12 92
93. 論文紹介
• Best paper:
– Constructing an Interactive Natural Language
Interface for Relational Databases
Fei Li (University of Michigan), H V Jagadish (University of Michigan)
• Best paper 次点:
– Resource Bricolage for Parallel Database Systems
Jiexing Li (Google Inc), Jeffrey Naughton (University of Wisconsin-Madison),
Rimma Nehme (Microsoft Jim Gray Systems Lab)
• 注目の論文:
– Coordination Avoidance in Database Systems
Peter Bailis (UC Berkeley), Alan Fekete (University of Sydney), Michael
Franklin (UC Berkeley), Ali Ghodsi (UC Berkeley), Joseph Hellerstein (UC
Berkeley), Ion Stoica (UC Berkeley)
2015/12/12 93
94. 論文紹介
• Best paper:
– Constructing an Interactive Natural Language
Interface for Relational Databases
Fei Li (University of Michigan), H V Jagadish (University of Michigan)
• Best paper 次点:
– Resource Bricolage for Parallel Database Systems
Jiexing Li (Google Inc), Jeffrey Naughton (University of Wisconsin-Madison),
Rimma Nehme (Microsoft Jim Gray Systems Lab)
• 注目の論文:
– Coordination Avoidance in Database Systems
Peter Bailis (UC Berkeley), Alan Fekete (University of Sydney), Michael
Franklin (UC Berkeley), Ali Ghodsi (UC Berkeley), Joseph Hellerstein (UC
Berkeley), Ion Stoica (UC Berkeley)
2015/12/12 94
95. Constructing an Interactive Natural
Language Interface for Relational Databases
Fei Li (University of Michigan)
H. V. Jagadish (University of Michigan)
2015/12/12 95
best paper
• 初心者でも簡単に関係データベースの複雑なクエリを構築
できるよう、自然言語のインターフェースを提案
• データベースの使い勝手を向上させ、新たな研究や製品の起
点となることが期待される
推薦理由
100. NaLIRの枠組み
問合せのデータ表現
• 自然言語のセマンティクス:Parse Tree
– Parse Tree の段階的な変形でクエリの曖昧性を排除
– 各段階で繰り返しユーザに提示することで正しい解釈を選択
• DBのセマンティクス:Query Tree
2015/12/12 100
自然言語のセマンティクス DBのセマンティクス
Image by courtesy of F. Li et.al.
101. Parse Tree
• 構文解析器から初期ツ
リーを生成
• Parse Tree Node Mapper
– Candidate Mapping: 各単
語を対応するSQL要素の
ノードとして対応付け
• SELECT
• 演算子 ( = , <=, +, ...)
• 関数 ( sum, count, ...)
• 名前 ( リレーション, 属性 )
• 値 ( 数値, 文字列, ... )
• 量化子 ( ALL, ANY, ... )
• 論理演算 (AND, OR, NOT)
2015/12/12 101
• Parse Tree Structure
Adjustor
– Parse Tree Reformulation:
複数の解釈の候補生成によ
る曖昧性の解消
– Implicit Node Insertion: 省
略語を補った候補生成によ
る曖昧性の解消
各段階の詳細は論文参照
Image by courtesy of F. Li et.al.
102. Parse Tree ⇨ Query Tree
基本ブロック(単一のSELECTノード)
• 名前ノードから対象リレーション, 選択する属性を生成
• 値ノードからWHERE句の述語を生成
• FK-PKで接続されたリレーションから結合グラフ作りFROM句を生成
• 集約関数の関数ノードがあればGROUP BY句を生成
サブクエリ(ネストしたSELECTノード)
• Inner most な基本ブロックから順に変換
2015/12/12 102
論文でも大雑把な説明のみ
103. 評価実験
• MySQLに実装
– 構文解析器にはStanford Natural Language Parser を使用
• MS Academic Search (MAS) のデータを利用
– 実験用クエリ
• MASの単一ページ表示で達成可能なクエリ196個
– ○ “Database領域のカンファレンス数”
– × “各領域のそれぞれのカンファレンス数” (24ページの表示が必要)
• easy/normal/hard = (63/68/65個) の3段階の難易度に分類
– 被験者 (計14名)
• 第一群:対話機能を除外したNaLIRを使用
• 第二群:NaLIRを使用
• 第三群:MASを使用
– クエリを28個のタスクセットに分割してランダムに割当て
• 1個のクエリの制限時間は3分
• 英語のクエリ記述によるバイアスを避けるため、中国語でクエリを記
述し英語で問い合わせさせる
2015/12/12 103
MS Academic Search Dataset
by courtesy of F. Li et.al.
104. 実験結果
• いずれの難易度においても
– NaLIR > NaLIR (w/o 対話機能) > MAS
• 自然言語、及び対話機能による問合せの容易性向
上を確認
2015/12/12 104
Effectiveness: 正答クエリ数 / クエリ数
by courtesy of F. Li et.al.
105. 問合せ失敗の要因
• 対話機能により
– 単語 ⇨ SQL要素へのマッピング失敗を抑制
• 曖昧性解消
– Reformulation (解釈候補の生成、省略語の挿入) におけ
る失敗の低減
• 提示された Parse Tree をユーザが理解できていることの裏付け
2015/12/12 105
誤答の原因となったコンポーネント
by courtesy of F. Li et.al.
107. 論文紹介
• Best paper:
– Constructing an Interactive Natural Language
Interface for Relational Databases
Fei Li (University of Michigan), H V Jagadish (University of Michigan)
• Best paper 次点:
– Resource Bricolage for Parallel Database Systems
Jiexing Li (Google Inc), Jeffrey Naughton (University of Wisconsin-Madison),
Rimma Nehme (Microsoft Jim Gray Systems Lab)
• 注目の論文:
– Coordination Avoidance in Database Systems
Peter Bailis (UC Berkeley), Alan Fekete (University of Sydney), Michael
Franklin (UC Berkeley), Ali Ghodsi (UC Berkeley), Joseph Hellerstein (UC
Berkeley), Ion Stoica (UC Berkeley)
2015/12/12 107
108. Resource Bricolage for
Parallel Database Systems
Jiexing Li (Google Inc)
Jeffrey Naughton (University of Wisconsin-Madison)
Rimma Nehme (Microsoft Jim Gray Systems Lab)
2015/12/12 108
best paper 次点
• ヘテロなデータベースクラスタにおける資源効率の最適化と
いう実世界の問題を解決している
• 線形計画へ帰着させることによりシンプルかつ実用的な手法
を提案し、SQL Server 上の実装で有効性を示している
• 今後多くの発展的な研究が生まれることが期待される
推薦理由
124. 論文紹介
• Best paper:
– Constructing an Interactive Natural Language
Interface for Relational Databases
Fei Li (University of Michigan), H V Jagadish (University of Michigan)
• Best paper 次点:
– Resource Bricolage for Parallel Database Systems
Jiexing Li (Google Inc), Jeffrey Naughton (University of Wisconsin-Madison),
Rimma Nehme (Microsoft Jim Gray Systems Lab)
• 注目の論文:
– Coordination Avoidance in Database Systems
Peter Bailis (UC Berkeley), Alan Fekete (University of Sydney), Michael
Franklin (UC Berkeley), Ali Ghodsi (UC Berkeley), Joseph Hellerstein (UC
Berkeley), Ion Stoica (UC Berkeley)
2015/12/12 124
125. Coordination Avoidance in Database
Systems
Peter Bailis (UC Berkeley)
Alan Fekete (University of Sydney)
Michael Franklin (UC Berkeley)
Ali Ghodsi (UC Berkeley)
Joseph Hellerstein (UC Berkeley)
Ion Stoica (UC Berkeley)
2015/12/12 125
注目の論文