論文紹介:Semantic segmentation using Vision Transformers: A survey
BlinkDB 紹介
1. 論文紹介
BlinkDB: Queries with Bounded Errors and
Bounded Response Times on Very Large Data
Sameer Agarwal, BarzanMozafari, Aurojit Panda,HenryMilner,
Samuel Madden, Ion Stoica (UCB, MIT, Conviva)
Masafumi Oyamada / @stillpedant
Some figures and examples are gratefully copied from original paper/slides
第5回 システム系論文輪読会
4. 本日ご紹介するもの - BlinkDB
BlinkDB とは
UCB AMPLab で研究されている SQL 処理系
「精度を犠牲にし高速に処理結果を返す」というコンセプトがウケて、
一世を風靡
BlinkDB に関する論文
[Agarwal, NSDI’12 (Extended Abstract)] BlinkDB: Queries with
Bounded Errors and Bounded Response Times on Very Large Data
[Agarwal, VLDB’12 (Demo)] Blink and It’s Done: Interactive
Queries on Very Large Data
[Agarwal, EuroSys’13] BlinkDB: Queries with Bounded Errors
and Bounded Response Times on Very Large Data
[Agarwal, SIGMOD’14] Knowing When You’re Wrong: Building Fast
and Reliable Approximate Query Processing Systems
[Kleiner , KDD’14] A General Bootstrap Performance Diagnostic
本日は EuroSys’13 の論文をベースにご紹介
19. まとめ
最適化問題を解くことで“よい” Stratified sample 群を作成す
る方式を提案した
※ これまでのサンプリングベースのシステムはテーブルごとに“ひとつ
の”サンプルしかつくらなかった (AQUA [6], STRAT [10])
BlinkDB は以下を考慮して最適な stratified sample を算出
(i) the frequency of rare subgroups in the data
(ii) the column sets in the past queries
(iii) the storage overhead of each sample
エラーとレイテンシの関係をプロファイルする方法を提案
各サンプル(異なる stratified sample されたもの)毎に、クエリを実
行した際の誤差 or レイテンシを見積もるためのプロファイルを作成
ユーザの指定した誤差 / レイテンシ制約を満たすため、最も適したサ
ンプルを選ぶためにつかわれる
Hive などの既存のシステムを少ない拡張で BlinkDB 化できる
ことをきちんと示した