2. [Тут обычно делают нудный рассказ, почему
для аналитики больших данных нужна
большая скорость вычислений]
• Во-первых, …
• Во-вторых, …
• …
• Лучше быть здоровым и богатым, чем
бедным и больным.
С быстрыми (x1000) и
дешёвыми (x40)
вычислениями
невозможное становится
возможным.
2
Типичный график сравнения производительности
с участием аппаратного ускорения
https://www.mapd.com/
3. Платформенный стек аналитики больших данных
3
Платформа приложений
АНАЛИТИКА БОЛЬШИХ ДАННЫХ ТУТ
Аналитические фреймворки
СУБД
CPU Оптимизаторы (драйверы)
GPU/ FPGA
Устройства
GPU/FPGA
Подрывноеобепечение
Подрывнойспрос
Спасибо играющим в компьютерные игры за их подрывной
спрос, который дал нам такое подрывное обеспечение как GPU
COMMODITY
4. Кто работает с FPGA? Реляционщики!
Ryft
Netezza
Swarm64
4
Scalable Data Accelerator (SDA)
PCIe card: от x10 на
IBM PureData System for Analytics
Ryft One, Ryft Cloud --up to x200
5. IBM PureData System for Analytics
Технология Netezza (c 1999 года): The appliance integrates through
standard ODBC, JDBC and OLE DB interfaces. FPGAs are used for data
decompression, data filtering and early SQL projections and restrictions.
5https://www.ibm.com/us-en/marketplace/puredata-system-for-analytics/
6. Неожиданность: GPU GPGPU
6
• 2009 – Fermi architecture у NVIDIA, CUDA-архитектура
• 2011 – придумали ускорять deep learning на CUDA
• 2012 – придумали ускорять базы данных на CUDA
• 2017 – Volta architecture: 5120 CUDA Cores, 16GB HBM2@900GB/s, 300GB/s NVLink
• Бонус: интеграция с IBM Power8 (OpenPOWER): brings x3 faster moving data
s
TESLA V100
8. GPU и реляционные базы данных
MapD
PG-Strom
Kinetica
SQReam
Brytlyt
BlazingDB 8
In-database analytics:
• Deep learning in-database: уже есть!
Очень быстрые:
• x300 по сравнению с «традиционными»
• x50 по сравнению с in-memory
• x5 по сравнению с кластерами
https://www.kinetica.com/blog/tensorflow-distributed-deep-learning/
9. Графовые базы: становятся уместны
9
Графовые базы:
• Лучше реляционных, но
• Плохо масштабируются на CPU
• Медленней реляционных x10
С GPU они:
• быстрее CPU решений x700-x1800
• x40 дешевле на 1G traverse
Edges/sec
https://www.blazegraph.com
10. Худшие продукты на рынке?
• We verified these technologies can provide faster
queries with cheaper infrastructures than usual CPU-
based alternatives. Specially for typical “Select …
where … group by…” clauses with variable filters and
aggregations. However funcionality is actually quite
limited and not enough robust for our requirements.
And we’ve got significant problems with complex
queries.
https://labs.beeva.com/gpus-and-analytical-databases-the-beginning-of-a-beautiful-friendship-8f5e590601c5
10
11. Дилемма инноватора: бойтесь худших продуктов!
(Clayton Christensen из Гарварда)
11
Х
а
р
а
к
т
е
р
и
с
т
и
к
и
Время
Характеристики
лучших продуктов
На рынке
Характеристики
худших продуктов
на рынке
http://web.mit.edu/6.933/www/Fall2000/teradyne/clay.html