More Related Content
Similar to 1 big data oracle digi oct
Similar to 1 big data oracle digi oct (20)
1 big data oracle digi oct
- 2. Большие данные на предприятиях
Подводные камни и как на них не наткнуться
Андрей Пивоваров
Руководитель группы перспективных технологий
2
- 3. Copyright © 2014 Oracle and/or its affiliates. All rights reserved. |
Oracle Confidential – 3
Big Data – это новые возможности,
ставшие доступными, благодаря новым
технологиям или подходам к обработке
больших объемов данных
- 4. Copyright © 2014 Oracle and/or its affiliates. All rights reserved. |
Почему Большие Данные стали использовать на
«традиционных» предприятиях?
• Технологии, раньше используемые только в
веб-проектах (Hadoop, NoSQL) стали достаточно зрелыми
– Не обязательно держать штат программистов, чтобы ими пользоваться
• Появились новые возможности для получения конкурентных преимуществ:
– Глубокий анализ поведения клиентов
– Высокоточная реклама
– Объединение и анализ данных из многих источников, в том числе неструктурированных
– Анализ мошенничеств
– и т.д.
• Big Data технологии позволяют существенно удешевить хранение и обработку
данных
- 5. Copyright © 2014 Oracle and/or its affiliates. All rights reserved. |
CaixaBank, Испания
CaixaBank - крупнейший финансовый институт Испании,
дочка Сберегательного банка Испании, la Caixa
13,7 миллиона клиентов
5 920 отделений
367 миллиардов евро актив
Задачи
Получение максимальной выгоды от имеющейся информации о заказчиках, полученной по любому
из существующих каналов (офисы, интернет, телефон, банковские системы, терминалы…)
Создание новой модели унифицированных корпоративных данных и дополнительных возможностей
аналитики на основе новой Information Management Architecture
Примеры использования
• Идентификация возможноcтей для cross-selling и up-selling
• Разработка персонифицированных предложений для клиентов
• Управление рисками и повышение лояльности к бренду
• Улучшенный анализ мошенничества
• Отслеживание новых нормативных и регуляторных требований
Лучше понимать клиента, анализируя все возможные данные о нём
CaixaBank назван самым инновационным банком в мире - World’s Most Innovative Bank at the 2013 Global Banking Innovation
Awards (Ноябрь 2013)
- 6. Copyright © 2014 Oracle and/or its affiliates. All rights reserved. |
Отличия традиционных предприятий от интернет-проектов
в контексте Больших данных
• Бизнес предприятия не построен вокруг создания кластеров
• Большие данные начинают использоваться как новые возможности,
дополняющие существующие системы
• Значительные наработки и инвестиции в области реляционных СУБД и
отсутствие или небольшой опыт в областях типа Hadoop
– Отсюда обязательное требование по интеграции ТБД с реляционными базами,
системами бизнес-анализа и т.д.
• Пользователи требуют обеспечить работу с Большими данными как с
обычной СУБД, используя привычные инструменты
- 7. Copyright © 2014 Oracle and/or its affiliates. All rights reserved. |
Направления работы корпорации Oracle в области
Больших данных
• Оптмизированные программно-аппаратные комплексы для Больших
данных на базе Cloudera Hadoop Distribution
• Интеграция данных в Hadoop/NoSQL и традиционных реляционных
данных
• Разработка собственной Oracle NoSQL Database и других продуктов
• Оптимизация (ускорение доступа) к данным
• Безопасность
• Визуализация Больших данных
• Методология построения систем Больших данных на основе
практического проектного опыта
- 8. Copyright © 2014 Oracle and/or its affiliates. All rights reserved. |
Oracle Big Data Management System
SOURCES
РЕЗЕРВУАР ДАННЫХ ХРАНИЛИЩЕ ДАННЫХ
Oracle Database
Oracle Industry
Models
Oracle Advanced
Analytics
Oracle Spatial & Graph
Big Data Appliance
Apache
Flume
Oracle
GoldenGate
Oracle Event
Processing
Cloudera Hadoop
Oracle Big Data SQL
Oracle NoSQL
Oracle R Advanced
Analytics for Hadoop
Oracle R Distribution
Oracle Database
In-Memory, Multi-tenant
Oracle Industry Models
Oracle Advanced
Analytics
Oracle Spatial & Graph
Exadata
Oracle
GoldenGate
Oracle Event
Processing
Oracle Data
Integrator
Oracle Big Data
Connectors
Oracle Data
Integrator/
GoldenGate
БИЗНЕС АНАЛИТИКА
- 9. Copyright © 2014 Oracle and/or its affiliates. All rights reserved. |
Преимущества построения систем с резервуаром
данных
1
Дешевое хранение
Только значимые и
актуальные данные живут
в реляционном ХД
Гибкость
В резервуаре хранятся
любые данные, не нужна
предопредленная
структура и модель
хранения
Data Warehouse
Традиционные
источники данных
Новые источники
Резервуар данных Хранилище данных
Предварительная
обработка данных на
распределенном кластере
- 10. Copyright © 2014 Oracle and/or its affiliates. All rights reserved. |
Hadoop
• Apache Hadoop - распределенная масштабируемая вычислительная
архитектура
• Одна из самых популярных платформ для хранения и обработки
больших объемов данных
• Подходит для аналитических задач
• Очень быстро развивается
• Oracle совместно с Cloudera производит программно аппаратный
комплекс для Hadoop (и Oracle NoSQL DB)
- 11. Copyright © 2014 Oracle and/or its affiliates. All rights reserved. |
Подводные камни мира Больших данных
• Hadoop – это не только дешево, но кластер –
это множество узлов, которые нужно
инсталлировать, сопровождать, управлять и т.д.
• Недооценка сложностей, которые возникают при
переходе от «песочниц» к проекту масштаба
предприятия
– Возможность использования кучи дешевого железа –
хорошо, но имеет свою цену
• Недооценка недостатков Hadoop
– Hadoop предназначен для загрузки больших кусков данных
– Нет транзакций и т.д.
• Недооценка сложности интеграции данных из двух
миров (реляционного и Hadoop)
- 12. Copyright © 2014 Oracle and/or its affiliates. All rights reserved. |
BIG DATA
Appliance
- 13. Copyright © 2014 Oracle and/or its affiliates. All rights reserved. |
Big Data Appliance X5-2
•Готовый Hadoop или Oracle NoSQL DB кластер
•Совместно тестируется разработчиками Oracle и
Cloudera
•Оптимизирован для высочайшей
производительности
•Единое окно техподдержки по всей системе,
включая ПО Cloudera
•До 864TB в одной стойке
–Возможны также конфигурации 1/3 и 2/3 стойки
- 14. Copyright © 2014 Oracle and/or its affiliates. All rights reserved. |
Big Data Appliance X5-2
Sun Oracle X5-2L Servers. На каждом:
• 2 * 18 Core Intel Xeon E5 Processors
• 128 GB Memory
• 48TB Disk space
Программное обеспечение(4.1):
• Oracle Linux6.5, Oracle JDK 7u72
• Oracle Big Data SQL 1.1*
• Cloudera Distribution of Apache Hadoop 5.3 – EDH Edition
• Cloudera Manager 5.3
• Oracle R Distribution 3.1.1-2
• Oracle NoSQL Database CE 3.2.4
* Oracle Big Data SQL is separately licensed
- 15. Copyright © 2014 Oracle and/or its affiliates. All rights reserved. |
Что вам НЕ придется делать с Big Data Appliance (1/2)
• Подбирать и оптимизировать компоненты – сервера, диски,
количество дисков, процессоры, сети, память и т.п.
• Заключать отдельный договор о поддержке с Cloudera
• Собирать кластер
• Настраивать сетевые коммутаторы
• Инсталлировать операционную систему на каждом узле и
• Отслеживать и устанавливать оптимальные версии драйверов и
прошивок для каждого компонента
• Настраивать операционную систему для оптимальной
производительности (у нас же очень много данных!)
• Настраивать Java
- 16. Copyright © 2014 Oracle and/or its affiliates. All rights reserved. |
Что вам НЕ придется делать с Big Data Appliance (2/2)
• Инсталлировать дополнительное ПО от Cloudera
• Тестировать работоспособность и производительность каждого
узла кластера
• Заниматься самостоятельно трудоемкой процедурой
многуровнего апгрейда и патчирования BIOS, OS, Java, Hadoop и
т.п.
• И просто следить за тем, что нужно что-то проапгрейдить
• Изучать как это все сделать без остановки и прерывания работы
пользователей
• Заниматься дизайном перебансировки кластера при его
расширении
• И т.д. и т.п.
- 17. Copyright © 2014 Oracle and/or its affiliates. All rights reserved. |
Big Data SQL
- 18. Copyright © 2014 Oracle and/or its affiliates. All rights reserved. |
Разные подходы – разные преимущества
1
0
1
2
3
4
5
Мощь инструментов
Встроенный функционал
ACID транизакции
Безопасность
Разнообразие форматов
данных
Разреженные данные
Простота ETL
Стоимость хранения
Простота загрузки
Взаимодействие с другими
системами
Hadoop
RDBMS
• У Hadoop свои плюсы
• У СУБД свои
- 19. Copyright © 2014 Oracle and/or its affiliates. All rights reserved. |
Недостатки существующих систем Больших данных
• Для работы с Hadoop и реляционными базами данных
требуются разные навыки
• Существующие механизмы доступа к данным в Hadoop
функционально ограничены или работают медленно
• Конечные пользователи используют разные инструменты для
работы с Hadoop и реляционными базами
- 20. Copyright © 2014 Oracle and/or its affiliates. All rights reserved. |
0
1
2
3
4
5
Мощь инструментов
Встроенный функционал
ACID транизакции
Безопасность
Разнообразие форматов
данных
Разреженные данные
Простота ETL
Стоимость хранения
Простота загрузки
Взаимодействие с другими
системами
Hadoop
RDBMS
Цель
Есть ли возможность объединить два мира?
2
Как это сделать?
И как это использовать?
- 22. Copyright © 2014 Oracle and/or its affiliates. All rights reserved. |
SQL существует и спользуется уже более 40 лет
SELECT dept, sum(salary)
FROM emp, dept
WHERE dept.empid = emp.empid
GROUP BY dept
- 23. Copyright © 2014 Oracle and/or its affiliates. All rights reserved. |
Apache Hive
• Apache Hive
– Один из самых популярных проектов для обработки данных над
Hadoop
– Инфраструктура, эмулирующая реляционную СУБД над Hadoop
– Есть SQL-подобный язык HiveQL
– Позволяет строить аналог свербольших хранилищ данных в Hadoop
- 24. Copyright © 2014 Oracle and/or its affiliates. All rights reserved. |
SQL on Hadoop – не только Hive
Stinger
- 25. Copyright © 2014 Oracle and/or its affiliates. All rights reserved. |
HiveQL: SQL очень ограничен
• Basic functions
– round, sqrt, floor, ceiling, concat,
lower, upper, etc.
• Aggregate functions
– count, sum, min, max, avg,
variance, stddev, covar, etc.
• Windowing functions
– lag, lead, first, last, row_number,
dense_rank, cume_dist,
percent_rank, ntile
SQL
Ограничения:
• Подзапросы
• Объединения
• Стат функции
- 26. Copyright © 2014 Oracle and/or its affiliates. All rights reserved. |
next = lineNext.getQuantity();
}
if (!q.isEmpty() && (prev.isEmpty() || (eq(q, prev) && gt(q, next)))) {
state = "S";
return state;
}
if (gt(q, prev) && gt(q, next)) {
state = "T";
return state;
}
if (lt(q, prev) && lt(q, next)) {
state = "B";
return state;
}
if (!q.isEmpty() && (next.isEmpty() || (gt(q, prev) && eq(q, next)))) {
state = "E";
return state;
}
if (q.isEmpty() || eq(q, prev)) {
state = "F";
return state;
}
return state;
}
private boolean eq(String a, String b) {
if (a.isEmpty() || b.isEmpty()) {
return false;
}
return a.equals(b);
}
private boolean gt(String a, String b) {
if (a.isEmpty() || b.isEmpty()) {
return false;
}
return Double.parseDouble(a) > Double.parseDouble(b);
}
private boolean lt(String a, String b) {
if (a.isEmpty() || b.isEmpty()) {
return false;
}
return Double.parseDouble(a) < Double.parseDouble(b);
}
public String getState() {
return this.state;
}
}
BagFactory bagFactory = BagFactory.getInstance();
@Override
public Tuple exec(Tuple input) throws IOException {
long c = 0;
String line = "";
String pbkey = "";
V0Line nextLine;
V0Line thisLine;
V0Line processLine;
V0Line evalLine = null;
V0Line prevLine;
boolean noMoreValues = false;
String matchList = "";
ArrayList<V0Line> lineFifo = new ArrayList<V0Line>();
boolean finished = false;
DataBag output = bagFactory.newDefaultBag();
if (input == null) {
return null;
}
if (input.size() == 0) {
return null;
}
Object o = input.get(0);
if (o == null) {
return null;
}
//Object o = input.get(0);
if (!(o instanceof DataBag)) {
int errCode = 2114;
Сравнение Oracle SQL c HiveQL
Simplified, sophisticated, standards based syntax
SELECT first_x, last_z
FROM ticker MATCH_RECOGNIZE (
PARTITION BY name ORDER BY time
MEASURES FIRST(x.time) AS first_x,
LAST(z.time) AS last_z
ONE ROW PER MATCH
PATTERN (X+ Y+ W+ Z+)
DEFINE X AS (price < PREV(price)),
Y AS (price > PREV(price)),
W AS (price < PREV(price)),
Z AS (price > PREV(price) AND
z.time - FIRST(x.time) <= 7 ))
250+ строк на Java UDF 12 строк на Oracle SQL
В 20 раз меньше кода
Поиск шаблона (W) в биржевых данных
10:00 10:05 10:10 10:15 10:20 10:25
Ticker
- 27. Copyright © 2014 Oracle and/or its affiliates. All rights reserved. |
Данные хранятся во многих местах
Транзакции
RelationalHadoop
Логи
NoSQL
Профили клиентов
SQL
- 28. Copyright © 2014 Oracle and/or its affiliates. All rights reserved. |
Oracle Big Data SQL
Новая технология для обращения к данным в Hadoop из Oracle Database
Запросы кOracle,
Hadoop иNoSQL
Oracle SQL
Oracle
NoSQLDB
HDFS
DataNode
Oracle
NoSQLDB
HDFS
DataNode
OracleDatabase
StorageServer
OracleDatabase
StorageServer
•Для пользователя не важно, где лежат данные – в
Oracle или в Hadoop
•Использование данных в Hadoop любыми BI
инструментами
•Все возможности языка SQL Oracle
•Использование наработок Exadata
•Интеграция Big Data Appliance и Exadata
- 29. Copyright © 2014 Oracle and/or its affiliates. All rights reserved. |
Потенциал для запросов к любой системе
Расширение на любой
источник в будущем
Ит.д.…
- 30. Copyright © 2014 Oracle and/or its affiliates. All rights reserved. |
Интеграция больших
данных
- 31. Copyright © 2014 Oracle and/or its affiliates. All rights reserved. |
Подходы к интеграции больших данных
ETLETL HDFS
Традиционные ETL
инструменты
Spark
Sqoop Sqoop
Hive
Pig
Manual Code
Ручное кодирование
Spark
Sqoop
Hive
Pig
ODI
Oozie
Sqoop
Oracle Data Integrator
GG
- 32. Copyright © 2014 Oracle and/or its affiliates. All rights reserved. |
Oracle Data Integrator
Не требуется
отдельный ETL
сервер
Логический и
физический
дизайн
разделены
Физическое
выполнение
кода SQL, Hive,
Pig, Spark
Использование
Oozie или ODI
Java Agent
Библиотека
операторов
Возмоно
определять свои
функции
- 33. Copyright © 2014 Oracle and/or its affiliates. All rights reserved. |
Enterprise Metadata Management
ETL
BI
Dashboards
App
ETL
ETL
Как считаются
продажи?
Что произойдет, если
я поменяю эту
таблицу?
Какие отчеты
используют данные
с этого сервера? Sys Admin
Руководитель
Разрабочик BI
Из какой системы
пришли
данные?
Польщователь
Какой отчет
использует эти
данные?
CDC
Hadoop
Data Lake
Data Steward
Можно ли
доверять
источнику?
ETL
разрабочтик
Я хочу провести
эксперимент. Какие
данные у меня есть в
наличии?
Data Scientist
GG
- 34. Copyright © 2014 Oracle and/or its affiliates. All rights reserved. |
Big Data
Discovery
- 35. Copyright © 2014 Oracle and/or its affiliates. All rights reserved. |
Проблемы аналитической обработки Больших Данных
Сложность инструментария
• Hadoop инструменты рассчитаны на
экспертов
• Существующие BI инструменты не
рассчитаны на Hadoop
• Нишевые инструменты имеют
ограниченную функциональность
80% усилий тратится
на подготовку
данных
Неопределенность данных
• Большой объем, гибкая структура
• Полезность данных не очевидна
• Значительные усилия по подготовке
данных
Зависимость от
высоко-
квалифицированных
экспертов
- 36. Copyright © 2014 Oracle and/or its affiliates. All rights reserved. |
Требуется новый подход
Быстрой
трансформации и
обогащения данных для
эффективной работы с
ними
Снятия барьеров с
Больших данных для
исследования и поиска
новых возможностей
Единый интуитивный визуальный интерфейс для ...
Поиска и изучения
для понимания
потенциала данных
find explore transform discover share
- 37. Copyright © 2014 Oracle and/or its affiliates. All rights reserved. |
3
Oracle Big Data Discovery
Визуализация данных Hadoop
find explore transform discover share
- 38. Copyright © 2014 Oracle and/or its affiliates. All rights reserved. |
КаталогOracle Big Data Discovery
Понять потенциал
Больших Данных
4
• Доступ к
интерактивному
каталогу данных,
расположенных в
Hadoop
• Удобный поиск и
навигация в наборах
данных
• Суммарная
информация о
наборах данных;
описания, теги
пользователей
- 39. Copyright © 2014 Oracle and/or its affiliates. All rights reserved. |
ИзучениеOracle Big Data Discovery
Понять потенциал
Больших Данных
4
• Визуализация
статистической
информации по
всем атрибутам
• Сортировака
атрибутов на
основе потенциала
данных
• Распределение
данных, качество
данных и выбросы
• Понимание
корелляции между
атрибутами
- 40. Copyright © 2014 Oracle and/or its affiliates. All rights reserved. |
4
Oracle Big Data Discovery
Разблокировать Большие Данные • Drag&drop интрефейс для
создания аналитических
приложений
• Использование поисковых
возможностей и фасетной
навигации
• Объединение различных
данных для более глубокого
анализа
• Поиск новых патернов,
закономерностей в
интерактивном визуальном
аналитическом интерфейсе
Исследование
- 41. Copyright © 2014 Oracle and/or its affiliates. All rights reserved. |
Oracle Information
Management Reference
architecture
- 42. Copyright © 2014 Oracle and/or its affiliates. All rights reserved. |
Information Management Reference Architecture
Уровеньдоступакданным
Бизнес
аналитика
Информаци-
онные
сервисы
Простота и скорость
загрузки данных
Стоимость запроса к
данным
Уровень производительного
доступа
Фундаментальный слой
данных (3N форма)
Хранилище первичной информации
Data
Science
Первичная информация хранится
без всяких изменений
Данные очищены, организованы в
некоторую структуру, но абстрагированы
от бизнес процессов
Данные организованы в соответствии с
требованиями бизнес процессов, для достижения
максимальной производительности
Исследование данных Среда разработки
Исследование данных,
выявление новых
закономерностей
Разработка
взаимодействия всех
слоев приложения
Источники данных
Мультиструктурные
источники
Контент
Docs Web & Social Media
SMS
Структурированные
Данные
(из реляционных источников)
Мастер данные
Планирование и
бюджетирование
- 43. Copyright © 2014 Oracle and/or its affiliates. All rights reserved. |
При создании Oracle IM Ref Architecture учитывается:
• Мультивендорный ландшафт заказчиков
• Хранилища данных и аналитика постоянно эволюционируют
• Существование разных типов данных (структурированные,
неструктурированные) и подходов к их обработке
• Необходимость не только обработки исторических данных, но и
существование задач реагирования в режиме близком к реальному
времени (Fast Data)
• Необходимость хранения исходных данных
• Необходимость создания «песочниц» для
экспериментов
- 44. Copyright © 2014 Oracle and/or its affiliates. All rights reserved. |
5
Есть вопросы?
Andrey.Pivovarov@oracle.com
- 46. Copyright © 2014 Oracle and/or its affiliates. All rights reserved. |
Exadata
Database Machine
- 47. Copyright © 2014 Oracle and/or its affiliates. All rights reserved. |
Oracle Exadata X5
• Машина для СУБД Oracle
– Хранилища данных
– OLTP
– Смешанные нагрузки
– Консолидация
• Высочайшая производительность СУБД Oracle
– Exadata Software используется для предобработки данных
прямо на уровне системы хранения
• До 672TB в одной стойке
• Exadata позволяет использовать новейшие технологии:
– In Memory Database Option
– Колоночное хранение данных
– Опционально – 100% хранение данных на Flash
- 48. Copyright © 2014 Oracle and/or its affiliates. All rights reserved. |
Exadata X5-2 Hardware
2-Socket Database Servers
– Fastest Xeon chips, 18-core, 256 GB to 768 GB DRAM
InfiniBand Network
– 40 Gb InfiniBand внутренняя сеть
– 10 Gb or 1 Gb Ethernet для внешей связи
2-Socket Storage Servers
– 16 ядер на сервере для предобработки данных на СХД
– Extreme Flash (EF) Storage 12.8 TB Ultra-Fast PCI Flash Drives
или
– High Capacity (HC) Storage 6.4 TB Ultra-Fast PCI Flash Cards
+ 48 TB SAS disks
5
- 49. Copyright © 2014 Oracle and/or its affiliates. All rights reserved. |
Примеры конфигураций Exadata для рахличных нагрузок
5
16 Database Servers +
5 High Capacity Storage Servers
DB In-Memory Machine Extreme Flash OLTP Machine
8 Database Servers +
8 Extreme Flash Storage Servers
Data Warehousing Machine
Много серверов БД, много памяти
несколько серверов хранения
100% Flash хранение данных
для OLTP систем
Большой объем хранилища
Большое количество серверов БД
576 DB Cores
13.3 TB RAM
32 TB Flash
240 TB Disk
288 DB Cores
2 TB RAM
102 TB Flash
288 DB Cores
224 Storage
Cores
90 TB Flash
672 TB Disk
8 Database Servers +
14 High Capacity Storage Servers
- 50. Copyright © 2014 Oracle and/or its affiliates. All rights reserved. |
Масштабируемость Exadata
Тысячи процессорных ядер
Петабайты данных
- 51. Copyright © 2014 Oracle and/or its affiliates. All rights reserved. |
• Захват и анализ данных с сенсоров
• Огромные объем данных в единицу
времени
Ускорение летных испытаний для сокращения
времени поставки новых самолетов
Ускорение летных испытаний
Solution components: Real-Time Decisions, Event Processing
Solution Components: BDA and NoSQL
- 52. Copyright © 2014 Oracle and/or its affiliates. All rights reserved. |
Рецепты: Поиск ошибок и мошенничеств
• 8 миллионов рецептов обрабатывается
каждый день
• Поиск неправильного использования
препаратов
• Интеграция структурированных и
неструктурированных данных
• Геоаналитика
У мненьшение количества ошибок
и мошенничеств
Solution components:, BI Foundation, Endeca, Advanced Analytics – ‘R’ statistical
analysis & data mining, Exalytics, Exadata
- 53. Copyright © 2014 Oracle and/or its affiliates. All rights reserved. |
• 18M учеников и 42 000 школ
• Аналитика поведения учеников и
учителей
• Комбинация RDBMS и Hadoop
• Цель – сделать образование более
эффективным
Улучшение аналитики для системы образования
Трансформация образования в Турции
Solution components: Real-Time Decisions, Event Processing
Solution Components: 2 BDA, 2 Exadata, 2 Exalogic, 2 Exalytics, IDM
- 54. Copyright © 2014 Oracle and/or its affiliates. All rights reserved. |
• Аналитика и предложеия в реальном
времени
• Использование Event Processing
• Сервис предоставляется внешним
партнерам
• Генерация новых доходов
Геомаркетинг для предоставления новых услуг
Монетизация данных
- 55. Copyright © 2014 Oracle and/or its affiliates. All rights reserved. |
•Как вам удалось изменить счет с 1-8 на 9-8?
Oracle Big Data в Oracle Team USA
Мы взломали код
•300 сенсоров на яхте
•выдают 2 ГБ данных за одну гонку