More Related Content
Similar to 3 ibm bdw2015 (20)
3 ibm bdw2015
- 1. © 2015 IBM Corporation
Большие данные в понимании IBM
Андрей Орлов, Технический эксперт IBM Analytics R/CIS
- 2. © 2015 IBM Corporation2
Масштаб Много форм Потоки данных Доверие
Большие данные – все данные
Объем Разнообразие Скорость Достоверность
- 3. © 2015 IBM Corporation3
Данные в центре персональной аналитики
Данные поведения
• Покупки
• Поездки
• История платежей
• История коммуникаций
Данные описания
•Атрибуты
•Характеристики
•Данные, сообщенные о себе
•(Гео)демография
Данные об отношении
•Социологические исследования
•Социальные сети
Данные взаимодействий
•E-Mail / chat расшифровки
•Заметки из колл центра
•Поведение в веб
•Личные контакты
Традиционный подход
Динамический подход
- источник полноты знания
Почему?
Что?
Как?
Кто?
- 4. © 2015 IBM Corporation4
Некоторые данные доступнее чем
кажется!
- 5. © 2015 IBM Corporation5
Сегодня давление со стороны социума намного
сильнее…
4 из 10
Обладателей
смартфонов проверяют
информацию налету
86%
Используют
много каналов
взаимодействия
в 4-5 раз
Тратится больше теми,
кто использует несколько
каналов взаимодействия
78%
Людей доверяют
мнению других людей
58%
Более
осведомлены о
конкурентных ценах
чем год назад
75%
Не верят что в
рекламе
говорят правду
80%
CEO считают что
оказывают
превосходные
услуги
8%
Их
клиентов с
этим
согласны
Source: Sources of statistics [from “Smarter Commerce Stats and Facts Feb 3 2012.ppt]
- 6. © 2015 IBM Corporation6
Необходима новая архитектура работы с данными
Интеграция и управление данными
Systems Security
On premise, Cloud, As a service
Storage
Новые/расширенные
приложенияВсе данные
Что
предпринять
?
Предписание
действий
Зона хранения,
исследования,
архивы
данных
КХД и
витрины
Зона
оперативных
данных
Обработка и анализ данных
в реальном времени
Что
происходит?
Исследование
Почему?
Отчетность,
анализ
контента
Что может
произойти?
Предсказание
и
моделировани
е
Зона
сложной
аналитики Что мы
узнали,
что
лучше?
Cognitive
- 7. © 2015 IBM Corporation7
Использование различных видов аналитики
улучшает понимание
Что мы
узнали,
что лучше?
Cognitive
Что
предпринять?
Предписание
действий
Почему?
Отчетность, анализ
контента
Что может
произойти?
Предсказание и
моделирование
Что
происходит?
Исследование
Давать
правильные
ответы
- 8. © 2015 IBM Corporation8
Зона
хранения,
исследования,
архивы
данных
Зона
оперативных
данных
Обработка и анализ данных
в реальном времени
Транзакции и
данные
приложений
Машинные,
сенсорные
Корпоративный
контент
Изображения,
геоданные, видео
Социальные сети
Данные внешних
поставщиков
Интеграция и управление данными
Зона
сложной
аналитики
КХД и
витрины
Работа со всеми видами данных
Сохраненные и
потоковые
данные
Структурированные и
неструктурированные
Внутренние и
внешние по
отношению к
организации
- 9. © 2015 IBM Corporation9
Прибыль
Время
Эффект от клиентской аналитики
Привлечение
Эффективное привлечение
новых клиентов
Восстановление
ценных клиентов
Развитие
отношений Удержание Возврат
Увеличение кросс
продаж
Эффективное
удержание
прибыльных клиентов
- 10. © 2015 IBM Corporation10
Смещение парадигм работы с данными
Больше данных
- 11. © 2015 IBM Corporation11
Технологии IBM для работы с большими
данными
InfoSphere Streams
Постоянная обработка и
анализ быстро поступающих
клиентских данных
Мгновенная реакция на
события на основе аналитики
InfoSphere BigInsights
Hadoop для предприятия
Зона хранения данных
Низкая стоимость хранения
Аналитическое исследование
данных
Watson Explorer
Поиск и навигация по
клиентской информации вне
зависимости от формата
данных и места хранения
Унифицированное
представление вместе с
аналитикой
PureData for Analytics и
InfoSphere Warehouse
Анализ оперативной
клиентской информации
Information Integration &
Governance
Обеспечение целостности и
точности данных
- 12. © 2015 IBM Corporation
IBM InfoSphere BigInsights
Андрей Орлов, Технический эксперт IBM Analytics R/CIS
- 13. © 2015 IBM Corporation13
IBM BigInsights for Hadoop: 100% Open Source
Hadoop, и все что нужно для предприятия
HDFS
Oozie
YARN
MapReduce
Jaql
Spark
HBase
Zookeeper
Avro
Flume
Hive
Pig
Sqoop
HCatalog
Solr/Lucene
100% Standard Apache Open-Source компоненты
SQL on Hadoop
Big SQL – optimized ANSI compliant SQL
Шаблоны приложений
Toolkits and accelerators
Поиск
BigIndex and Data Explorer
Исследование данных
BigSheets “schema-on-read”
Предиктивное моделирование
Big R – scalable data mining
Анализ текстов
Advanced text processing with AQL
Аналитика реального времени
InfoSphere Streams
Управление данными и
безопасность
Data Click, LDAP, Secure cluster
Интеграция с системами хранения
GPFS - POSIX Distributed Filesystem
Производительность и
надёжность
Adaptive MapReduce, Recoverable jobs
Дополнительные возможности
- 14. © 2015 IBM Corporation14
Поддержка Open Source
Не нужно больше больших
загрузок образов
Загрузка небольшого пакета и
последующая загрузка только
необходимых компонентов
Component
Name
Version
Ambari 1.7.0
Avro 1.7.7
Flume 1.5.2
Hadoop 2.6
HBase 0.98.8
Hive 0.14.0
Knox 0.5.0
Oozie 4.0.1
Pig 0.14.0
Parquet (hadoop) 1.5.0
Parquet (format) 2.1.0
Spark 1.2.1
Snappy 1.0.5
Sqoop 1.4.5
Solr 4.10.3
Slider 0.6.0
Zookeeper 3.4.5
Мы будем поддерживать
актуальность в каждом
новом релизе
- 15. © 2015 IBM Corporation15
Возможности для специалистов
Business Analyst Data Scientist Administrator
• Выявление
шаблонов,
трендов,
результаты
алгоритмов
машинного
обучения
• Статистические
модели на
больших объемах
данных
• Выявление данных
для анализа
• Визуализация
данных для действий
• Использование
существующих
навыков (SQL,
spreadsheets)
• Управление
нагрузкой и
обеспечение уровня
производительности
• Реализация политик
безопасности для
снижения рисков
РольПотребность
- 16. © 2015 IBM Corporation16
Редакции BigInsights
Text Analytics
POSIX Distributed
Filesystem
Multi-workload, Multi-tenant
scheduling
IBM BigInsights
Enterprise Management
Machine Learning on
Big R
Big R
IBM Open Platform with Apache Hadoop*
IBM BigInsights
Data Scientist
IBM BigInsights
Analyst
Big SQL
BigSheets
Big SQL
BigSheets
IBM BigInsights for Apache Hadoop
*IBM Open Platform with Apache Hadoop is our own 100% open source Apache
Hadoop distribution. IBM will include the ODP common kernel once available (future).
- 17. © 2015 IBM Corporation17
Big SQL
Что такое Big SQL?
Интерфейс для SQL запросов к данным Hadoop BigInsights
Новый движок SQL запросов, основанный на более чем 40-летнем опыте разработки
СУБД компании IBM, включающий параллелизм и оптимизацию выполнения
запросов
Для чего можно использовать Big SQL
Упрощенный переход на Hadoop для разработчиков со знанием SQL
Поддержка существующих инструментов и приложений, использующих JDBC&ODBC
Основной функционал
Создание таблиц и представлений. Данные при этом хранятся в HDFS и Hbase
Загрузка данных в таблицы из сторонних СУБД и файлов
Широкий язык запросов (project, restrict, join, union, все виды подзапросов, множество
встроенных функций, поддержка UDFs, . . . . )
Настройка привилегий и ролей для доступа к данным, маскировка столбцов,
контроль доступа к строкам таблицы (RLS)
Объединение данных из сторонних СУБД и Hadoop внутри 1 запроса
Статистика и отображение плана доступа к данным
. . . .
- 18. © 2015 IBM Corporation18
Big Sheets: табличный инструмент
Веб-инструмент анализа
Визуализация
– Облако тегов, гео карты,
тепловые карты,
многоразмерные диаграммы,
D3-чарты
Табличный интерфейс
– Создание и управление
заданий работы с данными
– Анализ содержания текста на
загруженных страницах
страницах
– Интеграция с Big SQL
– Более 40 функций
преобразований
- 19. © 2015 IBM Corporation19
Клиент R
Scalabl
e
Statisti
cs
Engine
Data Sources
Встроенное
исполнение R
R Packages
R Packages
1
2
3
1. Исследование, визуализация,
трансформация и
моделирование при помощи
знакомого синтаксиса и
парадигмы R
2. Масштабирование R
• Разделение большого объема
данных (“разделяй”)
• Параллельное исполнение кода
R на класторе (“conquer”)
• Все что вне окружения R (Jaql,
Map/Reduce) скрыто от глаз
• Практически любой R пакет
может быть использован в
разработке
3. Масштабируемое машинное
обучение
Часть данных
в R клиенте
Или
выполнение
функций прямо
на данных
Big R: Исполнение R кода на Hadoop
- 20. © 2015 IBM Corporation
IBM InfoSphere Streams
Андрей Орлов, Технический эксперт IBM Analytics R/CIS
- 21. © 2015 IBM Corporation21
Объем
Терабайты в секунду
Петабайты в день
Разнообразие
Любой тип данный
Любой вид аналитики
Скорость
Обработка за
микросекунды
Платформа аналитики в реальном времени
Сложность Big Data - Скорость
Миллионы
событий в
секунду
Задержка
составляет
микросекунды
Традиционные и не традиционные
источники данных
Решение в
реальном времени
Мощная
аналитика
Algo
Trading
Telco churn
predict
Smart
Grid
Cyber
Security
Government /
Law enforcement
ICU
Monitoring
Environment
Monitoring
- 22. © 2015 IBM Corporation22
22
Где применяется Streams?
Фондовые
рынки
Влияние факторов на
ценность бумаг
Анализ рыночных
данных с ультра
низкими задержками
Предотвращение
мошенничества
Обнаружение и
предотвращение
мошенничества
Наука
Прогнозирование погоды
Атомные исследования
Транспорт
Интеллектуальное
управление трафиком
Энергетика
Разумный контроль
Природные ресурсы
Управление водными ресурсами
Другое
Мануфактура
Текстовый анализ
Ситуационное осведомление
Видеонаблюдение
Правопорядок и
кибербезопасность
Здравоохранение
Мониторинг
здоровья
новорожденных
Предупреждение
развития эпидемий
Телекоммуникации
Обработка CDR
Социальный анализ
Прогноз оттока
Геопозиционирование
- 23. © 2015 IBM Corporation23
23
Как работает Streams
directory:
”/img"
filename:
“farm”
directory:
”/img"
filename:
“bird”
directory:
”/opt"
filename:
“java”
directory:
”/img"
filename:
“cat”
tuple
height:
640
width:
480
data:
height:
1280
width:
1024
data:
height:
640
width:
480
data:
- 24. © 2015 IBM Corporation24
Пару слов о Streams и Storm
- 26. © 2015 IBM Corporation
Expert Integrated Systems
Андрей Орлов, Технический эксперт IBM Analytics R/CIS
- 27. © 2015 IBM Corporation27
Экспертно интегрированные системы:
Системы с интегрированной
экспертизой которые сочетают гибкость
систем общего назначения, эластичность
облака и простоту, оптимизированные под
определенные задачи
Фундаментальное изменение
экономики и опыта
использования ИТ
Пришло время нового поколения систем
Полная интеграция: Тесная интеграция и тщательная настройка
аппаратных и программных средств
Встроенная экспертиза: Формализация и автоматизация работы
экспертов
Упрощение всех задач: Облегчение каждого этапа ИТ цикла и
интегрированное управление всей системой
- 28. © 2015 IBM Corporation28
Семейство IBM PureSystems обеспечивает простоту,
скорость и низкие затраты
Экспертно
интегрированная
система
Компоненты общего
назначения
Система под
задачи организации
Проблема сегодня: Время и усилия тратятся на настройку компонентов общего
назначения
Решение PureSystems: Упрощение всего цикла ИТ проекта
Сокращение времени, затрат,
снижение рисков
Проектирование/Разверты
вание
Управление/Подде
ржка
- 29. © 2015 IBM Corporation29
Архитектура комплекса IBM Netezza
Сервер
CACHE
SQL
DATA
Source
Systems
Client
High
Performance
Loader
3rd Party
Apps
DBA CLI
ETL Server
SOLARIS
LINUX
HP-UX
AIX
WINDOWS
TRU64
SQL Данные
СХД
CACHE
СУБД
CACHE
I/O I/O
- 30. © 2015 IBM Corporation30
Архитектура комплекса IBM Netezza
Source
Systems
Client
High
Performance
Loader
3rd Party
Apps
DBA CLI
ETL Server
SOLARIS
LINUX
HP-UX
AIX
WINDOWS
TRU64
ODBC 3.X
JDBC Type 4
SQL-92
SQL-99
Analytics
СУБД, СХД, сервер – всё в одном
СХД
CACHE
Сервер
CACHE
СУБД
CACHE
I/O I/O
- 31. © 2015 IBM Corporation31
Наш секретный соус
FPGA Core CPU Core
Декомпрессия Фильтрация
колонок
Фильтрация,
Видимость
транзакц
Complex ∑
Joins, Aggs, etc.
select DISTRICT,
PRODUCTGRP,
sum(NRX)
from MTHLY_RX_TERR_DATA
where MONTH = '20091201'
and MARKET = 509123
and SPECIALTY = 'GASTRO'
Срез данных таблицы
MTHLY_RX_TERR_DATA
(сжатые данные)
where MONTH = '20091201'
and MARKET = 509123
and SPECIALTY = 'GASTRO'
sum(NRX)
select DISTRICT,
PRODUCTGRP,
sum(NRX)
- 32. © 2015 IBM Corporation32
Варианты PureData System for
Analytics N3001
Спецификация N3001-002 N3001-005 N3001-010 N3001-020 N3001-040
Стоек 1 (1/4 стойки) 1 (1/2 стойки) 1 2 4
S-Blades 2 4 7 14 28
Пользовательские
данные (TB) *
32 96 192 384 768
• Учитывая среднее сжатие 4x
Single rack systems Multiple rack systems
Линейное масштабирование
- 33. © 2015 IBM Corporation33
Новые модель семейства PureData for Analytics
Data Warehouse Appliance
Встроенная In-Database
аналитика и интеграция с
большим количеством внешних
систем Real-time Analytics
InfoSphere Streams Developer Edition
2 users, non-production licenses
Business Intelligence
Cognos, 5 Analytics User licenses +
1 Analytics Administrator license
Hadoop Data Services
InfoSphere BigInsights Software licenses
to manage ~100 TB of Hadoop data
Уже в составе PureData System for Analytics N3001-001
Индустриальные модели данных
Models for Banking, Financial Markets,
Healthcare, Insurance, Retail, Telco
Можно
приобрести
• Новая модель
и специальная
цена для
средних
организаций
Data Integration & Transformation
InfoSphere DataStage 280 PVUs,
2 concurrent Designer Client licenses and
InfoSphere Data Click
IBM InfoSphere Data Privacy and
Security for Data Warehousing
- 34. © 2015 IBM Corporation34
Концепция BigData … и ее место в общем стеке
IBM Information management
InfoSphere BigInsights
Решения, основанные на HADOOP
Pure Data
BI + Ad Hoc аналитика
структурированных
данных
InfoSphere Warehouse
Структурированные данные
больших объемов
InfoSphere Streams
Аналитика потоковых
данных в реальном времени
MPP Data Warehouse
Stream ComputingInformation Integration
Hadoop (NoSQL)
InfoSphere Information Server
Интеграция больших объемов
информации
- 35. © 2015 IBM Corporation
Watson family
Андрей Орлов, Технический эксперт IBM Analytics R/CIS
- 36. © 2015 IBM Corporation36
Watson Explorer V10 – новый уровень
исследования данных
• Анализ, визуализация и
выделение знаний из
неструктурированного
контента с помощью
текстовой аналитики
• Исследование и
визуализация информации
из внутренних и внешних
источников, легкое создание
приложений
• Интерпретация информации с
помощью познавательных
способностей облачной
платформы Watson
Watson Explorer
Watson Content
Analytics
Watson Developer Cloud
Watson Explorer V10
Now part of Watson Explorer Advanced Edition
- 37. © 2015 IBM Corporation37
IBM Watson Analytics
37
Диалог с
системой
Гибкость облачной среды
Исследование
данных
Быстрый старт
Понятный интерфейс
Доступно для
мобильных
устройств
- 38. © 2015 IBM Corporation38
IBM Watson Analytics
38
Связывание
элементов в
историю
Интеллект
без
настройки
Доступ и
очистка данных
Отчеты и
информационные
панели
Взаимодействие
Подсказки в
исследовании
- 39. © 2015 IBM Corporation
Сценарии
Андрей Орлов, Технический эксперт IBM Analytics R/CIS
- 40. © 2015 IBM Corporation40
Новый взгляд на клиента
Расширение текущих систем
(MDM, CRM, …) за счет
подключения дополнительных
внутренних и внешних источников
информации
Анализ операций
Анализ разнообразных машинных
данных для улучшения бизнес
результатов
Расширение хранилища данных
Интеграция больших данных и
традиционных хранилищ для повышения
эффективности
Новые уровни
безопасности
Снижение риска, обнаружение
мошенничества и мониторинг
кибер-угроз в реальном времени
Ключевые сценарии
- 41. © 2015 IBM Corporation41
Новый взгляд на клиента: потребности
Потребность глубже
понимать настроение
клиента по данным из
внешних и внутренних
источников
Расширение текущих систем
(MDM, CRM, …) за счет подключения
дополнительных внутренних и внешних
источников информации
Желание повысить
лояльность и
удовлетворенность
за счет понимания
какие действия
нужно предпринять
Разрешение
проблемы доставки
нужной информации
правильным людям
для предоставления
клиентам того, чего
они хотят
- 42. © 2015 IBM Corporation42
Новый взгляд на клиента – все доступные источники
Master
Data
Management
Unified View of Party’s Information
CRM
J Robertson
Pittsburgh, PA 15213
35 West 15th
Name:
Address:
Address:
ERP
Janet Robertson
Pittsburgh, PA 15213
35 West 15th St.
Name:
Address:
Address:
Legacy
Jan Robertson
Pittsburgh, PA 15213
36 West 15th St.
Name:
Address:
Address:
SOURCE SYSTEMS
Janet
35 West 15th St
Pittsburgh
Robertson
PA / 15213
F
48
1/4/64
First:
Last:
Address:
City:
State/Zip:
Gender:
Age:
DOB:
360 View of
Party Identity
BigInsights Streams Warehouse
Унифицированный взгляд на клиента
- 43. © 2015 IBM Corporation43
Анализ операций: потребности
• В реальном времени понимать
эффективность операций и их
влияние на поведение клиента
• Проактивно планировать операции
Анализ разнообразных машинных данных
для улучшения бизнес результатов
Из-за сложности и быстрого роста объемов
машинных данных многие компании
принимают решения на основе малой доли
доступной информации
Способность эффективно анализировать
машинные данные и комбинировать с бизнес
транзакциями может дать возможность:
• Выявлять и исследовать аномалии
• Комплексно мониторить
инфраструктуру для предотвращения
отказов или ухудшения качества
сервиса
- 44. © 2015 IBM Corporation44
Логиимашиныеданные
Индекс, поиск
Статистическое
моделирование
Анализ причин
Исследование и
навигация
Анализ в реальном
времени
Хранить только
необходимое
Анализ операций: пример
Machine Data
Accelerator
- 45. © 2015 IBM Corporation45
Интеграция больших данных и
традиционных хранилищ для повышения
эффективности
Дополнение хранилища данных:
потребности
Использование разнообразных
данных
Расширение инфраструктуры
хранилища
• Оптимизация хранения и
лицензирования за счет переноса
редко используемых данных в Hadoop
• Сокращение хранения за счет
обработки потоковых данных
• Повышение производительности
• Структурированные,
неструктурированные, потоковые
данные для анализа
• Минимальные задержки по анализу
(часы, а не недели или месяцы)
• Запросы к любым данным
- 46. © 2015 IBM Corporation46
Дополнение хранилища данных
Предобработка Архив
с возможностью
обработки запросов
Исследование
Information
Integration
Data
Warehouse
Streams
Real-time
processing
BigInsights
Landing zone
for all data
Data
Warehouse
BigInsights
Can combine
with unstructured
information
Data
Warehouse
1 2 3
46
Find and view
the data
Data Explorer
Data Explorer
BigInsights
Streams
Offload analytics
for microsecond
latency
- 47. © 2015 IBM Corporation47
Email: andrey.orlov@ru.ibm.com
Twitter: @lokaro
LinkedIn: /in/andreyorlov