SlideShare a Scribd company logo
1 of 35
Download to read offline
MapReduce и машинное
обучение на Hadoop и
Mahout
Константин Слисенко, JazzTeam
О чём это я?
❏ Apache Hadoop
❏ Обзор, инфраструктура Hadoop
❏ MapReduce с примерами
❏ Как начать
❏ Apache Mahout
❏ Машинное обучение, обзор Mahout
❏ Что такое кластеризация данных
❏ Пример: кластеризация stackoverflow.com
Why data is so important and big?
http://americannewsreport.com/big-data-means-big-
changes-for-marketing-and-fundraising-organizations-
8817773
http://www.intel.com/content/www/us/en/communications/internet-minute-infographic.
Откуда столько данных?
❏ Мы не знаем что захотим анализировать в
будущем
❏ Сохраняем всё
❏ Уже давно ничего не удаляется!
❏ 80% данных имеют неструктурированный
характер
❏ Web-краулинг, GPS, логи, медицинские
данные, статистика кликов, продажи, ...
❏ Сам объём данных представляет проблему
Большие вычисления Большие данные
Использование CPU,GPU, CUDA Использование сети, дисков
Масштабируемость
Big Data
Хранение
Отказоустойчивость Кросплатформенность
❏ одна программа - разные объемы
данных
❏ увеличение количества машин - не
меняем программу
❏ локальные вычисления
❏ множество копий, репликация
❏ не теряем ничего
❏ автоматическое восстановление
после сбоев
❏ не хотим затачивать софт под
конкретное железо
❏ не хотим покупать дорогое железо,
запуск на обычных компьютерах
Apache Hadoop
❏ Фреймворк для обработки данных
❏ Масштабируется на множество машин
❏ Написан на Java, открытый исходный код
❏ Специальная файловая система
❏ Не требует специального железа
❏ Поддержка java, c#, c++, python, ruby,
javascript, ...
http://hadoop.apache.org
Дистрибутивы
❏ Apache Hadoop
❏ Cloudera
❏ Hortonworks
❏ MapR, IBM, Oracle, Intel...
Solit 2014, MapReduce и машинное обучение на hadoop и mahout, Слисенко Константин
Инфраструктура Hadoop
MapReduce
HDFS
VM1 VM2 VM3 VMn...
Scripting
(Pig)
Query
(Hive)
Machine
learning
(Mahout)
Средства обработки
данных
Запуск распределённых
вычислений
Распределённая
файловая система
Сервера или виртуальные
машины
HBASE
OOzie
(workflow)
Flume
(eventpipeline)
Управление
потоками
вычислений
Перенос данных
Распределённая БД
Файловое хранилище HDFS
VM1
1 2
VM2
3 2
VM3
1 3
HDFS
❏ Распределённое
хранение
❏ Локальность
вычислений
❏ Репликация
1 2 3Файл
Map Reduce
10:31:33 192.168.1.1
10:31:37 192.168.1.2
10:32:04 192.168.1.1
10:32:10 192.168.1.3
10:33:27 192.168.1.2
10:31:33 192.168.1.1
10:31:37 192.168.1.2Map
Server log file
Reduce
10:33 1
10:32 2
10:31 2
10:31 1
10:31 1
hh:mm:ss ip hh:mm 1
hh:mm 1
10:33:27 192.168.1.2
hh:mm sum(i)
10:33 1
10:32:04 192.168.1.1
10:32:10 192.168.1.3
10:32 1
10:32 1
10:33 1
10:31 1
10:31 1
10:32 1
10:32 1
Функции Map и Reduce
❏ Описывают только
преобразование данных
❏ Тестируются отдельно
❏ Не зависят от объёма данных
Пример - статистика посещений сервера
Как запустить?
Cloudera Quick Start VM
http://www.cloudera.
com/content/support/en/downloads.
html
Centos, GUI, Eclipse, sample java
project with libs
Hortonworks Sandbox
http://hortonworks.
com/products/hortonworks-sandbox/
Web-интерфейс
туториалы Pig, Hive
Cloudera Quickstart VM
Hortonworks Sandbox
Почему бы не
использовать Unit-
тесты?
Подключаем библиотеку MRUnit
и дебажим
+ не требует инсталляции Hadoop
- нет гарантии работы на
реальном кластере
Без инсталляции Hadoop
Approval tests MapReduce
http://approvaltests.sourceforge.net/
1. Создаём обёртки для Mapper и Reducer
2. Передаём входные данные
3. Генерируется текстовый файл c результатами
Всё визуально понятно
Сразу имеем покрытие кода Unit-тестами
Начинаем изучать Hadoop
Hadoop. The definitive
guide
O’REILLY
Getting started with
Apache Hadoop
DZone Refcardz
Немного обо всём на
Hortonworks Sandbox VM
Pig, Hive, HDFS, Hadoop.
http://hortonworks.com/tutorials/
http://hortonworks.
com/products/hortonworks-sandbox/
Примеры кода на Cloudera
Quickstart VM
Hadoop в облаке - играемся серьёзно
Amazon Elastic MapReduce сервис hdinsight
http://aws.amazon.com/elasticmapreduce/ http://www.windowsazure.com/en-us/services/hdinsight/
Что такое машинное
обучение?
Подраздел искусственного
интеллекта
Machine learning is the science of
getting computers to act without being
explicitly programmed (Coursera)
❏ Системы рекомендаций
❏ Классификация объекта на
принадлежность к группе
❏ Нахождение похожих объектов
❏ Нахождение шаблонов поведения
❏ Ключевые темы в коллекции
документов
❏ Определение аномалий
❏ Определние спама
❏ Ранжирование поисковой выдачи
и многое другое
Solit 2014, MapReduce и машинное обучение на hadoop и mahout, Слисенко Константин
Разбивка объектов на группы
по схожести
Каждый объект имеет признаки
(features)
Задана мера сходства (distance
measure)
❏ в примере - геометрическое
расстояние
Кластеризация
Разбивка объектов на группы
по схожести
Каждый объект имеет признаки
(features)
Задана мера сходства (distance
measure)
❏ в примере - геометрическое
расстояние
Кластеризация
Разбивка объектов на группы
по схожести
Каждый объект имеет признаки
(features)
Задана мера сходства (distance
measure)
❏ в примере - геометрическое
расстояние
Кластеризация
I am engineer. I love my pet. My pet is dog.
I, am, engineer, love, my, pet, is, dog.
Кластеризация текста
Исходный текст
Выделение слов, фильтрация
Векторизация
engineer love pet dog
1 I am engineer 1 0 0 0
2 I love my pet 0 1 1 0
3 My pet is dog 0 0 1 1
p q d(p, q)
1 2 3
2 3 2
1 3 3
Нахождение близости
http://mahout.apache.org
Старт: 2008 год
Последняя версия 0.9
Библиотека алгоритмов
машинного обучения
Работает поверх Hadoop
и отдельно
Apache Mahout
Системы
рекомендаций
Кластеризация
Классификация
И многое другое
1 февраля - месяц назад
Как внести свой вклад
1. Дождаться выхода
нового релиза
2. Собрать, запустить
unit-тесты
3. Сообщить о проблемах
http://mahout.apache.org/developers/how-to-
contribute.html
Последний релиз 0.9
Пример: кластеризация посылок
Кластеризация посылок
ParcelClusteringMahoutExample.java Parcel.java
ParcelToVectorUtil.java
Output
stackoverflow.com
❏ 15.7 Гб (архив, Январь 2014)
❏ 6.7 миллионов вопросов
❏ 12 миллионов ответов
❏ 2.8 миллионов пользователей
https://archive.org/details/stackexchange
Открытые данные stackoverflow
<posts>
<row Id="0" Title="Title1"
Body="Question 1 text" ... />
<row Id="1" Title="Title1"
Body="Question 2 text" ... />
</posts>
Исходные данные в формате XML
PostTypeId, AcceptedAnswerId, CreationDate, Score, ViewCount,
OwnerUserId, LastEditorUserId, LastEditorDisplayName, LastEditDate,
LastActivityDate, Tags, AnswerCount, CommentCount, FavoriteCount
Кластеризация stackoverflow
XML Text
[0, 1, 0, 1, 1, 0]
[1, 0, 0, 1, 1, 1]
1. Выделение
текста из XML
2. Обработка текста
3. Векторизация
4. Кластеризация 5. Отображение
результатов
1. Hadoop MapReduce
2. Mahout + Lucene (фильтр слов, начальная форма, ...)
3. Mahout, алгоритм TF-IDF
4. Mahout, алгоритм К-средних
5. Hadoop MapReduce, HTML, JavaScript, Database
Результат - облако тегов
Динамичность Mahout
Алгоритмы живут пока их кто-то
поддерживает
Если не было поддержки в течение
нескольких последних релизов -
алгоритм безжалостно
выпиливается
One of the goals of Mahout these
days is to streamline the project by
supporting a only few good
algorithms and slowly deprecate and
remove algorithms that are not used
that much or are difficult to use.
Изучаем Mahout
Mahout in action
Sean Oven, Robin Anil, Ted
Dunning, Ellen Friedman
Manning
Кластеризация Stackoverflow от
Frank Scholten
https://github.com/frankscholten/mahout-clustering-
stackoverflow
Исходный код примеров Mahout in
action:
https://github.com/tdunning/MiA
Mailing lists
dev@mahout.apache.org
user@mahout.apache.org
Hadoop & MapReduce &
Mahout in action
H.Saygin Arkan
9/3/2009
Вопросы?
Спасибо за внимание!
kslisenko@gmail.com

More Related Content

What's hot

NodeJS в HighLoad проекте / Акрицкий Владимир (iAge Engineering)
NodeJS в HighLoad проекте / Акрицкий Владимир (iAge Engineering)NodeJS в HighLoad проекте / Акрицкий Владимир (iAge Engineering)
NodeJS в HighLoad проекте / Акрицкий Владимир (iAge Engineering)Ontico
 
Алексей Чумаков. Apache Cassandra на реальном проекте
Алексей Чумаков. Apache Cassandra на реальном проектеАлексей Чумаков. Apache Cassandra на реальном проекте
Алексей Чумаков. Apache Cassandra на реальном проектеVolha Banadyseva
 
Типовое внедрение мониторинга
Типовое внедрение мониторингаТиповое внедрение мониторинга
Типовое внедрение мониторингаUptime Community
 
Погружение в виртуальную память и большие страницы / Константин Новаковский (...
Погружение в виртуальную память и большие страницы / Константин Новаковский (...Погружение в виртуальную память и большие страницы / Константин Новаковский (...
Погружение в виртуальную память и большие страницы / Константин Новаковский (...Ontico
 
Введение в Apache Cassandra
Введение в Apache CassandraВведение в Apache Cassandra
Введение в Apache CassandraAlexander Tivelkov
 
Настройка и оптимизация высоконагруженных J2EE веб-приложений / Шамим Ахмед (...
Настройка и оптимизация высоконагруженных J2EE веб-приложений / Шамим Ахмед (...Настройка и оптимизация высоконагруженных J2EE веб-приложений / Шамим Ахмед (...
Настройка и оптимизация высоконагруженных J2EE веб-приложений / Шамим Ахмед (...Ontico
 
3rd Moscow cassandra meetup (Fast In-memory Analytics Over Cassandra Data )
3rd Moscow cassandra meetup (Fast In-memory Analytics Over Cassandra Data )3rd Moscow cassandra meetup (Fast In-memory Analytics Over Cassandra Data )
3rd Moscow cassandra meetup (Fast In-memory Analytics Over Cassandra Data )Shamim bhuiyan
 
Apache Cassandra. Ещё одно NoSQL хранилище (Владимир Климонтович)
Apache Cassandra. Ещё одно NoSQL хранилище (Владимир Климонтович)Apache Cassandra. Ещё одно NoSQL хранилище (Владимир Климонтович)
Apache Cassandra. Ещё одно NoSQL хранилище (Владимир Климонтович)Ontico
 
Cassandra: быстрая запись данных в высоконагруженных системах
Cassandra: быстрая запись данных в высоконагруженных системахCassandra: быстрая запись данных в высоконагруженных системах
Cassandra: быстрая запись данных в высоконагруженных системахAlexander Mezhov
 
Big data moscow meetup
Big data moscow meetup Big data moscow meetup
Big data moscow meetup Shamim bhuiyan
 
Облако Windows Azure для тестирования и разработки
Облако Windows Azure для тестирования и разработкиОблако Windows Azure для тестирования и разработки
Облако Windows Azure для тестирования и разработкиAlexey Bokov
 
Андрей Созыкин — ИММ УрО РАН — ICDBA2016
Андрей Созыкин — ИММ УрО РАН — ICDBA2016Андрей Созыкин — ИММ УрО РАН — ICDBA2016
Андрей Созыкин — ИММ УрО РАН — ICDBA2016rusbase
 
Мониторинг и отладка MySQL: максимум информации при минимальных потерях
Мониторинг и отладка MySQL: максимум информации при минимальных потеряхМониторинг и отладка MySQL: максимум информации при минимальных потерях
Мониторинг и отладка MySQL: максимум информации при минимальных потеряхSveta Smirnova
 
NoSQL - World IT Planet, Saint Petersburg 2015
NoSQL - World IT Planet, Saint Petersburg 2015NoSQL - World IT Planet, Saint Petersburg 2015
NoSQL - World IT Planet, Saint Petersburg 2015Shamim bhuiyan
 
Масштабирование баз данных. (Database Scalability)
Масштабирование баз данных. (Database Scalability)Масштабирование баз данных. (Database Scalability)
Масштабирование баз данных. (Database Scalability)Andrew Avdeev
 
Инфраструктура распределенных приложений на nodejs / Станислав Гуменюк (Rambl...
Инфраструктура распределенных приложений на nodejs / Станислав Гуменюк (Rambl...Инфраструктура распределенных приложений на nodejs / Станислав Гуменюк (Rambl...
Инфраструктура распределенных приложений на nodejs / Станислав Гуменюк (Rambl...Ontico
 
Как жить в облаке почти без админов: мониторинг и эксплуатация сотен виртуаль...
Как жить в облаке почти без админов: мониторинг и эксплуатация сотен виртуаль...Как жить в облаке почти без админов: мониторинг и эксплуатация сотен виртуаль...
Как жить в облаке почти без админов: мониторинг и эксплуатация сотен виртуаль...Uptime Community
 
Чему мы научились разрабатывая микросервисы?
Чему мы научились разрабатывая микросервисы?Чему мы научились разрабатывая микросервисы?
Чему мы научились разрабатывая микросервисы?Vadim Madison
 

What's hot (19)

NodeJS в HighLoad проекте / Акрицкий Владимир (iAge Engineering)
NodeJS в HighLoad проекте / Акрицкий Владимир (iAge Engineering)NodeJS в HighLoad проекте / Акрицкий Владимир (iAge Engineering)
NodeJS в HighLoad проекте / Акрицкий Владимир (iAge Engineering)
 
Алексей Чумаков. Apache Cassandra на реальном проекте
Алексей Чумаков. Apache Cassandra на реальном проектеАлексей Чумаков. Apache Cassandra на реальном проекте
Алексей Чумаков. Apache Cassandra на реальном проекте
 
Типовое внедрение мониторинга
Типовое внедрение мониторингаТиповое внедрение мониторинга
Типовое внедрение мониторинга
 
Highload++ 2015
Highload++ 2015Highload++ 2015
Highload++ 2015
 
Погружение в виртуальную память и большие страницы / Константин Новаковский (...
Погружение в виртуальную память и большие страницы / Константин Новаковский (...Погружение в виртуальную память и большие страницы / Константин Новаковский (...
Погружение в виртуальную память и большие страницы / Константин Новаковский (...
 
Введение в Apache Cassandra
Введение в Apache CassandraВведение в Apache Cassandra
Введение в Apache Cassandra
 
Настройка и оптимизация высоконагруженных J2EE веб-приложений / Шамим Ахмед (...
Настройка и оптимизация высоконагруженных J2EE веб-приложений / Шамим Ахмед (...Настройка и оптимизация высоконагруженных J2EE веб-приложений / Шамим Ахмед (...
Настройка и оптимизация высоконагруженных J2EE веб-приложений / Шамим Ахмед (...
 
3rd Moscow cassandra meetup (Fast In-memory Analytics Over Cassandra Data )
3rd Moscow cassandra meetup (Fast In-memory Analytics Over Cassandra Data )3rd Moscow cassandra meetup (Fast In-memory Analytics Over Cassandra Data )
3rd Moscow cassandra meetup (Fast In-memory Analytics Over Cassandra Data )
 
Apache Cassandra. Ещё одно NoSQL хранилище (Владимир Климонтович)
Apache Cassandra. Ещё одно NoSQL хранилище (Владимир Климонтович)Apache Cassandra. Ещё одно NoSQL хранилище (Владимир Климонтович)
Apache Cassandra. Ещё одно NoSQL хранилище (Владимир Климонтович)
 
Cassandra: быстрая запись данных в высоконагруженных системах
Cassandra: быстрая запись данных в высоконагруженных системахCassandra: быстрая запись данных в высоконагруженных системах
Cassandra: быстрая запись данных в высоконагруженных системах
 
Big data moscow meetup
Big data moscow meetup Big data moscow meetup
Big data moscow meetup
 
Облако Windows Azure для тестирования и разработки
Облако Windows Azure для тестирования и разработкиОблако Windows Azure для тестирования и разработки
Облако Windows Azure для тестирования и разработки
 
Андрей Созыкин — ИММ УрО РАН — ICDBA2016
Андрей Созыкин — ИММ УрО РАН — ICDBA2016Андрей Созыкин — ИММ УрО РАН — ICDBA2016
Андрей Созыкин — ИММ УрО РАН — ICDBA2016
 
Мониторинг и отладка MySQL: максимум информации при минимальных потерях
Мониторинг и отладка MySQL: максимум информации при минимальных потеряхМониторинг и отладка MySQL: максимум информации при минимальных потерях
Мониторинг и отладка MySQL: максимум информации при минимальных потерях
 
NoSQL - World IT Planet, Saint Petersburg 2015
NoSQL - World IT Planet, Saint Petersburg 2015NoSQL - World IT Planet, Saint Petersburg 2015
NoSQL - World IT Planet, Saint Petersburg 2015
 
Масштабирование баз данных. (Database Scalability)
Масштабирование баз данных. (Database Scalability)Масштабирование баз данных. (Database Scalability)
Масштабирование баз данных. (Database Scalability)
 
Инфраструктура распределенных приложений на nodejs / Станислав Гуменюк (Rambl...
Инфраструктура распределенных приложений на nodejs / Станислав Гуменюк (Rambl...Инфраструктура распределенных приложений на nodejs / Станислав Гуменюк (Rambl...
Инфраструктура распределенных приложений на nodejs / Станислав Гуменюк (Rambl...
 
Как жить в облаке почти без админов: мониторинг и эксплуатация сотен виртуаль...
Как жить в облаке почти без админов: мониторинг и эксплуатация сотен виртуаль...Как жить в облаке почти без админов: мониторинг и эксплуатация сотен виртуаль...
Как жить в облаке почти без админов: мониторинг и эксплуатация сотен виртуаль...
 
Чему мы научились разрабатывая микросервисы?
Чему мы научились разрабатывая микросервисы?Чему мы научились разрабатывая микросервисы?
Чему мы научились разрабатывая микросервисы?
 

Viewers also liked

Solit 2013, JVM изнутри: оптимизация и профилирование, Слисенко Константин
Solit 2013, JVM изнутри: оптимизация и профилирование, Слисенко КонстантинSolit 2013, JVM изнутри: оптимизация и профилирование, Слисенко Константин
Solit 2013, JVM изнутри: оптимизация и профилирование, Слисенко Константинsolit
 
Solit 2014, Scrum для большого проекта. Как это работает на практике, Слисенк...
Solit 2014, Scrum для большого проекта. Как это работает на практике, Слисенк...Solit 2014, Scrum для большого проекта. Как это работает на практике, Слисенк...
Solit 2014, Scrum для большого проекта. Как это работает на практике, Слисенк...solit
 
Платформа Apache Hadoop
Платформа Apache HadoopПлатформа Apache Hadoop
Платформа Apache HadoopDotNetConf
 
Hadoop streaming простой путь к масштабированию приложений обработки данных. ...
Hadoop streaming простой путь к масштабированию приложений обработки данных. ...Hadoop streaming простой путь к масштабированию приложений обработки данных. ...
Hadoop streaming простой путь к масштабированию приложений обработки данных. ...rit2011
 
Введение в машинное обучение. Кластеризация (Bitworks Software, Кирилл Жданов)
Введение в машинное обучение. Кластеризация (Bitworks Software, Кирилл Жданов)Введение в машинное обучение. Кластеризация (Bitworks Software, Кирилл Жданов)
Введение в машинное обучение. Кластеризация (Bitworks Software, Кирилл Жданов)Dmitry Kornev
 
Распознавание лиц в реальном времени по базам фотографий глобального масштаба...
Распознавание лиц в реальном времени по базам фотографий глобального масштаба...Распознавание лиц в реальном времени по базам фотографий глобального масштаба...
Распознавание лиц в реальном времени по базам фотографий глобального масштаба...Ontico
 
Машинное обучение на платформе .NET
Машинное обучение на платформе .NETМашинное обучение на платформе .NET
Машинное обучение на платформе .NETDotNetConf
 
Recognition of handwritten digits
Recognition of handwritten digitsRecognition of handwritten digits
Recognition of handwritten digitsAndrew Babiy
 
Deep learning: Cложный анализ данных простыми словами_Сергей Шелпук
Deep learning: Cложный анализ данных простыми словами_Сергей ШелпукDeep learning: Cложный анализ данных простыми словами_Сергей Шелпук
Deep learning: Cложный анализ данных простыми словами_Сергей ШелпукGeeksLab Odessa
 
Введение в машинное обучение
Введение в машинное обучение Введение в машинное обучение
Введение в машинное обучение Anton Anokhin
 
ADD2010: Обработка большого объема данных на платформеApache Hadoop
ADD2010: Обработка большого объема данных на платформеApache Hadoop ADD2010: Обработка большого объема данных на платформеApache Hadoop
ADD2010: Обработка большого объема данных на платформеApache Hadoop Vladimir Klimontovich
 
Алгебраический подход к анализу данных и его приложения
Алгебраический подход к анализу данных и его приложенияАлгебраический подход к анализу данных и его приложения
Алгебраический подход к анализу данных и его приложенияАлександр Дьяконов
 
Определение курильщика по кардиограмме
Определение курильщика по кардиограммеОпределение курильщика по кардиограмме
Определение курильщика по кардиограммеАлександр Дьяконов
 
Matrix Laboratory (эффективное программирование)
Matrix Laboratory (эффективное программирование)Matrix Laboratory (эффективное программирование)
Matrix Laboratory (эффективное программирование)Александр Дьяконов
 
Machine learning with Python / Олег Шидловский / Doist [Python Meetup 27.03.15]
Machine learning with Python / Олег Шидловский / Doist [Python Meetup 27.03.15] Machine learning with Python / Олег Шидловский / Doist [Python Meetup 27.03.15]
Machine learning with Python / Олег Шидловский / Doist [Python Meetup 27.03.15] Python Meetup
 
Введение в язык программирования Питон (Python)
Введение в язык программирования Питон (Python)Введение в язык программирования Питон (Python)
Введение в язык программирования Питон (Python)Александр Дьяконов
 

Viewers also liked (20)

Solit 2013, JVM изнутри: оптимизация и профилирование, Слисенко Константин
Solit 2013, JVM изнутри: оптимизация и профилирование, Слисенко КонстантинSolit 2013, JVM изнутри: оптимизация и профилирование, Слисенко Константин
Solit 2013, JVM изнутри: оптимизация и профилирование, Слисенко Константин
 
Solit 2014, Scrum для большого проекта. Как это работает на практике, Слисенк...
Solit 2014, Scrum для большого проекта. Как это работает на практике, Слисенк...Solit 2014, Scrum для большого проекта. Как это работает на практике, Слисенк...
Solit 2014, Scrum для большого проекта. Как это работает на практике, Слисенк...
 
Платформа Apache Hadoop
Платформа Apache HadoopПлатформа Apache Hadoop
Платформа Apache Hadoop
 
Hadoop streaming простой путь к масштабированию приложений обработки данных. ...
Hadoop streaming простой путь к масштабированию приложений обработки данных. ...Hadoop streaming простой путь к масштабированию приложений обработки данных. ...
Hadoop streaming простой путь к масштабированию приложений обработки данных. ...
 
Apache Hadoop
Apache HadoopApache Hadoop
Apache Hadoop
 
Машинное обучение
Машинное обучениеМашинное обучение
Машинное обучение
 
Введение в машинное обучение. Кластеризация (Bitworks Software, Кирилл Жданов)
Введение в машинное обучение. Кластеризация (Bitworks Software, Кирилл Жданов)Введение в машинное обучение. Кластеризация (Bitworks Software, Кирилл Жданов)
Введение в машинное обучение. Кластеризация (Bitworks Software, Кирилл Жданов)
 
Распознавание лиц в реальном времени по базам фотографий глобального масштаба...
Распознавание лиц в реальном времени по базам фотографий глобального масштаба...Распознавание лиц в реальном времени по базам фотографий глобального масштаба...
Распознавание лиц в реальном времени по базам фотографий глобального масштаба...
 
Машинное обучение на платформе .NET
Машинное обучение на платформе .NETМашинное обучение на платформе .NET
Машинное обучение на платформе .NET
 
Recognition of handwritten digits
Recognition of handwritten digitsRecognition of handwritten digits
Recognition of handwritten digits
 
Deep learning: Cложный анализ данных простыми словами_Сергей Шелпук
Deep learning: Cложный анализ данных простыми словами_Сергей ШелпукDeep learning: Cложный анализ данных простыми словами_Сергей Шелпук
Deep learning: Cложный анализ данных простыми словами_Сергей Шелпук
 
Введение в машинное обучение
Введение в машинное обучение Введение в машинное обучение
Введение в машинное обучение
 
ADD2010: Обработка большого объема данных на платформеApache Hadoop
ADD2010: Обработка большого объема данных на платформеApache Hadoop ADD2010: Обработка большого объема данных на платформеApache Hadoop
ADD2010: Обработка большого объема данных на платформеApache Hadoop
 
Алгебраический подход к анализу данных и его приложения
Алгебраический подход к анализу данных и его приложенияАлгебраический подход к анализу данных и его приложения
Алгебраический подход к анализу данных и его приложения
 
Определение курильщика по кардиограмме
Определение курильщика по кардиограммеОпределение курильщика по кардиограмме
Определение курильщика по кардиограмме
 
Решение задачи Search Results Relevance
Решение задачи Search Results RelevanceРешение задачи Search Results Relevance
Решение задачи Search Results Relevance
 
Спектральная теория графов
Спектральная теория графовСпектральная теория графов
Спектральная теория графов
 
Matrix Laboratory (эффективное программирование)
Matrix Laboratory (эффективное программирование)Matrix Laboratory (эффективное программирование)
Matrix Laboratory (эффективное программирование)
 
Machine learning with Python / Олег Шидловский / Doist [Python Meetup 27.03.15]
Machine learning with Python / Олег Шидловский / Doist [Python Meetup 27.03.15] Machine learning with Python / Олег Шидловский / Doist [Python Meetup 27.03.15]
Machine learning with Python / Олег Шидловский / Doist [Python Meetup 27.03.15]
 
Введение в язык программирования Питон (Python)
Введение в язык программирования Питон (Python)Введение в язык программирования Питон (Python)
Введение в язык программирования Питон (Python)
 

Similar to Solit 2014, MapReduce и машинное обучение на hadoop и mahout, Слисенко Константин

Hadoop > cascading -> cascalog (very short)
Hadoop  > cascading -> cascalog (very short)Hadoop  > cascading -> cascalog (very short)
Hadoop > cascading -> cascalog (very short)Andrew Panfilov
 
Rapid Deployment of Hadoop Development Environments
Rapid Deployment of Hadoop Development EnvironmentsRapid Deployment of Hadoop Development Environments
Rapid Deployment of Hadoop Development EnvironmentsAndrei Nikolaenko
 
Windows Azure - BigData and Hadoop
Windows Azure - BigData and HadoopWindows Azure - BigData and Hadoop
Windows Azure - BigData and HadoopAlexey Bokov
 
Hl2008 Spy Log Architechture 169
Hl2008 Spy Log Architechture 169Hl2008 Spy Log Architechture 169
Hl2008 Spy Log Architechture 169Media Gorod
 
New SpyLOG architechture (Highload 2008)
New SpyLOG architechture (Highload 2008)New SpyLOG architechture (Highload 2008)
New SpyLOG architechture (Highload 2008)Sergey Skvortsov
 
2012.11.06 машинное обучение с помощью vw
2012.11.06 машинное обучение с помощью vw2012.11.06 машинное обучение с помощью vw
2012.11.06 машинное обучение с помощью vwИлья Трофимов
 
Илья Трофимов - машинное обучение с помощью vw
Илья Трофимов - машинное обучение с помощью vwИлья Трофимов - машинное обучение с помощью vw
Илья Трофимов - машинное обучение с помощью vwPavel Mezentsev
 
Вячеслав Бахмутов
Вячеслав БахмутовВячеслав Бахмутов
Вячеслав БахмутовCodeFest
 
IOP202 DevCon 2012 Apache Lucene in Windows Azure
IOP202 DevCon 2012 Apache Lucene in Windows AzureIOP202 DevCon 2012 Apache Lucene in Windows Azure
IOP202 DevCon 2012 Apache Lucene in Windows AzureVadim Novitskiy
 
Технико-коммерческое предложение "База знаний"
Технико-коммерческое предложение "База знаний"Технико-коммерческое предложение "База знаний"
Технико-коммерческое предложение "База знаний"RKVector
 
Introductory Keynote at Hadoop Workshop by Ospcon (2014)
Introductory Keynote at Hadoop Workshop by Ospcon (2014)Introductory Keynote at Hadoop Workshop by Ospcon (2014)
Introductory Keynote at Hadoop Workshop by Ospcon (2014)Andrei Nikolaenko
 
Serghei Iakovlev "Chaos engineering in action"
Serghei Iakovlev "Chaos engineering in action"Serghei Iakovlev "Chaos engineering in action"
Serghei Iakovlev "Chaos engineering in action"Fwdays
 
DUMP-2013 Наука и жизнь - Использование Hadoop в машинном обучении - Созыкин ...
DUMP-2013 Наука и жизнь - Использование Hadoop в машинном обучении - Созыкин ...DUMP-2013 Наука и жизнь - Использование Hadoop в машинном обучении - Созыкин ...
DUMP-2013 Наука и жизнь - Использование Hadoop в машинном обучении - Созыкин ...it-people
 
Антон Галицын
Антон ГалицынАнтон Галицын
Антон ГалицынCodeFest
 
«Автоматизация тестовой инфраструктуры в 2ГИС» — Антон Голицын, 2ГИС
«Автоматизация тестовой инфраструктуры в 2ГИС» — Антон Голицын, 2ГИС«Автоматизация тестовой инфраструктуры в 2ГИС» — Антон Голицын, 2ГИС
«Автоматизация тестовой инфраструктуры в 2ГИС» — Антон Голицын, 2ГИС2ГИС Технологии
 
10 HappyDev-lite'14 Иван Погудин, Анатолий Никулин. Решение задач, связанных...
10 HappyDev-lite'14 Иван Погудин, Анатолий Никулин. Решение задач, связанных...10 HappyDev-lite'14 Иван Погудин, Анатолий Никулин. Решение задач, связанных...
10 HappyDev-lite'14 Иван Погудин, Анатолий Никулин. Решение задач, связанных...HappyDev
 
Cервис рекомендаций на виртуальном Hadoop кластере (Роман Зыков)
Cервис рекомендаций на виртуальном Hadoop кластере (Роман Зыков)Cервис рекомендаций на виртуальном Hadoop кластере (Роман Зыков)
Cервис рекомендаций на виртуальном Hadoop кластере (Роман Зыков)Ontico
 
12 HappyDev-lite-2014. Иван Погудин, Анатолий Никулин. Решение задач, связан...
12 HappyDev-lite-2014. Иван Погудин, Анатолий Никулин. Решение задач, связан...12 HappyDev-lite-2014. Иван Погудин, Анатолий Никулин. Решение задач, связан...
12 HappyDev-lite-2014. Иван Погудин, Анатолий Никулин. Решение задач, связан...HappyDev-lite
 

Similar to Solit 2014, MapReduce и машинное обучение на hadoop и mahout, Слисенко Константин (20)

Hadoop > cascading -> cascalog (very short)
Hadoop  > cascading -> cascalog (very short)Hadoop  > cascading -> cascalog (very short)
Hadoop > cascading -> cascalog (very short)
 
Rapid Deployment of Hadoop Development Environments
Rapid Deployment of Hadoop Development EnvironmentsRapid Deployment of Hadoop Development Environments
Rapid Deployment of Hadoop Development Environments
 
Druid - Interactive Analytics At Scale
Druid - Interactive Analytics At ScaleDruid - Interactive Analytics At Scale
Druid - Interactive Analytics At Scale
 
Windows Azure - BigData and Hadoop
Windows Azure - BigData and HadoopWindows Azure - BigData and Hadoop
Windows Azure - BigData and Hadoop
 
Hl2008 Spy Log Architechture 169
Hl2008 Spy Log Architechture 169Hl2008 Spy Log Architechture 169
Hl2008 Spy Log Architechture 169
 
New SpyLOG architechture (Highload 2008)
New SpyLOG architechture (Highload 2008)New SpyLOG architechture (Highload 2008)
New SpyLOG architechture (Highload 2008)
 
2012.11.06 машинное обучение с помощью vw
2012.11.06 машинное обучение с помощью vw2012.11.06 машинное обучение с помощью vw
2012.11.06 машинное обучение с помощью vw
 
Илья Трофимов - машинное обучение с помощью vw
Илья Трофимов - машинное обучение с помощью vwИлья Трофимов - машинное обучение с помощью vw
Илья Трофимов - машинное обучение с помощью vw
 
Вячеслав Бахмутов
Вячеслав БахмутовВячеслав Бахмутов
Вячеслав Бахмутов
 
IOP202 DevCon 2012 Apache Lucene in Windows Azure
IOP202 DevCon 2012 Apache Lucene in Windows AzureIOP202 DevCon 2012 Apache Lucene in Windows Azure
IOP202 DevCon 2012 Apache Lucene in Windows Azure
 
Технико-коммерческое предложение "База знаний"
Технико-коммерческое предложение "База знаний"Технико-коммерческое предложение "База знаний"
Технико-коммерческое предложение "База знаний"
 
Introductory Keynote at Hadoop Workshop by Ospcon (2014)
Introductory Keynote at Hadoop Workshop by Ospcon (2014)Introductory Keynote at Hadoop Workshop by Ospcon (2014)
Introductory Keynote at Hadoop Workshop by Ospcon (2014)
 
Serghei Iakovlev "Chaos engineering in action"
Serghei Iakovlev "Chaos engineering in action"Serghei Iakovlev "Chaos engineering in action"
Serghei Iakovlev "Chaos engineering in action"
 
DUMP-2013 Наука и жизнь - Использование Hadoop в машинном обучении - Созыкин ...
DUMP-2013 Наука и жизнь - Использование Hadoop в машинном обучении - Созыкин ...DUMP-2013 Наука и жизнь - Использование Hadoop в машинном обучении - Созыкин ...
DUMP-2013 Наука и жизнь - Использование Hadoop в машинном обучении - Созыкин ...
 
Антон Галицын
Антон ГалицынАнтон Галицын
Антон Галицын
 
«Автоматизация тестовой инфраструктуры в 2ГИС» — Антон Голицын, 2ГИС
«Автоматизация тестовой инфраструктуры в 2ГИС» — Антон Голицын, 2ГИС«Автоматизация тестовой инфраструктуры в 2ГИС» — Антон Голицын, 2ГИС
«Автоматизация тестовой инфраструктуры в 2ГИС» — Антон Голицын, 2ГИС
 
10 HappyDev-lite'14 Иван Погудин, Анатолий Никулин. Решение задач, связанных...
10 HappyDev-lite'14 Иван Погудин, Анатолий Никулин. Решение задач, связанных...10 HappyDev-lite'14 Иван Погудин, Анатолий Никулин. Решение задач, связанных...
10 HappyDev-lite'14 Иван Погудин, Анатолий Никулин. Решение задач, связанных...
 
Cервис рекомендаций на виртуальном Hadoop кластере (Роман Зыков)
Cервис рекомендаций на виртуальном Hadoop кластере (Роман Зыков)Cервис рекомендаций на виртуальном Hadoop кластере (Роман Зыков)
Cервис рекомендаций на виртуальном Hadoop кластере (Роман Зыков)
 
12 HappyDev-lite-2014. Иван Погудин, Анатолий Никулин. Решение задач, связан...
12 HappyDev-lite-2014. Иван Погудин, Анатолий Никулин. Решение задач, связан...12 HappyDev-lite-2014. Иван Погудин, Анатолий Никулин. Решение задач, связан...
12 HappyDev-lite-2014. Иван Погудин, Анатолий Никулин. Решение задач, связан...
 
Анализируем данные с Clickhouse
Анализируем данные с  ClickhouseАнализируем данные с  Clickhouse
Анализируем данные с Clickhouse
 

More from solit

Jazz team cooperation roadmap
Jazz team cooperation roadmapJazz team cooperation roadmap
Jazz team cooperation roadmapsolit
 
JazzTeam company presentation
JazzTeam company presentationJazzTeam company presentation
JazzTeam company presentationsolit
 
Solit 2014, Agile ValueTeam, учимся понимать Scrum, Семенченко Антон
Solit 2014, Agile ValueTeam, учимся понимать Scrum, Семенченко АнтонSolit 2014, Agile ValueTeam, учимся понимать Scrum, Семенченко Антон
Solit 2014, Agile ValueTeam, учимся понимать Scrum, Семенченко Антонsolit
 
Solit 2014, Scrum guide 2013, Семенченко Антон
Solit 2014, Scrum guide 2013, Семенченко АнтонSolit 2014, Scrum guide 2013, Семенченко Антон
Solit 2014, Scrum guide 2013, Семенченко Антонsolit
 
Solit 2014, Подготовка специалистов в сфере It на факультетe информационных т...
Solit 2014, Подготовка специалистов в сфере It на факультетe информационных т...Solit 2014, Подготовка специалистов в сфере It на факультетe информационных т...
Solit 2014, Подготовка специалистов в сфере It на факультетe информационных т...solit
 
Solit 2014, Адраджэнне Памяти аб продках пачынаецца з дзеянняу нашчадкау, Уру...
Solit 2014, Адраджэнне Памяти аб продках пачынаецца з дзеянняу нашчадкау, Уру...Solit 2014, Адраджэнне Памяти аб продках пачынаецца з дзеянняу нашчадкау, Уру...
Solit 2014, Адраджэнне Памяти аб продках пачынаецца з дзеянняу нашчадкау, Уру...solit
 
Solit 2014, Централизованное управление тестами с помощью TestLink, Зубович В...
Solit 2014, Централизованное управление тестами с помощью TestLink, Зубович В...Solit 2014, Централизованное управление тестами с помощью TestLink, Зубович В...
Solit 2014, Централизованное управление тестами с помощью TestLink, Зубович В...solit
 
Solit 2014, Инструменты автоматизации тестирования мобильных приложений. Срав...
Solit 2014, Инструменты автоматизации тестирования мобильных приложений. Срав...Solit 2014, Инструменты автоматизации тестирования мобильных приложений. Срав...
Solit 2014, Инструменты автоматизации тестирования мобильных приложений. Срав...solit
 
Solit 2014, Cемантическое ядро сайта, Нагибович Юлия
Solit 2014, Cемантическое ядро сайта, Нагибович ЮлияSolit 2014, Cемантическое ядро сайта, Нагибович Юлия
Solit 2014, Cемантическое ядро сайта, Нагибович Юлияsolit
 
Solit 2014, Геоанамальные зоны и сейсмоакустика. Субъективный взгляд. Миснико...
Solit 2014, Геоанамальные зоны и сейсмоакустика. Субъективный взгляд. Миснико...Solit 2014, Геоанамальные зоны и сейсмоакустика. Субъективный взгляд. Миснико...
Solit 2014, Геоанамальные зоны и сейсмоакустика. Субъективный взгляд. Миснико...solit
 
Solit 2014, Обзор белоруского интернет потребителя и рекламодателя. Что хочет...
Solit 2014, Обзор белоруского интернет потребителя и рекламодателя. Что хочет...Solit 2014, Обзор белоруского интернет потребителя и рекламодателя. Что хочет...
Solit 2014, Обзор белоруского интернет потребителя и рекламодателя. Что хочет...solit
 
Solit 2014, Как эффективно организовать Автоматизацию, Семенченко Антон
Solit 2014, Как эффективно организовать Автоматизацию, Семенченко АнтонSolit 2014, Как эффективно организовать Автоматизацию, Семенченко Антон
Solit 2014, Как эффективно организовать Автоматизацию, Семенченко Антонsolit
 
Solit 2014, Freelance and Nearshoring from a Dutch Perspective, Peter Reitsma
Solit 2014, Freelance and Nearshoring from a Dutch Perspective, Peter ReitsmaSolit 2014, Freelance and Nearshoring from a Dutch Perspective, Peter Reitsma
Solit 2014, Freelance and Nearshoring from a Dutch Perspective, Peter Reitsmasolit
 
Solit 2014, Мифы и легенды SEO, Крылов Александр
Solit 2014, Мифы и легенды SEO, Крылов АлександрSolit 2014, Мифы и легенды SEO, Крылов Александр
Solit 2014, Мифы и легенды SEO, Крылов Александрsolit
 
Solit 2014, Измеряем производительность Webприложения на сторне клиента с пом...
Solit 2014, Измеряем производительность Webприложения на сторне клиента с пом...Solit 2014, Измеряем производительность Webприложения на сторне клиента с пом...
Solit 2014, Измеряем производительность Webприложения на сторне клиента с пом...solit
 
Solit 2014, Непрерывная интеграция сложного проекта. Кто все сломал?, Русаков...
Solit 2014, Непрерывная интеграция сложного проекта. Кто все сломал?, Русаков...Solit 2014, Непрерывная интеграция сложного проекта. Кто все сломал?, Русаков...
Solit 2014, Непрерывная интеграция сложного проекта. Кто все сломал?, Русаков...solit
 
Solit 2014, Реактивный Javascript. Победа над асинхронностью и вложенностью, ...
Solit 2014, Реактивный Javascript. Победа над асинхронностью и вложенностью, ...Solit 2014, Реактивный Javascript. Победа над асинхронностью и вложенностью, ...
Solit 2014, Реактивный Javascript. Победа над асинхронностью и вложенностью, ...solit
 
Solit 2014, 3 этапа развития аналитики вашего бизнеса. Как правильно определи...
Solit 2014, 3 этапа развития аналитики вашего бизнеса. Как правильно определи...Solit 2014, 3 этапа развития аналитики вашего бизнеса. Как правильно определи...
Solit 2014, 3 этапа развития аналитики вашего бизнеса. Как правильно определи...solit
 
Solit 2014, Опыт участия в конкурсе по спортивному программированию Russian A...
Solit 2014, Опыт участия в конкурсе по спортивному программированию Russian A...Solit 2014, Опыт участия в конкурсе по спортивному программированию Russian A...
Solit 2014, Опыт участия в конкурсе по спортивному программированию Russian A...solit
 
Solit 2014, Зачем нужен филиал Creative Сommons в Беларуси?, Волчек Михаил
Solit 2014, Зачем нужен филиал Creative Сommons в Беларуси?, Волчек Михаил Solit 2014, Зачем нужен филиал Creative Сommons в Беларуси?, Волчек Михаил
Solit 2014, Зачем нужен филиал Creative Сommons в Беларуси?, Волчек Михаил solit
 

More from solit (20)

Jazz team cooperation roadmap
Jazz team cooperation roadmapJazz team cooperation roadmap
Jazz team cooperation roadmap
 
JazzTeam company presentation
JazzTeam company presentationJazzTeam company presentation
JazzTeam company presentation
 
Solit 2014, Agile ValueTeam, учимся понимать Scrum, Семенченко Антон
Solit 2014, Agile ValueTeam, учимся понимать Scrum, Семенченко АнтонSolit 2014, Agile ValueTeam, учимся понимать Scrum, Семенченко Антон
Solit 2014, Agile ValueTeam, учимся понимать Scrum, Семенченко Антон
 
Solit 2014, Scrum guide 2013, Семенченко Антон
Solit 2014, Scrum guide 2013, Семенченко АнтонSolit 2014, Scrum guide 2013, Семенченко Антон
Solit 2014, Scrum guide 2013, Семенченко Антон
 
Solit 2014, Подготовка специалистов в сфере It на факультетe информационных т...
Solit 2014, Подготовка специалистов в сфере It на факультетe информационных т...Solit 2014, Подготовка специалистов в сфере It на факультетe информационных т...
Solit 2014, Подготовка специалистов в сфере It на факультетe информационных т...
 
Solit 2014, Адраджэнне Памяти аб продках пачынаецца з дзеянняу нашчадкау, Уру...
Solit 2014, Адраджэнне Памяти аб продках пачынаецца з дзеянняу нашчадкау, Уру...Solit 2014, Адраджэнне Памяти аб продках пачынаецца з дзеянняу нашчадкау, Уру...
Solit 2014, Адраджэнне Памяти аб продках пачынаецца з дзеянняу нашчадкау, Уру...
 
Solit 2014, Централизованное управление тестами с помощью TestLink, Зубович В...
Solit 2014, Централизованное управление тестами с помощью TestLink, Зубович В...Solit 2014, Централизованное управление тестами с помощью TestLink, Зубович В...
Solit 2014, Централизованное управление тестами с помощью TestLink, Зубович В...
 
Solit 2014, Инструменты автоматизации тестирования мобильных приложений. Срав...
Solit 2014, Инструменты автоматизации тестирования мобильных приложений. Срав...Solit 2014, Инструменты автоматизации тестирования мобильных приложений. Срав...
Solit 2014, Инструменты автоматизации тестирования мобильных приложений. Срав...
 
Solit 2014, Cемантическое ядро сайта, Нагибович Юлия
Solit 2014, Cемантическое ядро сайта, Нагибович ЮлияSolit 2014, Cемантическое ядро сайта, Нагибович Юлия
Solit 2014, Cемантическое ядро сайта, Нагибович Юлия
 
Solit 2014, Геоанамальные зоны и сейсмоакустика. Субъективный взгляд. Миснико...
Solit 2014, Геоанамальные зоны и сейсмоакустика. Субъективный взгляд. Миснико...Solit 2014, Геоанамальные зоны и сейсмоакустика. Субъективный взгляд. Миснико...
Solit 2014, Геоанамальные зоны и сейсмоакустика. Субъективный взгляд. Миснико...
 
Solit 2014, Обзор белоруского интернет потребителя и рекламодателя. Что хочет...
Solit 2014, Обзор белоруского интернет потребителя и рекламодателя. Что хочет...Solit 2014, Обзор белоруского интернет потребителя и рекламодателя. Что хочет...
Solit 2014, Обзор белоруского интернет потребителя и рекламодателя. Что хочет...
 
Solit 2014, Как эффективно организовать Автоматизацию, Семенченко Антон
Solit 2014, Как эффективно организовать Автоматизацию, Семенченко АнтонSolit 2014, Как эффективно организовать Автоматизацию, Семенченко Антон
Solit 2014, Как эффективно организовать Автоматизацию, Семенченко Антон
 
Solit 2014, Freelance and Nearshoring from a Dutch Perspective, Peter Reitsma
Solit 2014, Freelance and Nearshoring from a Dutch Perspective, Peter ReitsmaSolit 2014, Freelance and Nearshoring from a Dutch Perspective, Peter Reitsma
Solit 2014, Freelance and Nearshoring from a Dutch Perspective, Peter Reitsma
 
Solit 2014, Мифы и легенды SEO, Крылов Александр
Solit 2014, Мифы и легенды SEO, Крылов АлександрSolit 2014, Мифы и легенды SEO, Крылов Александр
Solit 2014, Мифы и легенды SEO, Крылов Александр
 
Solit 2014, Измеряем производительность Webприложения на сторне клиента с пом...
Solit 2014, Измеряем производительность Webприложения на сторне клиента с пом...Solit 2014, Измеряем производительность Webприложения на сторне клиента с пом...
Solit 2014, Измеряем производительность Webприложения на сторне клиента с пом...
 
Solit 2014, Непрерывная интеграция сложного проекта. Кто все сломал?, Русаков...
Solit 2014, Непрерывная интеграция сложного проекта. Кто все сломал?, Русаков...Solit 2014, Непрерывная интеграция сложного проекта. Кто все сломал?, Русаков...
Solit 2014, Непрерывная интеграция сложного проекта. Кто все сломал?, Русаков...
 
Solit 2014, Реактивный Javascript. Победа над асинхронностью и вложенностью, ...
Solit 2014, Реактивный Javascript. Победа над асинхронностью и вложенностью, ...Solit 2014, Реактивный Javascript. Победа над асинхронностью и вложенностью, ...
Solit 2014, Реактивный Javascript. Победа над асинхронностью и вложенностью, ...
 
Solit 2014, 3 этапа развития аналитики вашего бизнеса. Как правильно определи...
Solit 2014, 3 этапа развития аналитики вашего бизнеса. Как правильно определи...Solit 2014, 3 этапа развития аналитики вашего бизнеса. Как правильно определи...
Solit 2014, 3 этапа развития аналитики вашего бизнеса. Как правильно определи...
 
Solit 2014, Опыт участия в конкурсе по спортивному программированию Russian A...
Solit 2014, Опыт участия в конкурсе по спортивному программированию Russian A...Solit 2014, Опыт участия в конкурсе по спортивному программированию Russian A...
Solit 2014, Опыт участия в конкурсе по спортивному программированию Russian A...
 
Solit 2014, Зачем нужен филиал Creative Сommons в Беларуси?, Волчек Михаил
Solit 2014, Зачем нужен филиал Creative Сommons в Беларуси?, Волчек Михаил Solit 2014, Зачем нужен филиал Creative Сommons в Беларуси?, Волчек Михаил
Solit 2014, Зачем нужен филиал Creative Сommons в Беларуси?, Волчек Михаил
 

Solit 2014, MapReduce и машинное обучение на hadoop и mahout, Слисенко Константин

  • 1. MapReduce и машинное обучение на Hadoop и Mahout Константин Слисенко, JazzTeam
  • 2. О чём это я? ❏ Apache Hadoop ❏ Обзор, инфраструктура Hadoop ❏ MapReduce с примерами ❏ Как начать ❏ Apache Mahout ❏ Машинное обучение, обзор Mahout ❏ Что такое кластеризация данных ❏ Пример: кластеризация stackoverflow.com
  • 3. Why data is so important and big? http://americannewsreport.com/big-data-means-big- changes-for-marketing-and-fundraising-organizations- 8817773 http://www.intel.com/content/www/us/en/communications/internet-minute-infographic.
  • 4. Откуда столько данных? ❏ Мы не знаем что захотим анализировать в будущем ❏ Сохраняем всё ❏ Уже давно ничего не удаляется! ❏ 80% данных имеют неструктурированный характер ❏ Web-краулинг, GPS, логи, медицинские данные, статистика кликов, продажи, ... ❏ Сам объём данных представляет проблему Большие вычисления Большие данные Использование CPU,GPU, CUDA Использование сети, дисков
  • 5. Масштабируемость Big Data Хранение Отказоустойчивость Кросплатформенность ❏ одна программа - разные объемы данных ❏ увеличение количества машин - не меняем программу ❏ локальные вычисления ❏ множество копий, репликация ❏ не теряем ничего ❏ автоматическое восстановление после сбоев ❏ не хотим затачивать софт под конкретное железо ❏ не хотим покупать дорогое железо, запуск на обычных компьютерах
  • 6. Apache Hadoop ❏ Фреймворк для обработки данных ❏ Масштабируется на множество машин ❏ Написан на Java, открытый исходный код ❏ Специальная файловая система ❏ Не требует специального железа ❏ Поддержка java, c#, c++, python, ruby, javascript, ... http://hadoop.apache.org Дистрибутивы ❏ Apache Hadoop ❏ Cloudera ❏ Hortonworks ❏ MapR, IBM, Oracle, Intel...
  • 8. Инфраструктура Hadoop MapReduce HDFS VM1 VM2 VM3 VMn... Scripting (Pig) Query (Hive) Machine learning (Mahout) Средства обработки данных Запуск распределённых вычислений Распределённая файловая система Сервера или виртуальные машины HBASE OOzie (workflow) Flume (eventpipeline) Управление потоками вычислений Перенос данных Распределённая БД
  • 9. Файловое хранилище HDFS VM1 1 2 VM2 3 2 VM3 1 3 HDFS ❏ Распределённое хранение ❏ Локальность вычислений ❏ Репликация 1 2 3Файл
  • 10. Map Reduce 10:31:33 192.168.1.1 10:31:37 192.168.1.2 10:32:04 192.168.1.1 10:32:10 192.168.1.3 10:33:27 192.168.1.2 10:31:33 192.168.1.1 10:31:37 192.168.1.2Map Server log file Reduce 10:33 1 10:32 2 10:31 2 10:31 1 10:31 1 hh:mm:ss ip hh:mm 1 hh:mm 1 10:33:27 192.168.1.2 hh:mm sum(i) 10:33 1 10:32:04 192.168.1.1 10:32:10 192.168.1.3 10:32 1 10:32 1 10:33 1 10:31 1 10:31 1 10:32 1 10:32 1 Функции Map и Reduce ❏ Описывают только преобразование данных ❏ Тестируются отдельно ❏ Не зависят от объёма данных
  • 11. Пример - статистика посещений сервера
  • 12. Как запустить? Cloudera Quick Start VM http://www.cloudera. com/content/support/en/downloads. html Centos, GUI, Eclipse, sample java project with libs Hortonworks Sandbox http://hortonworks. com/products/hortonworks-sandbox/ Web-интерфейс туториалы Pig, Hive
  • 15. Почему бы не использовать Unit- тесты? Подключаем библиотеку MRUnit и дебажим + не требует инсталляции Hadoop - нет гарантии работы на реальном кластере Без инсталляции Hadoop
  • 16. Approval tests MapReduce http://approvaltests.sourceforge.net/ 1. Создаём обёртки для Mapper и Reducer 2. Передаём входные данные 3. Генерируется текстовый файл c результатами Всё визуально понятно Сразу имеем покрытие кода Unit-тестами
  • 17. Начинаем изучать Hadoop Hadoop. The definitive guide O’REILLY Getting started with Apache Hadoop DZone Refcardz Немного обо всём на Hortonworks Sandbox VM Pig, Hive, HDFS, Hadoop. http://hortonworks.com/tutorials/ http://hortonworks. com/products/hortonworks-sandbox/ Примеры кода на Cloudera Quickstart VM
  • 18. Hadoop в облаке - играемся серьёзно Amazon Elastic MapReduce сервис hdinsight http://aws.amazon.com/elasticmapreduce/ http://www.windowsazure.com/en-us/services/hdinsight/
  • 19. Что такое машинное обучение? Подраздел искусственного интеллекта Machine learning is the science of getting computers to act without being explicitly programmed (Coursera) ❏ Системы рекомендаций ❏ Классификация объекта на принадлежность к группе ❏ Нахождение похожих объектов ❏ Нахождение шаблонов поведения ❏ Ключевые темы в коллекции документов ❏ Определение аномалий ❏ Определние спама ❏ Ранжирование поисковой выдачи и многое другое
  • 21. Разбивка объектов на группы по схожести Каждый объект имеет признаки (features) Задана мера сходства (distance measure) ❏ в примере - геометрическое расстояние Кластеризация
  • 22. Разбивка объектов на группы по схожести Каждый объект имеет признаки (features) Задана мера сходства (distance measure) ❏ в примере - геометрическое расстояние Кластеризация
  • 23. Разбивка объектов на группы по схожести Каждый объект имеет признаки (features) Задана мера сходства (distance measure) ❏ в примере - геометрическое расстояние Кластеризация
  • 24. I am engineer. I love my pet. My pet is dog. I, am, engineer, love, my, pet, is, dog. Кластеризация текста Исходный текст Выделение слов, фильтрация Векторизация engineer love pet dog 1 I am engineer 1 0 0 0 2 I love my pet 0 1 1 0 3 My pet is dog 0 0 1 1 p q d(p, q) 1 2 3 2 3 2 1 3 3 Нахождение близости
  • 25. http://mahout.apache.org Старт: 2008 год Последняя версия 0.9 Библиотека алгоритмов машинного обучения Работает поверх Hadoop и отдельно Apache Mahout Системы рекомендаций Кластеризация Классификация И многое другое
  • 26. 1 февраля - месяц назад Как внести свой вклад 1. Дождаться выхода нового релиза 2. Собрать, запустить unit-тесты 3. Сообщить о проблемах http://mahout.apache.org/developers/how-to- contribute.html Последний релиз 0.9
  • 30. ❏ 15.7 Гб (архив, Январь 2014) ❏ 6.7 миллионов вопросов ❏ 12 миллионов ответов ❏ 2.8 миллионов пользователей https://archive.org/details/stackexchange Открытые данные stackoverflow <posts> <row Id="0" Title="Title1" Body="Question 1 text" ... /> <row Id="1" Title="Title1" Body="Question 2 text" ... /> </posts> Исходные данные в формате XML PostTypeId, AcceptedAnswerId, CreationDate, Score, ViewCount, OwnerUserId, LastEditorUserId, LastEditorDisplayName, LastEditDate, LastActivityDate, Tags, AnswerCount, CommentCount, FavoriteCount
  • 31. Кластеризация stackoverflow XML Text [0, 1, 0, 1, 1, 0] [1, 0, 0, 1, 1, 1] 1. Выделение текста из XML 2. Обработка текста 3. Векторизация 4. Кластеризация 5. Отображение результатов 1. Hadoop MapReduce 2. Mahout + Lucene (фильтр слов, начальная форма, ...) 3. Mahout, алгоритм TF-IDF 4. Mahout, алгоритм К-средних 5. Hadoop MapReduce, HTML, JavaScript, Database
  • 33. Динамичность Mahout Алгоритмы живут пока их кто-то поддерживает Если не было поддержки в течение нескольких последних релизов - алгоритм безжалостно выпиливается One of the goals of Mahout these days is to streamline the project by supporting a only few good algorithms and slowly deprecate and remove algorithms that are not used that much or are difficult to use.
  • 34. Изучаем Mahout Mahout in action Sean Oven, Robin Anil, Ted Dunning, Ellen Friedman Manning Кластеризация Stackoverflow от Frank Scholten https://github.com/frankscholten/mahout-clustering- stackoverflow Исходный код примеров Mahout in action: https://github.com/tdunning/MiA Mailing lists dev@mahout.apache.org user@mahout.apache.org Hadoop & MapReduce & Mahout in action H.Saygin Arkan 9/3/2009