РИФ 2016, Массовое обучение и применение моделей машинного обучения

•

0 likes•127 views

Тарасов Константин

Николай Анохин Mail.Ru Group

Business

Массовое обучение и применение
моделей машинного обучения
Николай Анохин
руководитель группы машинного обучения

Обзор задачи
Разработать систему, позволяющую предсказывать заданные характеристики
пользователей интернета (для таргетирования)
Варианты использования:
классификация: образование, ...
упорядоченная классификация: просмотр телевизора, ...
лукэлайк: автолюбители, ...
мультиклассовый лукэлайк: котоводы/собаководы, ...
регрессия: семейный доход, ...
1 / 10

Обзор задачи
Специфика работы системы
частое перестроение
моделей
ежедневная дозагрузка
проклассифицированных
пользователей
Контроль качества
при построении модели:
AUROC, aﬃnity, MSE, ...
при использовании модели:
охват, распределения, ...
2 / 10

Обзор данных
Сырые данные
- пользовательский кликстрим
- контент посещенных страниц
- демография пользователей



в сжатом виде 2.5T в день
“Активные” пользователи
- 200М идентификаторов Рейтинга
- 80М аккаунтов ОК
- 70М почтовых аккаунтов



в день
Размер обучающей выборки — от нескольких тысяч до миллиона пользователей
3 / 10

Первые модели (2013)
Количество моделей: единицы
Сроки: when it’s done
4 / 10

Обеспечение стабильности (2014)
Количество моделей: десятки
Сроки: около суток
5 / 10

Обеспечение массовости (2015)
Количество моделей: сотни
Сроки: несколько часов
6 / 10

Распределенное обучение моделей
Идея1: представить данные и модели в виде распределенного графа в памяти
1
Pregel: A System for Large-Scale Graph Processing // G. Malewicz et al.
7 / 10

Результаты массового обучения и применения моделей
Размер графа
250М вершин
870 числовых признаков
Вычислительный кластер
90 машин
2160 ядер
8T RAM
8 / 10

Что дальше?
Надежный способ преодолеть недостатки Hadoop/YARN – отказаться от него!
9 / 10

Q & A
Николай Анохин
n.anokhin@corp.mail.ru

Viewers also liked

NumbersKostas Tampakis

Usability checklistТарасов Константин

Advertising review sites_ekaterinburgТарасов Константин

РИФ 2016, Продажи, через стратегию продвижение постов на FacebookТарасов Константин

РИФ 2016, МедЦентрСервис: “первичка” закончится или почему нужно отказаться о...Тарасов Константин

El Arte En El Siglo Xi Xpower Pointsalvamenor

РИФ 2016, Как с 8-летним опытом работы в агентствах интернет-маркетинга я выб...Тарасов Константин

Digitized Isan Krungthep Turakij 211009NSTDA THAILAND

Se vuoi vedere impara ad agireFrancesco Perticari

РИФ 2016, Практикоориентированное обучение, профессиональные компетенции дру...Тарасов Константин

РИФ 2016, «Чёрная» пятница – и другие опасные дни годаТарасов Константин

SOMPONG PHAOENCHOKE--THAI RUNG MUST STRUGGLE VERYNSTDA THAILAND

Alimentazione AiurvedjcaFrancesco Perticari

SMM отдел. Кто? Как? Зачем?Тарасов Константин

Financiero2009fralay

РИФ 2016, Работа с мобильным сайтом в условиях текущего рынкаТарасов Константин

Kantara Overview June 2013kantarainitiative

Хватит грабить! Контент и сервисы ассортиментной аналитики для интернет магаз...Тарасов Константин

Adoption journey webinarAndy Lehman

όργουελ εναντίον χάξλεϋ 2Kostas Tampakis

Viewers also liked (20)

Numbers

Usability checklist

Advertising review sites_ekaterinburg

РИФ 2016, Продажи, через стратегию продвижение постов на Facebook

РИФ 2016, МедЦентрСервис: “первичка” закончится или почему нужно отказаться о...

El Arte En El Siglo Xi Xpower Point

РИФ 2016, Как с 8-летним опытом работы в агентствах интернет-маркетинга я выб...

Digitized Isan Krungthep Turakij 211009

Se vuoi vedere impara ad agire

РИФ 2016, Практикоориентированное обучение, профессиональные компетенции дру...

РИФ 2016, «Чёрная» пятница – и другие опасные дни года

SOMPONG PHAOENCHOKE--THAI RUNG MUST STRUGGLE VERY

Alimentazione Aiurvedjca

SMM отдел. Кто? Как? Зачем?

Financiero2009

РИФ 2016, Работа с мобильным сайтом в условиях текущего рынка

Kantara Overview June 2013

Хватит грабить! Контент и сервисы ассортиментной аналитики для интернет магаз...

Adoption journey webinar

όργουελ εναντίον χάξλεϋ 2

Similar to РИФ 2016, Массовое обучение и применение моделей машинного обучения

Система Mirapolis Knowledge Center. AFLEX DistributionСообщество eLearning PRO

Университет в карманеkulibin

Виртуальный Кампус МЭСИTatiana Kozlova

Neuromap Learning Platform (MOOC, eLearning, Crowdsourcing)Roman Rabinovich

ГиперМетод на семинаре МГУ, 26.09.2013HyperMethod

стандарт метаданных онлайн курса, online course metadata standardValeriy Platonov

Внедрение Moodle в Днепропетровской медицинской академии Alexey Dubinsky

A2Alexandr Dzhumurat

роль стандартов метаданныхValeriy Platonov

компоненты E learn для PloneSergey Greger

Современная система управления порталом для создания сервисов в интернет ново...ddushkin

Единая информационно-образовательная среда как условие повышения качества о...МАОУ "Гимназия №52"

Комплексное предложение для системы общего и средне специального образования ...Наталья Возняк

Обзор современных LMSMarina Shibut

проектирование компетентностных моделей с использованием технологий семантиче...Yury Katkov

Курсы по User Experience от ITMINEAnastasia Schebrova

новые функции и процессы н.лосеваJane Kuzmina

Artem abmВиктор Артеменко

Использование инструментов веб-аналитики для повышения эффективности рекламны...Многопрофильный образовательный центр ЭДУКОР

Klasna ocinka services rusВиталий Зайцев

Similar to РИФ 2016, Массовое обучение и применение моделей машинного обучения (20)

Система Mirapolis Knowledge Center. AFLEX Distribution

Университет в кармане

Виртуальный Кампус МЭСИ

Neuromap Learning Platform (MOOC, eLearning, Crowdsourcing)

ГиперМетод на семинаре МГУ, 26.09.2013

стандарт метаданных онлайн курса, online course metadata standard

Внедрение Moodle в Днепропетровской медицинской академии

роль стандартов метаданных

компоненты E learn для Plone

Современная система управления порталом для создания сервисов в интернет ново...

Единая информационно-образовательная среда как условие повышения качества о...

Комплексное предложение для системы общего и средне специального образования ...

Обзор современных LMS

проектирование компетентностных моделей с использованием технологий семантиче...

Курсы по User Experience от ITMINE

новые функции и процессы н.лосева

Artem abm

Использование инструментов веб-аналитики для повышения эффективности рекламны...

Klasna ocinka services rus

More from Тарасов Константин

21apr rif17 4-1--sidorovТарасов Константин

Excel. трюки. 100 профессиональных примеровТарасов Константин

Влияние маркеров на CTR в Директе. РСЯТарасов Константин

Влияние маркеров на CTR в Директе. Поисковая рекламаТарасов Константин

РИФ 2016, Таргетированная реклама: как снизить стоимость клиента в 3-5 разТарасов Константин

РИФ 2016. 3 способа стимулировать клиентов рекомендовать вашу компанию (без п...Тарасов Константин

РИФ 2016, Бюджетные технические средства защиты сайтовТарасов Константин

РИФ 2016, Борьба с воровством мобильного трафикаТарасов Константин

РИФ 2016, Заоблачная безопасность: как обойти чужие граблиТарасов Константин

РИФ 2016, Аварии информационных систем как угроза для бизнесаТарасов Константин

РИФ 2016, Забег на 110 метров с барьерами и наградой в виде внимания клиентовТарасов Константин

РИФ 2016, Официальный фотограф LEGO Россия 2015Тарасов Константин

РИФ 2016, «Лаборатория Бега»: Эксперименты с магазинами спортивной экипировкиТарасов Константин

РИФ 2016, Эволюция продвижения страницы бренда: 10 шагов достижения результат...Тарасов Константин

РИФ 2016, Ведение международных рекламных кампаний в Европе и АзииТарасов Константин

РИФ 2016, Десять лет на американском рынке аутсорсинга: UpWork и за его преде...Тарасов Константин

РИФ 2016, Digital на экспорт в ГерманиюТарасов Константин

РИФ 2016, Как получить первую сотню клиентов из Западной ЕвропыТарасов Константин

РИФ 2016, Мультиканальное продвижение или как раскрыть потенциал вашего сайтаТарасов Константин

РИФ 2016, Аналитика и ее автоматизация при поисковом продвижении трафиковых п...Тарасов Константин

More from Тарасов Константин (20)

21apr rif17 4-1--sidorov

Excel. трюки. 100 профессиональных примеров

Влияние маркеров на CTR в Директе. РСЯ

Влияние маркеров на CTR в Директе. Поисковая реклама

РИФ 2016, Таргетированная реклама: как снизить стоимость клиента в 3-5 раз

РИФ 2016. 3 способа стимулировать клиентов рекомендовать вашу компанию (без п...

РИФ 2016, Бюджетные технические средства защиты сайтов

РИФ 2016, Борьба с воровством мобильного трафика

РИФ 2016, Заоблачная безопасность: как обойти чужие грабли

РИФ 2016, Аварии информационных систем как угроза для бизнеса

РИФ 2016, Забег на 110 метров с барьерами и наградой в виде внимания клиентов

РИФ 2016, Официальный фотограф LEGO Россия 2015

РИФ 2016, «Лаборатория Бега»: Эксперименты с магазинами спортивной экипировки

РИФ 2016, Эволюция продвижения страницы бренда: 10 шагов достижения результат...

РИФ 2016, Ведение международных рекламных кампаний в Европе и Азии

РИФ 2016, Десять лет на американском рынке аутсорсинга: UpWork и за его преде...

РИФ 2016, Digital на экспорт в Германию

РИФ 2016, Как получить первую сотню клиентов из Западной Европы

РИФ 2016, Мультиканальное продвижение или как раскрыть потенциал вашего сайта

РИФ 2016, Аналитика и ее автоматизация при поисковом продвижении трафиковых п...

РИФ 2016, Массовое обучение и применение моделей машинного обучения

1. Массовое обучение и применение моделей машинного обучения Николай Анохин руководитель группы машинного обучения

2. Обзор задачи Разработать систему, позволяющую предсказывать заданные характеристики пользователей интернета (для таргетирования) Варианты использования: классификация: образование, ... упорядоченная классификация: просмотр телевизора, ... лукэлайк: автолюбители, ... мультиклассовый лукэлайк: котоводы/собаководы, ... регрессия: семейный доход, ... 1 / 10

3. Обзор задачи Специфика работы системы частое перестроение моделей ежедневная дозагрузка проклассифицированных пользователей Контроль качества при построении модели: AUROC, aﬃnity, MSE, ... при использовании модели: охват, распределения, ... 2 / 10

4. Обзор данных Сырые данные - пользовательский кликстрим - контент посещенных страниц - демография пользователей    в сжатом виде 2.5T в день “Активные” пользователи - 200М идентификаторов Рейтинга - 80М аккаунтов ОК - 70М почтовых аккаунтов    в день Размер обучающей выборки — от нескольких тысяч до миллиона пользователей 3 / 10

5. Первые модели (2013) Количество моделей: единицы Сроки: when it’s done 4 / 10

6. Обеспечение стабильности (2014) Количество моделей: десятки Сроки: около суток 5 / 10

7. Обеспечение массовости (2015) Количество моделей: сотни Сроки: несколько часов 6 / 10

8. Распределенное обучение моделей Идея1: представить данные и модели в виде распределенного графа в памяти 1 Pregel: A System for Large-Scale Graph Processing // G. Malewicz et al. 7 / 10

9. Результаты массового обучения и применения моделей Размер графа 250М вершин 870 числовых признаков Вычислительный кластер 90 машин 2160 ядер 8T RAM 8 / 10

10. Что дальше? Надежный способ преодолеть недостатки Hadoop/YARN – отказаться от него! 9 / 10

11. Q & A Николай Анохин n.anokhin@corp.mail.ru

РИФ 2016, Массовое обучение и применение моделей машинного обучения

Recommended

Recommended

More Related Content

Viewers also liked

Viewers also liked (20)

Similar to РИФ 2016, Массовое обучение и применение моделей машинного обучения

Similar to РИФ 2016, Массовое обучение и применение моделей машинного обучения (20)

More from Тарасов Константин

More from Тарасов Константин (20)

РИФ 2016, Массовое обучение и применение моделей машинного обучения