Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

РИФ 2016, Массовое обучение и применение моделей машинного обучения

94 views

Published on

Николай Анохин
Mail.Ru Group

Published in: Business
  • Login to see the comments

  • Be the first to like this

РИФ 2016, Массовое обучение и применение моделей машинного обучения

  1. 1. Массовое обучение и применение моделей машинного обучения Николай Анохин руководитель группы машинного обучения
  2. 2. Обзор задачи Разработать систему, позволяющую предсказывать заданные характеристики пользователей интернета (для таргетирования) Варианты использования: классификация: образование, ... упорядоченная классификация: просмотр телевизора, ... лукэлайк: автолюбители, ... мультиклассовый лукэлайк: котоводы/собаководы, ... регрессия: семейный доход, ... 1 / 10
  3. 3. Обзор задачи Специфика работы системы частое перестроение моделей ежедневная дозагрузка проклассифицированных пользователей Контроль качества при построении модели: AUROC, affinity, MSE, ... при использовании модели: охват, распределения, ... 2 / 10
  4. 4. Обзор данных Сырые данные - пользовательский кликстрим - контент посещенных страниц - демография пользователей    в сжатом виде 2.5T в день “Активные” пользователи - 200М идентификаторов Рейтинга - 80М аккаунтов ОК - 70М почтовых аккаунтов    в день Размер обучающей выборки — от нескольких тысяч до миллиона пользователей 3 / 10
  5. 5. Первые модели (2013) Количество моделей: единицы Сроки: when it’s done 4 / 10
  6. 6. Обеспечение стабильности (2014) Количество моделей: десятки Сроки: около суток 5 / 10
  7. 7. Обеспечение массовости (2015) Количество моделей: сотни Сроки: несколько часов 6 / 10
  8. 8. Распределенное обучение моделей Идея1: представить данные и модели в виде распределенного графа в памяти 1 Pregel: A System for Large-Scale Graph Processing // G. Malewicz et al. 7 / 10
  9. 9. Результаты массового обучения и применения моделей Размер графа 250М вершин 870 числовых признаков Вычислительный кластер 90 машин 2160 ядер 8T RAM 8 / 10
  10. 10. Что дальше? Надежный способ преодолеть недостатки Hadoop/YARN – отказаться от него! 9 / 10
  11. 11. Q & A Николай Анохин n.anokhin@corp.mail.ru

×