РИФ 2016, Аналитика и ее автоматизация при поисковом продвижении трафиковых п...
РИФ 2016, Массовое обучение и применение моделей машинного обучения
1. Массовое обучение и применение
моделей машинного обучения
Николай Анохин
руководитель группы машинного обучения
2. Обзор задачи
Разработать систему, позволяющую предсказывать заданные характеристики
пользователей интернета (для таргетирования)
Варианты использования:
классификация: образование, ...
упорядоченная классификация: просмотр телевизора, ...
лукэлайк: автолюбители, ...
мультиклассовый лукэлайк: котоводы/собаководы, ...
регрессия: семейный доход, ...
1 / 10
3. Обзор задачи
Специфика работы системы
частое перестроение
моделей
ежедневная дозагрузка
проклассифицированных
пользователей
Контроль качества
при построении модели:
AUROC, affinity, MSE, ...
при использовании модели:
охват, распределения, ...
2 / 10
4. Обзор данных
Сырые данные
- пользовательский кликстрим
- контент посещенных страниц
- демография пользователей
в сжатом виде 2.5T в день
“Активные” пользователи
- 200М идентификаторов Рейтинга
- 80М аккаунтов ОК
- 70М почтовых аккаунтов
в день
Размер обучающей выборки — от нескольких тысяч до миллиона пользователей
3 / 10
8. Распределенное обучение моделей
Идея1: представить данные и модели в виде распределенного графа в памяти
1
Pregel: A System for Large-Scale Graph Processing // G. Malewicz et al.
7 / 10
9. Результаты массового обучения и применения моделей
Размер графа
250М вершин
870 числовых признаков
Вычислительный кластер
90 машин
2160 ядер
8T RAM
8 / 10