SlideShare a Scribd company logo
1 of 17
Как 
мы считали 
трафик на Вертике 
Голов Николай
Что такое Avito.ru? 
#1 сайт объявлений в России* 
–3.9 млрд просмотров в месяц 
–40 млн посетителей в месяц
Уникальные посетители Avito.ru 
46 млн
Активные объявления Avito.ru 
20 млн
Что такое Avito.ru? 
Более 150млн просмотров в день – 
один из крупнейших сайтов 
объявлений в мире 
20 млн активных объявлений**: 
Недвижимость, Транспорт, Работа, 
Услуги, Товары для дома и т. д.
Big data инсталляция Авито 
Daily sync 
Live connection 
(10-серверный кластер) 
Таблицы действий посетителей 
~ 50 таблиц 
~ 100 млрд. записей 
• ~500 млн. событий /день 
• Загрузк а раз в 15 минут 
Таблицы Backoffice 
~ 300 таблиц 
~ до 2 млрд. записей 
Backoffice DB Clickstream 
Внешние 
данные 
Analysts 
~26TB несжатых данных 
• Загрузк а раз в 20 мин. 
• Все изменения
Отчет о трафике – задача 
Месяц Июль 
Неделя 
Регион Краснодарский край 
Город 
Мастер 
категория 
… 
Сочи Краснодар Категория 
Автомобили 
Новые Подержанные 
День 
07.07.2014 
07.07.2014 08.07.2014 09.07.2014 
Меры: 
• Количество просмотров 
• Количество сессий 
• Количество уникальных 
посетителей
Отчет о трафике - размерность 
Регион Краснодарский край 
Город 
Мастер 
категория 
Сочи Краснодар Категория 
Количество сочетаний: 
5000*67*3*3*… >3mln 
Автомобили 
Новые Подержанные 
85 
~5000 
11 
67 
Малые измерения: 
• 3+ типа действий 
• 3 платформы (api, desc, 
mobile) 
• …
Отчет о трафике - размерность 
250 
mln/day 
Select 
count(...), … 
From T 
Group by … 
250 mln.  3 mln. groups
Неаддитивные меры 
…. 
Сочи, Новые авто, 
1.1.1.127, 13:09 
07.08.2014 
…. 
Российская 
федерация, все 
Краснодарский 
край, Авто 
Сочи, Авто 
Сочи, Новые авто 
Все авито 
250 mln.  ~20*250mln.=5 bln. 3 mln. groups
Размерность с учетом неаддитивности 
5 bln/day 
250 
mln/day 
3 
mln/day 
Day = 5 bln. 
Week = 150 bln. 
Month = 1.5 trln.
Задача сложна =>шардирование 
Тонкость – шардирование возможно только по 
результирующим данным, не по входящим.
Шардирование по аггрегатным 
группам 
Сочи, 
подержанные авто 
Сочи, новые авто 
Краснодар, новые 
авто 
Краснодарский 
край, авто 
Уникальные непустые 
сочетания входных 
измерений 
Уникальные непустые 
сочетания целевых 
измерений
Инициализация метаданных 
Исходные 
события 
Уникальные 
непустые сочетания 
целевых измерений 
Уникальные 
непустые входные 
сочетания 
Красн. 
край, 
авто 
Кранодар, 
авто 
Сочи, авто 
Сочи, 
подерж. 
авто 
Матрица 
соответствия 
входных и целевых 
сочетаний
Рассчет шарда 
Выделение целевой 
группы по остатку от 
деления уникального 
ключа 
Красн. 
край, 
авто 
Кранодар, 
авто 
Сочи, авто 
Сочи, 
подерж. 
авто 
Отбор входных 
групп по матрице 
соответствия 
Размножение 
записей отобранных 
входных групп 
Select 
count(distinct...), … 
From T 
Group by … 
Аггрегация
Алгоритм: реализация 
Select 
count(distinct...), … 
From T 
Group by … 
Выделение 
фрагмента, отбор 
целевых групп, 
оркестровка 
07.07.2014 08.07.2014 09.07.2014 
Параллельный 
запуск SQL 
запросов по дням
Результаты 
• Сутки: ~250 млн. на вход, 7 
фрагментов, 1-2 часа. 
• Неделя: ~2 млрд. на вход, 14 
фрагментов, 4-5 часов. 
• Месяц: ~7 млрд. на вход, 21 
фрагмент, 16-18 часов.

More Related Content

Viewers also liked

Описание архитектуры СУБД HP Vertica
Описание архитектуры СУБД HP VerticaОписание архитектуры СУБД HP Vertica
Описание архитектуры СУБД HP VerticaAndrey Karpov
 
Максим Барышников (Wargaming.net)
Максим Барышников (Wargaming.net)Максим Барышников (Wargaming.net)
Максим Барышников (Wargaming.net)Ontico
 
Andrei Kirilenkov. Vertica
Andrei Kirilenkov. VerticaAndrei Kirilenkov. Vertica
Andrei Kirilenkov. VerticaVolha Banadyseva
 
Как мы строили аналитическую платформу на несколько миллиардов событии в месяц
Как мы строили аналитическую платформу на несколько миллиардов событии в месяцКак мы строили аналитическую платформу на несколько миллиардов событии в месяц
Как мы строили аналитическую платформу на несколько миллиардов событии в месяцMikhail Tabunov
 
Консолидированная система мониторинга на HP BSM
Консолидированная система мониторинга на HP BSMКонсолидированная система мониторинга на HP BSM
Консолидированная система мониторинга на HP BSMi-Teco & Vitte Consulting
 
PDI data vault framework #pcmams 2012
PDI data vault framework #pcmams 2012PDI data vault framework #pcmams 2012
PDI data vault framework #pcmams 2012Jos van Dongen
 
Short Infrastructure Overview ru hpe Vertica
Short Infrastructure Overview ru hpe VerticaShort Infrastructure Overview ru hpe Vertica
Short Infrastructure Overview ru hpe VerticaAndrey Karpov
 
Андрей Федоренчик- «Высоконагруженная система с аналитикой на InfoBright»
Андрей Федоренчик- «Высоконагруженная система с аналитикой на InfoBright»Андрей Федоренчик- «Высоконагруженная система с аналитикой на InfoBright»
Андрей Федоренчик- «Высоконагруженная система с аналитикой на InfoBright»Tanya Denisyuk
 
Михаил Серченя-«Построение отказоустойчивой масштабируемой среды для WEB и бе...
Михаил Серченя-«Построение отказоустойчивой масштабируемой среды для WEB и бе...Михаил Серченя-«Построение отказоустойчивой масштабируемой среды для WEB и бе...
Михаил Серченя-«Построение отказоустойчивой масштабируемой среды для WEB и бе...Tanya Denisyuk
 
Дмитрий Дурасов-«Технологии контейнеризации в Windows Server 2016»
Дмитрий Дурасов-«Технологии контейнеризации в Windows Server 2016»Дмитрий Дурасов-«Технологии контейнеризации в Windows Server 2016»
Дмитрий Дурасов-«Технологии контейнеризации в Windows Server 2016»Tanya Denisyuk
 
Дмитрий Лазаренко-«Живая миграция и отказоустойчивость контейнеров в гибридно...
Дмитрий Лазаренко-«Живая миграция и отказоустойчивость контейнеров в гибридно...Дмитрий Лазаренко-«Живая миграция и отказоустойчивость контейнеров в гибридно...
Дмитрий Лазаренко-«Живая миграция и отказоустойчивость контейнеров в гибридно...Tanya Denisyuk
 
Роман Иманкулов-«Быстрые и масштабируемые приложения с Sync API»
Роман Иманкулов-«Быстрые и масштабируемые приложения с Sync API»Роман Иманкулов-«Быстрые и масштабируемые приложения с Sync API»
Роман Иманкулов-«Быстрые и масштабируемые приложения с Sync API»Tanya Denisyuk
 
NOW! Intelligent Mobility Cloud October 2014
NOW! Intelligent Mobility Cloud October 2014NOW! Intelligent Mobility Cloud October 2014
NOW! Intelligent Mobility Cloud October 2014NOW! Innovations
 
Павел Вейник-«Программирование и лингвистика: как понять язык и как извлечь з...
Павел Вейник-«Программирование и лингвистика: как понять язык и как извлечь з...Павел Вейник-«Программирование и лингвистика: как понять язык и как извлечь з...
Павел Вейник-«Программирование и лингвистика: как понять язык и как извлечь з...Tanya Denisyuk
 
Максим Барышиков-«WoT: Geographically distributed cluster of clusters»
Максим Барышиков-«WoT: Geographically distributed cluster of clusters»Максим Барышиков-«WoT: Geographically distributed cluster of clusters»
Максим Барышиков-«WoT: Geographically distributed cluster of clusters»Tanya Denisyuk
 
Андрей Светлов-«Делаем своё решение для оптимальной загрузки кластера»
Андрей Светлов-«Делаем своё решение для оптимальной загрузки кластера»Андрей Светлов-«Делаем своё решение для оптимальной загрузки кластера»
Андрей Светлов-«Делаем своё решение для оптимальной загрузки кластера»Tanya Denisyuk
 
Юрий Насретдинов-«Сбор логов в «облаке» в Badoo»
Юрий Насретдинов-«Сбор логов в «облаке» в Badoo»Юрий Насретдинов-«Сбор логов в «облаке» в Badoo»
Юрий Насретдинов-«Сбор логов в «облаке» в Badoo»Tanya Denisyuk
 
Левон Авакян-«Эволюция кланов в Wargaming. От веб страницы на танковом портал...
Левон Авакян-«Эволюция кланов в Wargaming. От веб страницы на танковом портал...Левон Авакян-«Эволюция кланов в Wargaming. От веб страницы на танковом портал...
Левон Авакян-«Эволюция кланов в Wargaming. От веб страницы на танковом портал...Tanya Denisyuk
 

Viewers also liked (20)

Описание архитектуры СУБД HP Vertica
Описание архитектуры СУБД HP VerticaОписание архитектуры СУБД HP Vertica
Описание архитектуры СУБД HP Vertica
 
Обзор HP Vertica
Обзор HP VerticaОбзор HP Vertica
Обзор HP Vertica
 
Максим Барышников (Wargaming.net)
Максим Барышников (Wargaming.net)Максим Барышников (Wargaming.net)
Максим Барышников (Wargaming.net)
 
Andrei Kirilenkov. Vertica
Andrei Kirilenkov. VerticaAndrei Kirilenkov. Vertica
Andrei Kirilenkov. Vertica
 
Как мы строили аналитическую платформу на несколько миллиардов событии в месяц
Как мы строили аналитическую платформу на несколько миллиардов событии в месяцКак мы строили аналитическую платформу на несколько миллиардов событии в месяц
Как мы строили аналитическую платформу на несколько миллиардов событии в месяц
 
Консолидированная система мониторинга на HP BSM
Консолидированная система мониторинга на HP BSMКонсолидированная система мониторинга на HP BSM
Консолидированная система мониторинга на HP BSM
 
PDI data vault framework #pcmams 2012
PDI data vault framework #pcmams 2012PDI data vault framework #pcmams 2012
PDI data vault framework #pcmams 2012
 
Short Infrastructure Overview ru hpe Vertica
Short Infrastructure Overview ru hpe VerticaShort Infrastructure Overview ru hpe Vertica
Short Infrastructure Overview ru hpe Vertica
 
Андрей Федоренчик- «Высоконагруженная система с аналитикой на InfoBright»
Андрей Федоренчик- «Высоконагруженная система с аналитикой на InfoBright»Андрей Федоренчик- «Высоконагруженная система с аналитикой на InfoBright»
Андрей Федоренчик- «Высоконагруженная система с аналитикой на InfoBright»
 
Михаил Серченя-«Построение отказоустойчивой масштабируемой среды для WEB и бе...
Михаил Серченя-«Построение отказоустойчивой масштабируемой среды для WEB и бе...Михаил Серченя-«Построение отказоустойчивой масштабируемой среды для WEB и бе...
Михаил Серченя-«Построение отказоустойчивой масштабируемой среды для WEB и бе...
 
Дмитрий Дурасов-«Технологии контейнеризации в Windows Server 2016»
Дмитрий Дурасов-«Технологии контейнеризации в Windows Server 2016»Дмитрий Дурасов-«Технологии контейнеризации в Windows Server 2016»
Дмитрий Дурасов-«Технологии контейнеризации в Windows Server 2016»
 
Дмитрий Лазаренко-«Живая миграция и отказоустойчивость контейнеров в гибридно...
Дмитрий Лазаренко-«Живая миграция и отказоустойчивость контейнеров в гибридно...Дмитрий Лазаренко-«Живая миграция и отказоустойчивость контейнеров в гибридно...
Дмитрий Лазаренко-«Живая миграция и отказоустойчивость контейнеров в гибридно...
 
Роман Иманкулов-«Быстрые и масштабируемые приложения с Sync API»
Роман Иманкулов-«Быстрые и масштабируемые приложения с Sync API»Роман Иманкулов-«Быстрые и масштабируемые приложения с Sync API»
Роман Иманкулов-«Быстрые и масштабируемые приложения с Sync API»
 
Обзор компонентов HP BSM
Обзор компонентов HP BSMОбзор компонентов HP BSM
Обзор компонентов HP BSM
 
NOW! Intelligent Mobility Cloud October 2014
NOW! Intelligent Mobility Cloud October 2014NOW! Intelligent Mobility Cloud October 2014
NOW! Intelligent Mobility Cloud October 2014
 
Павел Вейник-«Программирование и лингвистика: как понять язык и как извлечь з...
Павел Вейник-«Программирование и лингвистика: как понять язык и как извлечь з...Павел Вейник-«Программирование и лингвистика: как понять язык и как извлечь з...
Павел Вейник-«Программирование и лингвистика: как понять язык и как извлечь з...
 
Максим Барышиков-«WoT: Geographically distributed cluster of clusters»
Максим Барышиков-«WoT: Geographically distributed cluster of clusters»Максим Барышиков-«WoT: Geographically distributed cluster of clusters»
Максим Барышиков-«WoT: Geographically distributed cluster of clusters»
 
Андрей Светлов-«Делаем своё решение для оптимальной загрузки кластера»
Андрей Светлов-«Делаем своё решение для оптимальной загрузки кластера»Андрей Светлов-«Делаем своё решение для оптимальной загрузки кластера»
Андрей Светлов-«Делаем своё решение для оптимальной загрузки кластера»
 
Юрий Насретдинов-«Сбор логов в «облаке» в Badoo»
Юрий Насретдинов-«Сбор логов в «облаке» в Badoo»Юрий Насретдинов-«Сбор логов в «облаке» в Badoo»
Юрий Насретдинов-«Сбор логов в «облаке» в Badoo»
 
Левон Авакян-«Эволюция кланов в Wargaming. От веб страницы на танковом портал...
Левон Авакян-«Эволюция кланов в Wargaming. От веб страницы на танковом портал...Левон Авакян-«Эволюция кланов в Wargaming. От веб страницы на танковом портал...
Левон Авакян-«Эволюция кланов в Wargaming. От веб страницы на танковом портал...
 

Similar to Как мы считали трафик на Вертике, Николай Голов (Avito)

Атлант М
Атлант МАтлант М
Атлант МPR Manager
 
Способы эффективного привлечения клиентов через автомобильные классифайды
Способы эффективного привлечения клиентов через автомобильные классифайдыСпособы эффективного привлечения клиентов через автомобильные классифайды
Способы эффективного привлечения клиентов через автомобильные классифайдыCoMagic
 
Презентация Колёса на imix 2013
Презентация Колёса на imix 2013Презентация Колёса на imix 2013
Презентация Колёса на imix 2013Vladimir Merkushev
 
Эффективная оценка видимости сайтов в поисковых системах - Optimization 2016
Эффективная оценка видимости сайтов в поисковых системах - Optimization 2016Эффективная оценка видимости сайтов в поисковых системах - Optimization 2016
Эффективная оценка видимости сайтов в поисковых системах - Optimization 2016Nikolay Khivrin
 
Николай Хиврин, Эффективная оценка видимости сайтов в поисковых системах, Opt...
Николай Хиврин, Эффективная оценка видимости сайтов в поисковых системах, Opt...Николай Хиврин, Эффективная оценка видимости сайтов в поисковых системах, Opt...
Николай Хиврин, Эффективная оценка видимости сайтов в поисковых системах, Opt...Optimization conference
 
Интернет-технологии для рынка недвижимости
Интернет-технологии для рынка недвижимостиИнтернет-технологии для рынка недвижимости
Интернет-технологии для рынка недвижимостиТвоя столица
 
Наблюдения в поисковой выдаче, #seoconf 2015, Казань
Наблюдения в поисковой выдаче, #seoconf 2015, КазаньНаблюдения в поисковой выдаче, #seoconf 2015, Казань
Наблюдения в поисковой выдаче, #seoconf 2015, Казаньmikeslivinsky
 
VIN.AUTO.RU против махинаций с залоговыми авто
VIN.AUTO.RU против махинаций с залоговыми автоVIN.AUTO.RU против махинаций с залоговыми авто
VIN.AUTO.RU против махинаций с залоговыми автоAlex Troshin
 
#EMB2B Андрей Травин: «Конкуренты. Как измерить эффективность их интернет-мар...
#EMB2B Андрей Травин: «Конкуренты. Как измерить эффективность их интернет-мар...#EMB2B Андрей Травин: «Конкуренты. Как измерить эффективность их интернет-мар...
#EMB2B Андрей Травин: «Конкуренты. Как измерить эффективность их интернет-мар...Комплето
 
Как заработать на автомобильном классифайде? (Роман Цупер, Автомобили и Цены)...
Как заработать на автомобильном классифайде? (Роман Цупер, Автомобили и Цены)...Как заработать на автомобильном классифайде? (Роман Цупер, Автомобили и Цены)...
Как заработать на автомобильном классифайде? (Роман Цупер, Автомобили и Цены)...Serge Osipov
 
Web Index Report 2009-08
Web Index Report 2009-08Web Index Report 2009-08
Web Index Report 2009-08Media Gorod
 
Конкуренты: как измерить эффективность их интернет-маркетинга и сделать полез...
Конкуренты: как измерить эффективность их интернет-маркетинга и сделать полез...Конкуренты: как измерить эффективность их интернет-маркетинга и сделать полез...
Конкуренты: как измерить эффективность их интернет-маркетинга и сделать полез...andrey_travin
 
Web Index Report 2009-06
Web Index Report 2009-06Web Index Report 2009-06
Web Index Report 2009-06Media Gorod
 
Алексей Петровский. Аналитика Similarweb. GoAnalytics! 2016
Алексей Петровский. Аналитика Similarweb. GoAnalytics! 2016Алексей Петровский. Аналитика Similarweb. GoAnalytics! 2016
Алексей Петровский. Аналитика Similarweb. GoAnalytics! 2016Alexey Petrovsky
 
Конкурентный анализ в интернет-маркетинге
Конкурентный анализ в интернет-маркетингеКонкурентный анализ в интернет-маркетинге
Конкурентный анализ в интернет-маркетингеOpenstat
 
Как повысить позиции сайта в поисковых системах?
Как повысить позиции сайта в поисковых системах?Как повысить позиции сайта в поисковых системах?
Как повысить позиции сайта в поисковых системах?Дмитрий Севальнев
 

Similar to Как мы считали трафик на Вертике, Николай Голов (Avito) (20)

Атлант М
Атлант МАтлант М
Атлант М
 
Способы эффективного привлечения клиентов через автомобильные классифайды
Способы эффективного привлечения клиентов через автомобильные классифайдыСпособы эффективного привлечения клиентов через автомобильные классифайды
Способы эффективного привлечения клиентов через автомобильные классифайды
 
Презентация Колёса на imix 2013
Презентация Колёса на imix 2013Презентация Колёса на imix 2013
Презентация Колёса на imix 2013
 
Эффективная оценка видимости сайтов в поисковых системах - Optimization 2016
Эффективная оценка видимости сайтов в поисковых системах - Optimization 2016Эффективная оценка видимости сайтов в поисковых системах - Optimization 2016
Эффективная оценка видимости сайтов в поисковых системах - Optimization 2016
 
Николай Хиврин, Эффективная оценка видимости сайтов в поисковых системах, Opt...
Николай Хиврин, Эффективная оценка видимости сайтов в поисковых системах, Opt...Николай Хиврин, Эффективная оценка видимости сайтов в поисковых системах, Opt...
Николай Хиврин, Эффективная оценка видимости сайтов в поисковых системах, Opt...
 
TaxiNado
TaxiNadoTaxiNado
TaxiNado
 
ремонт3
ремонт3ремонт3
ремонт3
 
Интернет-технологии для рынка недвижимости
Интернет-технологии для рынка недвижимостиИнтернет-технологии для рынка недвижимости
Интернет-технологии для рынка недвижимости
 
Наблюдения в поисковой выдаче, #seoconf 2015, Казань
Наблюдения в поисковой выдаче, #seoconf 2015, КазаньНаблюдения в поисковой выдаче, #seoconf 2015, Казань
Наблюдения в поисковой выдаче, #seoconf 2015, Казань
 
Vputi
Vputi Vputi
Vputi
 
VIN.AUTO.RU против махинаций с залоговыми авто
VIN.AUTO.RU против махинаций с залоговыми автоVIN.AUTO.RU против махинаций с залоговыми авто
VIN.AUTO.RU против махинаций с залоговыми авто
 
#EMB2B Андрей Травин: «Конкуренты. Как измерить эффективность их интернет-мар...
#EMB2B Андрей Травин: «Конкуренты. Как измерить эффективность их интернет-мар...#EMB2B Андрей Травин: «Конкуренты. Как измерить эффективность их интернет-мар...
#EMB2B Андрей Травин: «Конкуренты. Как измерить эффективность их интернет-мар...
 
Как заработать на автомобильном классифайде? (Роман Цупер, Автомобили и Цены)...
Как заработать на автомобильном классифайде? (Роман Цупер, Автомобили и Цены)...Как заработать на автомобильном классифайде? (Роман Цупер, Автомобили и Цены)...
Как заработать на автомобильном классифайде? (Роман Цупер, Автомобили и Цены)...
 
Web Index Report 2009-08
Web Index Report 2009-08Web Index Report 2009-08
Web Index Report 2009-08
 
All-billboards.ru: он-лайн планирование наружной рекламы
All-billboards.ru: он-лайн планирование наружной рекламыAll-billboards.ru: он-лайн планирование наружной рекламы
All-billboards.ru: он-лайн планирование наружной рекламы
 
Конкуренты: как измерить эффективность их интернет-маркетинга и сделать полез...
Конкуренты: как измерить эффективность их интернет-маркетинга и сделать полез...Конкуренты: как измерить эффективность их интернет-маркетинга и сделать полез...
Конкуренты: как измерить эффективность их интернет-маркетинга и сделать полез...
 
Web Index Report 2009-06
Web Index Report 2009-06Web Index Report 2009-06
Web Index Report 2009-06
 
Алексей Петровский. Аналитика Similarweb. GoAnalytics! 2016
Алексей Петровский. Аналитика Similarweb. GoAnalytics! 2016Алексей Петровский. Аналитика Similarweb. GoAnalytics! 2016
Алексей Петровский. Аналитика Similarweb. GoAnalytics! 2016
 
Конкурентный анализ в интернет-маркетинге
Конкурентный анализ в интернет-маркетингеКонкурентный анализ в интернет-маркетинге
Конкурентный анализ в интернет-маркетинге
 
Как повысить позиции сайта в поисковых системах?
Как повысить позиции сайта в поисковых системах?Как повысить позиции сайта в поисковых системах?
Как повысить позиции сайта в поисковых системах?
 

More from Ontico

One-cloud — система управления дата-центром в Одноклассниках / Олег Анастасье...
One-cloud — система управления дата-центром в Одноклассниках / Олег Анастасье...One-cloud — система управления дата-центром в Одноклассниках / Олег Анастасье...
One-cloud — система управления дата-центром в Одноклассниках / Олег Анастасье...Ontico
 
Масштабируя DNS / Артем Гавриченков (Qrator Labs)
Масштабируя DNS / Артем Гавриченков (Qrator Labs)Масштабируя DNS / Артем Гавриченков (Qrator Labs)
Масштабируя DNS / Артем Гавриченков (Qrator Labs)Ontico
 
Создание BigData-платформы для ФГУП Почта России / Андрей Бащенко (Luxoft)
Создание BigData-платформы для ФГУП Почта России / Андрей Бащенко (Luxoft)Создание BigData-платформы для ФГУП Почта России / Андрей Бащенко (Luxoft)
Создание BigData-платформы для ФГУП Почта России / Андрей Бащенко (Luxoft)Ontico
 
Готовим тестовое окружение, или сколько тестовых инстансов вам нужно / Алекса...
Готовим тестовое окружение, или сколько тестовых инстансов вам нужно / Алекса...Готовим тестовое окружение, или сколько тестовых инстансов вам нужно / Алекса...
Готовим тестовое окружение, или сколько тестовых инстансов вам нужно / Алекса...Ontico
 
Новые технологии репликации данных в PostgreSQL / Александр Алексеев (Postgre...
Новые технологии репликации данных в PostgreSQL / Александр Алексеев (Postgre...Новые технологии репликации данных в PostgreSQL / Александр Алексеев (Postgre...
Новые технологии репликации данных в PostgreSQL / Александр Алексеев (Postgre...Ontico
 
PostgreSQL Configuration for Humans / Alvaro Hernandez (OnGres)
PostgreSQL Configuration for Humans / Alvaro Hernandez (OnGres)PostgreSQL Configuration for Humans / Alvaro Hernandez (OnGres)
PostgreSQL Configuration for Humans / Alvaro Hernandez (OnGres)Ontico
 
Inexpensive Datamasking for MySQL with ProxySQL — Data Anonymization for Deve...
Inexpensive Datamasking for MySQL with ProxySQL — Data Anonymization for Deve...Inexpensive Datamasking for MySQL with ProxySQL — Data Anonymization for Deve...
Inexpensive Datamasking for MySQL with ProxySQL — Data Anonymization for Deve...Ontico
 
Опыт разработки модуля межсетевого экранирования для MySQL / Олег Брославский...
Опыт разработки модуля межсетевого экранирования для MySQL / Олег Брославский...Опыт разработки модуля межсетевого экранирования для MySQL / Олег Брославский...
Опыт разработки модуля межсетевого экранирования для MySQL / Олег Брославский...Ontico
 
ProxySQL Use Case Scenarios / Alkin Tezuysal (Percona)
ProxySQL Use Case Scenarios / Alkin Tezuysal (Percona)ProxySQL Use Case Scenarios / Alkin Tezuysal (Percona)
ProxySQL Use Case Scenarios / Alkin Tezuysal (Percona)Ontico
 
MySQL Replication — Advanced Features / Петр Зайцев (Percona)
MySQL Replication — Advanced Features / Петр Зайцев (Percona)MySQL Replication — Advanced Features / Петр Зайцев (Percona)
MySQL Replication — Advanced Features / Петр Зайцев (Percona)Ontico
 
Внутренний open-source. Как разрабатывать мобильное приложение большим количе...
Внутренний open-source. Как разрабатывать мобильное приложение большим количе...Внутренний open-source. Как разрабатывать мобильное приложение большим количе...
Внутренний open-source. Как разрабатывать мобильное приложение большим количе...Ontico
 
Подробно о том, как Causal Consistency реализовано в MongoDB / Михаил Тюленев...
Подробно о том, как Causal Consistency реализовано в MongoDB / Михаил Тюленев...Подробно о том, как Causal Consistency реализовано в MongoDB / Михаил Тюленев...
Подробно о том, как Causal Consistency реализовано в MongoDB / Михаил Тюленев...Ontico
 
Балансировка на скорости проводов. Без ASIC, без ограничений. Решения NFWare ...
Балансировка на скорости проводов. Без ASIC, без ограничений. Решения NFWare ...Балансировка на скорости проводов. Без ASIC, без ограничений. Решения NFWare ...
Балансировка на скорости проводов. Без ASIC, без ограничений. Решения NFWare ...Ontico
 
Перехват трафика — мифы и реальность / Евгений Усков (Qrator Labs)
Перехват трафика — мифы и реальность / Евгений Усков (Qrator Labs)Перехват трафика — мифы и реальность / Евгений Усков (Qrator Labs)
Перехват трафика — мифы и реальность / Евгений Усков (Qrator Labs)Ontico
 
И тогда наверняка вдруг запляшут облака! / Алексей Сушков (ПЕТЕР-СЕРВИС)
И тогда наверняка вдруг запляшут облака! / Алексей Сушков (ПЕТЕР-СЕРВИС)И тогда наверняка вдруг запляшут облака! / Алексей Сушков (ПЕТЕР-СЕРВИС)
И тогда наверняка вдруг запляшут облака! / Алексей Сушков (ПЕТЕР-СЕРВИС)Ontico
 
Как мы заставили Druid работать в Одноклассниках / Юрий Невиницин (OK.RU)
Как мы заставили Druid работать в Одноклассниках / Юрий Невиницин (OK.RU)Как мы заставили Druid работать в Одноклассниках / Юрий Невиницин (OK.RU)
Как мы заставили Druid работать в Одноклассниках / Юрий Невиницин (OK.RU)Ontico
 
Разгоняем ASP.NET Core / Илья Вербицкий (WebStoating s.r.o.)
Разгоняем ASP.NET Core / Илья Вербицкий (WebStoating s.r.o.)Разгоняем ASP.NET Core / Илья Вербицкий (WebStoating s.r.o.)
Разгоняем ASP.NET Core / Илья Вербицкий (WebStoating s.r.o.)Ontico
 
100500 способов кэширования в Oracle Database или как достичь максимальной ск...
100500 способов кэширования в Oracle Database или как достичь максимальной ск...100500 способов кэширования в Oracle Database или как достичь максимальной ск...
100500 способов кэширования в Oracle Database или как достичь максимальной ск...Ontico
 
Apache Ignite Persistence: зачем Persistence для In-Memory, и как он работает...
Apache Ignite Persistence: зачем Persistence для In-Memory, и как он работает...Apache Ignite Persistence: зачем Persistence для In-Memory, и как он работает...
Apache Ignite Persistence: зачем Persistence для In-Memory, и как он работает...Ontico
 
Механизмы мониторинга баз данных: взгляд изнутри / Дмитрий Еманов (Firebird P...
Механизмы мониторинга баз данных: взгляд изнутри / Дмитрий Еманов (Firebird P...Механизмы мониторинга баз данных: взгляд изнутри / Дмитрий Еманов (Firebird P...
Механизмы мониторинга баз данных: взгляд изнутри / Дмитрий Еманов (Firebird P...Ontico
 

More from Ontico (20)

One-cloud — система управления дата-центром в Одноклассниках / Олег Анастасье...
One-cloud — система управления дата-центром в Одноклассниках / Олег Анастасье...One-cloud — система управления дата-центром в Одноклассниках / Олег Анастасье...
One-cloud — система управления дата-центром в Одноклассниках / Олег Анастасье...
 
Масштабируя DNS / Артем Гавриченков (Qrator Labs)
Масштабируя DNS / Артем Гавриченков (Qrator Labs)Масштабируя DNS / Артем Гавриченков (Qrator Labs)
Масштабируя DNS / Артем Гавриченков (Qrator Labs)
 
Создание BigData-платформы для ФГУП Почта России / Андрей Бащенко (Luxoft)
Создание BigData-платформы для ФГУП Почта России / Андрей Бащенко (Luxoft)Создание BigData-платформы для ФГУП Почта России / Андрей Бащенко (Luxoft)
Создание BigData-платформы для ФГУП Почта России / Андрей Бащенко (Luxoft)
 
Готовим тестовое окружение, или сколько тестовых инстансов вам нужно / Алекса...
Готовим тестовое окружение, или сколько тестовых инстансов вам нужно / Алекса...Готовим тестовое окружение, или сколько тестовых инстансов вам нужно / Алекса...
Готовим тестовое окружение, или сколько тестовых инстансов вам нужно / Алекса...
 
Новые технологии репликации данных в PostgreSQL / Александр Алексеев (Postgre...
Новые технологии репликации данных в PostgreSQL / Александр Алексеев (Postgre...Новые технологии репликации данных в PostgreSQL / Александр Алексеев (Postgre...
Новые технологии репликации данных в PostgreSQL / Александр Алексеев (Postgre...
 
PostgreSQL Configuration for Humans / Alvaro Hernandez (OnGres)
PostgreSQL Configuration for Humans / Alvaro Hernandez (OnGres)PostgreSQL Configuration for Humans / Alvaro Hernandez (OnGres)
PostgreSQL Configuration for Humans / Alvaro Hernandez (OnGres)
 
Inexpensive Datamasking for MySQL with ProxySQL — Data Anonymization for Deve...
Inexpensive Datamasking for MySQL with ProxySQL — Data Anonymization for Deve...Inexpensive Datamasking for MySQL with ProxySQL — Data Anonymization for Deve...
Inexpensive Datamasking for MySQL with ProxySQL — Data Anonymization for Deve...
 
Опыт разработки модуля межсетевого экранирования для MySQL / Олег Брославский...
Опыт разработки модуля межсетевого экранирования для MySQL / Олег Брославский...Опыт разработки модуля межсетевого экранирования для MySQL / Олег Брославский...
Опыт разработки модуля межсетевого экранирования для MySQL / Олег Брославский...
 
ProxySQL Use Case Scenarios / Alkin Tezuysal (Percona)
ProxySQL Use Case Scenarios / Alkin Tezuysal (Percona)ProxySQL Use Case Scenarios / Alkin Tezuysal (Percona)
ProxySQL Use Case Scenarios / Alkin Tezuysal (Percona)
 
MySQL Replication — Advanced Features / Петр Зайцев (Percona)
MySQL Replication — Advanced Features / Петр Зайцев (Percona)MySQL Replication — Advanced Features / Петр Зайцев (Percona)
MySQL Replication — Advanced Features / Петр Зайцев (Percona)
 
Внутренний open-source. Как разрабатывать мобильное приложение большим количе...
Внутренний open-source. Как разрабатывать мобильное приложение большим количе...Внутренний open-source. Как разрабатывать мобильное приложение большим количе...
Внутренний open-source. Как разрабатывать мобильное приложение большим количе...
 
Подробно о том, как Causal Consistency реализовано в MongoDB / Михаил Тюленев...
Подробно о том, как Causal Consistency реализовано в MongoDB / Михаил Тюленев...Подробно о том, как Causal Consistency реализовано в MongoDB / Михаил Тюленев...
Подробно о том, как Causal Consistency реализовано в MongoDB / Михаил Тюленев...
 
Балансировка на скорости проводов. Без ASIC, без ограничений. Решения NFWare ...
Балансировка на скорости проводов. Без ASIC, без ограничений. Решения NFWare ...Балансировка на скорости проводов. Без ASIC, без ограничений. Решения NFWare ...
Балансировка на скорости проводов. Без ASIC, без ограничений. Решения NFWare ...
 
Перехват трафика — мифы и реальность / Евгений Усков (Qrator Labs)
Перехват трафика — мифы и реальность / Евгений Усков (Qrator Labs)Перехват трафика — мифы и реальность / Евгений Усков (Qrator Labs)
Перехват трафика — мифы и реальность / Евгений Усков (Qrator Labs)
 
И тогда наверняка вдруг запляшут облака! / Алексей Сушков (ПЕТЕР-СЕРВИС)
И тогда наверняка вдруг запляшут облака! / Алексей Сушков (ПЕТЕР-СЕРВИС)И тогда наверняка вдруг запляшут облака! / Алексей Сушков (ПЕТЕР-СЕРВИС)
И тогда наверняка вдруг запляшут облака! / Алексей Сушков (ПЕТЕР-СЕРВИС)
 
Как мы заставили Druid работать в Одноклассниках / Юрий Невиницин (OK.RU)
Как мы заставили Druid работать в Одноклассниках / Юрий Невиницин (OK.RU)Как мы заставили Druid работать в Одноклассниках / Юрий Невиницин (OK.RU)
Как мы заставили Druid работать в Одноклассниках / Юрий Невиницин (OK.RU)
 
Разгоняем ASP.NET Core / Илья Вербицкий (WebStoating s.r.o.)
Разгоняем ASP.NET Core / Илья Вербицкий (WebStoating s.r.o.)Разгоняем ASP.NET Core / Илья Вербицкий (WebStoating s.r.o.)
Разгоняем ASP.NET Core / Илья Вербицкий (WebStoating s.r.o.)
 
100500 способов кэширования в Oracle Database или как достичь максимальной ск...
100500 способов кэширования в Oracle Database или как достичь максимальной ск...100500 способов кэширования в Oracle Database или как достичь максимальной ск...
100500 способов кэширования в Oracle Database или как достичь максимальной ск...
 
Apache Ignite Persistence: зачем Persistence для In-Memory, и как он работает...
Apache Ignite Persistence: зачем Persistence для In-Memory, и как он работает...Apache Ignite Persistence: зачем Persistence для In-Memory, и как он работает...
Apache Ignite Persistence: зачем Persistence для In-Memory, и как он работает...
 
Механизмы мониторинга баз данных: взгляд изнутри / Дмитрий Еманов (Firebird P...
Механизмы мониторинга баз данных: взгляд изнутри / Дмитрий Еманов (Firebird P...Механизмы мониторинга баз данных: взгляд изнутри / Дмитрий Еманов (Firebird P...
Механизмы мониторинга баз данных: взгляд изнутри / Дмитрий Еманов (Firebird P...
 

Как мы считали трафик на Вертике, Николай Голов (Avito)

  • 1. Как мы считали трафик на Вертике Голов Николай
  • 2. Что такое Avito.ru? #1 сайт объявлений в России* –3.9 млрд просмотров в месяц –40 млн посетителей в месяц
  • 5. Что такое Avito.ru? Более 150млн просмотров в день – один из крупнейших сайтов объявлений в мире 20 млн активных объявлений**: Недвижимость, Транспорт, Работа, Услуги, Товары для дома и т. д.
  • 6. Big data инсталляция Авито Daily sync Live connection (10-серверный кластер) Таблицы действий посетителей ~ 50 таблиц ~ 100 млрд. записей • ~500 млн. событий /день • Загрузк а раз в 15 минут Таблицы Backoffice ~ 300 таблиц ~ до 2 млрд. записей Backoffice DB Clickstream Внешние данные Analysts ~26TB несжатых данных • Загрузк а раз в 20 мин. • Все изменения
  • 7. Отчет о трафике – задача Месяц Июль Неделя Регион Краснодарский край Город Мастер категория … Сочи Краснодар Категория Автомобили Новые Подержанные День 07.07.2014 07.07.2014 08.07.2014 09.07.2014 Меры: • Количество просмотров • Количество сессий • Количество уникальных посетителей
  • 8. Отчет о трафике - размерность Регион Краснодарский край Город Мастер категория Сочи Краснодар Категория Количество сочетаний: 5000*67*3*3*… >3mln Автомобили Новые Подержанные 85 ~5000 11 67 Малые измерения: • 3+ типа действий • 3 платформы (api, desc, mobile) • …
  • 9. Отчет о трафике - размерность 250 mln/day Select count(...), … From T Group by … 250 mln.  3 mln. groups
  • 10. Неаддитивные меры …. Сочи, Новые авто, 1.1.1.127, 13:09 07.08.2014 …. Российская федерация, все Краснодарский край, Авто Сочи, Авто Сочи, Новые авто Все авито 250 mln.  ~20*250mln.=5 bln. 3 mln. groups
  • 11. Размерность с учетом неаддитивности 5 bln/day 250 mln/day 3 mln/day Day = 5 bln. Week = 150 bln. Month = 1.5 trln.
  • 12. Задача сложна =>шардирование Тонкость – шардирование возможно только по результирующим данным, не по входящим.
  • 13. Шардирование по аггрегатным группам Сочи, подержанные авто Сочи, новые авто Краснодар, новые авто Краснодарский край, авто Уникальные непустые сочетания входных измерений Уникальные непустые сочетания целевых измерений
  • 14. Инициализация метаданных Исходные события Уникальные непустые сочетания целевых измерений Уникальные непустые входные сочетания Красн. край, авто Кранодар, авто Сочи, авто Сочи, подерж. авто Матрица соответствия входных и целевых сочетаний
  • 15. Рассчет шарда Выделение целевой группы по остатку от деления уникального ключа Красн. край, авто Кранодар, авто Сочи, авто Сочи, подерж. авто Отбор входных групп по матрице соответствия Размножение записей отобранных входных групп Select count(distinct...), … From T Group by … Аггрегация
  • 16. Алгоритм: реализация Select count(distinct...), … From T Group by … Выделение фрагмента, отбор целевых групп, оркестровка 07.07.2014 08.07.2014 09.07.2014 Параллельный запуск SQL запросов по дням
  • 17. Результаты • Сутки: ~250 млн. на вход, 7 фрагментов, 1-2 часа. • Неделя: ~2 млрд. на вход, 14 фрагментов, 4-5 часов. • Месяц: ~7 млрд. на вход, 21 фрагмент, 16-18 часов.