Брокер сообщений Kafka в условиях повышенной нагрузки / Артём Выборнов (Rambler&Co)

Kafka в условиях
повышенной нагрузки
Выборнов Артём, Rambler&Co

Чем мы занимаемся?
• Сегментация аудитории
• Эвристики
• Классификация
• Lookalike
• Прогноз трафика
• Предсказание CTR
• Аналитика
• Рекомендации
• ...

Kafka в условиях повышенной нагрузки
• Как обеспечить семантику exactly once?

• Какие существуют узкие места?

• Какие существуют узкие места?
• Какие метрики стоит мониторить?

Архитектура топика Kafka

Переизбрание лидеров

• С потерями данных (Unclean leader election)
• “Без потерь” данных (Clean leader election)

• С потерями данных (Unclean leader election) — Δ > const
• “Без потерь” данных (Clean leader election) — Δ < const

• В любом случае теряете данные

• В любом случае теряете данные
• Переизбрание может происходить когда всё идёт хорошо

Переизбрание лидеров (без потерь)
(producer) request.required.acks = 0

(producer) request.required.acks = 1

(producer) request.required.acks = -1
(kafka) min.insync.replicas.per.topic = topic:1

(producer) request.required.acks = -1
(kafka) min.insync.replicas.per.topic = topic:2

• Нельзя писать в партицию, если количество живых реплик
меньше числа insync.replicas

• Нельзя писать в партицию, если количество живых реплик
меньше числа insync.replicas
• Решение:
• insync.replicas = 2
• replication factor = 3

Сохранение отступов
• Автоматическое сохранение

• Сохранение вручную (at least once)

• Сохранение вне Kafka (возможность exactly once)

Сохранение в HDFS (exactly once)
1. hdfs dfs -mv /tmp/file1 /logs/file
2. hdfs dfs -mv /tmp/file2 /logs/file
3. hdfs dfs -mv /tmp/offsets /runtime/offsets

Всё хорошо
• Producer получает ответ об успешной записи данных
• Kafka реплицирует данные
• Consumer атомарно сохраняет данные и отступы

Но начались проблемы
• Запаздывание логов
• Дубли сообщений (at least once)

Проблемы consumer’ов
• Медленная работа consumer’а на микробатчах

• Падения consumer’ов с ошибками:
• Не могу получить лидеров
• Не могу получить отступы

• Падения consumer’ов с ошибками:
• Не могу получить лидеров
• Не могу получить отступы
• Причина: Kafka медленно отвечает на простейшие
запросы
• Отдельные ноды отвечают по несколько минут

Выросла нагрузка на чтение
• 150 MByte/s → 600 MByte/s
600 MB/s
150 MB/s

Неравномерное распределение нагрузки
• Нагрузка на чтение в разрезе нод
150 MB/s

• Неравномерно распределены партиции
• Неравномерно распределены лидеры

• Даже при нормальной работе кластера Kafka ошибается

• Даже при нормальной работе кластера Kafka ошибается
• Распределяем руками

• Повышаем репликацию

• Помогаем Kafka не ошибаться

Классические проблемы
• Сеть — часть нод в стойке с 1Gb uplink

Классические проблемы
• Сеть — часть нод в стойке с 1Gb uplink
• Диски — Kafka не дружит с RAID 5

В итоге
• Равномерно размазали нагрузку по нодам
• Все ноды в стойках с 10Gb uplink
• Не используем RAID 5
• Kafka стала отвечать за разумное время
• Нагрузка осталась высокой

Разгадка
• Повторное скачивание данных (at least once)

Разгадка
• Повторное скачивание данных (at least once)
• Отступы всех топиков camus попали в одну папку
• Иногда терялись отступы после успешного фетча
• Иногда успешно обновлялись

• Нагрузка на чтение
Было
600 MB/s

• Нагрузка на чтение
Стало
150 MB/s

Мониторинг
• Узкие места
• Сеть
• Диски
• Распределение нагрузки по нодам
• Распределение лидеров толстых топиков

• Нагрузка на чтение в разрезе нод
150 MB/s

• Сеть
• Диски
• Переизбрание лидеров

• Сеть
• Диски
• Рассинхронизация партиций
• Число несинхронных партиций (UnderReplicatedPartitions)
• Максимальный лаг репликации (ReplicaFetcherManager.MaxLag)

• Максимальный лаг репликации
20 K
0

• Сеть
• Диски
• Рассинхронизация партиций
• Число несинхронных партиций (UnderReplicatedPartitions)
• Максимальное отставание (ReplicaFetcherManager.MaxLag)
• Время ответа на простейшие запросы

• Время ответа на запросы consumer’а
10 s

• Exactly once это про все элементы pipeline: producer,
consumer, Kafka

consumer, Kafka
• Узкие места: сеть, диски, баланс нагрузки

consumer, Kafka
• Узкие места: сеть, диски, баланс нагрузки
• Стоит также мониторить: переизбрание лидеров,
отставание партиций, время ответа

Выборнов Артём
• Почта: art-vybor@ya.ru
• Рабочая почта: a.vybornov@rambler-co.ru

Брокер сообщений Kafka в условиях повышенной нагрузки / Артём Выборнов (Rambler&Co)

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Similar to Брокер сообщений Kafka в условиях повышенной нагрузки / Артём Выборнов (Rambler&Co)

Similar to Брокер сообщений Kafka в условиях повышенной нагрузки / Артём Выборнов (Rambler&Co) (20)

More from Ontico

More from Ontico (20)

Брокер сообщений Kafka в условиях повышенной нагрузки / Артём Выборнов (Rambler&Co)