Artisto App, Highload 2016

Artisto: опыт запуска
нейросетей в production
Тянтов Эдуард, Mail.ru Group

Artisto
1-е мобильное приложение стилизации видео в мире
Уникальная технология стабилизации видео
Приложение с технологией разработаны за 1 месяц

Кратко про нейронные сети

1. Многослойный
персептрон, 1960
2. Обратное распространение
ошибки, 1974
3. Сверточная сеть,
1990-е
Нейронные сети

Color image (RGB) Feature maps3 channels
Convolutions
Input
output
Операция свертки

Профит:
• уменьшение кол-ва вычислений
• относительная устойчивость к сдвигу и повороту изображения
Операция pooling

edges object parts (combination of edges) object models

Архитектура
популярной
VGG-сети
Архитектура сверточной сети

Перенос стиля на фото

Изображение Стиль
Стилизованное
изображение
+ =
Перенос стиля: цель

Перенос стиля: история
A Neural Algorithm of Artistic Style
Texture Networks: Feed-forward Synthesis of Textures and Stylized Images
Perceptual Losses for Real-Time Style Transfer and Super-Resolution
Запуск Prisma
Vinci
Artisto
Sept 2015
10 Mar 2016
27 Mar 2016
11 June 2016
28 Jul 2016
29 Jul 2016
t
в

Используем VGG-сеть как feature extractor
x
c
Feature maps
Feature maps
Восстановление контента

Target
output
Error back propagation
Оптимизируем изображение x по целевой функции L(x,c).
x
x

Различные
итерации
слой: conv4_2

• Первые слои хорошо восстанавливают изображение
• На более глубоких:
• нечеткие линии, т.к. меньше информации о пространственных координатах
• теряются цвета
conv1_1 conv2_1 conv3_1 conv4_1 conv5_1

• Надо избавиться от пространственного положения фич
• Простое решение: посчитать среднее
• Сложное: матрица ковариации между картами признаков
Feature maps
Попарные ковариации
F
Width
Height
Depth
Ковариационная
матрица
Feature maps
F
Width
Height
Depth
Среднее по
Width&Height
Mean vector
Восстановление стиля

Feature maps
Feature maps

Различные итерации

• Получился шум в стиле Ван Гога: цвета, мазки
• Пространственные координаты полностью потеряны
conv1_1
conv1_1
conv2_1
conv1_1
conv2_1
conv3_1
conv4_1
conv1_1
conv2_1
conv3_1
conv4_1
conv5_1
conv1_1
conv2_1
conv3_1

Комбинированный loss
s
c
x

Детали контента сохраняют позицию, но перерисовываются нужным стилем.
Комбинированный loss: результат

+ Мерджит две любые картинки
+ Не требует обучения сети
+ Код на различных DL-библиотеках: TensorFlow, Torch, Theano
- Долгая работа алгоритма для онлайна
• CPU: 5min
• GPU: 10-15 sec
Artistic Style: резюме

Вместо оптимизации изображения
обучаем сеть, которая трансформирует его в стилизованное.
Real-Time Style Transfer

Обучение сети-генератора
s
X

«Пирамида»: сеть видит исходное изображение в разных
разрешениях.
Convolution
block
Join block
Структура сети-генератора

+ Скорость: можно сделать онлайн-обработку фото/видео
• Inference: 20-100 ms на GPU
- Требует обучения модели под каждый стиль.
- Длительность: 1-4h (GPU, Titan X)
- Тяжело экспериментировать
- Код только на Torch (на момент разработки приложения)
Real-Time Style Transfer: резюме

«Жертва» экспериментов

Artistic style: из коробки

• Хорошо передает стиль (мазки, цвета)
• Трудно добиться «чистых» изображений
• Удалось оптимизировать до 100 мс/фото под один из стилей
Итог: не подходит из-за скорости.
Artistic style: резюме

Content Style Expected result
+ =
Ожидание
Real-Time Style Transfer

Реальность
Style
Real-Time Style Transfer: из коробки

• Из коробки плохая стилизация
• Трудно экспериментировать из-за долгих итераций обучения
• Хороший результат:
• код на Torch Ульянова
• + модель генератора Johnson’а
• + патчи
Real-Time Style Transfer: результат

Стиль
Результат
Real-Time Style Transfer: результат

Улучшения алгоритма для видео

Недостатки решения: лица

• Алгоритму выгодно накладывать текстуру
на «пустые» области
• Рябь сильно ухудшает качество видео
Недостатки решения: рябь на видео

То, что не может математика, может дизайнер.
Designer loss

Zoom интересной
области
Designer loss

Можно изменять исходные изображения при обучении, чтобы сеть
была устойчива к освещению/шуму/…
+noise
Augmentation

Super-resolution – улучшение разрешения фото.
+ Отлично подходит, чтобы убрать мелкий шум
+ Есть предобученная сеть waifu2x
- Скорость: дополнительный прогон через сеть
Super-resolution

1. Heatmap loss
2. Designer loss
3. Augmentation
4. Super-resolution
Стабилизация видео: резюме

Генерация стилей

• Большое кол-во параметров и их значений
• слои, веса, размеры картинок, …
• Оценка результата – «на глаз»
• Loss плохо коррелирует с качеством выходного изображения
• алгоритмы итеративны – много результатов => «глаз замыливается»
Итерация обучения
Красота
Сложности подбора стиля

• Обратный брутфорс проще,
чем прямой
• Надо найти несколько
наборов «рабочих»
параметров
• Дотюнивать кандидатов
руками
• Коробочное решение – FGLab
Интерфейс подбора стиля

Интерфейс подбора стиля

1. Берем много стилевых картинок
2. Рабочие сеты гипер-параметров
3. Много GPU
4. Redbull/Monster
5. ???
6. PROFIT
Штамповка стилей

• Пользователям легче работать с фото, чем с видео
• Больше нравятся лайт трансформации
User experience

• Пользователи юзали MSQRD/Snapchat + Artisto
• Добавили такой функционал из ICQ
• Перерисованные маски гармоничнее выглядят
Маски

Спасибо за внимание!
Вопросы?

• Нейросети на Torch (LUA)
• Пробовали переписать на TensorFlow (Python)
• наткнулись на баг с выделением памяти на GPU
• Backend
• Docker-контейнер Ubuntu на centos7
• C + luajit
• Быстродействие на GPU
• 24ms, видео 350x350
• 75ms, фото 1024x1024
Технические детали

• Игровые карты Geforce Titan X и 1080
• серверные значительно дороже
• amazon: дорого, слабые карты (на момент запуска)
• На launch’е ставили PC из-за отсутствия серверов в продаже
• Большинство GPU-карт требуют особую материнскую плату
• Сервера: 4 x Titan X
Сервера

руководит процессом
Бэкенд

Модель генератора Johnson’а

Artisto App, Highload 2016

Recommended

Recommended

More Related Content

Similar to Artisto App, Highload 2016

Similar to Artisto App, Highload 2016 (20)

More from Eduard Tyantov

More from Eduard Tyantov (8)

Artisto App, Highload 2016