Машинное обучение для интеллектуализации ваших приложений

Машинное обучение
для интеллектуализации
ваших приложений
ZZ Photo Артем Чернодуб

Искусственный интеллект
1997 2001 2029 2035
Источники:
• к/ф «Космическая одиссея 2001 года», 1968, реж. С. Кубрик
• к/ф «Терминатор», 1984, реж. Д. Кэмерон
• к/ф «Я, робот», 2004, реж. А. Пройас
2 / 40

Нейронауки
Биологически-инспирированные
модели
3 / 40

• синтез алгоритмов из представленных данных,
«обучающей выборки»
• эффективность работы синтезированного
алгоритма как главная мера качества
• круг задач искусственного интеллекта
• математика как базовая научная дисциплина
(теория вероятности, случайные процессы,
математическая статистика)
4 / 40

Виды машинного обучения
• регрессия (regression)
• классификация (classification)
• кластеризация (clusterization)
• обучение с подкреплением (reinforcement
learning)
• эволюционные алгоритмы (evolutionary
algorithms)
5 / 40

Регрессия – данные
x y
0.00 0.00
0.10 0.59
0.20 0.95
0.30 0.95
0.40 0.59
0.50 0.00
0.60 -0.59
0.70 -0.59
0.80 -0.95
0.90 1.00
6 / 40

Регрессия – решения
7 / 40

Классификация – ирисы Фишера
Iris versicolorIris setosa Iris virginica
8 / 40

Классификация – данные
Длина
чашелистника
Ширина
чашелистника
Длина
лепестка
Ширина
лепестка
Вид ириса
4.3 3.0 1.1 0.1 setosa
4.4 2.9 1.4 0.2 setosa
4.4 3.0 1.3 0.2 setosa
…
4.9 2.5 4.5 1.7 virginica
5.6 2.8 4.9 2.0 virginica
…
5.0 2.0 3.5 1.0 versicolor
5.1 2.5 3.3 1.1 versicolor
9 / 40

Классификация – решение
10 / 40

Кластеризация
число классов заранее неизвестно
11 / 40

Кластеризация – решения
12 / 40

Распознавание текста
13 / 40

Распознавание лиц
14 / 40

Детекция морд котов
15 / 40

Дополненная реальность
16 / 40

Распознавание звука
• распознавание
звуковых команд
музыкальных жанров
названий песен
• синтез новой музыки
17 / 40

Обработка естественных текстов
• системы машинного перевода
• рекомендательные системы он-лайн
магазинов
• таргетирование рекламы в поисковых
системах
• распознавание спама
18 / 40

Биометрическая аутентификация
Разрешение доступа по:
• отпечаткам пальцев
• радужной оболочке глаза
• клавиатурному почерку
• тембру голоса
• рукописному почерку
• геометрии руки
19 / 40

Мы живем в мире Big Data
Данные для компьютеров:
• в 2006 году было создано
и сохранено 160 эксабайт
(160х1018) информации
• в 2010 году было создано
и сохранено 1 зетабайт
(1021) информации
Пример: рост количества
цифровых фото
21 / 40

Алгоритмы регрессии
• Линейная регрессия (Linear Regression)
• Многослойные персептроны (Multilayer
Perceptron)
• RBF-нейросети (Radial Basis Function Networks)
• Машины опорных векторов для регресии (Support
Vector Regression, SVR)
22 / 40

Алгоритмы классификации
• k ближайших соседей (k-Nearest Neighbours)
• Нейронные сети (Neural Networks = MLP & RBF)
• Машины опорных векторов (Support Vector
Machines)
• Деревья решений (бустинг)
23 / 40

Алгоритмы кластеризации
• k средних (k-Means)
• Иерархическая кластеризация (Hierarhical
Clustering)
• Самоорганизующиеся карты Кохонена (Self-
Organizing Maps)
• Гауссовские смешанные модели (Gaussian
Mixture Models)
24 / 40

Некоторые алгоритмы для
предобработки данных
• общие, проблемно-независимые – PCA, LDA,
Kernel PCA
• для изображений – SIFT, SURF, CHoG, Zernike
Moments, Wavelets
• для звука – DFT, FFT, Mel cepstra, Wavelets
• для текста – ITF-DF, N-grams
25 / 40

Некоторые прикладные пакеты для
машинного обучения
• OpenCV – библиотека средств машинного
зрения.
• PythonXY – пакет «все-в-1» популярных методов
машинного обучения.
• LibSVM – надежная кросс-платфроменная.
библиотека машин опорных векторов.
• NetLab – библиотека «обычных» нейронных
сетей.
• Theano – библиотека глубоких нейронных сетей.
26 / 40

Тезис
Машинное обучение – это технология, требующая
специального подхода.
27 / 40

Правило № 1
Если есть возможность не использовать машинное
обучение – не используйте его.
28 / 40

Не изобретайте велосипед.
29 / 40

Тестируйте качество вашего алгоритма на
опубликованных бенчмарках.
30 / 40

Данные для обучения должны быть
репрезентативными.
31 / 40

Делите выборку на Train, Test и Validation.
Train Test Validation
32 / 40

Сложность выбранной эмпирической модели должна
быть адекватна сложности задачи.
33 / 40

Применяйте регуляризацию.
34 / 40

• нормируйте данные;
• центрируйте данные;
• в случае классификации, перемешивайте выборку.
35 / 40

Не нужно дообучать синтезированные эмпирические
модели в режиме реального времени.
36 / 40

Обучайте модели в MATLAB, Python и подобных
дружественных средах.
37 / 40

Литература
1. С. Осовский. Нейронные сети для обработки
информации – пер. с польского. М.: Финансы и
статистика, 2002. – 344с.
2. Bishop C.M. Pattern Recognition and Machine
Learning. Springer, 2006 – 738 p.
3. С. Хайкин. Нейронные сети: полный курс.
Вильямс, 2006.
38 / 40

Машинное обучение: перенос
ответственности за работу
алгоритма с программиста
на данные
39 / 40

Машинное обучение для интеллектуализации ваших приложений

Recommended

Recommended

More Related Content

Viewers also liked

Viewers also liked (15)

Similar to Машинное обучение для интеллектуализации ваших приложений

Similar to Машинное обучение для интеллектуализации ваших приложений (20)

More from PAY2 YOU

More from PAY2 YOU (6)

Recently uploaded

Recently uploaded (9)

Машинное обучение для интеллектуализации ваших приложений