Илья Сиганов, разработчик 7bits, аспирант по Информатике и Выч. Технике ОмГУ ФКН
Вы наверное наслышаны об успехах так называемого машинного обучения. Его используют для перевода текстов, синтеза голоса, распознавания речи, показа рекламы. Да чему только уже не научили компьютер! Мне стало безумно интересно как в принципе происходит обучение компьютера, каким задачам его можно обучить, а каким нельзя, по крайней мере пока.
В своей лекции я расскажу на настоящих примерах то, как может проходить обучение, с какими трудностями сталкиваются дата-саентисты и к чему всё это машинное обучение приведёт
7. Пятое колесо поколение компьютеров
● Хотели запрограммировать искусственный
интеллект
● Потратили 10 лет и ~1 млрд. долларов!
● Не получили никакого результата
8. Проблема программного ИИ
● Программа - это зафиксированная абстракция
● Абстракции создает человек интерпретируя своё восприятие
● У людей разное восприятие, следовательно абстракции разные
НО
● Мир динамичный и меняющийся
● Абстракция - жесткая и статичная
● Тестировать нужно, баги исправлять вручную!
10. Типичные “искусственные интеллекты”
● Переводчики между языками, основанные на моделях описания
языка, его структуры.
● поиск красных кубиков в видео
● Поиск лиц методом каскада Хаара
● Всевозможные фильтры сигналов
● Поиск музыки по отпечатку
11. Что делать?
● Искать гибкие методы, которые легко адаптировать
● Учитывать фактические реальные данные
● Убрать человека из цепочки создания абстракции
17. Некоторые боятся, что их заменят скриптом.
Более продвинутые боятся, что их заменят
машинным обучением.
18. Новая проблема
● Кто выбирает алгоритмы второго уровня? (условно
ML-алгоритм)
● Нельзя просто так загрузить данные в google-engine и
получить ответ?
● Неужели нет “Единого Решения”, “Истинного
Алгоритма”?
19. К чему это приводит?
● Зоопарк алгоритмов машинного обучения
● Разнообразие классов “задача”
● Проблема предобработки данных
● Проблема интерпретации результата
● Проблема выбора подходящего алгоритма
● Проблема выбора метрики качества
● Проблема переобучения
23. Классификация
● Кредитный скоринг - по показателям клиентов
определить вернут они кредит или нет
● Медицинская диагностика
● Распознавание образов (картинок, звуков)
● Определение пола человека по его отпечатку в сети
интернет
● Идентификация пользователя по его биометрии
27. Поиск структуры
● Классификация без обучающей выборки
● Используется для поиска классов на неразмеченной
выборке
● Сегментация аудитории
● Поиск похожих текстов
● Обнаружение аномалий
● Рекомендации основанные на схожести товаров или
пользователей
29. Прогнозирование
● Метерология
● Банковское дело и предсказание стоимости ценных
бумаг
● Прогнозирование уровня зарплат
● Демографические прогнозы
● Всё что связано с трендами, циклическими
изменениями
37. Сложные вопросы. Какой класс задач?
Декомпозиция звука на компоненты
Разделить речь одновременно
говорящих людей
Подавить сложный шум
38. Человек всё еще нужен
● Человек подбирает признаки
● Человек выбирает подходящий класс алгоритмов ML
● Человек эвристически подбирает параметры
алгоритмов
Машина ищет закономерности в данных
39. Ответы на вопросы
● Какие модели есть в проде и где они используются
● Машинное обучение для анализа текстовых документов, примеры и
подходы.
● Какие задачи не могут быть решены нейронными сетями и почему?
● Возможно ли написать алгоритм обратного распространения ошибки,
который бы подходил для любой нейронной сети(с любым количеством
слоев, входов, выходов) ?
40. С чего начать?
● www.coursera.org/learn/vvedenie-mashinnoe-obuchenie/home/
welcome
● www.coursera.org/specializations/machine-learning-data-analy
sis
● datamininginaction.ru/
● habrahabr.ru/company/ods/
● yandexdataschool.ru/edu-process/courses/machine-learning