SlideShare a Scribd company logo
1 of 55
Download to read offline
Лекция n1
Основы нейронных сетей
Нестеров Павел
4 декабря 2014 г.
План лекции
Предпосылки
Краткая история теории нейронных сетей
Многоснойная нейронная сеть прямого распространения
Алгоритм обратного распространения ошибки
Что дальше?
1 / 55
Принципиальное отличие
Теория статистического обучения
Линейная и логистическая регрессии,
expectation-maximization, naive bayes classifier, random
forest, support vectior machine, gradient boosting trees и
т.д.
Имитация работы мозга человека
Perceptron, cognitron, self-organizing maps, multi-layer
feedforward network, convolution network, Boltzmann
machine, deep neural network и т.д.
2 / 55
С другой стороны
Искусственная нейронная сеть
алгоритмическая композиция (ансамбль) слабых моделей
байесова или марковская сеть
???
или любое другое обобщение, важны идеи лежащие в основе
теории
3 / 55
Нервная система до нейробиологии
Рис.: 17 век, Рене Декарт о нервной системе: «Раздражение ступни
передаётся по нервам в мозг, взаимодействует там с духом и таким
образом порождает ощущение боли».
4 / 55
Нервная система в современном понимании
В 1906 году врач и гистолог Сантьяго Рамон-и-Кахаль
совместно с врачем Камилло Гольджи получают нобелевскую
премию за "за работы по структуре нервной системы"; их
работы заложили основы нейронной теории нервной системы и
современной нейробиологии.
Рис.: Блок-схема нервной системы1
1Neural Networks and Learning Machines (3rd Edition), Simon O. Haykin
5 / 55
Мозг человека, #1
6 / 55
Мозг человека, #2
86 · 109
нейронов в мозге, из них 16.3 · 109
в
коре
CPU: 15-core Xeon IvyBridge-EX - 4.3 · 109
транзисторов
GPU: Nvidia Tesla GK110 Kepler - 7.08 · 109
транзисторов
нейроны (и мозг в целом) обладают
нейропластичностью - способностью
изменяться под действием опыта;
мозг - комплексная, нелинейная система
параллельной обработки данных, способная
изменять структуру своих составных
частей;
мозг решает определенный тип задач
значительно быстрее чем любой
современный компьютер, несмотря на то,
что нейрон крайне медленная
вычислительная единица.
7 / 55
Схема биологического нейрона
8 / 55
Нейронные ансамбли
Физиолог и нейропсихолог Дональд Хебб разработал теорию
взаимосвязи головного мозга и мыслительных процессов в
книге "The Organization of Behavior"(1949).
Нейронный ансамбль - совокупность нейронов, составляющих
функциональную группу в высших отделах мозга.
Нейроансамбль - распределенный способ кодирования
информации.
Нейрон сам по себе генерирует по мимо сигнала еще и шум, но
ансамбль в среднем генерирует чистый сигнал (bagging?).
9 / 55
Нейронная модель Ходжкина-Хаксли, #1
Модель Ходжкина—Хаксли (1952 год) — математическая
модель, описывающая генерацию и распространение
потенциалов действия в нейронах2
.
Потенциал действия — волна возбуждения, перемещающаяся по
мембране живой клетки в процессе передачи нервного сигнала.
Нобелевская премия по физиологии и медицине "за открытия,
касающиеся ионных механизмов возбуждения и торможения в
периферических и центральных участках нервных клеток"(1963
год).
2см. приложение Cellmembranion.gif
10 / 55
Нейронная модель Ходжкина-Хаксли, #2
Каждому элементу схемы соответствует свой биохимический аналог:
Cm - электроемкость внутреннего липидного слоя клеточной
мембраны;
gn - потенциал-зависимые ионные каналы отвечают за
нелинейную электрическую проводимость;
gL - каналы мембранных пор отвечают за пассивную
проводимость;
Ex - источники напряжения побуждает ионы к движению через
мембранные каналы.
11 / 55
Модель МакКаллока-Питтса (1943 год)
a (x) = θ
n
j=1 wj · xi − w0 ;
θ (z) = [z ≥ 0] = 0,z<0
1,z≥0 - функция Хевисайда;
эквивалентно линейному классификатору.
Данная модель, с незначительными изменениями, актуальна и по
сей день.
12 / 55
Правила Хебба (1949)
В своей книге Дональд Хебб описал процесс адаптирования
нейронов в мозге в процессе обучения, и сформулировал базовые
механизмы нейропластичности:
1. если два нейрона по разные стороны от синапсов активируются
синхронно, то "вес"синапса слегка возрастает;
2. если два нейрона по разные стороны от синапсов активируются
асинхронно, то "вес"синапса слегка ослабевает или синапс
удаляется3
.
Эти правила легли в основу зарождающейся теории нейросетей,
сегодня в мы можем увидеть этот мета-алгоритм в основных
методах обучения нейронных сетей.
3это расширенное правило, в оригинале второй части не было
13 / 55
Правила Хебба, математическая формулировка, #1
Допустим у нас имеется набор бинарных векторов размерности n,
каждому из которых соответствует бинарный выход y:
X = {x1, x2, . . . , xm} , ∀xi ∈ {0, 1}
n
Y = {y1, y2, . . . , ym} , ∀yi ∈ {0, 1}
D = {(x1, y1) , (x2, y2) , . . . , (xn, yn)}
Тогда нейрон может совершить два типа ошибок:
1. ˆyi = 0 ∧ yi = 1 ⇒ увеличить веса при тех входах равных 1
зачем?
2. ˆyi = 1 ∧ yi = 0 ⇒ уменьшить веса при тех входах равных 1
зачем?
14 / 55
Правила Хебба, математическая формулировка, #2
Тогда нейрон может совершить два типа ошибок:
1. ˆyi = 0 ∧ yi = 1 ⇒ увеличить веса при тех входах равных 1
не преодолели порог ⇒ увеличить скалярное произведение
2. ˆyi = 1 ∧ yi = 0 ⇒ уменьшить веса при тех входах равных 1
перешагнули порог ⇒ уменьшить скалярное произведение
15 / 55
Однослойный персептрон Розенблатта (1958 год)
Нейрофизиолог Френк Розенблатт предложил схему устройства,
моделирующего процесс человеческого восприятия, и назвал его
"персептроном". По мимо этого:
показал, что персептрон может выполнять базовые логические
операции;
разработал алгоритм обучения такой модели - метод коррекции
ошибки;
доказал сходимость алгоритма (теорема сходимости
персептрона), но только для линейно разделимых классов;
реализовал физический прототип такой модели;
реализовал первый в мире нейрокомпьютер "MARK-1".
16 / 55
Нейрокомпьютер MARK-1
17 / 55
Элементарный персептрон
Метод коррекции ошибки
ˆyi = 0 ∧ yi = 1 ⇒ ∆w = η(n) · x(n)
ˆyi = 1 ∧ yi = 0 ⇒ ∆w = −η(n) · x(n)
η(n) - скорость обучения, зависящая от итерации
x(n) - входной образ на итерации n
18 / 55
Недостатки элементарного персептрона, AND
19 / 55
Недостатки элементарного персептрона, XOR
20 / 55
Анимация сходимости для операций AND и XOR
операция OR - 1layer-net-or.gif
операция AND - 1layer-net-and1.gif
операция XOR - 1layer-net-xor.gif 4
4http://theclevermachine.wordpress.com/2014/09/11/a-gentle-introduction-to-
artificial-neural-networks/
21 / 55
Доказательства неэффективности нейронных сетей
В 1969 году математик и исследователь ИИ Марвин Минский
провел детальный математический анализ персептрона и
опубликовал формальное доказательство ограниченности этой
модели.
"There is no reason to suppose that any of these virtues carry
over to the many-layered version. Nevertheless, we consider it to be
an important research problem to elucidate (or reject) our intuitive
judgement that the extension to multilayer systems is sterile."5
Отсутствие преимуществ + ограничения модели в итоге
поубавили интерес научного сообщества к нейронным сетям,
требовалось, что то принципиально новое
5Персептроны, Марвин Минский в соавторстве с Сеймуром Папертом, MIT
Press, 1969
22 / 55
Период "забвения"
Исследования искусственных нейросетей не спеша продолжаются, но
в режиме поиска чего-то нового:
1972: Т. Кохонен разрабатывает новый тип нейросетей,
способных функционировать в качестве памяти;
1975-1980: К. Фукусима разрабатывает когнитрон и
неокогнитрон, совершенно новый тип многослойной сверточной
сети, созданной по аналогии со строением зрительной системы;
1982: Дж. Хопфилд разрабатывает новый тип нейросети с
обратными связями, выполняющей функции ассоциативной
памяти;
1986: Дэвид Румельхарт, Дж. Хинтон и Рональд Вильямс
разрабатывают вычислительно эффективный многослойных
нейросетей - метод обратного распространения ошибки (именно
работа этих авторов возрождает интерес к нейронным сетям в
мире).
23 / 55
Теорема универсальной аппроксимации6
Введем следующие обозначения:
φ(x) - не тождественная, ограниченная и монотонно
возрастающая функция
In - n-мерный единичный гиперкуб
C (In) - множество непрерывных функций на In
⇒ ∀f ∧ ∀ > 0∃
m ∈ N
{βi }i=1...m , ∀βi ∈ R
{αi }i=1...m , ∀αi ∈ R
{wij }j=1...n,i=1...m , ∀wij ∈ R
∧∃F (x1, . . . , xn) =
m
i=1 αi φ
n
j=1 wij · xj + βi :
|F (x1, . . . , xn) − f (x1, . . . , xn)| <
Какая архитектура нейросети удовлетворяет такой формулировке?
6Neural Networks and Learning Machines (3rd Edition), Simon O. Haykin
24 / 55
Универсальный аппроксиматор
В чем проблема универсального аппроксиматора, исходя из условий
теоремы?
25 / 55
Демонстрация сходимости нейросети с одним скрытым
слоем
операция XOR - 2layer-net-xor.gif
бинарная классификация - 2layer-net-ring.gif
аппроксимация функции sin - 2layer-net-regression-sine.gif
аппроксимация функции abs - 2layer-net-regression-abs.gif7
7http://theclevermachine.wordpress.com/2014/09/11/a-gentle-introduction-to-
artificial-neural-networks/
26 / 55
Многоснойная нейронная сеть прямого распространения
Рис.: Архитектура сети с двумя скрытыми слоями8
8Neural Networks and Learning Machines (3rd Edition), Simon O. Haykin
27 / 55
Отличие персептрона Румельхарта от персептрона
Розенблатта
Нелинейная функция активации;
один и более скрытых слоев (до работ Хинтона по ограниченной
машине Больцмана, на практике не использовали более двух
скрытых слоев, а чаще всего один);
сигналы на входе и на выходе не обязательно бинарные;
произвольная архитектура сети (в рамках многослойности);
ошибка сети интерпретирует в смысле некоторой меры, а не как
число неправильных образов в режиме обучения.
28 / 55
Модифицированная модель нейрона МакКаллока-Питтса
Рис.: Схема искусственного нейрона9
9Neural Networks and Learning Machines (3rd Edition), Simon O. Haykin
29 / 55
Функция активации
Задача функции активации - ограничить амплитуду выходного
значения нейрона; чаще всего для этого используется одна из
сигмоидальных (S-образных) функций:
логистическая функция: f (z) =
1
1 + e−a·z
, ∀a ∈ R
гиперболический тангенс: f (z) =
ea·x
− e−a·x
ea·x + e−a·x
, ∀a ∈ R
Рис.: Логистический сигмоид
30 / 55
Backprop, обозначения #1
z
(n)
j = b
(n)
j +
Nn−1
i=1
w
(n)
ij x
(n)
i =
Nn−1
i=0
w
(n)
ij x
(n)
i (1)
y
(n)
k = f
(n)
k z
(n)
k (2)
31 / 55
Backprop, обозначения #2
Обычное обучение с учителем:
дан набор данных
D = (x1, t1) , (x2, t2) , . . . , x|D|, t|D| , xi ∈ RNinput
, yi ∈ RNoutput
необходимо построить такое отображение (нейросеть)
fnetwork : X → Y , которое минимизирует некоторый
функционал ошибки E : RNoutput
× RNoutput
→ R, например
Евклидово расстояние для задачи регрессии
логарифм функции правдоподобия распределения Бернулли для
задачи классификации среди пересекающихся классов
кросс-энтропия для задачи классификации среди
непересекающихся классов
32 / 55
Градиентный спуск, #1
Алгоритм backprop - это модификация классического градиентного
спуска. Параметрами модели являются только веса всех нейронов
сети:
δ
(n)
ij = −η
∂E y(n)
, t
∂w
(n)
ij
(3)
η - скорость обучения (спуска, learning rate)
y(n)
- вектор выходов нейросети (выходы последнего слоя)
t - ожидаемые выходы нейросети для текущего примера
Есть идеи?
33 / 55
Градиентный спуск, #2
∂E
∂w
(n)
ij
=
∂E
∂z
(n)
j
∂z
(n)
j
∂w
(n)
ij
???
34 / 55
Градиентный спуск, #3
∂E
∂w
(n)
ij
=
∂E
∂z
(n)
j
∂z
(n)
j
∂w
(n)
ij
∂z
(n)
j
∂w
(n)
ij
= i
∂w
(n)
ij x
(n−1)
i
∂w
(n)
ij
= x
(n−1)
i
В итоге получим:
∂E
∂w
(n)
ij
= x
(n−1)
i
∂E
∂z
(n)
j
(4)
35 / 55
Градиентный спуск, выходной слой, #1
∂E
∂w
(n)
ij
= x
(n−1)
i
∂E
∂z
(n)
j
E (y(z), t) ???
36 / 55
Градиентный спуск, выходной слой, #2
∂E
∂w
(n)
ij
= x
(n−1)
i
∂E
∂z
(n)
j
= x
(n−1)
i
∂E
∂y
(n)
j
∂y
(n)
j
∂z
(n)
j
(5)
Таким образом при условии дифференцируемости целевой функции
и функции активации, вычисление градиента любого из весов
выходного слоя становится легко решаемой задачей.
37 / 55
Градиентный спуск, любой скрытый слой, #1
∂E
∂w
(n)
ij
= x
(n−1)
i
∂E
∂z
(n)
j
= x
(n−1)
i
k
∂E
∂z
(n+1)
k
∂z
(n+1)
k
∂z
(n)
j
= x
(n−1)
i
k
∂E
∂z
(n+1)
k
∂z
(n+1)
k
∂yn
j
∂yn
j
∂zn
j
∂z
(n+1)
k
∂yn
j
???
38 / 55
Градиентный спуск, любой скрытый слой, #2
Рис.: Схема прямого (нелинейного) и обратного (линейного)
распространения сигнала в сети
39 / 55
Градиентный спуск, любой скрытый слой, #3
∂E
∂w
(n)
ij
= x
(n−1)
i
∂E
∂z
(n)
j
= x
(n−1)
i
k
∂E
∂z
(n+1)
k
∂z
(n+1)
k
∂z
(n)
j
= x
(n−1)
i
k
∂E
∂z
(n+1)
k
∂z
(n+1)
k
∂yn
j
∂yn
j
∂zn
j
∂z
(n+1)
k
∂yn
j
= i
∂w(n+1)ik
yn
i
∂yn
j
= w
(n+1)
ik
40 / 55
Градиентный спуск, любой скрытый слой, #4
∂E
∂w
(n)
ij
= x
(n−1)
i
∂E
∂z
(n)
j
= x
(n−1)
i
k
∂E
∂z
(n+1)
k
∂z
(n+1)
k
∂z
(n)
j
= x
(n−1)
i
k
∂E
∂z
(n+1)
k
∂z
(n+1)
k
∂yn
j
∂yn
j
zn
j
= x
(n−1)
i
k
w
(n+1)
ik
∂E
∂z
(n+1)
k
∂yn
j
∂zn
j
41 / 55
Некоторые функции стоимости, #1
Среднеквадратичная ошибка:
E =
1
2 i∈output (ti − yi )
2
∂E
∂yi
???
Логарифм правдоподобия Бернулли:
E = − i∈output (ti log yi + (1 − ti ) log (1 − yi ))
∂E
∂yi
???
42 / 55
Некоторые функции стоимости, #2
Среднеквадратичная ошибка:
E =
1
2 i∈output (ti − yi )
2
∂E
∂yi
= yi − ti
Логарифм правдоподобия Бернулли:
E = − i∈output (ti log yi + (1 − ti ) log (1 − yi ))
∂E
∂yi
=
ti
yi
−
1 − ti
1 − yi
43 / 55
Некоторые функции активации, #1
Логистическая функция:
f (z) =
1
1 + e−a·z
∂f
∂z
???
Гиперболический тангенс:
f (z) =
ea·z
− e−a·z
ea·z + e−a·z
∂f
∂z
???
44 / 55
Некоторые функции активации, #2
Логистическая функция:
f (z) =
1
1 + e−a·z
∂f
∂z
= a · f (z) · (1 − f (x))
Гиперболический тангенс:
f (z) =
ea·z
− e−a·z
ea·z + e−a·z
∂f
∂z
= a · 1 − f 2
(z)
45 / 55
Режимы обучения
online learning
batch learning
full-batch learning
46 / 55
Регуляризация в нейронной сети, #1
Что это и зачем?
ER = E y, t + R(W )
Примеры L1 и L2 регуляризации:
RL1(W ) = ijn w
(n)
ij
∂RL1(W )
∂w
(n)
ij
???
RL2(W ) =
1
2 ijn w
(n)
ij
2
∂RL2(W )
∂w
(n)
ij
???
47 / 55
Регуляризация в нейронной сети, #2
ER = E y, t + λ · R(W )
Примеры L1 и L2 регуляризации:
RL1(W ) = ijn w
(n)
ij
∂RL1(W )
∂w
(n)
ij
= sign w
(n)
ij
RL2(W ) =
1
2 ijn w
(n)
ij
2
∂RL2(W )
∂w
(n)
ij
= w
(n)
ij
48 / 55
Регуляризация в нейронной сети, #2
(a) RBM, no reg (b) RBM, L2 reg
Рис.: Иллюстрация эффекта регуляризации
49 / 55
Регуляризация в нейронной сети, #3
(a) RBM, L2 reg (b) RBM, L1 reg
Рис.: Иллюстрация эффекта регуляризации
50 / 55
Критерий остановки
Рис.: Кроссвалидация
51 / 55
Ускорение сходимости
Добавление момента обучения:
∆wij (τ) = η (µ∆wij (τ − 1) + wij ) (6)
Локальная скорость обучения:
δ
(n)
ij = −η · r
(n)
ij · (· · · ) (7)
r
(n)
ij =



r
(n)
ij = b + r
(n)
ij , w
(n)
ij (τ − 1) · w
(n)
ij (τ) > 0
r
(n)
ij = p · r
(n)
ij
(8)
где
b - аддитивный бонус
p - мультпликативный штраф
b + p = 1
естьсмысл добавить верхнюю и нижнюю границы для значения
r
(n)
ij
52 / 55
Планы
softmax слой в сети прямого распространения
обучение без учителя;
стохастический нейрон и стохастическая нейросеть;
ограниченная машина Больцмана.
глубокие сети
53 / 55
Вопросы

More Related Content

What's hot

Non Deterministic and Deterministic Problems
Non Deterministic and Deterministic Problems Non Deterministic and Deterministic Problems
Non Deterministic and Deterministic Problems Scandala Tamang
 
Restricted Boltzmann Machine - A comprehensive study with a focus on Deep Bel...
Restricted Boltzmann Machine - A comprehensive study with a focus on Deep Bel...Restricted Boltzmann Machine - A comprehensive study with a focus on Deep Bel...
Restricted Boltzmann Machine - A comprehensive study with a focus on Deep Bel...Indraneel Pole
 
Introduction to Graph Theory
Introduction to Graph TheoryIntroduction to Graph Theory
Introduction to Graph TheoryYosuke Mizutani
 
Trees (data structure)
Trees (data structure)Trees (data structure)
Trees (data structure)Trupti Agrawal
 
Red black tree
Red black treeRed black tree
Red black treeRajendran
 
SMIU Lecture #1 & 2 Introduction to Discrete Structure and Truth Table.pdf
SMIU Lecture #1 & 2 Introduction to Discrete Structure and Truth Table.pdfSMIU Lecture #1 & 2 Introduction to Discrete Structure and Truth Table.pdf
SMIU Lecture #1 & 2 Introduction to Discrete Structure and Truth Table.pdfMuhammadUmerIhtisham
 
Design and Analysis of Algorithms
Design and Analysis of AlgorithmsDesign and Analysis of Algorithms
Design and Analysis of AlgorithmsSwapnil Agrawal
 
Branch and bound technique
Branch and bound techniqueBranch and bound technique
Branch and bound techniqueishmecse13
 
4 informed-search
4 informed-search4 informed-search
4 informed-searchMhd Sb
 
Multi-Layer Perceptrons
Multi-Layer PerceptronsMulti-Layer Perceptrons
Multi-Layer PerceptronsESCOM
 
AI_Session 7 Greedy Best first search algorithm.pptx
AI_Session 7 Greedy Best first search algorithm.pptxAI_Session 7 Greedy Best first search algorithm.pptx
AI_Session 7 Greedy Best first search algorithm.pptxAsst.prof M.Gokilavani
 
Hashing algorithms and its uses
Hashing algorithms and its usesHashing algorithms and its uses
Hashing algorithms and its usesJawad Khan
 

What's hot (20)

Non Deterministic and Deterministic Problems
Non Deterministic and Deterministic Problems Non Deterministic and Deterministic Problems
Non Deterministic and Deterministic Problems
 
Restricted Boltzmann Machine - A comprehensive study with a focus on Deep Bel...
Restricted Boltzmann Machine - A comprehensive study with a focus on Deep Bel...Restricted Boltzmann Machine - A comprehensive study with a focus on Deep Bel...
Restricted Boltzmann Machine - A comprehensive study with a focus on Deep Bel...
 
Kruskal Algorithm
Kruskal AlgorithmKruskal Algorithm
Kruskal Algorithm
 
Merge sort algorithm
Merge sort algorithmMerge sort algorithm
Merge sort algorithm
 
Introduction to Graph Theory
Introduction to Graph TheoryIntroduction to Graph Theory
Introduction to Graph Theory
 
Trees (data structure)
Trees (data structure)Trees (data structure)
Trees (data structure)
 
Prolog basics
Prolog basicsProlog basics
Prolog basics
 
Topological Sort
Topological SortTopological Sort
Topological Sort
 
Red black tree
Red black treeRed black tree
Red black tree
 
SMIU Lecture #1 & 2 Introduction to Discrete Structure and Truth Table.pdf
SMIU Lecture #1 & 2 Introduction to Discrete Structure and Truth Table.pdfSMIU Lecture #1 & 2 Introduction to Discrete Structure and Truth Table.pdf
SMIU Lecture #1 & 2 Introduction to Discrete Structure and Truth Table.pdf
 
Graph algorithm
Graph algorithmGraph algorithm
Graph algorithm
 
Design and Analysis of Algorithms
Design and Analysis of AlgorithmsDesign and Analysis of Algorithms
Design and Analysis of Algorithms
 
Branch and bound technique
Branch and bound techniqueBranch and bound technique
Branch and bound technique
 
Chapter 8 ds
Chapter 8 dsChapter 8 ds
Chapter 8 ds
 
Tree in data structure
Tree in data structureTree in data structure
Tree in data structure
 
4 informed-search
4 informed-search4 informed-search
4 informed-search
 
Multi-Layer Perceptrons
Multi-Layer PerceptronsMulti-Layer Perceptrons
Multi-Layer Perceptrons
 
AI_Session 7 Greedy Best first search algorithm.pptx
AI_Session 7 Greedy Best first search algorithm.pptxAI_Session 7 Greedy Best first search algorithm.pptx
AI_Session 7 Greedy Best first search algorithm.pptx
 
Hashing algorithms and its uses
Hashing algorithms and its usesHashing algorithms and its uses
Hashing algorithms and its uses
 
NP completeness
NP completenessNP completeness
NP completeness
 

Viewers also liked

Лекция №13 "Глубокие нейронные сети"
Лекция №13 "Глубокие нейронные сети" Лекция №13 "Глубокие нейронные сети"
Лекция №13 "Глубокие нейронные сети" Technosphere1
 
Лекция №12 "Ограниченная машина Больцмана"
Лекция №12 "Ограниченная машина Больцмана" Лекция №12 "Ограниченная машина Больцмана"
Лекция №12 "Ограниченная машина Больцмана" Technosphere1
 
Лекция №8 "Методы снижения размерности пространства"
Лекция №8 "Методы снижения размерности пространства" Лекция №8 "Методы снижения размерности пространства"
Лекция №8 "Методы снижения размерности пространства" Technosphere1
 
Лекция №10 "Алгоритмические композиции. Завершение"
Лекция №10 "Алгоритмические композиции. Завершение" Лекция №10 "Алгоритмические композиции. Завершение"
Лекция №10 "Алгоритмические композиции. Завершение" Technosphere1
 
Лекция №9 "Алгоритмические композиции. Начало"
Лекция №9 "Алгоритмические композиции. Начало"Лекция №9 "Алгоритмические композиции. Начало"
Лекция №9 "Алгоритмические композиции. Начало"Technosphere1
 
Лекция №7 "Машина опорных векторов"
Лекция №7 "Машина опорных векторов" Лекция №7 "Машина опорных векторов"
Лекция №7 "Машина опорных векторов" Technosphere1
 
Введение в искусственные нейронные сети
Введение в искусственные нейронные сетиВведение в искусственные нейронные сети
Введение в искусственные нейронные сетиIvan Miniailenko
 
Введение в архитектуры нейронных сетей / Григорий Сапунов (Intento)
Введение в архитектуры нейронных сетей / Григорий Сапунов (Intento)Введение в архитектуры нейронных сетей / Григорий Сапунов (Intento)
Введение в архитектуры нейронных сетей / Григорий Сапунов (Intento)Ontico
 
Классификация изображений с помощью нейронных сетей. Сжатие и ускорение обуче...
Классификация изображений с помощью нейронных сетей. Сжатие и ускорение обуче...Классификация изображений с помощью нейронных сетей. Сжатие и ускорение обуче...
Классификация изображений с помощью нейронных сетей. Сжатие и ускорение обуче...Yandex
 
L6: Метод опорных векторов
L6: Метод опорных векторовL6: Метод опорных векторов
L6: Метод опорных векторовTechnosphere1
 
Презентация "О распознавании образов в искусственном интеллекте"
Презентация "О распознавании образов в искусственном интеллекте"Презентация "О распознавании образов в искусственном интеллекте"
Презентация "О распознавании образов в искусственном интеллекте"ph.d. Dmitry Stepanov
 
Fukushima Cognitron
Fukushima CognitronFukushima Cognitron
Fukushima CognitronESCOM
 
нейронная сеть кохонена
нейронная сеть кохоненанейронная сеть кохонена
нейронная сеть кохоненаbu33ard
 
Презентация "Методы и алгоритмы распознавания образов с использованием древо...
Презентация "Методы и алгоритмы распознавания образов  с использованием древо...Презентация "Методы и алгоритмы распознавания образов  с использованием древо...
Презентация "Методы и алгоритмы распознавания образов с использованием древо...ph.d. Dmitry Stepanov
 
Перечитывая Лео Бреймана
Перечитывая Лео БрейманаПеречитывая Лео Бреймана
Перечитывая Лео БрейманаSerge Terekhov
 
Нейрокомпьютеры и нейросети
Нейрокомпьютеры и нейросетиНейрокомпьютеры и нейросети
Нейрокомпьютеры и нейросетиrefasw
 

Viewers also liked (20)

Лекция №13 "Глубокие нейронные сети"
Лекция №13 "Глубокие нейронные сети" Лекция №13 "Глубокие нейронные сети"
Лекция №13 "Глубокие нейронные сети"
 
Лекция №12 "Ограниченная машина Больцмана"
Лекция №12 "Ограниченная машина Больцмана" Лекция №12 "Ограниченная машина Больцмана"
Лекция №12 "Ограниченная машина Больцмана"
 
Лекция №8 "Методы снижения размерности пространства"
Лекция №8 "Методы снижения размерности пространства" Лекция №8 "Методы снижения размерности пространства"
Лекция №8 "Методы снижения размерности пространства"
 
Лекция №10 "Алгоритмические композиции. Завершение"
Лекция №10 "Алгоритмические композиции. Завершение" Лекция №10 "Алгоритмические композиции. Завершение"
Лекция №10 "Алгоритмические композиции. Завершение"
 
Лекция №9 "Алгоритмические композиции. Начало"
Лекция №9 "Алгоритмические композиции. Начало"Лекция №9 "Алгоритмические композиции. Начало"
Лекция №9 "Алгоритмические композиции. Начало"
 
Лекция №7 "Машина опорных векторов"
Лекция №7 "Машина опорных векторов" Лекция №7 "Машина опорных векторов"
Лекция №7 "Машина опорных векторов"
 
Введение в искусственные нейронные сети
Введение в искусственные нейронные сетиВведение в искусственные нейронные сети
Введение в искусственные нейронные сети
 
Введение в архитектуры нейронных сетей / Григорий Сапунов (Intento)
Введение в архитектуры нейронных сетей / Григорий Сапунов (Intento)Введение в архитектуры нейронных сетей / Григорий Сапунов (Intento)
Введение в архитектуры нейронных сетей / Григорий Сапунов (Intento)
 
Классификация изображений с помощью нейронных сетей. Сжатие и ускорение обуче...
Классификация изображений с помощью нейронных сетей. Сжатие и ускорение обуче...Классификация изображений с помощью нейронных сетей. Сжатие и ускорение обуче...
Классификация изображений с помощью нейронных сетей. Сжатие и ускорение обуче...
 
L6: Метод опорных векторов
L6: Метод опорных векторовL6: Метод опорных векторов
L6: Метод опорных векторов
 
Презентация "О распознавании образов в искусственном интеллекте"
Презентация "О распознавании образов в искусственном интеллекте"Презентация "О распознавании образов в искусственном интеллекте"
Презентация "О распознавании образов в искусственном интеллекте"
 
Fukushima Cognitron
Fukushima CognitronFukushima Cognitron
Fukushima Cognitron
 
Neuroface
NeurofaceNeuroface
Neuroface
 
3 место - Белоусов Денис
3 место - Белоусов Денис3 место - Белоусов Денис
3 место - Белоусов Денис
 
нейронная сеть кохонена
нейронная сеть кохоненанейронная сеть кохонена
нейронная сеть кохонена
 
Нейросети
НейросетиНейросети
Нейросети
 
Презентация "Методы и алгоритмы распознавания образов с использованием древо...
Презентация "Методы и алгоритмы распознавания образов  с использованием древо...Презентация "Методы и алгоритмы распознавания образов  с использованием древо...
Презентация "Методы и алгоритмы распознавания образов с использованием древо...
 
2011 Истомин А.С.
2011 Истомин А.С.2011 Истомин А.С.
2011 Истомин А.С.
 
Перечитывая Лео Бреймана
Перечитывая Лео БрейманаПеречитывая Лео Бреймана
Перечитывая Лео Бреймана
 
Нейрокомпьютеры и нейросети
Нейрокомпьютеры и нейросетиНейрокомпьютеры и нейросети
Нейрокомпьютеры и нейросети
 

Similar to Лекция №11 "Основы нейронных сетей"

нейронные сети
нейронные сетинейронные сети
нейронные сетиhudvin
 
Deep Learning and Convolutional Networks
Deep Learning and Convolutional NetworksDeep Learning and Convolutional Networks
Deep Learning and Convolutional NetworksAlignedResearch
 
Лекция "Задача моделирования когнитивной эволюции"
Лекция "Задача моделирования когнитивной эволюции"Лекция "Задача моделирования когнитивной эволюции"
Лекция "Задача моделирования когнитивной эволюции"begingroup
 
Многослойній перцептрон- АОРО.ppt
Многослойній перцептрон- АОРО.pptМногослойній перцептрон- АОРО.ppt
Многослойній перцептрон- АОРО.pptAleksandrGozhyj
 
Задача выделения объекта на изображении: хаотично-фазовая синхронизация и аси...
Задача выделения объекта на изображении: хаотично-фазовая синхронизация и аси...Задача выделения объекта на изображении: хаотично-фазовая синхронизация и аси...
Задача выделения объекта на изображении: хаотично-фазовая синхронизация и аси...Semen Martynov
 
Методы машинного обучения в физике элементарных частиц
Методы машинного обучения в физике элементарных частицМетоды машинного обучения в физике элементарных частиц
Методы машинного обучения в физике элементарных частицAndrey Ustyuzhanin
 
Логические алгоритмы классификации
Логические алгоритмы классификацииЛогические алгоритмы классификации
Логические алгоритмы классификацииyaevents
 
CV2015. Лекция 4. Классификация изображений и введение в машинное обучение.
CV2015. Лекция 4. Классификация изображений и введение в машинное обучение.CV2015. Лекция 4. Классификация изображений и введение в машинное обучение.
CV2015. Лекция 4. Классификация изображений и введение в машинное обучение.Anton Konushin
 
Сверточные нейронные сети
Сверточные нейронные сетиСверточные нейронные сети
Сверточные нейронные сетиIvan Kavalerov
 
Введение в архитектуры нейронных сетей / HighLoad++ 2016
Введение в архитектуры нейронных сетей / HighLoad++ 2016Введение в архитектуры нейронных сетей / HighLoad++ 2016
Введение в архитектуры нейронных сетей / HighLoad++ 2016Grigory Sapunov
 
Ю.В.Андреев, А.С.Дмитриев, Д.А.Куминов "Хаотические процессоры"
Ю.В.Андреев, А.С.Дмитриев, Д.А.Куминов "Хаотические процессоры"Ю.В.Андреев, А.С.Дмитриев, Д.А.Куминов "Хаотические процессоры"
Ю.В.Андреев, А.С.Дмитриев, Д.А.Куминов "Хаотические процессоры"Anamezon
 
CV2015. Лекция 6. Нейросетевые алгоритмы.
CV2015. Лекция 6. Нейросетевые алгоритмы.CV2015. Лекция 6. Нейросетевые алгоритмы.
CV2015. Лекция 6. Нейросетевые алгоритмы.Anton Konushin
 
Нейролингвистический анализатор для распознавания голосовых данных на основе ИНН
Нейролингвистический анализатор для распознавания голосовых данных на основе ИНННейролингвистический анализатор для распознавания голосовых данных на основе ИНН
Нейролингвистический анализатор для распознавания голосовых данных на основе ИННKonstantin Zavarov, ICP
 
Finding the Source of Sound
Finding the Source of SoundFinding the Source of Sound
Finding the Source of SoundSSA KPI
 
лабораторная работа 1
лабораторная работа 1лабораторная работа 1
лабораторная работа 1Gulnaz Shakirova
 

Similar to Лекция №11 "Основы нейронных сетей" (20)

0907.0229
0907.02290907.0229
0907.0229
 
нейронные сети
нейронные сетинейронные сети
нейронные сети
 
Deep Learning and Convolutional Networks
Deep Learning and Convolutional NetworksDeep Learning and Convolutional Networks
Deep Learning and Convolutional Networks
 
Лекция "Задача моделирования когнитивной эволюции"
Лекция "Задача моделирования когнитивной эволюции"Лекция "Задача моделирования когнитивной эволюции"
Лекция "Задача моделирования когнитивной эволюции"
 
37359 (1).pptx
37359 (1).pptx37359 (1).pptx
37359 (1).pptx
 
Многослойній перцептрон- АОРО.ppt
Многослойній перцептрон- АОРО.pptМногослойній перцептрон- АОРО.ppt
Многослойній перцептрон- АОРО.ppt
 
лекция 32
лекция 32лекция 32
лекция 32
 
NeuralNetworks_intro
NeuralNetworks_introNeuralNetworks_intro
NeuralNetworks_intro
 
Задача выделения объекта на изображении: хаотично-фазовая синхронизация и аси...
Задача выделения объекта на изображении: хаотично-фазовая синхронизация и аси...Задача выделения объекта на изображении: хаотично-фазовая синхронизация и аси...
Задача выделения объекта на изображении: хаотично-фазовая синхронизация и аси...
 
Методы машинного обучения в физике элементарных частиц
Методы машинного обучения в физике элементарных частицМетоды машинного обучения в физике элементарных частиц
Методы машинного обучения в физике элементарных частиц
 
Логические алгоритмы классификации
Логические алгоритмы классификацииЛогические алгоритмы классификации
Логические алгоритмы классификации
 
CV2015. Лекция 4. Классификация изображений и введение в машинное обучение.
CV2015. Лекция 4. Классификация изображений и введение в машинное обучение.CV2015. Лекция 4. Классификация изображений и введение в машинное обучение.
CV2015. Лекция 4. Классификация изображений и введение в машинное обучение.
 
Сверточные нейронные сети
Сверточные нейронные сетиСверточные нейронные сети
Сверточные нейронные сети
 
Введение в архитектуры нейронных сетей / HighLoad++ 2016
Введение в архитектуры нейронных сетей / HighLoad++ 2016Введение в архитектуры нейронных сетей / HighLoad++ 2016
Введение в архитектуры нейронных сетей / HighLoad++ 2016
 
Ю.В.Андреев, А.С.Дмитриев, Д.А.Куминов "Хаотические процессоры"
Ю.В.Андреев, А.С.Дмитриев, Д.А.Куминов "Хаотические процессоры"Ю.В.Андреев, А.С.Дмитриев, Д.А.Куминов "Хаотические процессоры"
Ю.В.Андреев, А.С.Дмитриев, Д.А.Куминов "Хаотические процессоры"
 
CV2015. Лекция 6. Нейросетевые алгоритмы.
CV2015. Лекция 6. Нейросетевые алгоритмы.CV2015. Лекция 6. Нейросетевые алгоритмы.
CV2015. Лекция 6. Нейросетевые алгоритмы.
 
Лекция 3
Лекция 3Лекция 3
Лекция 3
 
Нейролингвистический анализатор для распознавания голосовых данных на основе ИНН
Нейролингвистический анализатор для распознавания голосовых данных на основе ИНННейролингвистический анализатор для распознавания голосовых данных на основе ИНН
Нейролингвистический анализатор для распознавания голосовых данных на основе ИНН
 
Finding the Source of Sound
Finding the Source of SoundFinding the Source of Sound
Finding the Source of Sound
 
лабораторная работа 1
лабораторная работа 1лабораторная работа 1
лабораторная работа 1
 

More from Technosphere1

Лекция №6 "Линейные модели для классификации и регрессии"
Лекция №6 "Линейные модели для классификации и регрессии" Лекция №6 "Линейные модели для классификации и регрессии"
Лекция №6 "Линейные модели для классификации и регрессии" Technosphere1
 
Лекция №5 "Обработка текстов, Naive Bayes"
Лекция №5 "Обработка текстов, Naive Bayes" Лекция №5 "Обработка текстов, Naive Bayes"
Лекция №5 "Обработка текстов, Naive Bayes" Technosphere1
 
Лекция №4 "Задача классификации"
Лекция №4 "Задача классификации"Лекция №4 "Задача классификации"
Лекция №4 "Задача классификации"Technosphere1
 
Лекция №2 "Задача кластеризации и ЕМ-алгоритм"
Лекция №2 "Задача кластеризации и ЕМ-алгоритм"Лекция №2 "Задача кластеризации и ЕМ-алгоритм"
Лекция №2 "Задача кластеризации и ЕМ-алгоритм"Technosphere1
 
Лекция №1 "Задачи Data Mining"
Лекция №1 "Задачи Data Mining" Лекция №1 "Задачи Data Mining"
Лекция №1 "Задачи Data Mining" Technosphere1
 
Лекция №3 "Различные алгоритмы кластеризации"
Лекция №3 "Различные алгоритмы кластеризации"Лекция №3 "Различные алгоритмы кластеризации"
Лекция №3 "Различные алгоритмы кластеризации"Technosphere1
 
L13: Заключительная
L13: ЗаключительнаяL13: Заключительная
L13: ЗаключительнаяTechnosphere1
 
Л9: Взаимодействие веб-приложений
Л9: Взаимодействие веб-приложенийЛ9: Взаимодействие веб-приложений
Л9: Взаимодействие веб-приложенийTechnosphere1
 
Л8 Django. Дополнительные темы
Л8 Django. Дополнительные темыЛ8 Django. Дополнительные темы
Л8 Django. Дополнительные темыTechnosphere1
 
L11: Метод ансамблей
L11: Метод ансамблейL11: Метод ансамблей
L11: Метод ансамблейTechnosphere1
 
Мастер-класс: Особенности создания продукта для мобильного веб
Мастер-класс: Особенности создания продукта для мобильного вебМастер-класс: Особенности создания продукта для мобильного веб
Мастер-класс: Особенности создания продукта для мобильного вебTechnosphere1
 
Мастер-класс: "Интеграция в промышленную разработку"
Мастер-класс: "Интеграция в промышленную разработку"Мастер-класс: "Интеграция в промышленную разработку"
Мастер-класс: "Интеграция в промышленную разработку"Technosphere1
 
L10: Алгоритмы кластеризации
L10: Алгоритмы кластеризацииL10: Алгоритмы кластеризации
L10: Алгоритмы кластеризацииTechnosphere1
 
Webdev7: Обработка HTTP запросов. Django Views
Webdev7: Обработка HTTP запросов. Django ViewsWebdev7: Обработка HTTP запросов. Django Views
Webdev7: Обработка HTTP запросов. Django ViewsTechnosphere1
 
L8: Л7 Em-алгоритм
L8: Л7 Em-алгоритмL8: Л7 Em-алгоритм
L8: Л7 Em-алгоритмTechnosphere1
 
L7:Задача кластеризации. Метрики качества
L7:Задача кластеризации. Метрики качестваL7:Задача кластеризации. Метрики качества
L7:Задача кластеризации. Метрики качестваTechnosphere1
 
L5: Л5 Байесовские алгоритмы
L5: Л5 Байесовские алгоритмыL5: Л5 Байесовские алгоритмы
L5: Л5 Байесовские алгоритмыTechnosphere1
 
L4: Решающие деревья
L4: Решающие деревьяL4: Решающие деревья
L4: Решающие деревьяTechnosphere1
 

More from Technosphere1 (20)

Лекция №6 "Линейные модели для классификации и регрессии"
Лекция №6 "Линейные модели для классификации и регрессии" Лекция №6 "Линейные модели для классификации и регрессии"
Лекция №6 "Линейные модели для классификации и регрессии"
 
Лекция №5 "Обработка текстов, Naive Bayes"
Лекция №5 "Обработка текстов, Naive Bayes" Лекция №5 "Обработка текстов, Naive Bayes"
Лекция №5 "Обработка текстов, Naive Bayes"
 
Лекция №4 "Задача классификации"
Лекция №4 "Задача классификации"Лекция №4 "Задача классификации"
Лекция №4 "Задача классификации"
 
Лекция №2 "Задача кластеризации и ЕМ-алгоритм"
Лекция №2 "Задача кластеризации и ЕМ-алгоритм"Лекция №2 "Задача кластеризации и ЕМ-алгоритм"
Лекция №2 "Задача кластеризации и ЕМ-алгоритм"
 
Лекция №1 "Задачи Data Mining"
Лекция №1 "Задачи Data Mining" Лекция №1 "Задачи Data Mining"
Лекция №1 "Задачи Data Mining"
 
Лекция №3 "Различные алгоритмы кластеризации"
Лекция №3 "Различные алгоритмы кластеризации"Лекция №3 "Различные алгоритмы кластеризации"
Лекция №3 "Различные алгоритмы кластеризации"
 
L13: Заключительная
L13: ЗаключительнаяL13: Заключительная
L13: Заключительная
 
Л9: Взаимодействие веб-приложений
Л9: Взаимодействие веб-приложенийЛ9: Взаимодействие веб-приложений
Л9: Взаимодействие веб-приложений
 
Л8 Django. Дополнительные темы
Л8 Django. Дополнительные темыЛ8 Django. Дополнительные темы
Л8 Django. Дополнительные темы
 
Webdev7 (2)
Webdev7 (2)Webdev7 (2)
Webdev7 (2)
 
L11: Метод ансамблей
L11: Метод ансамблейL11: Метод ансамблей
L11: Метод ансамблей
 
Мастер-класс: Особенности создания продукта для мобильного веб
Мастер-класс: Особенности создания продукта для мобильного вебМастер-класс: Особенности создания продукта для мобильного веб
Мастер-класс: Особенности создания продукта для мобильного веб
 
Web лекция 1
Web   лекция 1Web   лекция 1
Web лекция 1
 
Мастер-класс: "Интеграция в промышленную разработку"
Мастер-класс: "Интеграция в промышленную разработку"Мастер-класс: "Интеграция в промышленную разработку"
Мастер-класс: "Интеграция в промышленную разработку"
 
L10: Алгоритмы кластеризации
L10: Алгоритмы кластеризацииL10: Алгоритмы кластеризации
L10: Алгоритмы кластеризации
 
Webdev7: Обработка HTTP запросов. Django Views
Webdev7: Обработка HTTP запросов. Django ViewsWebdev7: Обработка HTTP запросов. Django Views
Webdev7: Обработка HTTP запросов. Django Views
 
L8: Л7 Em-алгоритм
L8: Л7 Em-алгоритмL8: Л7 Em-алгоритм
L8: Л7 Em-алгоритм
 
L7:Задача кластеризации. Метрики качества
L7:Задача кластеризации. Метрики качестваL7:Задача кластеризации. Метрики качества
L7:Задача кластеризации. Метрики качества
 
L5: Л5 Байесовские алгоритмы
L5: Л5 Байесовские алгоритмыL5: Л5 Байесовские алгоритмы
L5: Л5 Байесовские алгоритмы
 
L4: Решающие деревья
L4: Решающие деревьяL4: Решающие деревья
L4: Решающие деревья
 

Лекция №11 "Основы нейронных сетей"

  • 1. Лекция n1 Основы нейронных сетей Нестеров Павел 4 декабря 2014 г.
  • 2. План лекции Предпосылки Краткая история теории нейронных сетей Многоснойная нейронная сеть прямого распространения Алгоритм обратного распространения ошибки Что дальше? 1 / 55
  • 3. Принципиальное отличие Теория статистического обучения Линейная и логистическая регрессии, expectation-maximization, naive bayes classifier, random forest, support vectior machine, gradient boosting trees и т.д. Имитация работы мозга человека Perceptron, cognitron, self-organizing maps, multi-layer feedforward network, convolution network, Boltzmann machine, deep neural network и т.д. 2 / 55
  • 4. С другой стороны Искусственная нейронная сеть алгоритмическая композиция (ансамбль) слабых моделей байесова или марковская сеть ??? или любое другое обобщение, важны идеи лежащие в основе теории 3 / 55
  • 5. Нервная система до нейробиологии Рис.: 17 век, Рене Декарт о нервной системе: «Раздражение ступни передаётся по нервам в мозг, взаимодействует там с духом и таким образом порождает ощущение боли». 4 / 55
  • 6. Нервная система в современном понимании В 1906 году врач и гистолог Сантьяго Рамон-и-Кахаль совместно с врачем Камилло Гольджи получают нобелевскую премию за "за работы по структуре нервной системы"; их работы заложили основы нейронной теории нервной системы и современной нейробиологии. Рис.: Блок-схема нервной системы1 1Neural Networks and Learning Machines (3rd Edition), Simon O. Haykin 5 / 55
  • 8. Мозг человека, #2 86 · 109 нейронов в мозге, из них 16.3 · 109 в коре CPU: 15-core Xeon IvyBridge-EX - 4.3 · 109 транзисторов GPU: Nvidia Tesla GK110 Kepler - 7.08 · 109 транзисторов нейроны (и мозг в целом) обладают нейропластичностью - способностью изменяться под действием опыта; мозг - комплексная, нелинейная система параллельной обработки данных, способная изменять структуру своих составных частей; мозг решает определенный тип задач значительно быстрее чем любой современный компьютер, несмотря на то, что нейрон крайне медленная вычислительная единица. 7 / 55
  • 10. Нейронные ансамбли Физиолог и нейропсихолог Дональд Хебб разработал теорию взаимосвязи головного мозга и мыслительных процессов в книге "The Organization of Behavior"(1949). Нейронный ансамбль - совокупность нейронов, составляющих функциональную группу в высших отделах мозга. Нейроансамбль - распределенный способ кодирования информации. Нейрон сам по себе генерирует по мимо сигнала еще и шум, но ансамбль в среднем генерирует чистый сигнал (bagging?). 9 / 55
  • 11. Нейронная модель Ходжкина-Хаксли, #1 Модель Ходжкина—Хаксли (1952 год) — математическая модель, описывающая генерацию и распространение потенциалов действия в нейронах2 . Потенциал действия — волна возбуждения, перемещающаяся по мембране живой клетки в процессе передачи нервного сигнала. Нобелевская премия по физиологии и медицине "за открытия, касающиеся ионных механизмов возбуждения и торможения в периферических и центральных участках нервных клеток"(1963 год). 2см. приложение Cellmembranion.gif 10 / 55
  • 12. Нейронная модель Ходжкина-Хаксли, #2 Каждому элементу схемы соответствует свой биохимический аналог: Cm - электроемкость внутреннего липидного слоя клеточной мембраны; gn - потенциал-зависимые ионные каналы отвечают за нелинейную электрическую проводимость; gL - каналы мембранных пор отвечают за пассивную проводимость; Ex - источники напряжения побуждает ионы к движению через мембранные каналы. 11 / 55
  • 13. Модель МакКаллока-Питтса (1943 год) a (x) = θ n j=1 wj · xi − w0 ; θ (z) = [z ≥ 0] = 0,z<0 1,z≥0 - функция Хевисайда; эквивалентно линейному классификатору. Данная модель, с незначительными изменениями, актуальна и по сей день. 12 / 55
  • 14. Правила Хебба (1949) В своей книге Дональд Хебб описал процесс адаптирования нейронов в мозге в процессе обучения, и сформулировал базовые механизмы нейропластичности: 1. если два нейрона по разные стороны от синапсов активируются синхронно, то "вес"синапса слегка возрастает; 2. если два нейрона по разные стороны от синапсов активируются асинхронно, то "вес"синапса слегка ослабевает или синапс удаляется3 . Эти правила легли в основу зарождающейся теории нейросетей, сегодня в мы можем увидеть этот мета-алгоритм в основных методах обучения нейронных сетей. 3это расширенное правило, в оригинале второй части не было 13 / 55
  • 15. Правила Хебба, математическая формулировка, #1 Допустим у нас имеется набор бинарных векторов размерности n, каждому из которых соответствует бинарный выход y: X = {x1, x2, . . . , xm} , ∀xi ∈ {0, 1} n Y = {y1, y2, . . . , ym} , ∀yi ∈ {0, 1} D = {(x1, y1) , (x2, y2) , . . . , (xn, yn)} Тогда нейрон может совершить два типа ошибок: 1. ˆyi = 0 ∧ yi = 1 ⇒ увеличить веса при тех входах равных 1 зачем? 2. ˆyi = 1 ∧ yi = 0 ⇒ уменьшить веса при тех входах равных 1 зачем? 14 / 55
  • 16. Правила Хебба, математическая формулировка, #2 Тогда нейрон может совершить два типа ошибок: 1. ˆyi = 0 ∧ yi = 1 ⇒ увеличить веса при тех входах равных 1 не преодолели порог ⇒ увеличить скалярное произведение 2. ˆyi = 1 ∧ yi = 0 ⇒ уменьшить веса при тех входах равных 1 перешагнули порог ⇒ уменьшить скалярное произведение 15 / 55
  • 17. Однослойный персептрон Розенблатта (1958 год) Нейрофизиолог Френк Розенблатт предложил схему устройства, моделирующего процесс человеческого восприятия, и назвал его "персептроном". По мимо этого: показал, что персептрон может выполнять базовые логические операции; разработал алгоритм обучения такой модели - метод коррекции ошибки; доказал сходимость алгоритма (теорема сходимости персептрона), но только для линейно разделимых классов; реализовал физический прототип такой модели; реализовал первый в мире нейрокомпьютер "MARK-1". 16 / 55
  • 19. Элементарный персептрон Метод коррекции ошибки ˆyi = 0 ∧ yi = 1 ⇒ ∆w = η(n) · x(n) ˆyi = 1 ∧ yi = 0 ⇒ ∆w = −η(n) · x(n) η(n) - скорость обучения, зависящая от итерации x(n) - входной образ на итерации n 18 / 55
  • 22. Анимация сходимости для операций AND и XOR операция OR - 1layer-net-or.gif операция AND - 1layer-net-and1.gif операция XOR - 1layer-net-xor.gif 4 4http://theclevermachine.wordpress.com/2014/09/11/a-gentle-introduction-to- artificial-neural-networks/ 21 / 55
  • 23. Доказательства неэффективности нейронных сетей В 1969 году математик и исследователь ИИ Марвин Минский провел детальный математический анализ персептрона и опубликовал формальное доказательство ограниченности этой модели. "There is no reason to suppose that any of these virtues carry over to the many-layered version. Nevertheless, we consider it to be an important research problem to elucidate (or reject) our intuitive judgement that the extension to multilayer systems is sterile."5 Отсутствие преимуществ + ограничения модели в итоге поубавили интерес научного сообщества к нейронным сетям, требовалось, что то принципиально новое 5Персептроны, Марвин Минский в соавторстве с Сеймуром Папертом, MIT Press, 1969 22 / 55
  • 24. Период "забвения" Исследования искусственных нейросетей не спеша продолжаются, но в режиме поиска чего-то нового: 1972: Т. Кохонен разрабатывает новый тип нейросетей, способных функционировать в качестве памяти; 1975-1980: К. Фукусима разрабатывает когнитрон и неокогнитрон, совершенно новый тип многослойной сверточной сети, созданной по аналогии со строением зрительной системы; 1982: Дж. Хопфилд разрабатывает новый тип нейросети с обратными связями, выполняющей функции ассоциативной памяти; 1986: Дэвид Румельхарт, Дж. Хинтон и Рональд Вильямс разрабатывают вычислительно эффективный многослойных нейросетей - метод обратного распространения ошибки (именно работа этих авторов возрождает интерес к нейронным сетям в мире). 23 / 55
  • 25. Теорема универсальной аппроксимации6 Введем следующие обозначения: φ(x) - не тождественная, ограниченная и монотонно возрастающая функция In - n-мерный единичный гиперкуб C (In) - множество непрерывных функций на In ⇒ ∀f ∧ ∀ > 0∃ m ∈ N {βi }i=1...m , ∀βi ∈ R {αi }i=1...m , ∀αi ∈ R {wij }j=1...n,i=1...m , ∀wij ∈ R ∧∃F (x1, . . . , xn) = m i=1 αi φ n j=1 wij · xj + βi : |F (x1, . . . , xn) − f (x1, . . . , xn)| < Какая архитектура нейросети удовлетворяет такой формулировке? 6Neural Networks and Learning Machines (3rd Edition), Simon O. Haykin 24 / 55
  • 26. Универсальный аппроксиматор В чем проблема универсального аппроксиматора, исходя из условий теоремы? 25 / 55
  • 27. Демонстрация сходимости нейросети с одним скрытым слоем операция XOR - 2layer-net-xor.gif бинарная классификация - 2layer-net-ring.gif аппроксимация функции sin - 2layer-net-regression-sine.gif аппроксимация функции abs - 2layer-net-regression-abs.gif7 7http://theclevermachine.wordpress.com/2014/09/11/a-gentle-introduction-to- artificial-neural-networks/ 26 / 55
  • 28. Многоснойная нейронная сеть прямого распространения Рис.: Архитектура сети с двумя скрытыми слоями8 8Neural Networks and Learning Machines (3rd Edition), Simon O. Haykin 27 / 55
  • 29. Отличие персептрона Румельхарта от персептрона Розенблатта Нелинейная функция активации; один и более скрытых слоев (до работ Хинтона по ограниченной машине Больцмана, на практике не использовали более двух скрытых слоев, а чаще всего один); сигналы на входе и на выходе не обязательно бинарные; произвольная архитектура сети (в рамках многослойности); ошибка сети интерпретирует в смысле некоторой меры, а не как число неправильных образов в режиме обучения. 28 / 55
  • 30. Модифицированная модель нейрона МакКаллока-Питтса Рис.: Схема искусственного нейрона9 9Neural Networks and Learning Machines (3rd Edition), Simon O. Haykin 29 / 55
  • 31. Функция активации Задача функции активации - ограничить амплитуду выходного значения нейрона; чаще всего для этого используется одна из сигмоидальных (S-образных) функций: логистическая функция: f (z) = 1 1 + e−a·z , ∀a ∈ R гиперболический тангенс: f (z) = ea·x − e−a·x ea·x + e−a·x , ∀a ∈ R Рис.: Логистический сигмоид 30 / 55
  • 32. Backprop, обозначения #1 z (n) j = b (n) j + Nn−1 i=1 w (n) ij x (n) i = Nn−1 i=0 w (n) ij x (n) i (1) y (n) k = f (n) k z (n) k (2) 31 / 55
  • 33. Backprop, обозначения #2 Обычное обучение с учителем: дан набор данных D = (x1, t1) , (x2, t2) , . . . , x|D|, t|D| , xi ∈ RNinput , yi ∈ RNoutput необходимо построить такое отображение (нейросеть) fnetwork : X → Y , которое минимизирует некоторый функционал ошибки E : RNoutput × RNoutput → R, например Евклидово расстояние для задачи регрессии логарифм функции правдоподобия распределения Бернулли для задачи классификации среди пересекающихся классов кросс-энтропия для задачи классификации среди непересекающихся классов 32 / 55
  • 34. Градиентный спуск, #1 Алгоритм backprop - это модификация классического градиентного спуска. Параметрами модели являются только веса всех нейронов сети: δ (n) ij = −η ∂E y(n) , t ∂w (n) ij (3) η - скорость обучения (спуска, learning rate) y(n) - вектор выходов нейросети (выходы последнего слоя) t - ожидаемые выходы нейросети для текущего примера Есть идеи? 33 / 55
  • 36. Градиентный спуск, #3 ∂E ∂w (n) ij = ∂E ∂z (n) j ∂z (n) j ∂w (n) ij ∂z (n) j ∂w (n) ij = i ∂w (n) ij x (n−1) i ∂w (n) ij = x (n−1) i В итоге получим: ∂E ∂w (n) ij = x (n−1) i ∂E ∂z (n) j (4) 35 / 55
  • 37. Градиентный спуск, выходной слой, #1 ∂E ∂w (n) ij = x (n−1) i ∂E ∂z (n) j E (y(z), t) ??? 36 / 55
  • 38. Градиентный спуск, выходной слой, #2 ∂E ∂w (n) ij = x (n−1) i ∂E ∂z (n) j = x (n−1) i ∂E ∂y (n) j ∂y (n) j ∂z (n) j (5) Таким образом при условии дифференцируемости целевой функции и функции активации, вычисление градиента любого из весов выходного слоя становится легко решаемой задачей. 37 / 55
  • 39. Градиентный спуск, любой скрытый слой, #1 ∂E ∂w (n) ij = x (n−1) i ∂E ∂z (n) j = x (n−1) i k ∂E ∂z (n+1) k ∂z (n+1) k ∂z (n) j = x (n−1) i k ∂E ∂z (n+1) k ∂z (n+1) k ∂yn j ∂yn j ∂zn j ∂z (n+1) k ∂yn j ??? 38 / 55
  • 40. Градиентный спуск, любой скрытый слой, #2 Рис.: Схема прямого (нелинейного) и обратного (линейного) распространения сигнала в сети 39 / 55
  • 41. Градиентный спуск, любой скрытый слой, #3 ∂E ∂w (n) ij = x (n−1) i ∂E ∂z (n) j = x (n−1) i k ∂E ∂z (n+1) k ∂z (n+1) k ∂z (n) j = x (n−1) i k ∂E ∂z (n+1) k ∂z (n+1) k ∂yn j ∂yn j ∂zn j ∂z (n+1) k ∂yn j = i ∂w(n+1)ik yn i ∂yn j = w (n+1) ik 40 / 55
  • 42. Градиентный спуск, любой скрытый слой, #4 ∂E ∂w (n) ij = x (n−1) i ∂E ∂z (n) j = x (n−1) i k ∂E ∂z (n+1) k ∂z (n+1) k ∂z (n) j = x (n−1) i k ∂E ∂z (n+1) k ∂z (n+1) k ∂yn j ∂yn j zn j = x (n−1) i k w (n+1) ik ∂E ∂z (n+1) k ∂yn j ∂zn j 41 / 55
  • 43. Некоторые функции стоимости, #1 Среднеквадратичная ошибка: E = 1 2 i∈output (ti − yi ) 2 ∂E ∂yi ??? Логарифм правдоподобия Бернулли: E = − i∈output (ti log yi + (1 − ti ) log (1 − yi )) ∂E ∂yi ??? 42 / 55
  • 44. Некоторые функции стоимости, #2 Среднеквадратичная ошибка: E = 1 2 i∈output (ti − yi ) 2 ∂E ∂yi = yi − ti Логарифм правдоподобия Бернулли: E = − i∈output (ti log yi + (1 − ti ) log (1 − yi )) ∂E ∂yi = ti yi − 1 − ti 1 − yi 43 / 55
  • 45. Некоторые функции активации, #1 Логистическая функция: f (z) = 1 1 + e−a·z ∂f ∂z ??? Гиперболический тангенс: f (z) = ea·z − e−a·z ea·z + e−a·z ∂f ∂z ??? 44 / 55
  • 46. Некоторые функции активации, #2 Логистическая функция: f (z) = 1 1 + e−a·z ∂f ∂z = a · f (z) · (1 − f (x)) Гиперболический тангенс: f (z) = ea·z − e−a·z ea·z + e−a·z ∂f ∂z = a · 1 − f 2 (z) 45 / 55
  • 47. Режимы обучения online learning batch learning full-batch learning 46 / 55
  • 48. Регуляризация в нейронной сети, #1 Что это и зачем? ER = E y, t + R(W ) Примеры L1 и L2 регуляризации: RL1(W ) = ijn w (n) ij ∂RL1(W ) ∂w (n) ij ??? RL2(W ) = 1 2 ijn w (n) ij 2 ∂RL2(W ) ∂w (n) ij ??? 47 / 55
  • 49. Регуляризация в нейронной сети, #2 ER = E y, t + λ · R(W ) Примеры L1 и L2 регуляризации: RL1(W ) = ijn w (n) ij ∂RL1(W ) ∂w (n) ij = sign w (n) ij RL2(W ) = 1 2 ijn w (n) ij 2 ∂RL2(W ) ∂w (n) ij = w (n) ij 48 / 55
  • 50. Регуляризация в нейронной сети, #2 (a) RBM, no reg (b) RBM, L2 reg Рис.: Иллюстрация эффекта регуляризации 49 / 55
  • 51. Регуляризация в нейронной сети, #3 (a) RBM, L2 reg (b) RBM, L1 reg Рис.: Иллюстрация эффекта регуляризации 50 / 55
  • 53. Ускорение сходимости Добавление момента обучения: ∆wij (τ) = η (µ∆wij (τ − 1) + wij ) (6) Локальная скорость обучения: δ (n) ij = −η · r (n) ij · (· · · ) (7) r (n) ij =    r (n) ij = b + r (n) ij , w (n) ij (τ − 1) · w (n) ij (τ) > 0 r (n) ij = p · r (n) ij (8) где b - аддитивный бонус p - мультпликативный штраф b + p = 1 естьсмысл добавить верхнюю и нижнюю границы для значения r (n) ij 52 / 55
  • 54. Планы softmax слой в сети прямого распространения обучение без учителя; стохастический нейрон и стохастическая нейросеть; ограниченная машина Больцмана. глубокие сети 53 / 55