深層学習(講談社)のまとめ（１章～2章）

深層学習(講談社)
自分用まとめ
※記述内容は間違っている場合もあります
本のまとめシリーズ

今回の本
深層学習
(機械学習プロフェッショナルシリーズ)
出版社：講談社
著者：岡谷貴之
ISBN：978-4061529021

目次
1. 研究の歴史
2. 順伝播型ネットワーク
3. 確率的勾配降下法(順伝播型ネットワークの学習法)
3+α. 誤差逆伝播法
4. 自己符号化器
5. 畳込みニューラルネットワーク(CNN)
6. 再帰型ニューラルネットワーク(RNN)
7. ボルツマンマシン

１．研究の歴史
人間（生物）の脳神経系を模したニューロン、ニューラルネットワークという
モデルが登場
誤差逆伝播法の開発によって再度注目の的に
しかし…
・過学習、勾配消失問題などにより多層化が困難
・層数やユニット数などのパラメータと性能の関連が分からない
画像を対象とした
CNNは
成功してたけど…
ブーム鎮火
ブーム鎮火
ディープビリーフネットワーク（DBN）※１の研究がきっかけで再ブームに。
制約ボルツマンマシンに分解し貪欲法に従って学習することでDBNが学習できる
ことを順伝播型NNに適用するとうまくいった。この方法は事前学習と呼ばれる。
※１多層構造をもつグラフィカルモデルで、
振る舞いは確率的に記述したもの。

さらに自己符号化器による多層化も可能に。
多層NNは、層ごとに事前学習によって得たパラメータを初期値にすれば
学習がうまくいく、と分かった。
多層NNの性能が認められ、深層学習として注目されるように。
その深層学習にも再帰型NNやCNNなど、様々な方法論がある。
また、事前学習を使わない方法も開発されている。
そんな深層学習について、学習をはじめよう
１．研究の歴史

２．順伝播型ネットワーク

「順伝播型ネットワーク」って？
→人間の神経細胞をモデル化したユニットを重ねたりして構成した
一方向にだけ進むニューラルネットワーク。
何ができんの？
→各ユニットの重みｗを頑張って調整すれば最終的な出力を目標の関数に
近づけられる
→「学習」ができる（今回は教師ありとする）
→回帰・二値分類・クラス分類等、色んな問題が解ける
２章概要

・順伝播型ネットワーク (feedforward neural network)
情報が入力側から出力側に一方向のみに伝播するNN。
多層パーセプトロンとも言う。
ニューロンのモデル化
𝑥1
𝑥2
𝑥3
入力
𝜔1
𝜔2
𝜔3
左図はマカロック・ピッツがニューロンを
モデル化したもの。このニューロンの出力ｚは
重みづけした総入力にバイアス bを加えたものに
対応する活性化関数 f の値。
ｚ
𝑧 = 𝑓 𝑢
𝑢 = 𝜔1 𝑥1 + 𝜔2 𝑥2 + 𝜔3 𝑥3 + b

順伝播型ネットワークでは、マカロックピッツモデルに似た
（活性化関数がステップ関数に限らないという点で相違）
ユニットを以下のように層状に結合させて構築する。
𝑥1
𝑥2
𝑥3
𝑥4
𝑧3
𝑧1
𝑧2𝑢2
𝑢1
𝑢3
𝑧𝑗 = 𝑓 𝑢𝑗
𝑢𝑗 = ∑ 𝜔𝑗𝑗 𝑥𝑖
𝐼
𝑖=1 + 𝑏𝑗
𝑥𝐼
𝑢𝐽
⋯
⋯
行列とベクトルを用いて𝑢𝑗を以下のように
表記することも。
𝑢𝑗 = 𝐰 ∙ 𝒙
= 1 𝜔𝑗1 … 𝜔𝑗𝐼
𝑏𝑗
𝑥1
⋮
𝑥𝐼

・活性化関数
ユニットの持つ関数。様々なものが用いられる。
・ロジスティックシグモイド関数、ロジスティック関数
𝑓 𝑥 =
1
1 + 𝑒−𝑥
・双曲線正接関数
𝑓 𝑥 = tanh 𝑥
※上記のような入力に対し出力が徐々に滑らかに変化する関数：シグモイド関数
・正規化線形関数(rectified linear function)
𝑓 𝑥 = max(𝑥, 0)

・線形写像、恒等写像
𝑓 𝑥 = 𝑥
・マックスアウト
K個のユニットをまとめて１つしたように振る舞う活性化関数。
K個ずつそれぞれの重みとバイアスを持ち、K個の総入力が求められる。
そのユニットの出力はK個の総入力のうち最大のものを選ぶ。
𝑢𝑗𝑗 = � 𝜔𝑗𝑗𝑗 𝑧𝑖 + 𝑏𝑗𝑗
𝑖
𝑓 𝑢𝑗 = max 𝑢𝑗𝑗

以下のように層状に結合させた2層の（入力層をカウントしない）ネットワークを
考える
・多層化ネットワーク
𝑥1
𝑥2
𝑥3
𝑥4
𝑦1
𝑦2
𝑙 = 1 𝑙 = 2 𝑙 = 3 左から入力層、中間層（隠れ層）、出力層と
言う。
重みやバイアス、入出力をベクトルと行列で
表すと、以下のように汎化される。
また、最終層（L層）の出力を
𝐲 = 𝒛(𝐿)
とする。
𝒖(𝑙+1)
= 𝑾(𝑙+1)
𝒛(𝑙)
+ 𝒃(𝑙+1)
𝑾(2)
𝑾(3)
𝒛(𝑙+1)
= 𝑓(𝒖(𝑙+1)
)
入
力
層
中
間
層
出
力
層

すると、前ページの多層ネットワークは
𝐲 = y(𝒙)
と見ることができ、各パラメータを 𝒘 = 𝑾 1 , … , 𝑾 𝐿 , 𝒃 1 , … , 𝒃 𝐿 と
まとめれば
𝐲 = y(𝒙; 𝒘)
と表記できる。

前述の 𝐲 = y(𝒙; 𝒘) が目標とする関数に近づくようにパラメータを調整する
ことを学習という。
ここでは、ある入力に対して望む出力のペアが複数与えられていると
仮定する。この入力 𝒙𝑖 と望ましい出力 𝒅𝑖 のペアを訓練サンプル、
その集合を訓練データと呼ぶ。
つまり、y 𝒙𝑖; 𝒘 ≈ 𝒅𝑖 となるようにパラメータを調整していく。
この時、望ましい出力とネットワークの出力の違い、誤差を測る尺度を
誤差関数と呼ぶ。
・学習の概要
回帰・二値分類・クラス分類の３つの問題を解いてみよう

目標が、主に連続値を出力する関数である問題。
出力層の活性化関数が目標関数と同じ値域を取るように設計する。
誤差関数は二乗誤差
𝒅 − 𝑦(𝒙; 𝒘) 2
を使った
𝐸 𝒘 =
1
2
� 𝒅 𝑛 − 𝑦(𝒙 𝑛; 𝒘) 2
𝑁
𝑛=1
を用いるのが一般的。これを最小化するように w を学習させていく
※訓練データ数 𝑛 = 1,2, … , 𝑁
・回帰

入力 x を内容に応じて２種類に区別する問題。
ex. 写真から男性か女性かを判別する、など。
ここで、入力 x から分類 d ∈ 0,1 の値を推定することを考える。
そこで、入力 x のとき 𝑑 = 1 である確率 𝑝 𝑑 = 1 𝒙 をネットワークの
入出力関係でモデル化することを考える。
𝑝 𝑑 = 1 𝒙 ≈ 𝑦(𝒙; 𝒘)
また、このネットワークの出力層は１つのユニットのみで構成されており、
活性化関数はロジスティック関数とする。
与えられた訓練データ (𝑥 𝑛, 𝑑 𝑛) |𝑛 = 1, … , 𝑁 からモデルを用いて
求められる事後分布 𝑝 𝑑 𝒙; 𝒘 がデータと一致するように学習していく。
・二値分類

具体的には、パラメータ w の訓練データに対する尤度を定義し、その値を
最大化するようなパラメータを求める最尤推定を行う。
w の尤度は
𝐿 𝒘 = � 𝑝(𝑑 𝑛|𝒙 𝑛; 𝒘)
𝑁
𝑛=1
と求められる。このとき、𝑝 𝑑 = 1 𝒙 ≈ 𝑦(𝒙; 𝒘) であり事後分布𝑝 𝑑 𝒙; 𝒘
はベルヌーイ分布で表せることから
𝑝 𝑑 𝒙; 𝒘 = 𝑝 𝑑 = 1 𝒙 𝑑
𝑝 𝑑 = 0 𝒙 1−𝑑
= 𝑦(𝒙; 𝒘) 𝑑
1 − 𝑦(𝒙; 𝒘) 1−𝑑
と求められる。

前述の結果を尤度に代入する。
𝐿 𝒘 = � 𝑦(𝒙 𝒏; 𝒘) 𝑑 𝑛 1 − 𝑦(𝒙 𝒏; 𝒘) 1−𝑑 𝑛
𝑁
𝑛=1
これの対数をとり、符号を反転させた
𝐸 𝒘 = − � 𝑑 𝑛log𝑦 𝒙 𝒏; 𝒘 + 1 − 𝑑 𝑛 log{1 − 𝑦 𝒙 𝒏; 𝒘 }
𝑁
𝑛=1
を誤差関数とし、この最小化（符号を反転したため）を求める
※対数関数の単調性から対数をとっても結果は変わらない。

ある入力を内容に応じて有限個のクラスに分類する問題。
ex. 手書き数字の認識
まず、出力層に分類したいK個のクラス分のユニットを用意。
また、活性化関数には以下のソフトマックス関数を用いる。
𝑧 𝑘
(𝐿)
=
exp(𝑢 𝑘
𝐿 )
∑ exp(𝑢𝑗
𝐿 )𝐾
𝑗=1
※総和が１になることや負の値を取らないところが便利。
二値分類と同様にネットワークの出力を各クラス 𝐶 𝑘 の事後確率のモデルとして
扱う。
𝑝 𝐶 𝑘 𝒙 ≈ 𝑧 𝑘
(𝐿)
・クラス分類

訓練データは、入力 𝒙 𝑛 に対して目標 𝒅 𝑛 = 𝑑1, … , 𝑑 𝐾 の訓練サンプルの集合で、
入力 𝒙 𝑛 に対するクラスが 𝐶 𝑘 のとき 𝑑 𝑘 = 1 でそれ以外は０である。
このように目標を設定した時事後確率は
𝑝 𝒅 𝒙 = � 𝑝(𝐶 𝑘|𝒙) 𝑑 𝑘
𝐾
𝑘=1
と表せる。このことから、尤度は
𝐿 𝒘 = � � 𝑦 𝑘(𝒙 𝒏; 𝒘) 𝑑 𝑛𝑛
𝐾
𝑘=1
𝑁
𝑛=1
と求められ、誤差関数は同様に対数をとり符号を反転させて
𝐸 𝒘 = − � � 𝑑 𝑛𝑛log𝑦 𝑘 𝒙 𝒏; 𝒘
𝐾
𝑘=1
𝑁
𝑛=1
とする。この関数は交差エントロピーと呼ばれ、これを最小化するように学習していく。

深層学習(講談社)のまとめ（１章～2章）

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Viewers also liked

Viewers also liked (20)

Similar to 深層学習(講談社)のまとめ（１章～2章）

Similar to 深層学習(講談社)のまとめ（１章～2章） (20)

More from okku apot

More from okku apot (6)

Recently uploaded

Recently uploaded (7)

深層学習(講談社)のまとめ（１章～2章）