14. 反復再重み付け最小二乗
誤差関数
の最小解を求めたいが、解析的には求めることができないとき。
=> ニュートン・ラフソン法(所謂ニュートン法)を使って数値的に求める。
2 @E
3
!
@E
· · · @w1 @wM
@w1 @w1
!
7
6
.
.
..
.
.
w(new) = w(old) H 1 rE(w), H = 4
5
.
.
.
!
@E
@E
· · · @wM @wM
@wM @w1
!
【ケース1】p139(3.1)の二乗和誤差関数で試してみる。
N
1X
誤差関数 ED (w) =
{tn wT (xn )}2 について
2 n=1
!
N
N
X
X
T
T
T
rE(w) =
(wT n tn ) n = T w
t, H = rrE(w) =
n n =
!
n=1
n=1
!
これを更新式に当てはめると、p139の(3.15)と同じ結果が得られる。
(反復回数 = 1回と見ることができる)
w(new) = w(old)
= w(old)
=(
T
1
H
(
)
T
1
T
rE(w)
)
t
1
T
w(old)
T
t
15. 反復再重み付け最小二乗
【ケース2】交差エントロピー誤差関数に適用してみる。
!
N
X
{tn ln yn + (1 tn ) ln (1 yn )} について
誤差関数 E(w) =
n=1
!
N
N
X
X
! rE(w) =
(yn tn ) n = T (y t), H = rrE(w) =
yn (yn tn ) n T = T R
n
n=1
n=1
!
但し、 は Rnn = yn (1 yn ) を対角要素とする対角行列。
R
yn = (wT n ) なので、ヘッセ行列もwに依存している(= 誤差関数が2次でない)。
ヘッセ行列が正定値行列なので誤差関数は凸関数となり、唯一の最小解を持つ。
!
上式を更新式に当てはめると w(new) = w(old) H 1 rE(w)
!
= w(old) ( T R ) 1 T (y t)
!
T
= ( T R ) 1 T R w(old)
(y t)
!
= ( T R ) 1 T Rz
!
(old)
R 1 (y t)
但し、z = w
16. R と z に対する考察
ここで、tに関する平均 E[t]と分散 var[t]は以下の式で与えられる。
!
E[t] = (x) = y
!
2
2
2
var[t] = E[t ]
E[t] = (x)
(x) = y(1
!
従って、重み付け対角行列 R の要素 = 分散
!
また、z は w (old) の周りで局所線形近似して得られる
空間上の目的変数値と解釈できる。
dan
!
(old)
an (w) ' an (w
)+
|w(old) (tn
dyn
(yn tn )
T (old)
= nw
yn (1 yn )
= zn
yn )
y)
21. プロビット回帰
クラスの条件付き確率密度の事後確率が簡単な形式にならない場合を考慮し、
別のタイプの識別確率モデルを考える。
f (·) : 活性化関数
p(t = 1|a) = f (a), a = wT
!
!
雑音閾値モデル
T
各入力 n に対して an = w n を評価し、
右の式に従って目的変数値 tnを設定する。
✓ の値がある確率密度 p(✓)で与えられる場合の活性化関数は以下の式で書ける。
Z a
!
f (a) =
p(✓)d✓
!
1
!
✓ が平均 = 0、分散 = 1のガウス分布で与えられるとき
Z a
!
(a) =
N (✓|0, 1)d✓ => プロビット関数の逆関数
1
26. 正準連結関数
目的変数 t の分布が指数型分布族だと仮定して、p201(4.84)の指数型分布族の制限形
式を利用すると t の条件付き確率分布は、以下の式になる。
!
1 t
⌘t
p(t|⌘, s) = h
g(⌘) exp
!
s s
s
!
d
ln g(⌘) が得られる。
p113(2.226)と同様の計算をすれば y ⌘ E[t|⌘] = s
d⌘
y と ⌘ の関係を ⌘ = (y) とする。
この
T
また、一般化線形モデルを y = f (w ) と定義する。
!
N
N
X
X
⌘ n tn
ln p(tn |⌘, s) =
+C
ln g(⌘n ) +
p(t|⌘, s) の対数尤度関数は ln p(t|⌘, s) =
s
n=1
n=1
!
T
上記式をパラメータ w について微分すると an = w n とおけば
r ln p(t|⌘, s) =
N
X
n=1
d
tn d⌘n dyn
ln g(⌘n ) +
ran
d⌘n
s dyn dan
N
X1
=
{tn
s
n=1
yn } 0 (yn )f 0 (an )
n
27. 正準連結関数
1
前ページの式を簡略化するために f (y) = (y) を定義すると、以下の式が成り立つ
!
f ( (y)) = y, f 0 ( ) 0 (y) = 1, a = f 1 (y) ! a = , f 0 (a) 0 (y) = 1
!
!
これを用いれば、次式のようになる。
N
!
1X
rE(w) =
{yn
s n=1
!
tn }
n
!
1
ガウス分布の場合は s =
、ロジスティックモデルの場合は s = 1 を代入すれば
2ページ前の式と等しくなる。
33. 演習問題4.13
E(w) =
N
X
tn ln yn + (1
rE(w) =
yn ) に対して、
tn ) ln(1
n=1
N
X
n=1
(yn
tn )
n
を示す。
!
d
w に依存する項は yn だけなので、 nを求める。 = (1
ry
) より、
パラメータ
da
!
dyn
d (wT n )
dwT n
= (1
)
= (1
) n = yn (1 yn ) n
!ryn = dw =
dw
dw
!
N
X
tn r ln yn + (1 tn )r ln(1 yn )
従って、 rE(w) =
n=1
!
N
X
⇤
⇥ d
⇤
⇥ d
!
=
ln yn ryn + (1 tn )
ln(1 yn ) r(1 yn )
tn
dyn
dyn
n=1
!
N
X
⇥
⇤
1
1
!
=
tn yn (1 yn ) n + (1 tn )
yn (1 yn ) n
yn
(1 yn )
n=1
!
N
X
!
=
tn (1 yn ) (1 tn )yn n
!
n=1
=
N
X
n=1
(yn
tn )
n