SlideShare a Scribd company logo
1 of 40
Download to read offline
2013/04/24 上智大学 山中高夫

フィッシャーベクトルによる画像認識
[0] 赤穂昭太郎,カーネル多変量解析,岩波書店,2009.
[1] F. Perronnin and C. Dance, “Fisher Kernels on Visual Vocabularies for Image
Categorization,” in IEEE Conference on Computer Vision and Pattern Recognition, 2007.
[2] F. Perronnin, S. Jorge, and T. Mensink, “Improving the Fisher Kernel for Large-Scale
Image Classification,” in European Conference on Computer Vision, 2010.
[3] F. Perronnin, Y. Liu, J. Sanchez, and H. Poirier, “Large-scale image retrieval with
compressed Fisher vectors,” in IEEE Conference on Computer Vision and Pattern
Recognition, 2010.
[4] J. Sanchez and F. Perronnin, “High-dimensional signature compression for large-scale
image classification,” in IEEE Conference on Computer Vision and Pattern Recognition,
2011.
[5] J. Krapac, J. Verbeek, and F. Jurie, “Modeling spatial layout with fisher vectors for
image categorization,” in International Conference on Computer Vision, 2011.
[6] V. Garg, S. Chandra, and C. V. Jawahar, “Sparse discriminative Fisher vectors in visual
classification,” in Indian Conference on Computer Vision, Graphics and Image
Processing, 2012.
[7] J. Sánchez, F. Perronnin, and T. de Campos, “Modeling the spatial layout of images
beyond spatial pyramids,” Pattern Recognition Letters, vol. 33, pp. 2216–2223, Dec.
2012.
パターン認識におけるカーネル法
赤穂昭太郎,カーネル多変量解析,岩波書店,2009.
多変量解析(1)
線形モデル

𝑑

𝑦 = 𝒘𝑇 𝒙=

𝑤𝑚𝑥

𝑚

𝑚=1

評価関数
𝑁

𝑦𝑗 − 𝒘𝑇 𝒙𝑗

𝑅 𝒘 =

2

𝑗=1

行列表現
𝑦1
𝑦2 ,
𝒚=
⋮
𝑦𝑛
1
𝑥1
𝑦1
2
𝑦 2 = 𝑥1
⋮
⋮
𝑛
𝑦
𝑥1𝑛

𝑇
1
𝑥1
𝒙1
𝑇
2
𝒙2 = 𝑥1
𝐗=
⋮
⋮
𝑇
𝑥1𝑛
𝒙𝑛

⋯

𝑥1
𝑑
𝑥2
𝑑
⋮
𝑥 𝑑𝑛

𝑤1
𝑤2
⋮
𝑤𝑑

⋯

𝑥1
𝑑
2
𝑥𝑑
⋮
𝑥 𝑑𝑛

𝒚 = 𝐗𝒘
多変量解析(2)
最小2乗解
𝒚 = 𝐗𝒘
𝑅 𝒘 = 𝒚 − 𝐗𝒘 𝑇 (𝒚 − 𝐗𝒘)
𝜕𝑅 𝒘
𝜕
&=
𝒚 𝑇 𝒚 − 2𝒘T 𝐗 𝑇 𝒚 + 𝒘 𝑇 𝐗 𝑇 𝐗𝒘
𝜕𝒘
𝜕𝒘
=
& −2𝐗 𝑇 𝒚 + 2𝐗 𝑇 𝐗𝒘

𝑅 𝒘 が最小になる𝒘では,微分
が0になるので(極値なので)
−2𝐗 𝑇 𝒚 + 2𝐗 𝑇 𝐗𝒘 = 0
𝐗𝑇 𝐗

−1

𝐗𝑇 𝐗 𝒘=

𝐗𝑇 𝐗

−1

𝐗𝑇 𝒚

𝒘=

𝐗𝑇 𝐗

−1

𝐗𝑇 𝒚

近似直線を表すパラメータ
カーネル法(1)
線形モデル
𝑦 = 𝒘𝑇 𝒙
カーネル関数
𝒙 𝑖 , 𝒙の類似度を表す

カーネル関数を使った非線形モデル
ただし,

𝑛

𝑦&=

𝛼 𝑖 𝑘 𝒙 𝑖, 𝒙

𝑘 𝒙 𝑖, 𝒙 = 𝝓 𝒙 𝑖

𝑖=1
𝑛

=
&

𝑇

𝝓 𝒙

𝒙 𝑖 は𝑛点のサンプルのうちの一つ
𝛼𝑖 𝝓 𝒙𝑖

𝑇

𝝓 𝒙

𝑖=1
𝑛

=
&
=
&

𝛼𝑖 𝝓 𝒙𝑖
𝑖=1
𝒘𝑇 𝝓

𝒙

𝑇

𝝓 𝒙

線形モデルにおける𝒙を非線形
関数𝝓 𝒙 に置き換えたモデル
カーネル法(2)
カーネル関数を使った非線形モデル
𝑦&= 𝒘 𝑇 𝝓 𝒙

𝑘 𝒙 𝑖, 𝒙 = 𝝓 𝒙 𝑖

𝑛

=
&

𝑇

𝝓 𝒙

𝛼 𝑖 𝑘 𝒙 𝑖, 𝒙
𝑖=1

𝑘(𝑥1 , 𝑥1 )
𝑦1
𝑦 2 , 𝐊 = 𝑘(𝑥1 , 𝑥2 ) ⋯
𝒚=
⋮
⋮
𝑘(𝑥1 , 𝑥 𝑛 )
𝑦𝑛

最小2乗解
𝒚 = 𝐊𝜶

𝑅 𝜶 = 𝒚 − 𝐊𝜶 𝑇 (𝒚 − 𝐊𝜶)

𝜶=

𝐊𝑇 𝐊

−1

𝐊𝑇 𝒚

非線形モデル
のパラメータ

𝐊を対称行列とすると
𝜶=

𝐊2

−1

𝐊𝒚 = 𝐊 −1 𝐲

全てのデータ間の類似度𝐊を定義できれば,非
線形関数𝝓 𝒙 を明示的に定義する必要がない

𝛼1
𝑘(𝑥 𝑛 , 𝑥1 )
𝛼2
𝑘(𝑥 𝑛 , 𝑥2 )
, 𝜶= ⋮
⋮
𝛼𝑛
𝑘(𝑥 𝑛 , 𝑥 𝑛 )
カーネル法(3)
正則化:関数に制限をつけてオーバーフィッティングを防ぐ
𝒚 = 𝐊𝜶
𝑅 𝜶 = 𝒚 − 𝐊𝜶

𝑇

正則化項

𝑇

𝒚 − 𝐊𝜶 + 𝜆𝜶 𝐊𝜶

𝜕𝑅 𝜶
𝜕
&=
𝒚 𝑇 𝒚 − 2𝜶T 𝐊 𝑇 𝒚 + 𝜶 𝑇 𝐊 𝑇 𝐊𝜶 + 𝜆𝜶 𝑇 𝐊𝜶
𝜕𝜶
𝜕𝜶
=
& −2𝐊 𝑇 𝒚 + 2 𝐊 𝑇 + 𝜆𝐈 𝐊𝜶
非線形モデル
𝜶 = 𝐊 𝑇 + 𝜆𝐈 𝐊 −1 𝐊 𝑇 𝒚
のパラメータ
𝐊を対称行列とすると
−2𝐊𝒚 + 2 𝐊 + 𝜆𝐈 𝐊𝜶 = 𝟎
𝐊𝐊 + 𝜆𝐊 𝜶 = 𝐊𝒚
𝐊 + 𝜆𝐈 𝜶 = 𝒚
𝜶=

𝐊 + 𝜆𝐈

−1

𝒚
カーネル関数の設計(1)
𝑘 𝒙 𝑖, 𝒙 = 𝝓 𝒙 𝑖

𝑇

𝝓 𝒙

𝑘(𝑥1 , 𝑥1 )
𝑘(𝑥1 , 𝑥2 )
𝐊=
⋯
⋮
𝑘(𝑥1 , 𝑥 𝑛 )

𝑘(𝑥 𝑛 , 𝑥1 )
𝑘(𝑥 𝑛 , 𝑥2 )
⋮
𝑘(𝑥 𝑛 , 𝑥 𝑛 )

カーネル法のモデルパラメータ
を推定するためには,この行列
が定義出来ればよい

例1)ガウスカーネル
𝑘 𝒙 𝑖 , 𝒙 = exp −𝛽 𝒙 𝑖 − 𝒙

2

近い点同士は高い類似度を,遠い
点同士は低い類似度を割り当てる
カーネル関数の設計(2)
例2)フィッシャーカーネル
𝒙がパラメータ𝜽をもつ確率分布𝑝 𝒙; 𝜽 から生成されるとする
例えば,Gaussian Mixture Model (GMM)
𝐾

𝑝 𝒙 =
𝑘=1

1
𝜋 𝑘 exp −
𝒙− 𝝁𝑘
2

𝑇 −1
𝚺𝑘

𝒙− 𝝁𝑘

𝜽 = 𝜋2 , ⋯ , 𝜋 𝐾 , 𝝁1 , ⋯ , 𝝁 𝐾 , 𝚺1 , ⋯ , 𝚺 𝐾

= 𝜃1 , ⋯ , 𝜃 𝑀
スコア関数
𝒔 𝒙; &𝜽 =

𝜕 log 𝑝 𝒙; 𝜽
𝜕 log 𝑝 𝒙; 𝜽
,⋯,
𝜕𝜃1
𝜕𝜃 𝑀

𝑇

仮定した確率分布𝑝 𝒙; 𝜽 を利用して,あるデータ𝒙及びあるパラメータ𝜽からスコ
ア関数を計算できる.スコア関数は確率分布の対数をとったlog 𝑝 𝒙; 𝜽 に対して,
パラメータ𝜽に関する偏微分を計算したベクトルである.
与えられたデータ𝒙を代入したlog 𝑝 𝒙; 𝜽 の𝜽に関する傾きを表す
カーネル関数の設計(3)
例2)フィッシャーカーネル(続き)
フィッシャー情報行列
𝐺 𝜽 = E 𝒙 𝒔 𝒙; &𝜽 𝒔 𝒙; &𝜽

パラメータ数𝑀 × 𝑀の行列

𝑇

フィッシャーカーネル
𝑘 𝒙 𝑖 , 𝒙; 𝜽 = 𝒔 𝒙 𝑖 ; &𝜽

𝑇

𝐺 −1 𝜽 𝒔 𝒙; &𝜽

フィッシャー情報行列における期待値を計算できないことが多いので,実
際にはサンプル平均で置き換えることが多い
𝐺 𝜽 &= E 𝒙 𝒔 𝒙; &𝜽 𝒔 𝒙; &𝜽
≅
&

1
𝑛

𝑇

𝑛

𝒔 𝒙 𝑖 ; &𝜽 𝒔 𝒙 𝑖 ; &𝜽

𝑇

𝑖=1

スコア行列はあるデータ𝒙, あるパラメータ𝜽において計算するが,フィー
シャーカーネルはフィッシャー情報行列の逆行列で正規化することにより
パラメータ𝜽に依存しない値になる
Fisher Kernels on Visual Vocabularies for
Image Categorization
F. Perronnin and C. Dance, IEEE Conference on Computer
Vision and Pattern Recognition, 2007.
画像認識 (Image Categorization)

Airplane

Ant

Butterfly

Camera

Chair

Dolphin
Bag of Visual Words / Bag of Features
Bag of Visual Wordsにおける処理の流れ
1. 画像から局所特徴量の抽出

2. ベクトル量子化による画像特徴量の表現
3. 識別器による画像識別
35

30

25

20

15

10

5

0

0

5

10

15

20

25

𝜙

400

350

300

250

200

150

100

50

0

画像から局所特徴量の抽出

1

2

3

4

5

6

7

ベクトル量子化による
画像特徴量の表現

識別器による画像識別
Bag of Visual Words (1)
1. 画像から局所特徴量の抽出
よく利用される局所特徴量は,SIFT (Scale-Invariant Feature Transform)

赤で示した各点で,その周辺のパッ
チから特徴量ベクトル(局所特徴
量)を抽出する
点の設定方法
1.キーポイント検出器
2. GRID
コンピュータ最先端ガイド2,第1章,アドコム・メディア,2010
Bag of Visual Words (2)
2. ベクトル量子化による画像特徴量の表現
35

5

30

6

7
25

20

𝑥2 15

4

400

350

2

10

300

250

5

0

1

3
0

5

200

10

15

20

𝑥1

25

150

100

50

1枚の画像における局所特徴量分布
(特徴量空間にプロット)

0

1

2

3

4

5

6

7

ベクトル量子化ヒストグラム
Bag of Visual Words (3)
3. 識別器による画像識別
Support Vector Machine (SVM)
による識別

カーネル関数を利用し
た高次元空間への写像
𝜙

ベクトル量子化ヒスト
グラムの特徴量空間

線形の超平面に
よる識別
Bag of Visual Wordsにおける課題
膨大な量の画像データを処理するために,計算量を可能な限り小さくしたい
1. コンパクトな画像特徴量表現: 少ないVisual Word数
2. ユニバーサルなVisual Words(辞書): 辞書の学習データに依存しな
い認識精度

一般に両立しない
• 少ないVisual Word数で高精度の認識を可能にするためには,評
価する画像をよく表現するVisual Wordsを用意する必要がある

• 評価画像に特化したVisual Wordsになるため,他のデータベース
画像に対しては精度が低下する可能性が高い

フィッシャーカーネルを利用して,出来る限り少ないVisual Word数
で表現力が豊かな画像特徴量表現を検討する
フィッシャーカーネルの利用(1)
ベクトル量子化による特徴量分布表現

Gaussian Mixture Model(GMM)によ
る局所特徴量分布の表現

35

35

5

30

7

25

6

30

25
20

20

𝑥2

𝑥2

4

15

10

2

15

10

5

0

3

0

5

1
5

10

15

20

25

0

𝑥1

0

5

10

15

20

25

𝑥1
𝐾

400

350

𝑝 𝒙 =

300

250

𝜋 𝑘 exp −
𝑘=1

200

150

1
𝒙− 𝝁𝑘
2

𝑇 𝚺 −1
𝑘

𝒙− 𝝁𝑘

100

50

0

1

2

3

4

5

6

7

1&&&&&2&&&&&3&&&&&4&&&&&5&&&&&6&&&&&7

𝜽 = 𝜋2 , ⋯ , 𝜋 𝐾 , 𝝁1 , ⋯ , 𝝁 𝐾 , 𝚺1 , ⋯ , 𝚺 𝐾
= 𝜃1 , ⋯ , 𝜃 𝑀
フィッシャーカーネルの利用(2)
各画像に対してGMMのパラメータを計算するのは計算コストが高い
あらかじめ多くの画像の局所特徴量から,様々な画像の局所特徴量に対
するGMMパラメータを求める(Visual Words辞書学習)
各画像に対して,GMMのパラメータをどのように変化させるとその画
像にフィットするGMMが求まるかで画像特徴量を表現する → フィッ
シャーベクトル

•
•
•

35

35

30

30

25

25

20
20

𝑥2

𝑥2

15

15

10
10

5
5

0

-5
-5

0

5

10

15

20

25

30

35

𝑥1
多くの画像の局所特徴量に対するGMM
(Visual Words辞書に対応)

0

0

5

10

15

20

25

𝑥1

辞書のGMMパラメータを変化させて,
1枚の画像に対する局所特徴量分布に
フィッティング
フィッシャーカーネルの理論(1)
GMMに限らず,局所特徴量分布を𝑝 𝒙|𝜽 の確率密度関数で表す
ただし,𝜽は確率密度関数のパラメータ
例えば,GMMの場合は,

𝐾

𝑝 𝒙|𝜽 =

𝜋 𝑘 exp −
𝑘=1

1
𝒙− 𝝁𝑘
2

𝑇 𝚺 −1
𝑘

𝒙− 𝝁𝑘

𝜽 = 𝜋2 , ⋯ , 𝜋 𝐾 , 𝝁1 , ⋯ , 𝝁 𝐾 , 𝚺1 , ⋯ , 𝚺 𝐾 = 𝜃1 , ⋯ , 𝜃 𝑀
サンプル𝑿 = 𝒙 𝑡 , 𝑡 = 1, 2, ⋯ , 𝑇 に対して,対数尤度は,
𝐿 𝑿 𝜽 = log 𝑝 𝑿|𝜽
であり,各サンプルが独立であると仮定すると,
𝐿 𝑿 𝜽 &= log
=
& log
=
& log
=
& log

𝑝 𝑿|𝜽
𝑝 𝒙1 , 𝒙2 , ⋯ , 𝒙 𝑇 |𝜽
𝑝 𝒙1 |𝜽 𝑝 𝒙2 |𝜽 ⋯ 𝑝 𝒙 𝑇 |𝜽
𝑝 𝒙1 |𝜽 + log 𝑝 𝒙2 |𝜽 + ⋯ + log 𝑝 𝒙 𝑇 |𝜽

𝑇

=
&

log 𝑝 𝒙 𝑡 |𝜽
𝑡=1
フィッシャーカーネルの理論(2)
フィッシャーカーネル(フィッシャーベクトル)を定義するために,スコア関数を
以下の式で定義する
確率密度関数のモデルをデータ
𝒔 𝑿|𝜽 &= 𝛻 𝜃 log 𝑝 𝑿|𝜽
𝑿 = 𝒙 𝑡 , 𝑡 = 1, 2, ⋯ , 𝑇 にフィッ
𝑇
ティングするため,モデルパラ
𝜕 log 𝑝 𝑿|𝜽
𝜕 log 𝑝 𝑿|𝜽
=
&
,⋯,
メータ𝜽を変化させる方向
𝜕𝜃1
𝜕𝜃 𝑀
フィッシャー情報行列
𝑭 𝜽 = E 𝑿 𝒔 𝑿|𝜽 𝒔 𝑿|𝜽

パラメータ数𝑀 × 𝑀の行列

𝑇

フィッシャーカーネル
1
𝑘 𝑿 𝑖 , 𝑿|𝜽 =
𝒔 𝑿 𝑖 |𝜽
𝑇

𝑇

𝑭−1
𝜽

1
𝒔 𝑿|𝜽
𝑇

フィッシャーベクトル
1
1
𝑔 𝜽𝑿 = 𝑳 𝜽 𝒔 𝑿|𝜽 = 𝑳 𝜽
𝛻 log 𝑝 𝑿|𝜽
𝑇
𝑇 𝜃

確率密度関数モデルの勾配方
向をフィッシャー情報行列で
正規化

𝑭−1 = 𝑳 𝜽 𝑻 𝑳 𝜽
𝜽

とおくと,フィッシャーカーネルはフィッシャーベクトルの内積で表現できる
𝑿 𝑇

𝑘 𝑿 𝑖 , 𝑿|𝜽 = 𝑔 𝜽 𝑖 𝑔 𝜽𝑿

つまり,カーネル法において𝝓 𝑿 = 𝑔 𝜽𝑿
フィッシャーカーネルの理論(3)
フィッシャーベクトルを計算する具体的手順

35

30

• あらかじめ,多くの画像の局所特徴量から,確率密
度関数のモデル𝑝 𝒙|𝜽 に最もフィットするパラメー
タ𝜽を求める
• 一枚の画像に対して,局所特徴量
𝑿 = 𝒙 𝑡 , 𝑡 = 1, ⋯ , 𝑇 を計算し, 𝑿にフィットするよ
うに,パラメータ𝜽に対するlog 𝑝 𝑿|𝜽 の勾配ベクト
ルを計算する
𝒔 𝑿|𝜽 &= 𝛻 𝜃 log 𝑝 𝑿|𝜽
=
&

𝜕 log 𝑝 𝑿|𝜽
𝜕 log 𝑝 𝑿|𝜽
,⋯,
𝜕𝜃1
𝜕𝜃 𝑀

𝑇

25

20

15

𝑥2

10

5

0

-5
-5

0

5

10

15

20

25

30

35

𝑥1
多くの画像の局所特徴量に対するGMM
(Visual Words辞書に対応)
35

30

25

• 以下の式でフィッシャーベクトルを計算する
1
𝑔 𝜽𝑿 = 𝑳 𝜽 𝒔 𝑿|𝜽
𝑇
• フィッシャーカーネルは𝑔 𝜽𝑿 の内積で表されるので,
内積を使った線形SVMによりフィッシャーカーネル
を使ったSVMによる識別を実現できる

20

𝑥2

15

10

5

0

0

5

10

15

20

25

𝑥1
辞書のGMMパラメータを変化させて,
1枚の画像に対する局所特徴量分布に
フィッティング
GMMに対するフィッシャーベクトル(1)
確率密度関数のモデルをGMMとすると,パラメータ𝜽は𝐾個のガウス分布の重み,平
均,共分散行列である(ただし,確率密度関数の面積を1にするため,1番目の重み
パラメータは他の重みから決定される)
𝐾

𝑝 𝒙|𝜽 =
𝑘=1

1
𝜋 𝑘 exp −
𝒙− 𝝁𝑘
2

𝑝 𝑘 𝒙|𝜽 =
𝜽=

1
𝐷/2

2𝜋

Σ𝑘

𝐾
𝑇 𝚺 −1
𝑘

exp −
1/2

𝒙− 𝝁𝑘

=

𝜔 𝑘 𝑝 𝑘 𝒙|𝜽
𝑘=1

1
𝒙− 𝝁𝑘
2

𝐾
𝑇 𝚺 −1
𝑘

𝒙− 𝝁𝑘

𝜔2 , ⋯ , 𝜔 𝐾 , 𝝁1 , ⋯ , 𝝁 𝐾 , 𝚺1 , ⋯ , 𝚺 𝐾 = 𝜃1 , ⋯ , 𝜃 𝑀 ,

サンプル𝑿 = 𝒙 𝑡 , 𝑡 = 1, 2, ⋯ , 𝑇 に対して,対数尤度は,
𝐿 𝑿 𝜽 &= log 𝑝 𝑿|𝜽
𝑇

=
&

log 𝑝 𝒙 𝑡 |𝜽
𝑡=1
𝑇

=
&

𝐾

log
𝑡=1

𝜔 𝑘 𝑝 𝑘 𝒙 𝑡 |𝜽
𝑘=1

,

𝜔𝑘 =1
𝑖=1

M = (2𝑑 + 1)𝐾 − 1
GMMに対するフィッシャーベクトル(2)
サンプル𝑿 = 𝒙 𝑡 , 𝑡 = 1, 2, ⋯ , 𝑇 に対して,対数尤度は,
𝑇

𝐾

𝐿 𝑿 𝜽 =

log
𝑡=1

𝜔 𝑘 𝑝 𝑘 𝒙 𝑡 |𝜽
𝑘=1

パラメータ𝜽に対する勾配ベクトルは,GMMの共分散行列Σ 𝑘 を対角行列と仮定すると,
𝜕𝐿 𝑿 𝜽
&=
𝜕𝜔 𝑖
𝜕𝐿 𝑿 𝜽
&=
𝜕𝜇 𝑖𝑑
𝜕𝐿 𝑿 𝜽
𝜕𝜎 𝑖 𝑑

𝑇

𝑡=1
𝑇

𝑡=1
𝑇

&=
𝑡=1

𝜕
1
𝛾𝑡 𝑖
−
𝒙 − 𝝁𝑖
2 𝑡
𝜕𝜇 𝑖𝑑
𝐾
𝑘=1

𝑡=1

𝛾 𝑡 (𝑖) 𝛾 𝑡 (1)
−
𝜔𝑖
𝜔1

𝜔 𝑖 𝑝 𝑖 𝒙 𝑡 |𝜽
, 𝜔1 = 1 −
𝐾
𝜔 𝑘 𝑝 𝑘 𝒙 𝑡 |𝜽
𝑘=1

𝑖 = 2, ⋯ , 𝐾
𝑇

𝑇 𝚺 −1
𝑖

𝒙 𝑡 − 𝝁𝑖

=

𝛾𝑡 𝑖

𝑥 𝑡𝑑 − 𝜇 𝑖𝑑
𝜎𝑖 𝑑

𝑡=1

𝜔𝑖
𝜕
𝑝 𝒙|𝜽 =
𝜔 𝑘 𝑝 𝑘 𝒙 𝑡 |𝜽 𝜕𝜎 𝑖 𝑑 𝑖

ただし,
𝛾𝑡 𝑖 =

𝑇

−𝑝1 𝒙 𝑡 |𝜽 + 𝑝 𝑖 𝒙 𝑡 |𝜽
=
𝐾
𝜔 𝑘 𝑝 𝑘 𝒙 𝑡 |𝜽
𝑘=1

𝑇

𝛾𝑡 𝑖
𝑡=1

𝑥 𝑡𝑑 − 𝜇 𝑖𝑑
𝜎𝑖

𝐾

𝜔 𝑘 , 𝜎𝑖 𝑑
𝑖=2

2

= Σ 𝑖 (𝑑, 𝑑)

𝑑 3

2

−

2

1
𝜎𝑖 𝑑
GMMに対するフィッシャーベクトル(3)
以上で,1枚の画像の局所特徴量集合𝑿 = 𝒙 𝑡 , 𝑡 = 1, 2, ⋯ , 𝑇 に対して,事前に学習し
たGMMパラメータ𝜽におけるスコア関数を計算できる
𝒔 𝑿|𝜽 &= 𝛻 𝜃 log 𝑝 𝑿|𝜽
=
&

𝜕 log 𝑝 𝑿|𝜽
𝜕 log 𝑝 𝑿|𝜽
,⋯,
𝜕𝜃1
𝜕𝜃 𝑀

𝑇

以下の式でフィッシャーベクトルを計算するためには,フィッシャー情報行列𝑭 𝜽 が求
まれば良い.𝑭−1 = 𝑳 𝜽 𝑻 𝑳 𝜽 として,
𝜽
1
𝑔 𝜽𝑿 = 𝑳 𝜽 𝒔 𝑿|𝜽
1
1
𝑇
𝑓 𝜔 𝑡 &= 𝑇
+
𝜔𝑖
𝜔1
フィッシャー情報行列𝑭 𝜽 は以下の仮定をおく
𝜔𝑖
と,右式のように近似できる
𝑓 𝑢 𝑑 &= 𝑇
2
𝑖
𝜎𝑖 𝑑
(1) フィッシャー情報行列を対角行列とする
(計算を簡単にするため)
2𝜔 𝑖
𝑓 𝜎 𝑑 &&= 𝑇
2
(2) 各画像から得られる局所特徴量数は等しい
𝑖
𝜎𝑖 𝑑
(3) 𝛾 𝑡 𝑖 は0もしくは1に近い値をとる(各画
ただし,𝑓 𝜔 𝑡 , 𝑓 𝑢 𝑑 , 𝑓 𝜎 𝑑 はそれぞれ
像において,GMMの1つのガウス分布の寄
𝑖
𝑖
与が他に比べて非常に大きい)
フィッシャー情報行列𝑭 𝜽 の対応す
るパラメータの対角成分とする
GMMに対するフィッシャーベクトル(4)
フィッシャーベクトル計算式のまとめ
1
𝑿
𝑔𝜽 = 𝑳𝜽
𝑇

𝜕𝐿 𝑿|𝜽
𝜕𝐿 𝑿|𝜽 𝜕𝐿 𝑿|𝜽
𝜕𝐿 𝑿|𝜽 𝜕𝐿 𝑿|𝜽
𝜕𝐿 𝑿|𝜽
,⋯,
,
,⋯,
,
,⋯,
𝜕𝜔2
𝜕𝜔 𝐾
𝜕𝜇1
𝜕𝜇 𝐾
𝜕𝜎1
𝜕𝜎 𝐾

1
𝑿
𝑔 𝜔 𝑖 &=
𝑇
𝑔 𝜇𝑿 𝑑 &=
𝑖

1
𝑇

1
𝑔 𝜎𝑿 𝑑 &=
𝑖
𝑇

𝑇

𝑇

𝑇

−

1
1
+
𝜔𝑖
𝜔1
1
−
2

𝜔𝑖
𝜎𝑖

𝑑 2

2𝜔 𝑖
𝜎𝑖

𝑑 2

1
2

𝑇

𝑡=1
𝑇

𝛾𝑡 𝑖
𝑡=1

−

1
2

𝑇

𝛾𝑡 𝑖
𝑡=1

35

𝛾𝑡 𝑖
𝛾𝑡 1
−
𝜔𝑖
𝜔1
𝑥 𝑡𝑑 − 𝜇 𝑖𝑑
𝜎𝑖

𝑑 2

=

𝑥 𝑡𝑑 − 𝜇 𝑖𝑑
𝜎𝑖

𝑑 3

−

1

1
1
=
+
𝜔1
𝑇 𝑇 𝜔𝑖
𝑇

1
𝑇

𝑇𝜔 𝑖

2

−

1
𝜎𝑖 𝑑

𝛾𝑡 𝑖

𝑇

𝑡=1

𝛾𝑡 𝑖
𝛾𝑡 1
−
𝜔𝑖
𝜔1

𝑥 𝑡𝑑 − 𝜇 𝑖𝑑
𝜎𝑖 𝑑

𝑡=1

=

1
2

𝑇

1
𝑇 2𝑇𝜔 𝑖

𝑇

𝛾𝑡 𝑖
𝑡=1

𝑥 𝑡𝑑 − 𝜇 𝑖𝑑
𝜎𝑖

𝑑 2

2

−1

𝑿
𝑔 𝜔 𝑖 &: 各ガウス分布の重み(寄与)
𝑔 𝜇𝑿 𝑑 : 各ガウス分布の平均ベクトル

30

25

𝑖

20

𝑔 𝜎𝑿 𝑑 :
𝑖

𝑥2

15

各ガウス分布の分散(大きさ)

10

フィッシャーベクトルの次元: (2𝑑 + 1)𝐾 − 1

5

0

0

5

10

15

𝑥1

20

25
Improving the Fisher Kernel for
Large-Scale Image Classification
F. Perronnin, S. Jorge, and T. Mensink, European Conference
on Computer Vision, 2010.
フィッシャーベクトルの課題
膨大な量の画像データを処理するために,計算量を可能な限り小さくしたい
1. コンパクトな画像特徴量表現: 少ないVisual Word数
2. ユニバーサルなVisual Words(辞書): 辞書の学習データに依存しな
い認識精度

フィッシャーベクトルにより少ないVisual Wordsでユニ
バーサルな辞書の作成ができた (CVPR2007)
ただし,評価用データで辞書を学習した場合,Bag of Visual
Wordsと同程度の認識精度しか得られず,精度向上ができていない
フィッシャーベクトルを改良して,通常のBag of Visual Wordsより
高い精度を実現する
1. L2正規化
2. パワー正規化
3. 空間ピラミッド
L2正規化(1)
フィッシャーベクトル
𝑔 𝜽𝑿

1
𝑿
= 𝑳 𝜽 𝒔 𝑿|𝜽 = 𝑳 𝜽 𝑮 𝜃
𝑇
1
1
1
𝑿
𝑮 𝜃 = 𝒔 𝑿|𝜽 = 𝛻 𝜃 log 𝑝 𝑿|𝜽 = 𝛻 𝜃
𝑇
𝑇
𝑇

𝑇

log 𝑝 𝒙 𝑡 |𝜽
𝑡=1

多くの画像から得られた局所特徴量の確率密度関数を𝑝 𝑿|𝜽 = 𝑢 𝜽 𝒙
とすると
𝑇

1
𝑿
𝑮 𝜃 = 𝛻𝜃
𝑇

log 𝑢 𝜽 𝒙 𝑡
𝑡=1

1枚の画像から得られる局所特徴量数𝑇が十分大きいと仮定すると,
𝑿
𝑮 𝜃 &= 𝛻 𝜃 𝐸 𝒙 log 𝑢 𝜽 𝒙

=
& 𝛻𝜃

1枚の画像に対する期待値

𝑝 𝒙 log 𝑢 𝜽 𝒙 𝑑𝒙
𝒙

1枚の画像から得られる局
所特徴量の確率密度関数

多くの画像から得られる局所特徴量の
確率密度関数 → 画像の背景と仮定
L2正規化(2)
1枚の画像から得られる局所特徴量の確率密度関数𝑝 𝒙 を背景𝑢 𝜽 𝒙 と対象物体
𝑞 𝒙 の確率密度関数の和で表す
𝑢𝜽 𝒙
𝑝 𝒙 = 𝜔𝑞 𝒙 + 1 − 𝜔 𝑢 𝜃 (𝒙)
𝑿
𝑮 𝜃 &= 𝛻 𝜃

𝑝 𝒙 log 𝑢 𝜽 𝒙 𝑑𝒙
𝒙

𝑞 𝒙

=
& 𝛻𝜃

𝜔𝑞 𝒙 + 1 − 𝜔 𝑢 𝜃 (𝒙) log 𝑢 𝜽 𝒙 𝑑𝒙
𝒙

=
& 𝜔𝛻 𝜃

𝑞 𝒙 log 𝑢 𝜽 𝒙 𝑑𝒙 + 1 − 𝜔 𝛻 𝜃
𝒙

=
& 𝜔𝛻 𝜃
𝒙

𝑢 𝜃 (𝒙) log 𝑢 𝜽 𝒙 𝑑𝒙
𝒙

𝑞 𝒙 log 𝑢 𝜽 𝒙 𝑑𝒙 + 1 − 𝜔 𝛻 𝜃 𝐸 𝑢 𝜃 log 𝑢 𝜽 𝒙

多くの画像から確率密度関数を最尤法で推定する場合,𝐸 𝑢 𝜃 log 𝑢 𝜽 𝒙 が
最大となるように推定するので,𝛻 𝜃 𝐸 𝑢 𝜃 log 𝑢 𝜽 𝒙 ≅ 0
𝑿
∴ & 𝑮 𝜃 ≅ 𝜔𝛻 𝜃

𝑞 𝒙 log 𝑢 𝜽 𝒙 𝑑𝒙

𝑿
𝑮𝜃

𝐾 𝑋, 𝑌

𝑿
𝑮𝜃
𝐾 𝑋, 𝑋 𝐾(𝑌, 𝑌)
対象物体の確率密度関数𝑞 𝒙 に依存する
ただし,背景と物体の混合比𝜔が残るので,正規化で排除する
𝒙
パワー正規化
問題点
• フィッシャーベクトルは非常にスパース(フィッシャーベクトルは高次
元ベクトルであり,各要素に0が多い.特にガウス分布の混合数が多いと
顕著)
• スパースなベクトル同士の距離を内積で評価すると精度が悪い
解決策
1. ベクトル同士の距離を内積ではなく,スパースなベクトルに対して精度
の良いものを使う → 計算コストが高い
2. ベクトルを出来る限りスパースではなくす

K=16
K=64
K=256
フィッシャーベクトルの第1要素の分布
GMMの混合数Kが増加するとスパースになりやすい

K=256
パワー正規化後
𝑓 𝑧 = 𝑠𝑖𝑔𝑛 𝑧 𝑧

𝛼
空間ピラミッド
• Bag of Visual Wordsにおいて,画像を分割し,大まかな位置情報を付与
すると精度がよくなることが知られている
フィッシャーベクトルの評価実験
評価用データセット
•
PASCAL VOC 2007 (約10,000画像 @ 20カテゴリ)
•
CalTech256 (約30,000画像 @ 256カテゴリ)
局所特徴量
•
パッチサイズ:32x32,グリッドサンプリング(間隔16画素),5スケール
•
128次元のSIFT特徴量,及び96次元のカラー特徴量(各パッチにおいて,4x4
に領域を分けてそれぞれの領域におけるRGBの平均と分散を並べた特徴量)
•
SIFTとカラー特徴量は主成分分析(PCA)により64次元に圧縮して利用
Gaussian Mixture Model (GMM)
•
GMMの混合数K=256に設定
•
GMMの学習には,最尤法(Maximum Likelihood Estimation)と標準的なEMア
ルゴリズムを使用
識別
•
線形SVMを使用
•
SIFT特徴量とカラー特徴量を組み合わせるときは,それぞれで識別を行い,
SVMのスコアを単純に平均して識別
評価指標
PASCAL VOC 2007データセット
• 20クラスのそれぞれに対して,各画像中にそのクラスの物体が存在する
か,それともしないかを判断
• 各クラスに対してPrecision/Recall曲線を計算(Precision: 物体が存在す
ると判断した画像中,実際に正解だった割合,Recall: 物体が存在する画
像中,物体が存在すると判断された画像の割合)
• Recallに対するPrecisionをグラフに描き,Recallに対するPrecisionの平
均値を計算

Average Precision (AP)
CalTech256データセット
• 各クラスから学習データを決められた画像数だけランダムに抽出
(ntrain=15, 30, 45, 60)
• SVMのパラメータは学習データ中のクラスバリデーションで決定
• 学習データ以外のデータをテストデータとして識別率を計算
• 学習データとテストデータの分け方を変えて5回繰り返して識別

平均識別率
PASCAL VOC 2007に対する実験結果(1)

改良の効果: パワー正規化 > L2正規化 > 空間ピラミッド
PASCAL VOC 2007に対する実験結果(2)

Multichannels+non-linear SVM
Bounding box
Many channels+soft-assignment
Many channels+Multiple Kernel Learning
[8]+sliding window
CalTech256に対する実験結果

5 Descriptors →
大規模学習データによる評価実験
データセット
•
2つの学習用データセット:ImageNet (270K画像@18カテゴリ),Flickr
(350K画像@18カテゴリ)
•
評価用データ:PASCAL VOC 2007 "test" set(5K画像@20カテゴリ)
局所特徴量/ Gaussian Mixture Model (GMM)
•
前の実験と同じ
識別
•
それぞれの学習用データセットで学習し,評価用データで評価した結果
•
各データセットでSVMを学習後,そのスコアを統合して識別した結果
大規模学習データによる実験結果

Multichannels
+non-linear SVM
+sliding window
まとめ
• 多変量解析に利用されるカーネル法を紹介し,カーネル関数の例として
フィッシャーカーネルを説明した.
• Bag of Visual Wordsの拡張として,フィッシャーカーネルに基づいた
フィッシャーベクトルを画像認識に適用した.ユニバーサルでコンパク
トな辞書で画像識別が可能である.

• L2正規化,パワー正規化,空間ピラミッドをフィッシャーベクトルに導
入することにより,複雑で高計算コストの手法と同等の画像識別精度が
実現可能であることを示した.高速な計算が可能なため,ImageNetなど

大規模データにも適用可能である.
• 下記の文献では,近年提案された画像識別手法を比較した結果,フィッ
シャーベクトルを利用した手法が高い精度を示すことが報告されている
K. Chatfield, V. Lempitsky, A. Vedaldi, and A. Zisserman, “The devil is in the details: an
evaluation of recent feature encoding methods,” British Machine Vision Conference, 2011.

More Related Content

What's hot

[DL輪読会]Control as Inferenceと発展
[DL輪読会]Control as Inferenceと発展[DL輪読会]Control as Inferenceと発展
[DL輪読会]Control as Inferenceと発展Deep Learning JP
 
[DL輪読会]Understanding Black-box Predictions via Influence Functions
[DL輪読会]Understanding Black-box Predictions via Influence Functions [DL輪読会]Understanding Black-box Predictions via Influence Functions
[DL輪読会]Understanding Black-box Predictions via Influence Functions Deep Learning JP
 
機械学習モデルの判断根拠の説明(Ver.2)
機械学習モデルの判断根拠の説明(Ver.2)機械学習モデルの判断根拠の説明(Ver.2)
機械学習モデルの判断根拠の説明(Ver.2)Satoshi Hara
 
Layer Normalization@NIPS+読み会・関西
Layer Normalization@NIPS+読み会・関西Layer Normalization@NIPS+読み会・関西
Layer Normalization@NIPS+読み会・関西Keigo Nishida
 
「世界モデル」と関連研究について
「世界モデル」と関連研究について「世界モデル」と関連研究について
「世界モデル」と関連研究についてMasahiro Suzuki
 
【DL輪読会】ViT + Self Supervised Learningまとめ
【DL輪読会】ViT + Self Supervised Learningまとめ【DL輪読会】ViT + Self Supervised Learningまとめ
【DL輪読会】ViT + Self Supervised LearningまとめDeep Learning JP
 
畳み込みニューラルネットワークの高精度化と高速化
畳み込みニューラルネットワークの高精度化と高速化畳み込みニューラルネットワークの高精度化と高速化
畳み込みニューラルネットワークの高精度化と高速化Yusuke Uchida
 
[Ridge-i 論文よみかい] Wasserstein auto encoder
[Ridge-i 論文よみかい] Wasserstein auto encoder[Ridge-i 論文よみかい] Wasserstein auto encoder
[Ridge-i 論文よみかい] Wasserstein auto encoderMasanari Kimura
 
Deep Learningによる超解像の進歩
Deep Learningによる超解像の進歩Deep Learningによる超解像の進歩
Deep Learningによる超解像の進歩Hiroto Honda
 
パターン認識と機械学習入門
パターン認識と機械学習入門パターン認識と機械学習入門
パターン認識と機械学習入門Momoko Hayamizu
 
[DL輪読会]Vision Transformer with Deformable Attention (Deformable Attention Tra...
[DL輪読会]Vision Transformer with Deformable Attention (Deformable Attention Tra...[DL輪読会]Vision Transformer with Deformable Attention (Deformable Attention Tra...
[DL輪読会]Vision Transformer with Deformable Attention (Deformable Attention Tra...Deep Learning JP
 
【DL輪読会】Flamingo: a Visual Language Model for Few-Shot Learning 画像×言語の大規模基盤モ...
【DL輪読会】Flamingo: a Visual Language Model for Few-Shot Learning   画像×言語の大規模基盤モ...【DL輪読会】Flamingo: a Visual Language Model for Few-Shot Learning   画像×言語の大規模基盤モ...
【DL輪読会】Flamingo: a Visual Language Model for Few-Shot Learning 画像×言語の大規模基盤モ...Deep Learning JP
 
【DL輪読会】A Path Towards Autonomous Machine Intelligence
【DL輪読会】A Path Towards Autonomous Machine Intelligence【DL輪読会】A Path Towards Autonomous Machine Intelligence
【DL輪読会】A Path Towards Autonomous Machine IntelligenceDeep Learning JP
 
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料Yusuke Uchida
 
【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks?
【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks? 【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks?
【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks? Deep Learning JP
 
Transformerを雰囲気で理解する
Transformerを雰囲気で理解するTransformerを雰囲気で理解する
Transformerを雰囲気で理解するAtsukiYamaguchi1
 
近年のHierarchical Vision Transformer
近年のHierarchical Vision Transformer近年のHierarchical Vision Transformer
近年のHierarchical Vision TransformerYusuke Uchida
 
【DL輪読会】The Forward-Forward Algorithm: Some Preliminary
【DL輪読会】The Forward-Forward Algorithm: Some Preliminary【DL輪読会】The Forward-Forward Algorithm: Some Preliminary
【DL輪読会】The Forward-Forward Algorithm: Some PreliminaryDeep Learning JP
 

What's hot (20)

[DL輪読会]Control as Inferenceと発展
[DL輪読会]Control as Inferenceと発展[DL輪読会]Control as Inferenceと発展
[DL輪読会]Control as Inferenceと発展
 
[DL輪読会]Understanding Black-box Predictions via Influence Functions
[DL輪読会]Understanding Black-box Predictions via Influence Functions [DL輪読会]Understanding Black-box Predictions via Influence Functions
[DL輪読会]Understanding Black-box Predictions via Influence Functions
 
ELBO型VAEのダメなところ
ELBO型VAEのダメなところELBO型VAEのダメなところ
ELBO型VAEのダメなところ
 
機械学習モデルの判断根拠の説明(Ver.2)
機械学習モデルの判断根拠の説明(Ver.2)機械学習モデルの判断根拠の説明(Ver.2)
機械学習モデルの判断根拠の説明(Ver.2)
 
Layer Normalization@NIPS+読み会・関西
Layer Normalization@NIPS+読み会・関西Layer Normalization@NIPS+読み会・関西
Layer Normalization@NIPS+読み会・関西
 
「世界モデル」と関連研究について
「世界モデル」と関連研究について「世界モデル」と関連研究について
「世界モデル」と関連研究について
 
【DL輪読会】ViT + Self Supervised Learningまとめ
【DL輪読会】ViT + Self Supervised Learningまとめ【DL輪読会】ViT + Self Supervised Learningまとめ
【DL輪読会】ViT + Self Supervised Learningまとめ
 
畳み込みニューラルネットワークの高精度化と高速化
畳み込みニューラルネットワークの高精度化と高速化畳み込みニューラルネットワークの高精度化と高速化
畳み込みニューラルネットワークの高精度化と高速化
 
[Ridge-i 論文よみかい] Wasserstein auto encoder
[Ridge-i 論文よみかい] Wasserstein auto encoder[Ridge-i 論文よみかい] Wasserstein auto encoder
[Ridge-i 論文よみかい] Wasserstein auto encoder
 
Deep Learningによる超解像の進歩
Deep Learningによる超解像の進歩Deep Learningによる超解像の進歩
Deep Learningによる超解像の進歩
 
[DL輪読会]World Models
[DL輪読会]World Models[DL輪読会]World Models
[DL輪読会]World Models
 
パターン認識と機械学習入門
パターン認識と機械学習入門パターン認識と機械学習入門
パターン認識と機械学習入門
 
[DL輪読会]Vision Transformer with Deformable Attention (Deformable Attention Tra...
[DL輪読会]Vision Transformer with Deformable Attention (Deformable Attention Tra...[DL輪読会]Vision Transformer with Deformable Attention (Deformable Attention Tra...
[DL輪読会]Vision Transformer with Deformable Attention (Deformable Attention Tra...
 
【DL輪読会】Flamingo: a Visual Language Model for Few-Shot Learning 画像×言語の大規模基盤モ...
【DL輪読会】Flamingo: a Visual Language Model for Few-Shot Learning   画像×言語の大規模基盤モ...【DL輪読会】Flamingo: a Visual Language Model for Few-Shot Learning   画像×言語の大規模基盤モ...
【DL輪読会】Flamingo: a Visual Language Model for Few-Shot Learning 画像×言語の大規模基盤モ...
 
【DL輪読会】A Path Towards Autonomous Machine Intelligence
【DL輪読会】A Path Towards Autonomous Machine Intelligence【DL輪読会】A Path Towards Autonomous Machine Intelligence
【DL輪読会】A Path Towards Autonomous Machine Intelligence
 
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
 
【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks?
【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks? 【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks?
【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks?
 
Transformerを雰囲気で理解する
Transformerを雰囲気で理解するTransformerを雰囲気で理解する
Transformerを雰囲気で理解する
 
近年のHierarchical Vision Transformer
近年のHierarchical Vision Transformer近年のHierarchical Vision Transformer
近年のHierarchical Vision Transformer
 
【DL輪読会】The Forward-Forward Algorithm: Some Preliminary
【DL輪読会】The Forward-Forward Algorithm: Some Preliminary【DL輪読会】The Forward-Forward Algorithm: Some Preliminary
【DL輪読会】The Forward-Forward Algorithm: Some Preliminary
 

Similar to Fisher Vectorによる画像認識

グラフニューラルネットワーク入門
グラフニューラルネットワーク入門グラフニューラルネットワーク入門
グラフニューラルネットワーク入門ryosuke-kojima
 
Fisher線形判別分析とFisher Weight Maps
Fisher線形判別分析とFisher Weight MapsFisher線形判別分析とFisher Weight Maps
Fisher線形判別分析とFisher Weight MapsTakao Yamanaka
 
自然科学の統計学2.2 slideshare
自然科学の統計学2.2 slideshare自然科学の統計学2.2 slideshare
自然科学の統計学2.2 slidesharewada, kazumi
 
PRML読み会第一章
PRML読み会第一章PRML読み会第一章
PRML読み会第一章Takushi Miki
 
PRML第9章「混合モデルとEM」
PRML第9章「混合モデルとEM」PRML第9章「混合モデルとEM」
PRML第9章「混合モデルとEM」Keisuke Sugawara
 
スパースモデリングによる多次元信号・画像復元
スパースモデリングによる多次元信号・画像復元スパースモデリングによる多次元信号・画像復元
スパースモデリングによる多次元信号・画像復元Shogo Muramatsu
 
20150730 トピ本第4回 3.4節
20150730 トピ本第4回 3.4節20150730 トピ本第4回 3.4節
20150730 トピ本第4回 3.4節MOTOGRILL
 
混合モデルとEMアルゴリズム(PRML第9章)
混合モデルとEMアルゴリズム(PRML第9章)混合モデルとEMアルゴリズム(PRML第9章)
混合モデルとEMアルゴリズム(PRML第9章)Takao Yamanaka
 
続・わかりやすいパターン認識 9章
続・わかりやすいパターン認識 9章続・わかりやすいパターン認識 9章
続・わかりやすいパターン認識 9章hakusai
 
Variational autoencoder
Variational autoencoderVariational autoencoder
Variational autoencoderMikio Shiga
 
Prml 最尤推定からベイズ曲線フィッティング
Prml 最尤推定からベイズ曲線フィッティングPrml 最尤推定からベイズ曲線フィッティング
Prml 最尤推定からベイズ曲線フィッティングtakutori
 
(文献紹介)Deep Unrolling: Learned ISTA (LISTA)
(文献紹介)Deep Unrolling: Learned ISTA (LISTA)(文献紹介)Deep Unrolling: Learned ISTA (LISTA)
(文献紹介)Deep Unrolling: Learned ISTA (LISTA)Morpho, Inc.
 
NN, CNN, and Image Analysis
NN, CNN, and Image AnalysisNN, CNN, and Image Analysis
NN, CNN, and Image AnalysisYuki Shimada
 
3次元レジストレーション(PCLデモとコード付き)
3次元レジストレーション(PCLデモとコード付き)3次元レジストレーション(PCLデモとコード付き)
3次元レジストレーション(PCLデモとコード付き)Toru Tamaki
 
行列計算アルゴリズム
行列計算アルゴリズム行列計算アルゴリズム
行列計算アルゴリズムTakuo Tachibana
 
ベイズ推論による機械学習入門 第4章
ベイズ推論による機械学習入門 第4章ベイズ推論による機械学習入門 第4章
ベイズ推論による機械学習入門 第4章YosukeAkasaka
 
機械学習理論入門 3章 最尤推定法_遠藤
機械学習理論入門 3章 最尤推定法_遠藤機械学習理論入門 3章 最尤推定法_遠藤
機械学習理論入門 3章 最尤推定法_遠藤Wataru Endo
 
東京都市大学 データ解析入門 7 回帰分析とモデル選択 2
東京都市大学 データ解析入門 7 回帰分析とモデル選択 2東京都市大学 データ解析入門 7 回帰分析とモデル選択 2
東京都市大学 データ解析入門 7 回帰分析とモデル選択 2hirokazutanaka
 

Similar to Fisher Vectorによる画像認識 (20)

グラフニューラルネットワーク入門
グラフニューラルネットワーク入門グラフニューラルネットワーク入門
グラフニューラルネットワーク入門
 
Fisher線形判別分析とFisher Weight Maps
Fisher線形判別分析とFisher Weight MapsFisher線形判別分析とFisher Weight Maps
Fisher線形判別分析とFisher Weight Maps
 
Fourier transform
Fourier transformFourier transform
Fourier transform
 
自然科学の統計学2.2 slideshare
自然科学の統計学2.2 slideshare自然科学の統計学2.2 slideshare
自然科学の統計学2.2 slideshare
 
PRML読み会第一章
PRML読み会第一章PRML読み会第一章
PRML読み会第一章
 
PRML第9章「混合モデルとEM」
PRML第9章「混合モデルとEM」PRML第9章「混合モデルとEM」
PRML第9章「混合モデルとEM」
 
スパースモデリングによる多次元信号・画像復元
スパースモデリングによる多次元信号・画像復元スパースモデリングによる多次元信号・画像復元
スパースモデリングによる多次元信号・画像復元
 
20150730 トピ本第4回 3.4節
20150730 トピ本第4回 3.4節20150730 トピ本第4回 3.4節
20150730 トピ本第4回 3.4節
 
混合モデルとEMアルゴリズム(PRML第9章)
混合モデルとEMアルゴリズム(PRML第9章)混合モデルとEMアルゴリズム(PRML第9章)
混合モデルとEMアルゴリズム(PRML第9章)
 
続・わかりやすいパターン認識 9章
続・わかりやすいパターン認識 9章続・わかりやすいパターン認識 9章
続・わかりやすいパターン認識 9章
 
Variational autoencoder
Variational autoencoderVariational autoencoder
Variational autoencoder
 
Prml 最尤推定からベイズ曲線フィッティング
Prml 最尤推定からベイズ曲線フィッティングPrml 最尤推定からベイズ曲線フィッティング
Prml 最尤推定からベイズ曲線フィッティング
 
(文献紹介)Deep Unrolling: Learned ISTA (LISTA)
(文献紹介)Deep Unrolling: Learned ISTA (LISTA)(文献紹介)Deep Unrolling: Learned ISTA (LISTA)
(文献紹介)Deep Unrolling: Learned ISTA (LISTA)
 
NN, CNN, and Image Analysis
NN, CNN, and Image AnalysisNN, CNN, and Image Analysis
NN, CNN, and Image Analysis
 
3次元レジストレーション(PCLデモとコード付き)
3次元レジストレーション(PCLデモとコード付き)3次元レジストレーション(PCLデモとコード付き)
3次元レジストレーション(PCLデモとコード付き)
 
レポート1
レポート1レポート1
レポート1
 
行列計算アルゴリズム
行列計算アルゴリズム行列計算アルゴリズム
行列計算アルゴリズム
 
ベイズ推論による機械学習入門 第4章
ベイズ推論による機械学習入門 第4章ベイズ推論による機械学習入門 第4章
ベイズ推論による機械学習入門 第4章
 
機械学習理論入門 3章 最尤推定法_遠藤
機械学習理論入門 3章 最尤推定法_遠藤機械学習理論入門 3章 最尤推定法_遠藤
機械学習理論入門 3章 最尤推定法_遠藤
 
東京都市大学 データ解析入門 7 回帰分析とモデル選択 2
東京都市大学 データ解析入門 7 回帰分析とモデル選択 2東京都市大学 データ解析入門 7 回帰分析とモデル選択 2
東京都市大学 データ解析入門 7 回帰分析とモデル選択 2
 

Recently uploaded

My Inspire High Award 2024「なぜ議会への関心が低いのか?」
My Inspire High Award 2024「なぜ議会への関心が低いのか?」My Inspire High Award 2024「なぜ議会への関心が低いのか?」
My Inspire High Award 2024「なぜ議会への関心が低いのか?」inspirehighstaff03
 
リアル戦国探究in米沢 当日講座2スライド(スタッフ共有用)『人を致すも人に致されず』についてのスライド
リアル戦国探究in米沢 当日講座2スライド(スタッフ共有用)『人を致すも人に致されず』についてのスライドリアル戦国探究in米沢 当日講座2スライド(スタッフ共有用)『人を致すも人に致されず』についてのスライド
リアル戦国探究in米沢 当日講座2スライド(スタッフ共有用)『人を致すも人に致されず』についてのスライドKen Fukui
 
My Inspire High Award 2024 「AIと仲良くなるには?」
My Inspire High Award 2024 「AIと仲良くなるには?」My Inspire High Award 2024 「AIと仲良くなるには?」
My Inspire High Award 2024 「AIと仲良くなるには?」inspirehighstaff03
 
リアル戦国探究in米沢 事前講座2スライド(スタッフ共有用)『両雄の強さの秘密』についてのスライド
リアル戦国探究in米沢 事前講座2スライド(スタッフ共有用)『両雄の強さの秘密』についてのスライドリアル戦国探究in米沢 事前講座2スライド(スタッフ共有用)『両雄の強さの秘密』についてのスライド
リアル戦国探究in米沢 事前講座2スライド(スタッフ共有用)『両雄の強さの秘密』についてのスライドKen Fukui
 
My Inspire High Award2024「外国人が日本のテーブルマナーに驚く理由は?」
My Inspire High Award2024「外国人が日本のテーブルマナーに驚く理由は?」My Inspire High Award2024「外国人が日本のテーブルマナーに驚く理由は?」
My Inspire High Award2024「外国人が日本のテーブルマナーに驚く理由は?」inspirehighstaff03
 
My Inspire High Award 2024「Yakushima Islandってなんか変じゃない?」.pdf
My Inspire High Award 2024「Yakushima Islandってなんか変じゃない?」.pdfMy Inspire High Award 2024「Yakushima Islandってなんか変じゃない?」.pdf
My Inspire High Award 2024「Yakushima Islandってなんか変じゃない?」.pdfinspirehighstaff03
 
リアル戦国探究in米沢 事前講座1スライド(スタッフ共有用)『川中島の謎』についてのスライド
リアル戦国探究in米沢 事前講座1スライド(スタッフ共有用)『川中島の謎』についてのスライドリアル戦国探究in米沢 事前講座1スライド(スタッフ共有用)『川中島の謎』についてのスライド
リアル戦国探究in米沢 事前講座1スライド(スタッフ共有用)『川中島の謎』についてのスライドKen Fukui
 
My Inspire High Award 2024「なぜ、好きなことにいつかは飽きるの」
My Inspire High Award 2024「なぜ、好きなことにいつかは飽きるの」My Inspire High Award 2024「なぜ、好きなことにいつかは飽きるの」
My Inspire High Award 2024「なぜ、好きなことにいつかは飽きるの」inspirehighstaff03
 
My Inspire High Award 2024      「家族とは何か」
My Inspire High Award 2024      「家族とは何か」My Inspire High Award 2024      「家族とは何か」
My Inspire High Award 2024      「家族とは何か」inspirehighstaff03
 
My Inspire High Award 2024「なぜ人は他人と違うところがあってもそれをなかなか誇れないのか?」
My Inspire High Award 2024「なぜ人は他人と違うところがあってもそれをなかなか誇れないのか?」My Inspire High Award 2024「なぜ人は他人と違うところがあってもそれをなかなか誇れないのか?」
My Inspire High Award 2024「なぜ人は他人と違うところがあってもそれをなかなか誇れないのか?」inspirehighstaff03
 
リアル戦国探究in米沢 当日講座1(スタッフ共有用)『兵は詐をもって立つ』についてのスライド
リアル戦国探究in米沢 当日講座1(スタッフ共有用)『兵は詐をもって立つ』についてのスライドリアル戦国探究in米沢 当日講座1(スタッフ共有用)『兵は詐をもって立つ』についてのスライド
リアル戦国探究in米沢 当日講座1(スタッフ共有用)『兵は詐をもって立つ』についてのスライドKen Fukui
 
My Inspire High Award 2024「他者と自分、対立を防ぐには?」
My Inspire High Award 2024「他者と自分、対立を防ぐには?」My Inspire High Award 2024「他者と自分、対立を防ぐには?」
My Inspire High Award 2024「他者と自分、対立を防ぐには?」inspirehighstaff03
 
リアル戦国探究in米沢 当日講座3スライド(スタッフ共有用)『糧は三度はさいせず』についてのスライド
リアル戦国探究in米沢 当日講座3スライド(スタッフ共有用)『糧は三度はさいせず』についてのスライドリアル戦国探究in米沢 当日講座3スライド(スタッフ共有用)『糧は三度はさいせず』についてのスライド
リアル戦国探究in米沢 当日講座3スライド(スタッフ共有用)『糧は三度はさいせず』についてのスライドKen Fukui
 
International Politics I - Lecture 1
International Politics I - Lecture 1International Politics I - Lecture 1
International Politics I - Lecture 1Toru Oga
 
What I did before opening my business..pdf
What I did before opening my business..pdfWhat I did before opening my business..pdf
What I did before opening my business..pdfoganekyokoi
 
My Inspire High Award 2024  「正義って存在するの?」
My Inspire High Award 2024  「正義って存在するの?」My Inspire High Award 2024  「正義って存在するの?」
My Inspire High Award 2024  「正義って存在するの?」inspirehighstaff03
 
My Inspire High Award 2024「世の中の流行はどのようにして生まれるのか」
My Inspire High Award 2024「世の中の流行はどのようにして生まれるのか」My Inspire High Award 2024「世の中の流行はどのようにして生まれるのか」
My Inspire High Award 2024「世の中の流行はどのようにして生まれるのか」inspirehighstaff03
 
My Inspire High Award 2024 「本当の『悪者』って何?」
My Inspire High Award 2024 「本当の『悪者』って何?」My Inspire High Award 2024 「本当の『悪者』って何?」
My Inspire High Award 2024 「本当の『悪者』って何?」inspirehighstaff03
 
My Inspire High Award 2024「老いることは不幸なこと?」
My Inspire High Award 2024「老いることは不幸なこと?」My Inspire High Award 2024「老いることは不幸なこと?」
My Inspire High Award 2024「老いることは不幸なこと?」inspirehighstaff03
 
TEAMIN Service overview for customer_20240422.pdf
TEAMIN Service overview for customer_20240422.pdfTEAMIN Service overview for customer_20240422.pdf
TEAMIN Service overview for customer_20240422.pdfyukisuga3
 

Recently uploaded (20)

My Inspire High Award 2024「なぜ議会への関心が低いのか?」
My Inspire High Award 2024「なぜ議会への関心が低いのか?」My Inspire High Award 2024「なぜ議会への関心が低いのか?」
My Inspire High Award 2024「なぜ議会への関心が低いのか?」
 
リアル戦国探究in米沢 当日講座2スライド(スタッフ共有用)『人を致すも人に致されず』についてのスライド
リアル戦国探究in米沢 当日講座2スライド(スタッフ共有用)『人を致すも人に致されず』についてのスライドリアル戦国探究in米沢 当日講座2スライド(スタッフ共有用)『人を致すも人に致されず』についてのスライド
リアル戦国探究in米沢 当日講座2スライド(スタッフ共有用)『人を致すも人に致されず』についてのスライド
 
My Inspire High Award 2024 「AIと仲良くなるには?」
My Inspire High Award 2024 「AIと仲良くなるには?」My Inspire High Award 2024 「AIと仲良くなるには?」
My Inspire High Award 2024 「AIと仲良くなるには?」
 
リアル戦国探究in米沢 事前講座2スライド(スタッフ共有用)『両雄の強さの秘密』についてのスライド
リアル戦国探究in米沢 事前講座2スライド(スタッフ共有用)『両雄の強さの秘密』についてのスライドリアル戦国探究in米沢 事前講座2スライド(スタッフ共有用)『両雄の強さの秘密』についてのスライド
リアル戦国探究in米沢 事前講座2スライド(スタッフ共有用)『両雄の強さの秘密』についてのスライド
 
My Inspire High Award2024「外国人が日本のテーブルマナーに驚く理由は?」
My Inspire High Award2024「外国人が日本のテーブルマナーに驚く理由は?」My Inspire High Award2024「外国人が日本のテーブルマナーに驚く理由は?」
My Inspire High Award2024「外国人が日本のテーブルマナーに驚く理由は?」
 
My Inspire High Award 2024「Yakushima Islandってなんか変じゃない?」.pdf
My Inspire High Award 2024「Yakushima Islandってなんか変じゃない?」.pdfMy Inspire High Award 2024「Yakushima Islandってなんか変じゃない?」.pdf
My Inspire High Award 2024「Yakushima Islandってなんか変じゃない?」.pdf
 
リアル戦国探究in米沢 事前講座1スライド(スタッフ共有用)『川中島の謎』についてのスライド
リアル戦国探究in米沢 事前講座1スライド(スタッフ共有用)『川中島の謎』についてのスライドリアル戦国探究in米沢 事前講座1スライド(スタッフ共有用)『川中島の謎』についてのスライド
リアル戦国探究in米沢 事前講座1スライド(スタッフ共有用)『川中島の謎』についてのスライド
 
My Inspire High Award 2024「なぜ、好きなことにいつかは飽きるの」
My Inspire High Award 2024「なぜ、好きなことにいつかは飽きるの」My Inspire High Award 2024「なぜ、好きなことにいつかは飽きるの」
My Inspire High Award 2024「なぜ、好きなことにいつかは飽きるの」
 
My Inspire High Award 2024      「家族とは何か」
My Inspire High Award 2024      「家族とは何か」My Inspire High Award 2024      「家族とは何か」
My Inspire High Award 2024      「家族とは何か」
 
My Inspire High Award 2024「なぜ人は他人と違うところがあってもそれをなかなか誇れないのか?」
My Inspire High Award 2024「なぜ人は他人と違うところがあってもそれをなかなか誇れないのか?」My Inspire High Award 2024「なぜ人は他人と違うところがあってもそれをなかなか誇れないのか?」
My Inspire High Award 2024「なぜ人は他人と違うところがあってもそれをなかなか誇れないのか?」
 
リアル戦国探究in米沢 当日講座1(スタッフ共有用)『兵は詐をもって立つ』についてのスライド
リアル戦国探究in米沢 当日講座1(スタッフ共有用)『兵は詐をもって立つ』についてのスライドリアル戦国探究in米沢 当日講座1(スタッフ共有用)『兵は詐をもって立つ』についてのスライド
リアル戦国探究in米沢 当日講座1(スタッフ共有用)『兵は詐をもって立つ』についてのスライド
 
My Inspire High Award 2024「他者と自分、対立を防ぐには?」
My Inspire High Award 2024「他者と自分、対立を防ぐには?」My Inspire High Award 2024「他者と自分、対立を防ぐには?」
My Inspire High Award 2024「他者と自分、対立を防ぐには?」
 
リアル戦国探究in米沢 当日講座3スライド(スタッフ共有用)『糧は三度はさいせず』についてのスライド
リアル戦国探究in米沢 当日講座3スライド(スタッフ共有用)『糧は三度はさいせず』についてのスライドリアル戦国探究in米沢 当日講座3スライド(スタッフ共有用)『糧は三度はさいせず』についてのスライド
リアル戦国探究in米沢 当日講座3スライド(スタッフ共有用)『糧は三度はさいせず』についてのスライド
 
International Politics I - Lecture 1
International Politics I - Lecture 1International Politics I - Lecture 1
International Politics I - Lecture 1
 
What I did before opening my business..pdf
What I did before opening my business..pdfWhat I did before opening my business..pdf
What I did before opening my business..pdf
 
My Inspire High Award 2024  「正義って存在するの?」
My Inspire High Award 2024  「正義って存在するの?」My Inspire High Award 2024  「正義って存在するの?」
My Inspire High Award 2024  「正義って存在するの?」
 
My Inspire High Award 2024「世の中の流行はどのようにして生まれるのか」
My Inspire High Award 2024「世の中の流行はどのようにして生まれるのか」My Inspire High Award 2024「世の中の流行はどのようにして生まれるのか」
My Inspire High Award 2024「世の中の流行はどのようにして生まれるのか」
 
My Inspire High Award 2024 「本当の『悪者』って何?」
My Inspire High Award 2024 「本当の『悪者』って何?」My Inspire High Award 2024 「本当の『悪者』って何?」
My Inspire High Award 2024 「本当の『悪者』って何?」
 
My Inspire High Award 2024「老いることは不幸なこと?」
My Inspire High Award 2024「老いることは不幸なこと?」My Inspire High Award 2024「老いることは不幸なこと?」
My Inspire High Award 2024「老いることは不幸なこと?」
 
TEAMIN Service overview for customer_20240422.pdf
TEAMIN Service overview for customer_20240422.pdfTEAMIN Service overview for customer_20240422.pdf
TEAMIN Service overview for customer_20240422.pdf
 

Fisher Vectorによる画像認識

  • 1. 2013/04/24 上智大学 山中高夫 フィッシャーベクトルによる画像認識 [0] 赤穂昭太郎,カーネル多変量解析,岩波書店,2009. [1] F. Perronnin and C. Dance, “Fisher Kernels on Visual Vocabularies for Image Categorization,” in IEEE Conference on Computer Vision and Pattern Recognition, 2007. [2] F. Perronnin, S. Jorge, and T. Mensink, “Improving the Fisher Kernel for Large-Scale Image Classification,” in European Conference on Computer Vision, 2010. [3] F. Perronnin, Y. Liu, J. Sanchez, and H. Poirier, “Large-scale image retrieval with compressed Fisher vectors,” in IEEE Conference on Computer Vision and Pattern Recognition, 2010. [4] J. Sanchez and F. Perronnin, “High-dimensional signature compression for large-scale image classification,” in IEEE Conference on Computer Vision and Pattern Recognition, 2011. [5] J. Krapac, J. Verbeek, and F. Jurie, “Modeling spatial layout with fisher vectors for image categorization,” in International Conference on Computer Vision, 2011. [6] V. Garg, S. Chandra, and C. V. Jawahar, “Sparse discriminative Fisher vectors in visual classification,” in Indian Conference on Computer Vision, Graphics and Image Processing, 2012. [7] J. Sánchez, F. Perronnin, and T. de Campos, “Modeling the spatial layout of images beyond spatial pyramids,” Pattern Recognition Letters, vol. 33, pp. 2216–2223, Dec. 2012.
  • 3. 多変量解析(1) 線形モデル 𝑑 𝑦 = 𝒘𝑇 𝒙= 𝑤𝑚𝑥 𝑚 𝑚=1 評価関数 𝑁 𝑦𝑗 − 𝒘𝑇 𝒙𝑗 𝑅 𝒘 = 2 𝑗=1 行列表現 𝑦1 𝑦2 , 𝒚= ⋮ 𝑦𝑛 1 𝑥1 𝑦1 2 𝑦 2 = 𝑥1 ⋮ ⋮ 𝑛 𝑦 𝑥1𝑛 𝑇 1 𝑥1 𝒙1 𝑇 2 𝒙2 = 𝑥1 𝐗= ⋮ ⋮ 𝑇 𝑥1𝑛 𝒙𝑛 ⋯ 𝑥1 𝑑 𝑥2 𝑑 ⋮ 𝑥 𝑑𝑛 𝑤1 𝑤2 ⋮ 𝑤𝑑 ⋯ 𝑥1 𝑑 2 𝑥𝑑 ⋮ 𝑥 𝑑𝑛 𝒚 = 𝐗𝒘
  • 4. 多変量解析(2) 最小2乗解 𝒚 = 𝐗𝒘 𝑅 𝒘 = 𝒚 − 𝐗𝒘 𝑇 (𝒚 − 𝐗𝒘) 𝜕𝑅 𝒘 𝜕 &= 𝒚 𝑇 𝒚 − 2𝒘T 𝐗 𝑇 𝒚 + 𝒘 𝑇 𝐗 𝑇 𝐗𝒘 𝜕𝒘 𝜕𝒘 = & −2𝐗 𝑇 𝒚 + 2𝐗 𝑇 𝐗𝒘 𝑅 𝒘 が最小になる𝒘では,微分 が0になるので(極値なので) −2𝐗 𝑇 𝒚 + 2𝐗 𝑇 𝐗𝒘 = 0 𝐗𝑇 𝐗 −1 𝐗𝑇 𝐗 𝒘= 𝐗𝑇 𝐗 −1 𝐗𝑇 𝒚 𝒘= 𝐗𝑇 𝐗 −1 𝐗𝑇 𝒚 近似直線を表すパラメータ
  • 5. カーネル法(1) 線形モデル 𝑦 = 𝒘𝑇 𝒙 カーネル関数 𝒙 𝑖 , 𝒙の類似度を表す カーネル関数を使った非線形モデル ただし, 𝑛 𝑦&= 𝛼 𝑖 𝑘 𝒙 𝑖, 𝒙 𝑘 𝒙 𝑖, 𝒙 = 𝝓 𝒙 𝑖 𝑖=1 𝑛 = & 𝑇 𝝓 𝒙 𝒙 𝑖 は𝑛点のサンプルのうちの一つ 𝛼𝑖 𝝓 𝒙𝑖 𝑇 𝝓 𝒙 𝑖=1 𝑛 = & = & 𝛼𝑖 𝝓 𝒙𝑖 𝑖=1 𝒘𝑇 𝝓 𝒙 𝑇 𝝓 𝒙 線形モデルにおける𝒙を非線形 関数𝝓 𝒙 に置き換えたモデル
  • 6. カーネル法(2) カーネル関数を使った非線形モデル 𝑦&= 𝒘 𝑇 𝝓 𝒙 𝑘 𝒙 𝑖, 𝒙 = 𝝓 𝒙 𝑖 𝑛 = & 𝑇 𝝓 𝒙 𝛼 𝑖 𝑘 𝒙 𝑖, 𝒙 𝑖=1 𝑘(𝑥1 , 𝑥1 ) 𝑦1 𝑦 2 , 𝐊 = 𝑘(𝑥1 , 𝑥2 ) ⋯ 𝒚= ⋮ ⋮ 𝑘(𝑥1 , 𝑥 𝑛 ) 𝑦𝑛 最小2乗解 𝒚 = 𝐊𝜶 𝑅 𝜶 = 𝒚 − 𝐊𝜶 𝑇 (𝒚 − 𝐊𝜶) 𝜶= 𝐊𝑇 𝐊 −1 𝐊𝑇 𝒚 非線形モデル のパラメータ 𝐊を対称行列とすると 𝜶= 𝐊2 −1 𝐊𝒚 = 𝐊 −1 𝐲 全てのデータ間の類似度𝐊を定義できれば,非 線形関数𝝓 𝒙 を明示的に定義する必要がない 𝛼1 𝑘(𝑥 𝑛 , 𝑥1 ) 𝛼2 𝑘(𝑥 𝑛 , 𝑥2 ) , 𝜶= ⋮ ⋮ 𝛼𝑛 𝑘(𝑥 𝑛 , 𝑥 𝑛 )
  • 7. カーネル法(3) 正則化:関数に制限をつけてオーバーフィッティングを防ぐ 𝒚 = 𝐊𝜶 𝑅 𝜶 = 𝒚 − 𝐊𝜶 𝑇 正則化項 𝑇 𝒚 − 𝐊𝜶 + 𝜆𝜶 𝐊𝜶 𝜕𝑅 𝜶 𝜕 &= 𝒚 𝑇 𝒚 − 2𝜶T 𝐊 𝑇 𝒚 + 𝜶 𝑇 𝐊 𝑇 𝐊𝜶 + 𝜆𝜶 𝑇 𝐊𝜶 𝜕𝜶 𝜕𝜶 = & −2𝐊 𝑇 𝒚 + 2 𝐊 𝑇 + 𝜆𝐈 𝐊𝜶 非線形モデル 𝜶 = 𝐊 𝑇 + 𝜆𝐈 𝐊 −1 𝐊 𝑇 𝒚 のパラメータ 𝐊を対称行列とすると −2𝐊𝒚 + 2 𝐊 + 𝜆𝐈 𝐊𝜶 = 𝟎 𝐊𝐊 + 𝜆𝐊 𝜶 = 𝐊𝒚 𝐊 + 𝜆𝐈 𝜶 = 𝒚 𝜶= 𝐊 + 𝜆𝐈 −1 𝒚
  • 8. カーネル関数の設計(1) 𝑘 𝒙 𝑖, 𝒙 = 𝝓 𝒙 𝑖 𝑇 𝝓 𝒙 𝑘(𝑥1 , 𝑥1 ) 𝑘(𝑥1 , 𝑥2 ) 𝐊= ⋯ ⋮ 𝑘(𝑥1 , 𝑥 𝑛 ) 𝑘(𝑥 𝑛 , 𝑥1 ) 𝑘(𝑥 𝑛 , 𝑥2 ) ⋮ 𝑘(𝑥 𝑛 , 𝑥 𝑛 ) カーネル法のモデルパラメータ を推定するためには,この行列 が定義出来ればよい 例1)ガウスカーネル 𝑘 𝒙 𝑖 , 𝒙 = exp −𝛽 𝒙 𝑖 − 𝒙 2 近い点同士は高い類似度を,遠い 点同士は低い類似度を割り当てる
  • 9. カーネル関数の設計(2) 例2)フィッシャーカーネル 𝒙がパラメータ𝜽をもつ確率分布𝑝 𝒙; 𝜽 から生成されるとする 例えば,Gaussian Mixture Model (GMM) 𝐾 𝑝 𝒙 = 𝑘=1 1 𝜋 𝑘 exp − 𝒙− 𝝁𝑘 2 𝑇 −1 𝚺𝑘 𝒙− 𝝁𝑘 𝜽 = 𝜋2 , ⋯ , 𝜋 𝐾 , 𝝁1 , ⋯ , 𝝁 𝐾 , 𝚺1 , ⋯ , 𝚺 𝐾 = 𝜃1 , ⋯ , 𝜃 𝑀 スコア関数 𝒔 𝒙; &𝜽 = 𝜕 log 𝑝 𝒙; 𝜽 𝜕 log 𝑝 𝒙; 𝜽 ,⋯, 𝜕𝜃1 𝜕𝜃 𝑀 𝑇 仮定した確率分布𝑝 𝒙; 𝜽 を利用して,あるデータ𝒙及びあるパラメータ𝜽からスコ ア関数を計算できる.スコア関数は確率分布の対数をとったlog 𝑝 𝒙; 𝜽 に対して, パラメータ𝜽に関する偏微分を計算したベクトルである. 与えられたデータ𝒙を代入したlog 𝑝 𝒙; 𝜽 の𝜽に関する傾きを表す
  • 10. カーネル関数の設計(3) 例2)フィッシャーカーネル(続き) フィッシャー情報行列 𝐺 𝜽 = E 𝒙 𝒔 𝒙; &𝜽 𝒔 𝒙; &𝜽 パラメータ数𝑀 × 𝑀の行列 𝑇 フィッシャーカーネル 𝑘 𝒙 𝑖 , 𝒙; 𝜽 = 𝒔 𝒙 𝑖 ; &𝜽 𝑇 𝐺 −1 𝜽 𝒔 𝒙; &𝜽 フィッシャー情報行列における期待値を計算できないことが多いので,実 際にはサンプル平均で置き換えることが多い 𝐺 𝜽 &= E 𝒙 𝒔 𝒙; &𝜽 𝒔 𝒙; &𝜽 ≅ & 1 𝑛 𝑇 𝑛 𝒔 𝒙 𝑖 ; &𝜽 𝒔 𝒙 𝑖 ; &𝜽 𝑇 𝑖=1 スコア行列はあるデータ𝒙, あるパラメータ𝜽において計算するが,フィー シャーカーネルはフィッシャー情報行列の逆行列で正規化することにより パラメータ𝜽に依存しない値になる
  • 11. Fisher Kernels on Visual Vocabularies for Image Categorization F. Perronnin and C. Dance, IEEE Conference on Computer Vision and Pattern Recognition, 2007.
  • 13. Bag of Visual Words / Bag of Features Bag of Visual Wordsにおける処理の流れ 1. 画像から局所特徴量の抽出 2. ベクトル量子化による画像特徴量の表現 3. 識別器による画像識別 35 30 25 20 15 10 5 0 0 5 10 15 20 25 𝜙 400 350 300 250 200 150 100 50 0 画像から局所特徴量の抽出 1 2 3 4 5 6 7 ベクトル量子化による 画像特徴量の表現 識別器による画像識別
  • 14. Bag of Visual Words (1) 1. 画像から局所特徴量の抽出 よく利用される局所特徴量は,SIFT (Scale-Invariant Feature Transform) 赤で示した各点で,その周辺のパッ チから特徴量ベクトル(局所特徴 量)を抽出する 点の設定方法 1.キーポイント検出器 2. GRID コンピュータ最先端ガイド2,第1章,アドコム・メディア,2010
  • 15. Bag of Visual Words (2) 2. ベクトル量子化による画像特徴量の表現 35 5 30 6 7 25 20 𝑥2 15 4 400 350 2 10 300 250 5 0 1 3 0 5 200 10 15 20 𝑥1 25 150 100 50 1枚の画像における局所特徴量分布 (特徴量空間にプロット) 0 1 2 3 4 5 6 7 ベクトル量子化ヒストグラム
  • 16. Bag of Visual Words (3) 3. 識別器による画像識別 Support Vector Machine (SVM) による識別 カーネル関数を利用し た高次元空間への写像 𝜙 ベクトル量子化ヒスト グラムの特徴量空間 線形の超平面に よる識別
  • 17. Bag of Visual Wordsにおける課題 膨大な量の画像データを処理するために,計算量を可能な限り小さくしたい 1. コンパクトな画像特徴量表現: 少ないVisual Word数 2. ユニバーサルなVisual Words(辞書): 辞書の学習データに依存しな い認識精度 一般に両立しない • 少ないVisual Word数で高精度の認識を可能にするためには,評 価する画像をよく表現するVisual Wordsを用意する必要がある • 評価画像に特化したVisual Wordsになるため,他のデータベース 画像に対しては精度が低下する可能性が高い フィッシャーカーネルを利用して,出来る限り少ないVisual Word数 で表現力が豊かな画像特徴量表現を検討する
  • 18. フィッシャーカーネルの利用(1) ベクトル量子化による特徴量分布表現 Gaussian Mixture Model(GMM)によ る局所特徴量分布の表現 35 35 5 30 7 25 6 30 25 20 20 𝑥2 𝑥2 4 15 10 2 15 10 5 0 3 0 5 1 5 10 15 20 25 0 𝑥1 0 5 10 15 20 25 𝑥1 𝐾 400 350 𝑝 𝒙 = 300 250 𝜋 𝑘 exp − 𝑘=1 200 150 1 𝒙− 𝝁𝑘 2 𝑇 𝚺 −1 𝑘 𝒙− 𝝁𝑘 100 50 0 1 2 3 4 5 6 7 1&&&&&2&&&&&3&&&&&4&&&&&5&&&&&6&&&&&7 𝜽 = 𝜋2 , ⋯ , 𝜋 𝐾 , 𝝁1 , ⋯ , 𝝁 𝐾 , 𝚺1 , ⋯ , 𝚺 𝐾 = 𝜃1 , ⋯ , 𝜃 𝑀
  • 19. フィッシャーカーネルの利用(2) 各画像に対してGMMのパラメータを計算するのは計算コストが高い あらかじめ多くの画像の局所特徴量から,様々な画像の局所特徴量に対 するGMMパラメータを求める(Visual Words辞書学習) 各画像に対して,GMMのパラメータをどのように変化させるとその画 像にフィットするGMMが求まるかで画像特徴量を表現する → フィッ シャーベクトル • • • 35 35 30 30 25 25 20 20 𝑥2 𝑥2 15 15 10 10 5 5 0 -5 -5 0 5 10 15 20 25 30 35 𝑥1 多くの画像の局所特徴量に対するGMM (Visual Words辞書に対応) 0 0 5 10 15 20 25 𝑥1 辞書のGMMパラメータを変化させて, 1枚の画像に対する局所特徴量分布に フィッティング
  • 20. フィッシャーカーネルの理論(1) GMMに限らず,局所特徴量分布を𝑝 𝒙|𝜽 の確率密度関数で表す ただし,𝜽は確率密度関数のパラメータ 例えば,GMMの場合は, 𝐾 𝑝 𝒙|𝜽 = 𝜋 𝑘 exp − 𝑘=1 1 𝒙− 𝝁𝑘 2 𝑇 𝚺 −1 𝑘 𝒙− 𝝁𝑘 𝜽 = 𝜋2 , ⋯ , 𝜋 𝐾 , 𝝁1 , ⋯ , 𝝁 𝐾 , 𝚺1 , ⋯ , 𝚺 𝐾 = 𝜃1 , ⋯ , 𝜃 𝑀 サンプル𝑿 = 𝒙 𝑡 , 𝑡 = 1, 2, ⋯ , 𝑇 に対して,対数尤度は, 𝐿 𝑿 𝜽 = log 𝑝 𝑿|𝜽 であり,各サンプルが独立であると仮定すると, 𝐿 𝑿 𝜽 &= log = & log = & log = & log 𝑝 𝑿|𝜽 𝑝 𝒙1 , 𝒙2 , ⋯ , 𝒙 𝑇 |𝜽 𝑝 𝒙1 |𝜽 𝑝 𝒙2 |𝜽 ⋯ 𝑝 𝒙 𝑇 |𝜽 𝑝 𝒙1 |𝜽 + log 𝑝 𝒙2 |𝜽 + ⋯ + log 𝑝 𝒙 𝑇 |𝜽 𝑇 = & log 𝑝 𝒙 𝑡 |𝜽 𝑡=1
  • 21. フィッシャーカーネルの理論(2) フィッシャーカーネル(フィッシャーベクトル)を定義するために,スコア関数を 以下の式で定義する 確率密度関数のモデルをデータ 𝒔 𝑿|𝜽 &= 𝛻 𝜃 log 𝑝 𝑿|𝜽 𝑿 = 𝒙 𝑡 , 𝑡 = 1, 2, ⋯ , 𝑇 にフィッ 𝑇 ティングするため,モデルパラ 𝜕 log 𝑝 𝑿|𝜽 𝜕 log 𝑝 𝑿|𝜽 = & ,⋯, メータ𝜽を変化させる方向 𝜕𝜃1 𝜕𝜃 𝑀 フィッシャー情報行列 𝑭 𝜽 = E 𝑿 𝒔 𝑿|𝜽 𝒔 𝑿|𝜽 パラメータ数𝑀 × 𝑀の行列 𝑇 フィッシャーカーネル 1 𝑘 𝑿 𝑖 , 𝑿|𝜽 = 𝒔 𝑿 𝑖 |𝜽 𝑇 𝑇 𝑭−1 𝜽 1 𝒔 𝑿|𝜽 𝑇 フィッシャーベクトル 1 1 𝑔 𝜽𝑿 = 𝑳 𝜽 𝒔 𝑿|𝜽 = 𝑳 𝜽 𝛻 log 𝑝 𝑿|𝜽 𝑇 𝑇 𝜃 確率密度関数モデルの勾配方 向をフィッシャー情報行列で 正規化 𝑭−1 = 𝑳 𝜽 𝑻 𝑳 𝜽 𝜽 とおくと,フィッシャーカーネルはフィッシャーベクトルの内積で表現できる 𝑿 𝑇 𝑘 𝑿 𝑖 , 𝑿|𝜽 = 𝑔 𝜽 𝑖 𝑔 𝜽𝑿 つまり,カーネル法において𝝓 𝑿 = 𝑔 𝜽𝑿
  • 22. フィッシャーカーネルの理論(3) フィッシャーベクトルを計算する具体的手順 35 30 • あらかじめ,多くの画像の局所特徴量から,確率密 度関数のモデル𝑝 𝒙|𝜽 に最もフィットするパラメー タ𝜽を求める • 一枚の画像に対して,局所特徴量 𝑿 = 𝒙 𝑡 , 𝑡 = 1, ⋯ , 𝑇 を計算し, 𝑿にフィットするよ うに,パラメータ𝜽に対するlog 𝑝 𝑿|𝜽 の勾配ベクト ルを計算する 𝒔 𝑿|𝜽 &= 𝛻 𝜃 log 𝑝 𝑿|𝜽 = & 𝜕 log 𝑝 𝑿|𝜽 𝜕 log 𝑝 𝑿|𝜽 ,⋯, 𝜕𝜃1 𝜕𝜃 𝑀 𝑇 25 20 15 𝑥2 10 5 0 -5 -5 0 5 10 15 20 25 30 35 𝑥1 多くの画像の局所特徴量に対するGMM (Visual Words辞書に対応) 35 30 25 • 以下の式でフィッシャーベクトルを計算する 1 𝑔 𝜽𝑿 = 𝑳 𝜽 𝒔 𝑿|𝜽 𝑇 • フィッシャーカーネルは𝑔 𝜽𝑿 の内積で表されるので, 内積を使った線形SVMによりフィッシャーカーネル を使ったSVMによる識別を実現できる 20 𝑥2 15 10 5 0 0 5 10 15 20 25 𝑥1 辞書のGMMパラメータを変化させて, 1枚の画像に対する局所特徴量分布に フィッティング
  • 23. GMMに対するフィッシャーベクトル(1) 確率密度関数のモデルをGMMとすると,パラメータ𝜽は𝐾個のガウス分布の重み,平 均,共分散行列である(ただし,確率密度関数の面積を1にするため,1番目の重み パラメータは他の重みから決定される) 𝐾 𝑝 𝒙|𝜽 = 𝑘=1 1 𝜋 𝑘 exp − 𝒙− 𝝁𝑘 2 𝑝 𝑘 𝒙|𝜽 = 𝜽= 1 𝐷/2 2𝜋 Σ𝑘 𝐾 𝑇 𝚺 −1 𝑘 exp − 1/2 𝒙− 𝝁𝑘 = 𝜔 𝑘 𝑝 𝑘 𝒙|𝜽 𝑘=1 1 𝒙− 𝝁𝑘 2 𝐾 𝑇 𝚺 −1 𝑘 𝒙− 𝝁𝑘 𝜔2 , ⋯ , 𝜔 𝐾 , 𝝁1 , ⋯ , 𝝁 𝐾 , 𝚺1 , ⋯ , 𝚺 𝐾 = 𝜃1 , ⋯ , 𝜃 𝑀 , サンプル𝑿 = 𝒙 𝑡 , 𝑡 = 1, 2, ⋯ , 𝑇 に対して,対数尤度は, 𝐿 𝑿 𝜽 &= log 𝑝 𝑿|𝜽 𝑇 = & log 𝑝 𝒙 𝑡 |𝜽 𝑡=1 𝑇 = & 𝐾 log 𝑡=1 𝜔 𝑘 𝑝 𝑘 𝒙 𝑡 |𝜽 𝑘=1 , 𝜔𝑘 =1 𝑖=1 M = (2𝑑 + 1)𝐾 − 1
  • 24. GMMに対するフィッシャーベクトル(2) サンプル𝑿 = 𝒙 𝑡 , 𝑡 = 1, 2, ⋯ , 𝑇 に対して,対数尤度は, 𝑇 𝐾 𝐿 𝑿 𝜽 = log 𝑡=1 𝜔 𝑘 𝑝 𝑘 𝒙 𝑡 |𝜽 𝑘=1 パラメータ𝜽に対する勾配ベクトルは,GMMの共分散行列Σ 𝑘 を対角行列と仮定すると, 𝜕𝐿 𝑿 𝜽 &= 𝜕𝜔 𝑖 𝜕𝐿 𝑿 𝜽 &= 𝜕𝜇 𝑖𝑑 𝜕𝐿 𝑿 𝜽 𝜕𝜎 𝑖 𝑑 𝑇 𝑡=1 𝑇 𝑡=1 𝑇 &= 𝑡=1 𝜕 1 𝛾𝑡 𝑖 − 𝒙 − 𝝁𝑖 2 𝑡 𝜕𝜇 𝑖𝑑 𝐾 𝑘=1 𝑡=1 𝛾 𝑡 (𝑖) 𝛾 𝑡 (1) − 𝜔𝑖 𝜔1 𝜔 𝑖 𝑝 𝑖 𝒙 𝑡 |𝜽 , 𝜔1 = 1 − 𝐾 𝜔 𝑘 𝑝 𝑘 𝒙 𝑡 |𝜽 𝑘=1 𝑖 = 2, ⋯ , 𝐾 𝑇 𝑇 𝚺 −1 𝑖 𝒙 𝑡 − 𝝁𝑖 = 𝛾𝑡 𝑖 𝑥 𝑡𝑑 − 𝜇 𝑖𝑑 𝜎𝑖 𝑑 𝑡=1 𝜔𝑖 𝜕 𝑝 𝒙|𝜽 = 𝜔 𝑘 𝑝 𝑘 𝒙 𝑡 |𝜽 𝜕𝜎 𝑖 𝑑 𝑖 ただし, 𝛾𝑡 𝑖 = 𝑇 −𝑝1 𝒙 𝑡 |𝜽 + 𝑝 𝑖 𝒙 𝑡 |𝜽 = 𝐾 𝜔 𝑘 𝑝 𝑘 𝒙 𝑡 |𝜽 𝑘=1 𝑇 𝛾𝑡 𝑖 𝑡=1 𝑥 𝑡𝑑 − 𝜇 𝑖𝑑 𝜎𝑖 𝐾 𝜔 𝑘 , 𝜎𝑖 𝑑 𝑖=2 2 = Σ 𝑖 (𝑑, 𝑑) 𝑑 3 2 − 2 1 𝜎𝑖 𝑑
  • 25. GMMに対するフィッシャーベクトル(3) 以上で,1枚の画像の局所特徴量集合𝑿 = 𝒙 𝑡 , 𝑡 = 1, 2, ⋯ , 𝑇 に対して,事前に学習し たGMMパラメータ𝜽におけるスコア関数を計算できる 𝒔 𝑿|𝜽 &= 𝛻 𝜃 log 𝑝 𝑿|𝜽 = & 𝜕 log 𝑝 𝑿|𝜽 𝜕 log 𝑝 𝑿|𝜽 ,⋯, 𝜕𝜃1 𝜕𝜃 𝑀 𝑇 以下の式でフィッシャーベクトルを計算するためには,フィッシャー情報行列𝑭 𝜽 が求 まれば良い.𝑭−1 = 𝑳 𝜽 𝑻 𝑳 𝜽 として, 𝜽 1 𝑔 𝜽𝑿 = 𝑳 𝜽 𝒔 𝑿|𝜽 1 1 𝑇 𝑓 𝜔 𝑡 &= 𝑇 + 𝜔𝑖 𝜔1 フィッシャー情報行列𝑭 𝜽 は以下の仮定をおく 𝜔𝑖 と,右式のように近似できる 𝑓 𝑢 𝑑 &= 𝑇 2 𝑖 𝜎𝑖 𝑑 (1) フィッシャー情報行列を対角行列とする (計算を簡単にするため) 2𝜔 𝑖 𝑓 𝜎 𝑑 &&= 𝑇 2 (2) 各画像から得られる局所特徴量数は等しい 𝑖 𝜎𝑖 𝑑 (3) 𝛾 𝑡 𝑖 は0もしくは1に近い値をとる(各画 ただし,𝑓 𝜔 𝑡 , 𝑓 𝑢 𝑑 , 𝑓 𝜎 𝑑 はそれぞれ 像において,GMMの1つのガウス分布の寄 𝑖 𝑖 与が他に比べて非常に大きい) フィッシャー情報行列𝑭 𝜽 の対応す るパラメータの対角成分とする
  • 26. GMMに対するフィッシャーベクトル(4) フィッシャーベクトル計算式のまとめ 1 𝑿 𝑔𝜽 = 𝑳𝜽 𝑇 𝜕𝐿 𝑿|𝜽 𝜕𝐿 𝑿|𝜽 𝜕𝐿 𝑿|𝜽 𝜕𝐿 𝑿|𝜽 𝜕𝐿 𝑿|𝜽 𝜕𝐿 𝑿|𝜽 ,⋯, , ,⋯, , ,⋯, 𝜕𝜔2 𝜕𝜔 𝐾 𝜕𝜇1 𝜕𝜇 𝐾 𝜕𝜎1 𝜕𝜎 𝐾 1 𝑿 𝑔 𝜔 𝑖 &= 𝑇 𝑔 𝜇𝑿 𝑑 &= 𝑖 1 𝑇 1 𝑔 𝜎𝑿 𝑑 &= 𝑖 𝑇 𝑇 𝑇 𝑇 − 1 1 + 𝜔𝑖 𝜔1 1 − 2 𝜔𝑖 𝜎𝑖 𝑑 2 2𝜔 𝑖 𝜎𝑖 𝑑 2 1 2 𝑇 𝑡=1 𝑇 𝛾𝑡 𝑖 𝑡=1 − 1 2 𝑇 𝛾𝑡 𝑖 𝑡=1 35 𝛾𝑡 𝑖 𝛾𝑡 1 − 𝜔𝑖 𝜔1 𝑥 𝑡𝑑 − 𝜇 𝑖𝑑 𝜎𝑖 𝑑 2 = 𝑥 𝑡𝑑 − 𝜇 𝑖𝑑 𝜎𝑖 𝑑 3 − 1 1 1 = + 𝜔1 𝑇 𝑇 𝜔𝑖 𝑇 1 𝑇 𝑇𝜔 𝑖 2 − 1 𝜎𝑖 𝑑 𝛾𝑡 𝑖 𝑇 𝑡=1 𝛾𝑡 𝑖 𝛾𝑡 1 − 𝜔𝑖 𝜔1 𝑥 𝑡𝑑 − 𝜇 𝑖𝑑 𝜎𝑖 𝑑 𝑡=1 = 1 2 𝑇 1 𝑇 2𝑇𝜔 𝑖 𝑇 𝛾𝑡 𝑖 𝑡=1 𝑥 𝑡𝑑 − 𝜇 𝑖𝑑 𝜎𝑖 𝑑 2 2 −1 𝑿 𝑔 𝜔 𝑖 &: 各ガウス分布の重み(寄与) 𝑔 𝜇𝑿 𝑑 : 各ガウス分布の平均ベクトル 30 25 𝑖 20 𝑔 𝜎𝑿 𝑑 : 𝑖 𝑥2 15 各ガウス分布の分散(大きさ) 10 フィッシャーベクトルの次元: (2𝑑 + 1)𝐾 − 1 5 0 0 5 10 15 𝑥1 20 25
  • 27. Improving the Fisher Kernel for Large-Scale Image Classification F. Perronnin, S. Jorge, and T. Mensink, European Conference on Computer Vision, 2010.
  • 28. フィッシャーベクトルの課題 膨大な量の画像データを処理するために,計算量を可能な限り小さくしたい 1. コンパクトな画像特徴量表現: 少ないVisual Word数 2. ユニバーサルなVisual Words(辞書): 辞書の学習データに依存しな い認識精度 フィッシャーベクトルにより少ないVisual Wordsでユニ バーサルな辞書の作成ができた (CVPR2007) ただし,評価用データで辞書を学習した場合,Bag of Visual Wordsと同程度の認識精度しか得られず,精度向上ができていない フィッシャーベクトルを改良して,通常のBag of Visual Wordsより 高い精度を実現する 1. L2正規化 2. パワー正規化 3. 空間ピラミッド
  • 29. L2正規化(1) フィッシャーベクトル 𝑔 𝜽𝑿 1 𝑿 = 𝑳 𝜽 𝒔 𝑿|𝜽 = 𝑳 𝜽 𝑮 𝜃 𝑇 1 1 1 𝑿 𝑮 𝜃 = 𝒔 𝑿|𝜽 = 𝛻 𝜃 log 𝑝 𝑿|𝜽 = 𝛻 𝜃 𝑇 𝑇 𝑇 𝑇 log 𝑝 𝒙 𝑡 |𝜽 𝑡=1 多くの画像から得られた局所特徴量の確率密度関数を𝑝 𝑿|𝜽 = 𝑢 𝜽 𝒙 とすると 𝑇 1 𝑿 𝑮 𝜃 = 𝛻𝜃 𝑇 log 𝑢 𝜽 𝒙 𝑡 𝑡=1 1枚の画像から得られる局所特徴量数𝑇が十分大きいと仮定すると, 𝑿 𝑮 𝜃 &= 𝛻 𝜃 𝐸 𝒙 log 𝑢 𝜽 𝒙 = & 𝛻𝜃 1枚の画像に対する期待値 𝑝 𝒙 log 𝑢 𝜽 𝒙 𝑑𝒙 𝒙 1枚の画像から得られる局 所特徴量の確率密度関数 多くの画像から得られる局所特徴量の 確率密度関数 → 画像の背景と仮定
  • 30. L2正規化(2) 1枚の画像から得られる局所特徴量の確率密度関数𝑝 𝒙 を背景𝑢 𝜽 𝒙 と対象物体 𝑞 𝒙 の確率密度関数の和で表す 𝑢𝜽 𝒙 𝑝 𝒙 = 𝜔𝑞 𝒙 + 1 − 𝜔 𝑢 𝜃 (𝒙) 𝑿 𝑮 𝜃 &= 𝛻 𝜃 𝑝 𝒙 log 𝑢 𝜽 𝒙 𝑑𝒙 𝒙 𝑞 𝒙 = & 𝛻𝜃 𝜔𝑞 𝒙 + 1 − 𝜔 𝑢 𝜃 (𝒙) log 𝑢 𝜽 𝒙 𝑑𝒙 𝒙 = & 𝜔𝛻 𝜃 𝑞 𝒙 log 𝑢 𝜽 𝒙 𝑑𝒙 + 1 − 𝜔 𝛻 𝜃 𝒙 = & 𝜔𝛻 𝜃 𝒙 𝑢 𝜃 (𝒙) log 𝑢 𝜽 𝒙 𝑑𝒙 𝒙 𝑞 𝒙 log 𝑢 𝜽 𝒙 𝑑𝒙 + 1 − 𝜔 𝛻 𝜃 𝐸 𝑢 𝜃 log 𝑢 𝜽 𝒙 多くの画像から確率密度関数を最尤法で推定する場合,𝐸 𝑢 𝜃 log 𝑢 𝜽 𝒙 が 最大となるように推定するので,𝛻 𝜃 𝐸 𝑢 𝜃 log 𝑢 𝜽 𝒙 ≅ 0 𝑿 ∴ & 𝑮 𝜃 ≅ 𝜔𝛻 𝜃 𝑞 𝒙 log 𝑢 𝜽 𝒙 𝑑𝒙 𝑿 𝑮𝜃 𝐾 𝑋, 𝑌 𝑿 𝑮𝜃 𝐾 𝑋, 𝑋 𝐾(𝑌, 𝑌) 対象物体の確率密度関数𝑞 𝒙 に依存する ただし,背景と物体の混合比𝜔が残るので,正規化で排除する 𝒙
  • 31. パワー正規化 問題点 • フィッシャーベクトルは非常にスパース(フィッシャーベクトルは高次 元ベクトルであり,各要素に0が多い.特にガウス分布の混合数が多いと 顕著) • スパースなベクトル同士の距離を内積で評価すると精度が悪い 解決策 1. ベクトル同士の距離を内積ではなく,スパースなベクトルに対して精度 の良いものを使う → 計算コストが高い 2. ベクトルを出来る限りスパースではなくす K=16 K=64 K=256 フィッシャーベクトルの第1要素の分布 GMMの混合数Kが増加するとスパースになりやすい K=256 パワー正規化後 𝑓 𝑧 = 𝑠𝑖𝑔𝑛 𝑧 𝑧 𝛼
  • 32. 空間ピラミッド • Bag of Visual Wordsにおいて,画像を分割し,大まかな位置情報を付与 すると精度がよくなることが知られている
  • 33. フィッシャーベクトルの評価実験 評価用データセット • PASCAL VOC 2007 (約10,000画像 @ 20カテゴリ) • CalTech256 (約30,000画像 @ 256カテゴリ) 局所特徴量 • パッチサイズ:32x32,グリッドサンプリング(間隔16画素),5スケール • 128次元のSIFT特徴量,及び96次元のカラー特徴量(各パッチにおいて,4x4 に領域を分けてそれぞれの領域におけるRGBの平均と分散を並べた特徴量) • SIFTとカラー特徴量は主成分分析(PCA)により64次元に圧縮して利用 Gaussian Mixture Model (GMM) • GMMの混合数K=256に設定 • GMMの学習には,最尤法(Maximum Likelihood Estimation)と標準的なEMア ルゴリズムを使用 識別 • 線形SVMを使用 • SIFT特徴量とカラー特徴量を組み合わせるときは,それぞれで識別を行い, SVMのスコアを単純に平均して識別
  • 34. 評価指標 PASCAL VOC 2007データセット • 20クラスのそれぞれに対して,各画像中にそのクラスの物体が存在する か,それともしないかを判断 • 各クラスに対してPrecision/Recall曲線を計算(Precision: 物体が存在す ると判断した画像中,実際に正解だった割合,Recall: 物体が存在する画 像中,物体が存在すると判断された画像の割合) • Recallに対するPrecisionをグラフに描き,Recallに対するPrecisionの平 均値を計算 Average Precision (AP) CalTech256データセット • 各クラスから学習データを決められた画像数だけランダムに抽出 (ntrain=15, 30, 45, 60) • SVMのパラメータは学習データ中のクラスバリデーションで決定 • 学習データ以外のデータをテストデータとして識別率を計算 • 学習データとテストデータの分け方を変えて5回繰り返して識別 平均識別率
  • 35. PASCAL VOC 2007に対する実験結果(1) 改良の効果: パワー正規化 > L2正規化 > 空間ピラミッド
  • 36. PASCAL VOC 2007に対する実験結果(2) Multichannels+non-linear SVM Bounding box Many channels+soft-assignment Many channels+Multiple Kernel Learning [8]+sliding window
  • 38. 大規模学習データによる評価実験 データセット • 2つの学習用データセット:ImageNet (270K画像@18カテゴリ),Flickr (350K画像@18カテゴリ) • 評価用データ:PASCAL VOC 2007 "test" set(5K画像@20カテゴリ) 局所特徴量/ Gaussian Mixture Model (GMM) • 前の実験と同じ 識別 • それぞれの学習用データセットで学習し,評価用データで評価した結果 • 各データセットでSVMを学習後,そのスコアを統合して識別した結果
  • 40. まとめ • 多変量解析に利用されるカーネル法を紹介し,カーネル関数の例として フィッシャーカーネルを説明した. • Bag of Visual Wordsの拡張として,フィッシャーカーネルに基づいた フィッシャーベクトルを画像認識に適用した.ユニバーサルでコンパク トな辞書で画像識別が可能である. • L2正規化,パワー正規化,空間ピラミッドをフィッシャーベクトルに導 入することにより,複雑で高計算コストの手法と同等の画像識別精度が 実現可能であることを示した.高速な計算が可能なため,ImageNetなど 大規模データにも適用可能である. • 下記の文献では,近年提案された画像識別手法を比較した結果,フィッ シャーベクトルを利用した手法が高い精度を示すことが報告されている K. Chatfield, V. Lempitsky, A. Vedaldi, and A. Zisserman, “The devil is in the details: an evaluation of recent feature encoding methods,” British Machine Vision Conference, 2011.