20160717 dikf

第35回 CV勉強会「CVPR2016読み会」
Discriminative Invariant Kernel Features:
A Bells-and-Whistles-Free Approach to Unsupervised
Face Recognition and Pose Estimation
皆川卓也(takmin)

自己紹介
2
テクニカル・ソリューション・アーキテクト
皆川卓也（みながわたくや）
フリーエンジニア（ビジョン＆ITラボ）
「コンピュータビジョン勉強会＠関東」主催
博士（工学）
略歴：
1999-2003年
日本HP（後にアジレント・テクノロジーへ分社）にて、ITエンジニアとしてシステム構築、プリ
セールス、プロジェクトマネジメント、サポート等の業務に従事
2004-2009年
コンピュータビジョンを用いたシステム/アプリ/サービス開発等に従事
2007-2010年
慶應義塾大学大学院後期博士課程にて、コンピュータビジョンを専攻
単位取得退学後、博士号取得（2014年）
2009年-現在
フリーランスとして、コンピュータビジョンのコンサル/研究/開発等に従事
http://visitlab.jp

紹介論文
 Discriminative Invariant Kernel Features: A Bells-and-
Whistles-Free Approach to Usupervised Face
Recognition and Pose Estimation
 Dipan K. Pal, Felix Juefe-Xu, Marios Savvides
 Carnegie Mellon University
顔向き変化にロバストな人物推定、
および人の違いにロバストな顔向き
推定を１つのフレームワーク内で行
う

概要
 生の画素値から顔を識別
 向きの変化に頑健な非線形特徴を学習
 顔のランドマーク情報は目の中心２つだけ
必要
 同時に顔の向きも推定可能

概要
 生の画素値から顔を識別
 向きの変化に頑健な非線形特徴を学習
 顔のランドマーク情報は目の中心２つだけ
必要
 同時に顔の向きも推定可能
 Deepじゃない
 でもまったく関係ないわけでもない

Linear Invariant Random Features
 I-theory
 F.Anselmi, J.Z.Leibo, L.Rosasco, J.Mutch, A.Tacchetti, and
T.Poggio. “Magic materials: a theory of deep hierarchical
architectures for learning sensory representations”. MIT,
CBCL paper, 2013
 CNNやHMAXなど視覚皮質のモデルに共通する性質をモデ
ル化
 視覚皮質は、たとえ顔の向きや照明環境が変わっても識別すること
ができる(SelectivityとInvarianceの両立)
 視覚皮質のモデルではConvolution（Selectivity）と
Pooling(Invariance)が交互に現れる
 ConvolutionとPoolingを一般化

 変換のユニタリ群G
 とりあえず、回転などの画像の幾何学変換をあらわすユニタ
リ変換の有限な集合という理解でOK
画像𝑰
𝑔1 𝑰 𝑔2 𝑰 𝑔3 𝑰 𝑔4 𝑰 𝑔5 𝑰 𝑔6 𝑰
𝑔 𝑛 ∈ 𝐺

 変換のユニタリ群G
 orbits上の画像はユニタリ変換 𝑔 𝑛 ∈ 𝐺により同一orbits上へ変
換される
画像𝑰
𝑔 𝑛 ∈ 𝐺
orbits
これらの変換に不変な
特徴を作れないか？

 orbitsから分布 𝑃𝐼を生成することで、変換 𝑔 𝑛 ∈ 𝐺に対し
て不変な特徴とする
 𝑔 𝑛(𝑰)をテンプレート𝒕との内積用いて１次元へ投影
orbits
𝑔 𝑛 𝑰 , 𝒕
𝑃𝐼 = (𝑝1, … , 𝑝6)t

 orbitsから分布 𝑃𝐼を生成することで、変換 𝑔 𝑛 ∈ 𝐺に対し
て不変な特徴とする
 𝑔 𝑛(𝑰)をテンプレート𝒕との内積用いて１次元へ投影
𝑔 𝑛 𝑰 , 𝒕 = 𝑰, 𝑔 𝑛
−1 𝒕 (1)
𝑔 𝑛はユニタリ変換なので、以下が成り立つ
画像 𝑰を変換するのではなく、テンプレート 𝒕を変換しておく

 クラスごとの変換Gに不変な特徴量
𝜇 𝑘 𝐼 =
1
𝑁
෍
𝑛
𝜂 𝑰, 𝑔 𝑛 𝒕 𝑘
クラスk用のテンプレート
非線形Threshold関数

𝜇 𝑘 𝐼 =
1
𝑁
෍
𝑛
クラスk用のテンプレート
非線形Threshold関数
1. クラスk用のテンプレート𝒕 𝑘に対してユニタリ群G内の全て（N個）の変換をか
ける
2. 変換した各テンプレートと画像との内積を計算
3. 内積の値を変換（𝜂: ℝ → ℝ）
4. 平均をクラスkにおける特徴量とする

𝜇 𝑘 𝐼 =
1
𝑁
෍
𝑛
• 𝑚 = 1 のとき Average Pooling
• 𝑚 = ∞ のとき Max Pooling
𝜇 𝑘 𝐼 =
1
𝑁
෍
𝑛
𝑰, 𝑔 𝑛 𝒕 𝑘
𝑚
𝜂がモーメントの時

Discriminative Invariant Linear Features
(DILF)
 テンプレートの学習
 入力ベクトルを直接クラスへ変換するテンプレートを求める
𝐗T
𝒕 𝑘 = 𝒖 𝑘
𝒕 𝑘 = 𝐗 𝐗T
𝐗
−1
𝒖 𝑘
𝒖 𝑘 = 0, … , 0,1,0, … , 0 T
𝐗がクラス𝑘に属する場合
𝑘番目の要素
𝐗 ∈ ℝ 𝑑×𝐾

(DILF)
 orbit上のテンプレートの学習
 変換した画像から直接テンプレートを計算する
𝐗 𝑛 = 𝑔 𝑛 𝐗
𝐗 𝒏がクラス𝑘に属する場合
変換𝑔 𝑛 ∈ 𝐺ごと、およびクラスごとテンプレートを計算する
𝑔 𝑛 ∈ 𝐺
𝒕 𝑘𝑛 = 𝐗 𝑛 𝐗 𝑛
T
𝐗 𝑛
−1
𝒖 𝑘

(DILF)
 識別
1. 入力ベクトルと全てのテンプレートとの内積
を計算
 𝑿, 𝒕 𝑘𝑛 ~ 𝑔 𝑛 𝑿 , 𝒕 𝑘0

(DILF)
 識別
を計算
 𝑿, 𝒕 𝑘𝑛 ~ 𝑔 𝑛 𝑿 , 𝒕 𝑘0
2. 同一orbit上の計算結果を統合
 𝜇 𝑘
𝐼 =
1
𝑁
σ 𝑛 𝜂 𝑰, 𝑔 𝑛 𝒕 𝑘

(DILF)
 識別
を計算
 𝑿, 𝒕 𝑘𝑛 ~ 𝑔 𝑛 𝑿 , 𝒕 𝑘0
2. 同一orbit上の計算結果を統合
 𝜇 𝑘
𝐼 =
1
𝑁
σ 𝑛 𝜂 𝑰, 𝑔 𝑛 𝒕 𝑘
3. K次元ベクトルの各要素から最も大きい値
を持つものを求めるクラスとする

Kernel法のおさらい
 入力ベクトルを関数Φで高次元ヒルベルト空間ℍへ
変換
 カーネル関数を用いることで高次元空間で直接内積
を計算せずに済む（カーネルトリック）
 ここでは𝜎 = 3のガウスカーネルを使用
𝑘 𝒙, 𝒚 = exp −
𝒙 − 𝒚 2
2𝜎2
テイラー展開すると無限次元ベクトルΦ(𝒙)とΦ(𝒚)の
内積で表せる

Discriminative Invariant Kernel Features
(DIKF)
 DILFに対してカーネルを用いることで、高次元ヒルベルト
空間で学習および識別を行う
𝐗 𝒏がクラス𝑘に属する場合のテンプレート
T
𝐗 𝑛
−1
𝒖 𝑘
DILF
Φ 𝒕 𝑘𝑛 = Φ 𝐗 𝑛 Φ 𝐗 𝑛 ⋅ Φ 𝐗 𝑛
−1
𝒖 𝑘 (2)
DIKF

(DIKF)
 DILFに対してカーネルを用いることで、高次元ヒルベルト
空間で学習および識別を行う
𝐗 𝒏がクラス𝑘に属する場合のテンプレート
T
𝐗 𝑛
−1
𝒖 𝑘
DILF
−1
𝒖 𝑘 (2)
DIKF
グラム行列
𝑘 𝒙 𝑛1, 𝒙 𝑛1 ⋯ 𝑘 𝒙 𝑛1, 𝒙 𝑛𝐾
⋮ ⋱ ⋮
𝑘 𝒙 𝑛𝐾, 𝒙 𝑛1 ⋯ 𝑘 𝒙 𝑛𝐾, 𝒙 𝑛𝐾

(DIKF)
 不変な特徴を生成するためには、フィルタ 𝒕 𝑘𝑛はユニタリ
群G上での変換である必要
−1
𝒖 𝑘 (2)
DIKF
カーネルΦはユニタリカーネルでなくてはならない

(DIKF)
ユニタリ変換𝑔に対し、以下を満たすカーネル𝑘 𝑥, 𝑦 =
𝜙 𝑥 , 𝜙 𝑦 を「ユニタリカーネル」と定義する
𝜙 𝑔𝑥 , 𝜙 𝑔𝑦 = 𝜙 𝑥 , 𝜙 𝑦
例：ガウスカーネル
𝑘 𝑔 𝒙 , 𝑔 𝒚 = exp −
𝑔 𝒙 − 𝑔 𝒚 2
2𝜎2
= exp −
𝑔 𝒙 − 𝒚 2
2𝜎2 = exp −
𝒙 − 𝒚 2
2𝜎2
= 𝑘 𝒙, 𝒚
ユニタリ変換なのでノルムは変わらない

(DIKF)
−1
𝒖 𝑘
(3)
証明：
= Φ 𝑔 𝑛 𝐗1 Φ 𝑔 𝑛 𝐗1 ⋅ Φ 𝑔 𝑛 𝐗1
−1
𝒖 𝑘 (4)
= Φ 𝑔 𝑛 𝐗1 Φ 𝐗1 ⋅ Φ 𝐗1
−1
𝒖 𝑘 (5)
= Φ 𝑔 𝑛 𝐗1 𝒗 𝑘 = ҧ𝑔 𝑛 Φ 𝐗1 𝒗 𝑘 (6)
(7)
= ҧ𝑔 𝑛 Φ 𝐗1 𝒗 𝑘
ユニタリ
カーネル
カーネルヒルベルト
空間上の𝒈 𝒏

顔認識への適用
画像平面に対して奥行方向への顔の回転は、スケール変
化や平面上の回転、平行移動などと比べて認識が困難
小さな変化であればユニタリ群Gで近似可能
1. 3D generic elastic model (3DGEM)という手法で訓練用
の各顔画像の3Dモデルを作成
 K個の顔に対してN個のポーズ
2. 顔画像は２つの目の中心で位置合わせ
3. 以下の流れで顔の識別用特徴を抽出

実験: 姿勢変化に頑健な顔認識A
 顔の奥行方向の回転に対して不変になるようAlgorithm
1で学習
 1000人の正面顔画像から3D-GENで-40度から＋40度
の範囲のyaw角、-20度から+20度の範囲のpitch角につ
いて５度ずつ傾いた顔画像を作成（計：153,000枚）
 𝑙∞-DIKFと𝑙1-DIKFを、250人のデータに対して学習し、
750人のデータに対してOpen Set face verification
protocolでテスト

実験: 姿勢変化に頑健な顔認識
NDPについては以下を参照
Q.Liao, J.Z.Leibo, and T.Poggio. “Learning invariant representations and applications to face verification”. NIPS, 2013

実験: 姿勢変化に頑健な顔認識B
 顔の奥行方向の回転に対して頑健になるよう学習
（Level1）
 続けて画像平面上の回転、スケール変化、平行移動に
対して頑健になるよう学習(Level2)
 Level1で学習した特徴を学習に使用
 評価時に顔のランドマーク情報は使わなかった
（Alignment free）
 100人の画像から3Dモデルを作成し、Level2学習用画
像を生成
 評価用データ中ランダムに選んだ100人に対してLevel1、
Level2それぞれの変換を加えた画像を一人当たり
15,300枚生成

 一人の人物から生成した評価用画像の例

Pose, Noisy background and Scale only Pose, Noisy background and Translation only

Pose, Noisy background and In-plane
rotation only
All transformations together

実験：MPIEデータセット

実験：LFWデータセット

実験：顔姿勢推定
 人物の違いに対して不変になるようAlgorithm 1で学習
 350人の正面顔画像から3D-GENで-40度から＋40度の
範囲のyaw角、-20度から+20度の範囲のpitch角につい
て15枚の顔画像を作成（計：5259枚）
 𝑙∞-DIKFと𝑙1-DIKFを、250人のデータに対して学習し、
100人のデータに対してテスト

まとめ
 画素を直接使用したシンプルな顔認証および顔向き推
定手法を提案
 ユニタリ変換に対して不変な特徴を、ユニタリカーネルを
用いて抽出した
 MPIEでは既存手法を大きく上回り、LFWでは最新の手法
に匹敵する性能

20160717 dikf

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Viewers also liked

Viewers also liked (20)

Similar to 20160717 dikf

Similar to 20160717 dikf (20)

More from Takuya Minagawa

More from Takuya Minagawa (9)

Recently uploaded

Recently uploaded (12)

20160717 dikf