サーベイ論文：画像からの歩行者属性認識

サーベイ論文：画像からの歩行者属性認識
○川西康友, 新村文郷，出口大輔，村瀬洋
名古屋大学
PRMU研究会
2015/12/22
1

本発表の流れ
歩行者属性の応用先
歩行者の属性の整理
具体的な手法の紹介
歩行者属性認識評価データセット
まとめと今後の展望
2

本発表の流れ
3

歩行者属性の応用先
属性を用いた人物照合
人の特徴として，属性を利用
どのような服装をしているか？
身長はどのくらいだったか？
何を持っていたか？
4
R. Layne et al., “Towards Person Identification and Re-identification with Attributes”,
BMVC2012.
属性に基づく
照合
男性
水色の服
男性
水色の服

防犯カメラ映像からの容疑者の検索
どんな服を着ていたか？
性別はどうか？
年齢はどうか？
髪型はどうか？
5
D. A. Vaquero et al., “Attribute-based people search in surveillance environments”,
WACV2009.
A. Dantcheva et al.,
“Bag of soft biometrics for person identification: New trends and challenges”,
Multimedia Tools and Applications 2011.

高度運転支援（歩行者の危険度予測）
大人か子供か？
道に飛び出しそうか？
周りに注意をしている？
スマホ歩きなどをしていないか
6
属性：子供
T. Gandhi et al.,
“Image Based Estimation of Pedestrian Orientation for Improving Path Prediction”, IV2008.
新村ら, “車載カメラ画像からの「スマホ歩き」認識に基づく歩行者の不注意度推定”,
PRMU 2015-6.

広告効果の分析
看板を見ているかどうか
服装の分析
何系のファッションをしているか
服の推薦
職業は何か
着ている服装から予測する
7

認証，人物照合，特定人物検索
顔認証のキーとして利用
カメラ間人物照合時のキーとして利用
容疑者の追跡
目撃証言から絞り込む
運転支援
歩行者の危険度推定
広告効果の確認
どの程度の人数が広告を見ているかの調査
ファッション推定
着ている服から職業やファッションのジャンル推定
8
歩行者の「属性」は
幅広く利用されている

本発表の流れ
9

歩行者属性の例 10
男性
20代
短髪
日本人
身長170cm
かばんを持っている
青い服を着ている
ベージュのズボンを履いている
まっすぐ歩いている

歩行者属性の例 11
非常に雑多 → 基準を決めて整理する必要がある
性別
年齢
髪型
人種
身長
所持物
服装
行動

歩行者属性の整理
歩行者属性を3種類に分類
身体属性
歩行者の身体そのものの特徴を表す属性
外見属性
歩行者に対し後から付与される外見の属性
行動属性
歩行者のその瞬間の行動に関する属性
12

身体属性
歩行者の身体そのものの特徴を表す属性
例：
身長
性別
年齢
人種
髪の長さ
数日程度の時間では変化しないもの
13

外見属性
歩行者に対し後から付与される外見の属性
例
服装
所持品
メガネ
マスク
ヘルメット
容易に変化させることが可能な属性
14

行動属性
歩行者のその瞬間の行動に関する属性
例
顔の向き
体の向き
周りに注意を払っているか
瞬間ごとに決まる属性
15
（ジェスチャ認識や行動認識のようなハイレベルなものではなくプリミティブなもの）

歩行者属性の整理
歩行者属性を3種類に分類
身体属性
歩行者の身体そのものの特徴を表す属性
外見属性
歩行者に対し後から付与される外見の属性
行動属性
歩行者のその瞬間の行動に関する属性
16

本発表の流れ
17

具体的な手法の紹介
単体の歩行者属性認識法
身体属性
年齢
性別
身長
外見属性
服装
所持物
行動属性
体向き
複数統合による精度向上
18

身体属性
性別の認識
年齢の推定
身長の推定
19

性別の認識 20
Golomb (1990)ニューラルネットワークで学習
Wang (2012) LCP特徴
Brunelli (1992) HyperBF networkを利用
Burton (1993) Fellous (1997) (詳細に特徴点を付与)
O’Toole (1997) 顔の3D構造を特徴とするのが有効
Moghaddam (2000, 2002) SVMの利用
Bebis (2002) GAの利用
Buchala (2005) 非線形の次元圧縮が有効
Shih (2013) PPH特徴
Cao (2008) 全身の画像から推定
顔特徴抽出の発展
2次ニューラルネットブーム
2000年 2010年1990年
手動で特徴点付与

Robust gender classification
using a precise patch histogram
 H-C. Shih (Yuan Ze University)
 Pattern Recognition (2013)
 Precise Patch Histogram (PPH)
 Active Appearance Modelで顔パーツ検出
 得た特徴点周辺からLBPヒストグラムを計算
 評価
 利用データセット
 Labeled Faces in the Wild
 Color FERET
 男性 1,862枚女性 1,503枚
 約86%の精度を達成
21

Gender Recognition from Body
Cao et al. (イリノイ大学)
ACM MM 2008
全身からでも性別判断
特徴量
画素値
エッジ
HOG
Part-based Gender Recognition (PBGR)
画像をグリッド状にパッチ分割して特徴抽出
全身画像からでも75%の精度で認識可能
22

年齢の推定 23
2000年 2010年1990年
Kwon (1994)
顔パーツ，輪郭，しわを特徴として利用
Zhou(2011) ラドン変換
Ylioinas (2012)
実環境で7段階分類
Geng (2007) 加齢パターンを学習
Guo (2008)
Ge (2013)
全身の画像から推定
Fu (2008)
年齢を何段階かへ分類
年齢を回帰で推定
年齢の多様体を学習して回帰
Guo (2009) Bio-inspired features
Chen (2013)
中間表現を用いた回帰

Automatic age estimation based on facial aging patterns
Geng et al. (Deakin University)
PAMI (Letter), 2007
Aging patternに注目
人ごとに，年齢順に
並べた画像から特徴抽出
Aging Pattern Vector
Aging pattern Vectorの部分空間を作る
入力の顔にあったAging Patternを選択
評価
FG-NET Aging Database 誤差6.77歳
MORPH database 誤差8.83歳
MAEで2歳程度精度向上
24

Image-Based Human Age Estimation by Manifold
Learning and Locally Adjusted Robust Regression
Guo et al. (ノースカロライナ中央大学）
Image Processing (2008)
手法
多様体学習
Locally Adjusted Robust Regression(LARR)
SVRの結果を，局所的なサンプルを用いて修正する
評価
FG-Netで推定誤差5.07歳
25

Cumulative Attribute Space for Age and Crowd
Density Estimation
 Chen et al. QMUL
 CVPR 2013
 回帰手法の提案
 年齢推定，混雑度推定
 従来認識に使われていた
属性表現を回帰に利用
 手法
 Cumulative attribute spaceへ変換
 属性を使った中間表現
 変換後のベクトルで回帰
 評価
 FG-NET 誤差4.67歳
 MORPH 誤差5.88歳
26

身長推定
身長
大人か子供かが推定できる
人物照合にも利用可能
基本的な方法：幾何的な計算によって算出
1. カメラパラメータの推定
2. 歩行者の座標から回帰
27

A simplified nonlinear regression method
for human height estimation in video surveillance
 Li et al. （仁荷(Inha)大学校）
 EURASIP Journal on Image and Video Processing, 2015
 回帰ベースの身長推定
 カメラキャリブレーション
 消失線を求める手法：ノイズに弱い
 防犯カメラの設置のしかた
 焦点距離，チルト角，高さを推定するだけで良い
 歩行者の頭，足の位置から非線形回帰で推定
 評価
 独自データセット（公開）
 https://github.com/lishengzhe/ccvs/tree/master/data
 1.39cmの誤差で推定可能
28

Height Estimation from a Single Camera View
Momeni-K et al.（エコール・セントラル）
VISAPP 2012
物体の高さ推定
カメラ姿勢と消失点を既知とする
手法
対象物と画像平面が並行になるような
擬似的な画像平面へ射影
カメラの光軸を地面に平行に
評価
独自データセット利用
1cm以下の精度を達成
29

身体属性まとめ
性別推定
顔からは高い精度で出来る
全身画像からでも推定可能
年齢推定
離散化して分類する手法，連続値で回帰する手法
年々着実に精度向上
身長推定
カメラ幾何＋回帰問題
人物検出位置の精度にも依存
30

身体属性
年齢
性別
身長
外見属性
服装
所持物
行動属性
体向き
31

外見属性
服装の認識
所持物の認識
32

服装の認識 33
2010年
Jaha (2014) 服装を用いた人の特定
Yang (2011) 服装認識
Yamaguchi (2015) 服装認識
Kiapour (2014) ファッションのジャンル推定
Liu (2014) ファッション解析のサーベイ
Bossard (2013) 服装認識とジャンル推定
Yamaguchi (2012) ファッション写真からの衣服領域ラベリング
Chen (2015)
詳細な服属性を用いた人の記述
Bourdev (2011) Poseletを利用した服装認識
Liang (2015) 衣服領域のラベリング
2015年
特徴記述としての服装認識
ファッションの解析
Human Parsing

Parsing clothing in fashion photographs
 Yamaguchi et al. （Stony Brook Univ.）
 CVPR 2012
 画像を人体と各種衣服の領域へと分割
 Flexible Mixture of Pose (FMP)による姿勢推定
 Superpixel 分割
 姿勢を元に，Superpixelにラベル割当
 データセット構築
 Chictopia.comというファッションSNS
 Amazon Mechanical Turkを利用
 姿勢のアノテーション
 服装のラベリング
34

Hipster Wars: Discovering Elements of Fashion Styles
 Kiapour et al. (ノースカロライナ大学)
 ECCV 2014
 アノテーションデータの収集
 “Hipster Wars” というゲーム
 どちらの画像が，そのスタイルを表現出来ているのかを判定する
– プレイヤーは判定結果の統計を貰える
– 画像に対するアノテーションを収集できる
 スタイル判定に有効な属性のマイニング
 スタイル判定に有効なパーツ抽出
 各パーツが何なのかを認識
35

Deep Domain Adaptation for Describing People
Based on Fine-Grained Clothing Attributes
 Chen et al. （IBM Research）
 CVPR, 2015.
 服装を用いた人の記述
 オンラインショッピングから
画像-属性の組を収集
 服装属性のマイニング
 DDANを用いたドメイン適応
 オンラインショッピングの画像と
実際に使う場面の画像は性質が異なる
 ２つのデータセット間の違いに対応
 応用
 属性に基づく検索
 Street2Shop
36

所持物の認識 37
2000年 2010年
Haritaoglu (1999)
シルエットに基づく検出
Damen (2008, 2012) 時系列シルエットからの検出
一般所持物の所持検出（所持判定）
特定クラス所持物の所持検出（所持物認識）
Senst (2012) 所持物込みの人検出器
Tavanai (2013)
人と，運ばれている物体の関係を利用
Schels (2011)
キャリーバック
浅井 (2013,2015) キャリーバック
Chua (2013)
リュック系
Du (2014) 所持検出+バッグ検出
井関 (2015)
特定物体の所持判定
Kresnaraman (2015)
身に付ける様々な物体

Detecting Carried Objects
from Sequences of Walking Pedestrians
Damen et al. （リーズ大学）
PAMI 2012
基本的な考え方
物体所持歩行者 – 物体非所持歩行者 = 物体
尤度マップとMRFにより物体領域を抽出
PETS 2006
106 人
83個のバッグ
Precision 50.5%
Recall 55.4%
38

A Two-Stage Approach for Bag Detection in
Pedestrian Images
Du et al. (精華大学)
ACCV 2014
手法
Stripe Vocabulary Forestにより，
所持／非所持の判定
Region Proposalにランキング付けすることで所持し
ている位置を特定
評価
CUHK person Re-identification dataset
HOG-SVM 83.6%
提案手法 88.2%
39

所持品に基づく人物画像分類のための
学習データが少ない問題に対する分類器学習
井関ら（京都大学）
情報処理学会全国大会 2015
新規の所持物所持分類器を学習する問題
学習データがないので転移学習で生成
Human-in-the-loopで分類器を徐々に更新
40

外見属性まとめ
服装認識
姿勢推定やパーツ推定の導入により発展
服装だけでなく，服装のジャンルなど
上位概念の認識も
所持品認識
所持判定と所持物認識
何をどの辺りで持つか，の情報の利用
41

身体属性
年齢
性別
身長
外見属性
服装
所持物
行動属性
体向き
42

離散的な向きを出力する手法
連続値を出力する手法
体の向きの推定 44
2000年 2010年
事例ベースの手法
検出と向きの同時認識
Shakhnarovich (2003) 人体のシルエットでの照合
船津 (2011) 固有空間上での照合
方向の識別器を構築
Baltieri (2012) HOG＋ランダムフォレストで推定
Tao (2014) 部位ごとに推定
Shimizu (2004) Haar-wavelet＋SVMで推定
Hayashi (2015) 上体の姿勢を基に推定
部位に基づく手法
Enzweiler (2010) 向きに応じて人と背景を識別
Goto (2011) 向きごとに検出器を構築

特徴量＋機械学習
手法特徴量識別器出力評価データ備考
Shimizuら Haar-wavelet SVM 方向 Own DB
Gandhiら HOG SVM 方向
INRIA
(Own
Annotation)
Andrilukaら人物検出器の応答 Linear SVM 方向 TUD 姿勢推定の一部
Baltieriら Multi-level HOG ランダムフォレスト角度
TUD,Sarc3D,
3DPeS
Weinrichら HOG SVM決定木方向 Own DB
Tosatoら
Difference of offset
Gaussian(DOOG),
CIELab, 勾配強度,
勾配方向の共分散
特徴
（weighted array of
covariances）
SVM
方向
（分類），
角度
（回帰）
HOC
Taoら部位のDCT-HOG ランダムフォレスト方向 HOC, TUD, PDC
Hayashiら Multi-level HOG ランダムフォレスト方向 Own DB
45

Direction estimation of pedestrian
from multiple still images
 Shimizu et al. （トヨタ自動車）
 Intelligent Vehicles Symposium (IV), 2004
 向きごとに識別器を構築する多クラス識別
 Haar-wavelet＋SVMs
 隣の向き識別器の出力との重み付き和によるスコア計算
 22.5°ごとに16個の向き識別器を構築
 学習は45°ごと8方向の2グループに分ける
 推定時に ±22.5°の出力を加える
 評価
 独自データセットで評価
 （学習16,000枚，評価2,400枚）
 全ての方向で90％以上の認識率
 隣接の向きを考慮しない場合に比べ20％程度精度向上
Sample of wavelet coefficient
46

Part-based RDF for direction classification of pedestrians,
and a benchmark
 Tao et al. （オークランド大学）
 ACCV Workshop, 2014
 全身からでなく，様々な部位から向きを推定
 隠れ・変形への対処
 特徴量：DCT-HOG
 HOG特徴を1次元信号とみなしてDCT
 大局的な特徴を捉えることができる
 ランダムに部位を選択してRDF
 Random Decision Forest
 評価
 PDC dataset：約72％（4方向）
 TUD dataset：約80％
 HOC dataset：約59％
 各データセットにおいて，
全身から特徴抽出したRDFよりも精度向上を確認
47
Selected parts for several trees

Pedestrian detection and direction estimation by cascade detector
with multi-classifiers utilizing feature interaction descriptor
 Goto et al. （豊田中央研究所）
 Intelligent Vehicles Symposium (IV), 2011
 カスケード型識別器による向き別歩行者検出
 歩行者検出器は3段階のカスケード構造で，3段目が向きごとの検出器
 FIND特徴量
 HOGのヒストグラムのビン間の組み合わせに対してintersectionを計算
 評価
 独自データセットで評価（歩行者8,166人）
歩行者検出器を向きごとに分けて構成することで，検出精度が向上
向きの検出精度は約85％
– 検出された歩行者のうち，正しい向きで検出された歩行者の割合
48

行動属性まとめ
向き認識
離散化して前後左右の多クラス分類
360°での循環をうまく扱う
検出問題との統合
その他
スマホ歩き，脇見などの研究もある
49

身体属性
年齢
性別
身長
外見属性
服装
所持物
行動属性
体向き
50

複数統合による精度向上
Bayesian Networkによる分類結果の統合
Conditional Random Fieldによる統合
Deep Learningによる特徴抽出からの統合
51
認識も同時に
特徴抽出も同時に

Bayesian Networkによる統合
複数の属性の共起に着目
各属性認識器の出力を統合することで
属性認識の精度を向上させる
Describing People: A Poselet-Based
Approach to Attribute Classification
Bourdev et al. (2011)
52
性別や服装の
共起性に着目

CRFによる統合
CRFにより属性間の関係を学習
各属性を同時に認識
Describing Clothing by Semantic Attributes
Chen et al. (ECCV 2012)
姿勢推定後，各パーツから特徴抽出
色，SIFT，テクスチャなど40種の特徴
統合して各属性識別器を学習
各属性識別器を
連結したCRFを学習
53

Deep Learningによる統合
 Convolutional Neural Net(CNN)により
複数属性を同時に認識
 特徴抽出と識別器が属性間で共有される
 Zhang et al. (2013)
 PANDA: Pose Aligned Networks for Deep Attribute Modeling
 画像全体とパーツごとにDeep Learningにより特徴抽出
 特徴量を統合してSVMで識別
54

複数統合まとめ
服装認識ではCRFを使うのが一般的
Deep Xの台頭
55

本発表の流れ
56

評価用データセット
他の手法との比較評価には
同一の公開データセットを利用すべき
歩行者属性認識において
そのようなデータセットは存在するのか？
独自の属性認識 = 評価には独自のデータセットを利用
頻出の属性には公開データセットが幾つか存在
データセットの作られ方
既存の公開データセットにアノテーション追加
人物検出・照合用データセット
Webから収集した画像にアノテーション追加
Flickr など
57

属性認識用データセット 58
名前枚数画像属性備考
LFWgender LFWの
90%以上
顔性別 Labeled Face in the Wild (LFW) の人
名から性別取得
MORPH AGR 55,132 顔年齢，性別，人種 MORPH Ⅱへ追加アノテーション
FG-NET Human
Age Estimation
112,519 顔年齢，性別，人種 FG-NET, FERET, MORPH Ⅱ, PCSO,
LFWにアノテーション追加
PETA (PEdesTrian
Attribute)
19,000 歩行者髪型，性別，服装，
所持物など
TownCentre, CUHK, VIPeR, etc. にアノ
テーション追加
APiS 1.0 (Attributed
Pedestrians in Surveillance)
3,661 歩行者髪型，所持物，服
装
KITTI, CBCL Street Scene, INRIA, etc.
にアノテーション追加
Attributes of
People
8,035 人髪型，性別，服装，
メガネなど
H3D, Pascal VOC 2010 にアノテーショ
ン追加
HAT 93,44 人年代，服装など Flickrから収集した画像にアノテー
ション追加
Runway dataset 348,598 ファッ
ション
ショー
スカート，ジーン
ズ，スーツ，バッ
グ，ベルトなど
ファッションショー15年分の画像

Datasetの例 60
APiS 1.0 dataset

向き推定のデータセット 61
名前
枚数色方向備考
PDC (Pedestrian Direction
Classification)
12,000 gray 8 Daimlerデータセットにアノテー
ション追加
HOC (Human Orientation
Classification)
11,881 color 4 ETHZ human re-acquisition
datasetsにアノテーション追加
TUD 5,228 color 8
Sarc3D 600 color 4 4方向から人を撮影
3DPeS 1,012 color 8 Re-identification用データセット

Datasetの例 62
HOC Dataset
前後左右の４方向アノテーション付き

本発表の流れ
63

まとめと今後の展望
まとめ
歩行者の属性を3つのグループに分けて整理
身体属性
外見属性
行動属性
今後の展望
より抽象的な属性へ
意図の推定など
Dictionary Learning的な流れ
物体認識に有用な中間表現としての属性探索
64

サーベイ論文：画像からの歩行者属性認識

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Similar to サーベイ論文：画像からの歩行者属性認識

Similar to サーベイ論文：画像からの歩行者属性認識 (13)

More from Yasutomo Kawanishi

More from Yasutomo Kawanishi (12)

Recently uploaded

Recently uploaded (11)

サーベイ論文：画像からの歩行者属性認識

Editor's Notes