動画認識における代表的なモデル・データセット（メタサーベイ）

cvpaper.challenge videorecog group
cvpaper.challenge 2021 メタサーベイ
ー動画認識における代表的なモデル・データセットー

はじめに
2
● 動画認識の中でも主に3D CNNによる行動認識に
 
焦点を当てて代表的なモデル・データセットや
 
研究動向についてサーベイ
● 以下のサーベイ論文で紹介されている内容が主な対象
 
K. Hara, Recent Advances in Video Action Recognition with 3D Convolutions ,
 
IEICE Trans. Fundamentals
 
https://www.jstage.jst.go.jp/article/transfun/advpub/0/advpub_2020IMP0012/_article/-char/ja/
● 引用している文献の詳細は上の論文をご参照ください
● 本サーベイはDeep Learning登場以降の話が対象

Action Recognition
3
● 動画認識における一番基本的な問題設定
● 画像でいうとImageNetなどの画像認識
入力：動画出力：行動ラベル
投球
一つの行動を含むように時間的に切り出された動画

動画認識における主なConvolution
5
● 2D Convolution
● 画像認識と同様のやり方
● 初期のモデルは主に2D Conv
● 3D Convolution
● 時空間を同時にConvで処理
● 最近は3D Convの方が主流
● (2+1)D Convolution
● 3D Convの亜種で高コスパ

初期の代表モデル
6
● Two-stream CNN [7]
● RGBとOptical FlowのTwo-streamで動画認識
● 当時は3D CNNではなく画像認識と同様の2D CNN
● ネットワーク構造は変われどRGB+Flowは今でも良く利用される

Two-stream CNNの発展
7
● その後Two-stream CNNを拡張した様々な研究が登場
● Hand-crafted特徴との組み合わせ
 
(Trajectory-pooled Deep-convolutional Descriptor) [8]
● Two-streamの結合方法の提案
 
(Two-stream Network Fusion…) [9-11]
● より長い時間的な構造を捉える手法の提案
 
(Temporal Segment Networks) [12]

3D CNNによる動画認識の発展
8
● 初期の代表的なモデルであるC3Dの認識性能は
 
2D CNN系の手法よりもやや低め
● 主に学習データの少なさが問題
● 大規模動画データセットであるKineticsの公開以降
 
3D CNNの認識性能は大きく向上
● 現在は3D CNNの利用が動画認識の主流

3D CNNの代表的なモデル
9
● C3D
● I3D
● 3D ResNet / R3D
● P3D / R(2+1)D / S3D
● Non-local Neural Network
● SlowFast Networks
● X3D

C3D [20]
10
● 3D CNNの初期の代表的なモデル
● VGG-11の2D Convを3D Convに置き換えた構造
● 実験により時間方向のカーネルサイズは3が良いと実証

I3D [14]
11
● GoogLeNet (inception v1)を
ベースにした3D CNN
● ただI3DのIはInceptionではなく
Inflated
● Kineticsでの学習により
 
3D CNNのブレイクスルーを実現
● 学習済み2D Convのパラメータを
 
時間方向に重複コピー (inflation)
 
する事前学習も提案

3D ResNet [25, 26] / R3D [19]
12
● ResNetをベースにした
 
3D CNN
● Image Netでの学習と
 
同様にKineticsで学習する
 
ことで152層もの構造を持つ
ResNetを学習可能

P3D [32]
13
● (2+1)D Convと同様の
 
Pseudo 3D Convを導入
● (2+1)D Convよりもこっちが先
● ResNetベースの
 
ネットワーク構造
● Blockの構造はA, B, Cの
 
3パターンを比較検討
● 組み合わせが良いという結論

R(2+1)D [19]
14
● P3Dと同様にResNetベースで(2+1)D Convを導入
● 2D/3D Convの組み合わせなども検討した結果
 
(2+1)Dがベストという結論

S3D [23]
15
● Inceptionベースの
 
(2+1)D Conv
● 論文中ではSeparable Conv
● Self-attentionのような処理
も導入したS3D-Gにすると
より高い性能を実現可能

Non-local Neural Network [34]
16
● Self-attentionのような処理
をするNon-local operation
をCNNに導入
● ResNetベースのI3Dに
 
Non-localを追加することで
高い性能を実現

SlowFast Network [35]
17
● 低フレームレートのSlowと高フレームレートのFastのTwo-stream
● 生物学的な知見も参考にしている
● 中のConvは3D/2D/(2+1)Dを組み合わせて利用

X3D [36]
18
● ネットワークの構造や入力動画のサイズなど様々な要素
を少しずつ大きくしていきながら高コスパな構造を探索
● 入力動画の解像度やフレーム数・フレームレートを
 
上げるのが性能向上に大きく寄与

特に被引用数の多い論文 1
19
● Learning Spatiotemporal Features with 3D
Convolutional Networks
● Du Tran, Lubomir Bourdev, Rob Fergus,
 
Lorenzo Torresani, Manohar Paluri
● ICCV 2015
● 被引用数：4757
● C3Dの論文
● 3D CNNによる動画認識が定着する以前に
 
先駆けとして出てきた分高い被引用数を達成している

20
● Quo Vadis, Action Recognition?
 
A New Model and the Kinetics Dataset
● Joao Carreira, Andrew Zisserman
● CVPR 2017
● 被引用数：2685
● I3Dの論文
● 3D CNNの性能を大きく向上させ単純なモデルながらも
 
従来の複雑なモデルの性能を超えてきたことでインパクトが大きい
● Kineticsという動画認識の定番データセットと共に出てきているのも強い

21
● Non-local Neural Networks
● Xiaolong Wang, Ross Girshick,
 
Abhinav Gupta, Kaiming He
● CVPR 2018
● 被引用数：2684
● 動画認識以外の文脈でも引用されていることが大きい
 
→ 汎用性のある手法は強い
● 著者が強いのも大きそう
● 動画認識界隈というよりコンピュータビジョン界隈で強い人の論文

モデルの分析や改善に関する研究

3D CNNの分析に関する研究
23
● 入力動画のサイズ
● 各フレームの画素数やフレーム数，フレームレートなど
● モーション情報の表現
● 時空間の畳み込みによってモーション情報の表現が
 
適切に獲得されているのか

24
 

入力動画のフレーム数に関する分析 [16]
25
● 3D CNNに入力する動画の
フレーム数を変化させた時の
認識精度を分析
● フレーム数が大きい方が
 
より高精度な認識が可能
● 画素数 (H/L) についても
 
大きい方が高精度になる

X3Dのモデル構造の探索過程 [36]
26
● 画素数 (γs)，フレーム数 (γt)，
 
フレームレート (γτ) を
 
大きくする変化が選択される
ことが多い
● ネットワーク構造を大きくする
よりも入力動画の時空間解像度
を大きくすることが精度向上に
大きく寄与

27
 

3D CNNでもRGB+Flowが有効 [14, 16, 19]
28
● 3D CNNは時間軸も畳み込むのでOptical Flowを
 
使わなくてもモーション情報の表現を獲得してほしい
● 実際には3D CNNでもRGB+Flowの
 
Two-streamを導入した方が高い認識精度
● RGB入力の3D CNNでは
 
十分にモーション情報が捉えられていない?

3D CNNによる動き情報の分析 [37]
29
● 元の動画から動き情報を
 
削っても3D CNNによる
 
認識の精度低下は小さい
● 特徴表現が同じになるように
 
少数フレームから元動画を生成
● 生成した動画からは動き情報が
ほぼ消えている
● 生成した動画を入力として認識
しても多少の精度低下で済む

3D CNNによるモーション表現の改善
30
● Optical Flowの置き換え
● 内部的にOptical Flowと同等の情報を推定しながら利用
● Optical Flowの学習への利用
● Optical Flowを学習のみに利用して推論時は不要とする

31

Flow計算アルゴリズムのCNNへの導入 [43]
32
● Flow計算アルゴリズムの
 
TV-L1を層として実装
● 微分可能で学習可能な
 
パラメータを持つ層として
 
TV-L1を実装
● 特徴マップのFlow計算をCNN
内部に導入することでRGBのみ
からTwo-streamに匹敵する
 
性能を実現
Flow Layer

Flow推定ネットワークの導入 [47]
33
● RGB入力からFlow推定して
 
CNNに入力する構造を導入
● RGB入力のみからTwo-stream
構造の認識を実現
● Action Recognitionに最適化
したOptical Flowを利用可能

34

知識蒸留の利用 [48]
35
● Flow入力で学習したモデル
を教師としてRGB入力の
 
生徒モデルを学習
● 普通のRGB入力のモデルと
 
蒸留で学習した生徒モデルを
 
組み合わせて利用することで
RGBのみで高精度な認識を実現

マルチタスク学習 [49]
36
● Action Recognitionと
 
Flow推定を同時に学習
● Flow推定も可能なように学習
 
することでモーション情報の
 
表現を強化

代表的なデータセット

動画認識の代表的なデータセット
38

HMDB-51 [55]
39
● 映画やYouTubeから収集
 
した動画データセット
● 51クラス，約7,000動画
● 2011年に公開されており
 
Deep以前から使われている
データセット
● ベンチマークとして
 
定番の一つ

UCF-101 [56]
40
● YouTubeから収集した
 
動画データセット
● 101クラス，約13,000動画
● HMDB-51同様Deep以前
 
から今に至るまで
 
ベンチマークの定番
● I3Dで98%近い精度が出てから
 
さすがにもう終わり感は強い

Sports-1M [57]
41
 
● 487クラス，100万+動画
● 各動画は1行動を含むように開始・終
了時刻でトリミングされておらず長
い動画
● 行動に関係ないノイズ情報が多い
● 動画数は多いがファイルサイズ的にも
大きすぎる & ノイズも多いので
 
学習用途としてはやや使いにくい

ActivityNet [58]
42
 
● 200クラス，約28,000動画
● 長い動画の中に
 
複数の行動が存在
● Sports-1Mと違って開始・
 
終了時刻のアノテーション付き
● Classificationだけでなく
 
Action Proposal, Temporal Action
Localizationなど様々なタスクで利用

Charades [59]
43
● クラウドソーシングで
 
収集した動画データセット
● 指定したスクリプトに沿う
 
動画を撮影してもらう形で収集
● 各家庭の中の日常動作の動画
● 157クラス，7万弱動画
● ActivityNetと同様に
 
1動画の中に複数動作 &
 
開始・終了のアテノーション

YouTube-8M
44
 
● 4,800クラス，約800万動画
● 規模は圧倒的なデータセット
● Sports-1Mと同じように
 
ノイズも多い
● 巨大すぎてまともに利用している
 
研究はかなり少ない

Kinetics-400/600/700 [28, 63, 39]
45
 
● 400/600/700クラス，
 
約30/50/65万動画
● 2018年にKinetics-400が
 
公開されてから動画認識の
 
定番データセットとして
 
よく利用されている

Something-Something [61, 64]
46
● クラウドソーシングで
 
● 人と物体のインタラクションの動画が対象
● 174クラス，約10万動画
● v2は約20万動画
● 時間情報のモデリングを議論する時に
使われることが多いデータセット
● ものを置く / 取るなど時間的な情報を使わ
ないと認識できないクラス設計がされてい
るため

Moments in Time [40]
47
● YouTubeなどから
 
● Flickr, Vine, Vimeoからも収集
● 339クラス，100万動画
● データ数も多く使いやすいが
 
そんなには使われてない印象
● 経験的には事前学習用としても
Kineticsの方が良かったり

STAIR-Actions [62]
48
● クラウドソーシングと
YouTubeから収集した
 
● Charadesのように
 
日常的な動作が対象
● クラウドソーシングとYouTube
の比率は大体半々
● 100クラス，約10万動画

HACS [65]
49
 
● 50万動画から切り出したもの
● 14万セグメントを使うHACS
Segmentsという設定も利用可
● 論文では事前学習用のデータと
しての性能もアピール
● Kineticsより少し良さそう

FineGym [66]
50
 
● 体操の動画が対象
● 論文では99クラス，288クラス
の設定で実験
● 階層的にアノテーション
 
されているのが売り

上位会議
・論文誌に採択されたデータセット
51
● HMDB-51 (ICCV 2011)
● Sports-1M (CVPR 2014)
● 手法が論文のメイン
● ActivityNet (CVPR 2015)
● Charades (ECCV 2016)
● Kinetics (CVPR 2017)
● 手法が論文のメイン
● Something-Something
 
(ICCV 2017)
● Moments in Time
 
(TPAMI, 2019)
● HACS (ICCV 2019)
● FineGym (CVPR 2020)

データセット論文の採択について
52
● 上位会議・論文誌に採択されているものもあれば
 
されていないものもある
● UCF-101などよく使われているものでも
 
テクニカルレポートとして上がっているだけだったり
● 投稿していないだけ?
● 手法もセットで提案できている方が当然採択されやすそう
● HACSのように何度も挑戦してから採択されたものも
● arXivのv1はCVPR 2018 submission（当時はSLACという名前）
● その後ICCV 2019でついに採択
● 何度も挑戦するのはやはり大事

まとめ
53
● 3D CNNによる行動認識を中心に代表的なモデルや
 
データセットについてサーベイした結果を紹介
● C3Dを始めとした様々な3D CNNのネットワーク構造
● 3D CNNの分析や改善に関する研究
● 動画認識でよく用いられる動画データセット

動画認識における代表的なモデル・データセット（メタサーベイ）

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Similar to 動画認識における代表的なモデル・データセット（メタサーベイ）

Similar to 動画認識における代表的なモデル・データセット（メタサーベイ） (20)

動画認識における代表的なモデル・データセット（メタサーベイ）