SlideShare a Scribd company logo
1 of 54
Download to read offline
cvpaper.challenge videorecog group
cvpaper.challenge 2021 メタサーベイ
ー動画認識における代表的なモデル・データセットー
はじめに
2
● 動画認識の中でも主に3D CNNによる行動認識に


焦点を当てて代表的なモデル・データセットや


研究動向についてサーベイ
● 以下のサーベイ論文で紹介されている内容が主な対象


K. Hara, Recent Advances in Video Action Recognition with 3D Convolutions ,


IEICE Trans. Fundamentals


https://www.jstage.jst.go.jp/article/transfun/advpub/0/advpub_2020IMP0012/_article/-char/ja/
● 引用している文献の詳細は上の論文をご参照ください
● 本サーベイはDeep Learning登場以降の話が対象
Action Recognition
3
● 動画認識における一番基本的な問題設定
● 画像でいうとImageNetなどの画像認識
入力:動画 出力:行動ラベル
投球
一つの行動を含むように時間的に切り出された動画
代表的なモデル
動画認識における主なConvolution
5
● 2D Convolution
● 画像認識と同様のやり方
● 初期のモデルは主に2D Conv
● 3D Convolution
● 時空間を同時にConvで処理
● 最近は3D Convの方が主流
● (2+1)D Convolution
● 3D Convの亜種で高コスパ
初期の代表モデル
6
● Two-stream CNN [7]
● RGBとOptical FlowのTwo-streamで動画認識
● 当時は3D CNNではなく画像認識と同様の2D CNN
● ネットワーク構造は変われどRGB+Flowは今でも良く利用される
Two-stream CNNの発展
7
● その後Two-stream CNNを拡張した様々な研究が登場
● Hand-crafted特徴との組み合わせ


(Trajectory-pooled Deep-convolutional Descriptor) [8]
● Two-streamの結合方法の提案


(Two-stream Network Fusion…) [9-11]
● より長い時間的な構造を捉える手法の提案


(Temporal Segment Networks) [12]
3D CNNによる動画認識の発展
8
● 初期の代表的なモデルであるC3Dの認識性能は


2D CNN系の手法よりもやや低め
● 主に学習データの少なさが問題
● 大規模動画データセットであるKineticsの公開以降


3D CNNの認識性能は大きく向上
● 現在は3D CNNの利用が動画認識の主流
3D CNNの代表的なモデル
9
● C3D
● I3D
● 3D ResNet / R3D
● P3D / R(2+1)D / S3D
● Non-local Neural Network
● SlowFast Networks
● X3D
C3D [20]
10
● 3D CNNの初期の代表的なモデル
● VGG-11の2D Convを3D Convに置き換えた構造
● 実験により時間方向のカーネルサイズは3が良いと実証
I3D [14]
11
● GoogLeNet (inception v1)を
ベースにした3D CNN
● ただI3DのIはInceptionではなく
Inflated
● Kineticsでの学習により


3D CNNのブレイクスルーを実現
● 学習済み2D Convのパラメータを


時間方向に重複コピー (inflation)


する事前学習も提案
3D ResNet [25, 26] / R3D [19]
12
● ResNetをベースにした


3D CNN
● Image Netでの学習と


同様にKineticsで学習する


ことで152層もの構造を持つ
ResNetを学習可能
P3D [32]
13
● (2+1)D Convと同様の


Pseudo 3D Convを導入
● (2+1)D Convよりもこっちが先
● ResNetベースの


ネットワーク構造
● Blockの構造はA, B, Cの


3パターンを比較検討
● 組み合わせが良いという結論
R(2+1)D [19]
14
● P3Dと同様にResNetベースで(2+1)D Convを導入
● 2D/3D Convの組み合わせなども検討した結果


(2+1)Dがベストという結論
S3D [23]
15
● Inceptionベースの


(2+1)D Conv
● 論文中ではSeparable Conv
● Self-attentionのような処理
も導入したS3D-Gにすると
より高い性能を実現可能
Non-local Neural Network [34]
16
● Self-attentionのような処理
をするNon-local operation
をCNNに導入
● ResNetベースのI3Dに


Non-localを追加することで
高い性能を実現
SlowFast Network [35]
17
● 低フレームレートのSlowと高フレームレートのFastのTwo-stream
● 生物学的な知見も参考にしている
● 中のConvは3D/2D/(2+1)Dを組み合わせて利用
X3D [36]
18
● ネットワークの構造や入力動画のサイズなど様々な要素
を少しずつ大きくしていきながら高コスパな構造を探索
● 入力動画の解像度やフレーム数・フレームレートを


上げるのが性能向上に大きく寄与
特に被引用数の多い論文 1
19
● Learning Spatiotemporal Features with 3D
Convolutional Networks
● Du Tran, Lubomir Bourdev, Rob Fergus,


Lorenzo Torresani, Manohar Paluri
● ICCV 2015
● 被引用数:4757
● C3Dの論文
● 3D CNNによる動画認識が定着する以前に


先駆けとして出てきた分高い被引用数を達成している
特に被引用数の多い論文 2
20
● Quo Vadis, Action Recognition?


A New Model and the Kinetics Dataset
● Joao Carreira, Andrew Zisserman
● CVPR 2017
● 被引用数:2685
● I3Dの論文
● 3D CNNの性能を大きく向上させ単純なモデルながらも


従来の複雑なモデルの性能を超えてきたことでインパクトが大きい
● Kineticsという動画認識の定番データセットと共に出てきているのも強い
特に被引用数の多い論文 3
21
● Non-local Neural Networks
● Xiaolong Wang, Ross Girshick,


Abhinav Gupta, Kaiming He
● CVPR 2018
● 被引用数:2684
● 動画認識以外の文脈でも引用されていることが大きい


→ 汎用性のある手法は強い
● 著者が強いのも大きそう
● 動画認識界隈というよりコンピュータビジョン界隈で強い人の論文
モデルの分析や改善に関する研究
3D CNNの分析に関する研究
23
● 入力動画のサイズ
● 各フレームの画素数やフレーム数,フレームレートなど
● モーション情報の表現
● 時空間の畳み込みによってモーション情報の表現が


適切に獲得されているのか
3D CNNの分析に関する研究
24
● 入力動画のサイズ
● 各フレームの画素数やフレーム数,フレームレートなど
● モーション情報の表現
● 時空間の畳み込みによってモーション情報の表現が


適切に獲得されているのか
入力動画のフレーム数に関する分析 [16]
25
● 3D CNNに入力する動画の
フレーム数を変化させた時の
認識精度を分析
● フレーム数が大きい方が


より高精度な認識が可能
● 画素数 (H/L) についても


大きい方が高精度になる
X3Dのモデル構造の探索過程 [36]
26
● 画素数 (γs),フレーム数 (γt),


フレームレート (γτ) を


大きくする変化が選択される
ことが多い
● ネットワーク構造を大きくする
よりも入力動画の時空間解像度
を大きくすることが精度向上に
大きく寄与
3D CNNの分析に関する研究
27
● 入力動画のサイズ
● 各フレームの画素数やフレーム数,フレームレートなど
● モーション情報の表現
● 時空間の畳み込みによってモーション情報の表現が


適切に獲得されているのか
3D CNNでもRGB+Flowが有効 [14, 16, 19]
28
● 3D CNNは時間軸も畳み込むのでOptical Flowを


使わなくてもモーション情報の表現を獲得してほしい
● 実際には3D CNNでもRGB+Flowの


Two-streamを導入した方が高い認識精度
● RGB入力の3D CNNでは


十分にモーション情報が捉えられていない?
3D CNNによる動き情報の分析 [37]
29
● 元の動画から動き情報を


削っても3D CNNによる


認識の精度低下は小さい
● 特徴表現が同じになるように


少数フレームから元動画を生成
● 生成した動画からは動き情報が
ほぼ消えている
● 生成した動画を入力として認識
しても多少の精度低下で済む
3D CNNによるモーション表現の改善
30
● Optical Flowの置き換え
● 内部的にOptical Flowと同等の情報を推定しながら利用
● Optical Flowの学習への利用
● Optical Flowを学習のみに利用して推論時は不要とする
3D CNNによるモーション表現の改善
31
● Optical Flowの置き換え
● 内部的にOptical Flowと同等の情報を推定しながら利用
● Optical Flowの学習への利用
● Optical Flowを学習のみに利用して推論時は不要とする
Flow計算アルゴリズムのCNNへの導入 [43]
32
● Flow計算アルゴリズムの


TV-L1を層として実装
● 微分可能で学習可能な


パラメータを持つ層として


TV-L1を実装
● 特徴マップのFlow計算をCNN
内部に導入することでRGBのみ
からTwo-streamに匹敵する


性能を実現
Flow Layer
Flow推定ネットワークの導入 [47]
33
● RGB入力からFlow推定して


CNNに入力する構造を導入
● RGB入力のみからTwo-stream
構造の認識を実現
● Action Recognitionに最適化
したOptical Flowを利用可能
3D CNNによるモーション表現の改善
34
● Optical Flowの置き換え
● 内部的にOptical Flowと同等の情報を推定しながら利用
● Optical Flowの学習への利用
● Optical Flowを学習のみに利用して推論時は不要とする
知識蒸留の利用 [48]
35
● Flow入力で学習したモデル
を教師としてRGB入力の


生徒モデルを学習
● 普通のRGB入力のモデルと


蒸留で学習した生徒モデルを


組み合わせて利用することで
RGBのみで高精度な認識を実現
マルチタスク学習 [49]
36
● Action Recognitionと


Flow推定を同時に学習
● Flow推定も可能なように学習


することでモーション情報の


表現を強化
代表的なデータセット
動画認識の代表的なデータセット
38
HMDB-51 [55]
39
● 映画やYouTubeから収集


した動画データセット
● 51クラス,約7,000動画
● 2011年に公開されており


Deep以前から使われている
データセット
● ベンチマークとして


定番の一つ
UCF-101 [56]
40
● YouTubeから収集した


動画データセット
● 101クラス,約13,000動画
● HMDB-51同様Deep以前


から今に至るまで


ベンチマークの定番
● I3Dで98%近い精度が出てから


さすがにもう終わり感は強い
Sports-1M [57]
41
● YouTubeから収集した


動画データセット
● 487クラス,100万+動画
● 各動画は1行動を含むように開始・終
了時刻でトリミングされておらず長
い動画
● 行動に関係ないノイズ情報が多い
● 動画数は多いがファイルサイズ的にも
大きすぎる & ノイズも多いので


学習用途としてはやや使いにくい
ActivityNet [58]
42
● YouTubeから収集した


動画データセット
● 200クラス,約28,000動画
● 長い動画の中に


複数の行動が存在
● Sports-1Mと違って開始・


終了時刻のアノテーション付き
● Classificationだけでなく


Action Proposal, Temporal Action
Localizationなど様々なタスクで利用
Charades [59]
43
● クラウドソーシングで


収集した動画データセット
● 指定したスクリプトに沿う


動画を撮影してもらう形で収集
● 各家庭の中の日常動作の動画
● 157クラス,7万弱動画
● ActivityNetと同様に


1動画の中に複数動作 &


開始・終了のアテノーション
YouTube-8M
44
● YouTubeから収集した


動画データセット
● 4,800クラス,約800万動画
● 規模は圧倒的なデータセット
● Sports-1Mと同じように


ノイズも多い
● 巨大すぎてまともに利用している


研究はかなり少ない
Kinetics-400/600/700 [28, 63, 39]
45
● YouTubeから収集した


動画データセット
● 400/600/700クラス,


約30/50/65万動画
● 2018年にKinetics-400が


公開されてから動画認識の


定番データセットとして


よく利用されている
Something-Something [61, 64]
46
● クラウドソーシングで


収集した動画データセット
● 人と物体のインタラクションの動画が対象
● 174クラス,約10万動画
● v2は約20万動画
● 時間情報のモデリングを議論する時に
使われることが多いデータセット
● ものを置く / 取るなど時間的な情報を使わ
ないと認識できないクラス設計がされてい
るため
Moments in Time [40]
47
● YouTubeなどから


収集した動画データセット
● Flickr, Vine, Vimeoからも収集
● 339クラス,100万動画
● データ数も多く使いやすいが


そんなには使われてない印象
● 経験的には事前学習用としても
Kineticsの方が良かったり
STAIR-Actions [62]
48
● クラウドソーシングと
YouTubeから収集した


動画データセット
● Charadesのように


日常的な動作が対象
● クラウドソーシングとYouTube
の比率は大体半々
● 100クラス,約10万動画
HACS [65]
49
● YouTubeから収集した


動画データセット
● 200クラス,150万動画
● 50万動画から切り出したもの
● 14万セグメントを使うHACS
Segmentsという設定も利用可
● 論文では事前学習用のデータと
しての性能もアピール
● Kineticsより少し良さそう
FineGym [66]
50
● YouTubeから収集した


動画データセット
● 体操の動画が対象
● 530クラス,3万動画
● 論文では99クラス,288クラス
の設定で実験
● 階層的にアノテーション


されているのが売り
上位会議
・論文誌に採択されたデータセット
51
● HMDB-51 (ICCV 2011)
● Sports-1M (CVPR 2014)
● 手法が論文のメイン
● ActivityNet (CVPR 2015)
● Charades (ECCV 2016)
● Kinetics (CVPR 2017)
● 手法が論文のメイン
● Something-Something


(ICCV 2017)
● Moments in Time


(TPAMI, 2019)
● HACS (ICCV 2019)
● FineGym (CVPR 2020)
データセット論文の採択について
52
● 上位会議・論文誌に採択されているものもあれば


されていないものもある
● UCF-101などよく使われているものでも


テクニカルレポートとして上がっているだけだったり
● 投稿していないだけ?
● 手法もセットで提案できている方が当然採択されやすそう
● HACSのように何度も挑戦してから採択されたものも
● arXivのv1はCVPR 2018 submission(当時はSLACという名前)
● その後ICCV 2019でついに採択
● 何度も挑戦するのはやはり大事
まとめ
53
● 3D CNNによる行動認識を中心に代表的なモデルや


データセットについてサーベイした結果を紹介
● C3Dを始めとした様々な3D CNNのネットワーク構造
● 3D CNNの分析や改善に関する研究
● 動画認識でよく用いられる動画データセット
参考文献

More Related Content

What's hot

自己教師学習(Self-Supervised Learning)
自己教師学習(Self-Supervised Learning)自己教師学習(Self-Supervised Learning)
自己教師学習(Self-Supervised Learning)cvpaper. challenge
 
【メタサーベイ】基盤モデル / Foundation Models
【メタサーベイ】基盤モデル / Foundation Models【メタサーベイ】基盤モデル / Foundation Models
【メタサーベイ】基盤モデル / Foundation Modelscvpaper. challenge
 
[DL輪読会]AutoAugment: LearningAugmentation Strategies from Data & Learning Data...
[DL輪読会]AutoAugment: LearningAugmentation Strategies from Data & Learning Data...[DL輪読会]AutoAugment: LearningAugmentation Strategies from Data & Learning Data...
[DL輪読会]AutoAugment: LearningAugmentation Strategies from Data & Learning Data...Deep Learning JP
 
【メタサーベイ】数式ドリブン教師あり学習
【メタサーベイ】数式ドリブン教師あり学習【メタサーベイ】数式ドリブン教師あり学習
【メタサーベイ】数式ドリブン教師あり学習cvpaper. challenge
 
モデルアーキテクチャ観点からのDeep Neural Network高速化
モデルアーキテクチャ観点からのDeep Neural Network高速化モデルアーキテクチャ観点からのDeep Neural Network高速化
モデルアーキテクチャ観点からのDeep Neural Network高速化Yusuke Uchida
 
12. Diffusion Model の数学的基礎.pdf
12. Diffusion Model の数学的基礎.pdf12. Diffusion Model の数学的基礎.pdf
12. Diffusion Model の数学的基礎.pdf幸太朗 岩澤
 
【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks?
【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks? 【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks?
【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks? Deep Learning JP
 
SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜
SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜
SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜SSII
 
【DL輪読会】ViT + Self Supervised Learningまとめ
【DL輪読会】ViT + Self Supervised Learningまとめ【DL輪読会】ViT + Self Supervised Learningまとめ
【DL輪読会】ViT + Self Supervised LearningまとめDeep Learning JP
 
【メタサーベイ】Vision and Language のトップ研究室/研究者
【メタサーベイ】Vision and Language のトップ研究室/研究者【メタサーベイ】Vision and Language のトップ研究室/研究者
【メタサーベイ】Vision and Language のトップ研究室/研究者cvpaper. challenge
 
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法SSII
 
SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​
SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​
SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​SSII
 
「世界モデル」と関連研究について
「世界モデル」と関連研究について「世界モデル」と関連研究について
「世界モデル」と関連研究についてMasahiro Suzuki
 
【チュートリアル】コンピュータビジョンによる動画認識 v2
【チュートリアル】コンピュータビジョンによる動画認識 v2【チュートリアル】コンピュータビジョンによる動画認識 v2
【チュートリアル】コンピュータビジョンによる動画認識 v2Hirokatsu Kataoka
 
近年のHierarchical Vision Transformer
近年のHierarchical Vision Transformer近年のHierarchical Vision Transformer
近年のHierarchical Vision TransformerYusuke Uchida
 
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料Yusuke Uchida
 
[DL輪読会] MoCoGAN: Decomposing Motion and Content for Video Generation
[DL輪読会] MoCoGAN: Decomposing Motion and Content for Video Generation[DL輪読会] MoCoGAN: Decomposing Motion and Content for Video Generation
[DL輪読会] MoCoGAN: Decomposing Motion and Content for Video GenerationDeep Learning JP
 
【DL輪読会】An Image is Worth One Word: Personalizing Text-to-Image Generation usi...
【DL輪読会】An Image is Worth One Word: Personalizing Text-to-Image Generation usi...【DL輪読会】An Image is Worth One Word: Personalizing Text-to-Image Generation usi...
【DL輪読会】An Image is Worth One Word: Personalizing Text-to-Image Generation usi...Deep Learning JP
 
[DL輪読会]Learning Latent Dynamics for Planning from Pixels
[DL輪読会]Learning Latent Dynamics for Planning from Pixels[DL輪読会]Learning Latent Dynamics for Planning from Pixels
[DL輪読会]Learning Latent Dynamics for Planning from PixelsDeep Learning JP
 

What's hot (20)

自己教師学習(Self-Supervised Learning)
自己教師学習(Self-Supervised Learning)自己教師学習(Self-Supervised Learning)
自己教師学習(Self-Supervised Learning)
 
【メタサーベイ】基盤モデル / Foundation Models
【メタサーベイ】基盤モデル / Foundation Models【メタサーベイ】基盤モデル / Foundation Models
【メタサーベイ】基盤モデル / Foundation Models
 
[DL輪読会]AutoAugment: LearningAugmentation Strategies from Data & Learning Data...
[DL輪読会]AutoAugment: LearningAugmentation Strategies from Data & Learning Data...[DL輪読会]AutoAugment: LearningAugmentation Strategies from Data & Learning Data...
[DL輪読会]AutoAugment: LearningAugmentation Strategies from Data & Learning Data...
 
【メタサーベイ】数式ドリブン教師あり学習
【メタサーベイ】数式ドリブン教師あり学習【メタサーベイ】数式ドリブン教師あり学習
【メタサーベイ】数式ドリブン教師あり学習
 
モデルアーキテクチャ観点からのDeep Neural Network高速化
モデルアーキテクチャ観点からのDeep Neural Network高速化モデルアーキテクチャ観点からのDeep Neural Network高速化
モデルアーキテクチャ観点からのDeep Neural Network高速化
 
12. Diffusion Model の数学的基礎.pdf
12. Diffusion Model の数学的基礎.pdf12. Diffusion Model の数学的基礎.pdf
12. Diffusion Model の数学的基礎.pdf
 
【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks?
【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks? 【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks?
【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks?
 
SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜
SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜
SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜
 
【DL輪読会】ViT + Self Supervised Learningまとめ
【DL輪読会】ViT + Self Supervised Learningまとめ【DL輪読会】ViT + Self Supervised Learningまとめ
【DL輪読会】ViT + Self Supervised Learningまとめ
 
【メタサーベイ】Vision and Language のトップ研究室/研究者
【メタサーベイ】Vision and Language のトップ研究室/研究者【メタサーベイ】Vision and Language のトップ研究室/研究者
【メタサーベイ】Vision and Language のトップ研究室/研究者
 
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
 
SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​
SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​
SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​
 
「世界モデル」と関連研究について
「世界モデル」と関連研究について「世界モデル」と関連研究について
「世界モデル」と関連研究について
 
【チュートリアル】コンピュータビジョンによる動画認識 v2
【チュートリアル】コンピュータビジョンによる動画認識 v2【チュートリアル】コンピュータビジョンによる動画認識 v2
【チュートリアル】コンピュータビジョンによる動画認識 v2
 
近年のHierarchical Vision Transformer
近年のHierarchical Vision Transformer近年のHierarchical Vision Transformer
近年のHierarchical Vision Transformer
 
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
 
[DL輪読会] MoCoGAN: Decomposing Motion and Content for Video Generation
[DL輪読会] MoCoGAN: Decomposing Motion and Content for Video Generation[DL輪読会] MoCoGAN: Decomposing Motion and Content for Video Generation
[DL輪読会] MoCoGAN: Decomposing Motion and Content for Video Generation
 
[DL輪読会]World Models
[DL輪読会]World Models[DL輪読会]World Models
[DL輪読会]World Models
 
【DL輪読会】An Image is Worth One Word: Personalizing Text-to-Image Generation usi...
【DL輪読会】An Image is Worth One Word: Personalizing Text-to-Image Generation usi...【DL輪読会】An Image is Worth One Word: Personalizing Text-to-Image Generation usi...
【DL輪読会】An Image is Worth One Word: Personalizing Text-to-Image Generation usi...
 
[DL輪読会]Learning Latent Dynamics for Planning from Pixels
[DL輪読会]Learning Latent Dynamics for Planning from Pixels[DL輪読会]Learning Latent Dynamics for Planning from Pixels
[DL輪読会]Learning Latent Dynamics for Planning from Pixels
 

Similar to 動画認識における代表的なモデル・データセット(メタサーベイ)

人が注目する箇所を当てるSaliency Detectionの最新モデル UCNet(CVPR2020)
人が注目する箇所を当てるSaliency Detectionの最新モデル UCNet(CVPR2020)人が注目する箇所を当てるSaliency Detectionの最新モデル UCNet(CVPR2020)
人が注目する箇所を当てるSaliency Detectionの最新モデル UCNet(CVPR2020)Shintaro Yoshida
 
Arithmer Dynamics Introduction
Arithmer Dynamics Introduction Arithmer Dynamics Introduction
Arithmer Dynamics Introduction Arithmer Inc.
 
リクルートにおける画像解析事例紹介
リクルートにおける画像解析事例紹介リクルートにおける画像解析事例紹介
リクルートにおける画像解析事例紹介Recruit Technologies
 
【2017.06】 cvpaper.challenge 2017
【2017.06】 cvpaper.challenge 2017【2017.06】 cvpaper.challenge 2017
【2017.06】 cvpaper.challenge 2017cvpaper. challenge
 
深層学習の新しい応用と、 それを支える計算機の進化 - Preferred Networks CEO 西川徹 (SEMICON Japan 2022 Ke...
深層学習の新しい応用と、 それを支える計算機の進化 - Preferred Networks CEO 西川徹 (SEMICON Japan 2022 Ke...深層学習の新しい応用と、 それを支える計算機の進化 - Preferred Networks CEO 西川徹 (SEMICON Japan 2022 Ke...
深層学習の新しい応用と、 それを支える計算機の進化 - Preferred Networks CEO 西川徹 (SEMICON Japan 2022 Ke...Preferred Networks
 
cvsaisentan20141004 kanezaki
cvsaisentan20141004 kanezakicvsaisentan20141004 kanezaki
cvsaisentan20141004 kanezakikanejaki
 
大規模画像認識とその周辺
大規模画像認識とその周辺大規模画像認識とその周辺
大規模画像認識とその周辺n_hidekey
 
object detection with lidar-camera fusion: survey
object detection with lidar-camera fusion: surveyobject detection with lidar-camera fusion: survey
object detection with lidar-camera fusion: surveyTakuya Minagawa
 
TERAS Conference
TERAS ConferenceTERAS Conference
TERAS ConferenceKeiju Anada
 
(文献紹介)深層学習による動被写体ロバストなカメラの動き推定
(文献紹介)深層学習による動被写体ロバストなカメラの動き推定(文献紹介)深層学習による動被写体ロバストなカメラの動き推定
(文献紹介)深層学習による動被写体ロバストなカメラの動き推定Morpho, Inc.
 
[AI05] 目指せ、最先端 AI 技術の実活用!Deep Learning フレームワーク 「Microsoft Cognitive Toolkit 」...
[AI05] 目指せ、最先端 AI 技術の実活用!Deep Learning フレームワーク 「Microsoft Cognitive Toolkit 」...[AI05] 目指せ、最先端 AI 技術の実活用!Deep Learning フレームワーク 「Microsoft Cognitive Toolkit 」...
[AI05] 目指せ、最先端 AI 技術の実活用!Deep Learning フレームワーク 「Microsoft Cognitive Toolkit 」...de:code 2017
 
WebDB Forum 2016 gunosy
WebDB Forum 2016 gunosyWebDB Forum 2016 gunosy
WebDB Forum 2016 gunosyHiroaki Kudo
 
ディープラーニングでラーメン二郎(全店舗)を識別してみた
ディープラーニングでラーメン二郎(全店舗)を識別してみたディープラーニングでラーメン二郎(全店舗)を識別してみた
ディープラーニングでラーメン二郎(全店舗)を識別してみたknjcode
 
[DL輪読会]Transframer: Arbitrary Frame Prediction with Generative Models
[DL輪読会]Transframer: Arbitrary Frame Prediction with Generative Models[DL輪読会]Transframer: Arbitrary Frame Prediction with Generative Models
[DL輪読会]Transframer: Arbitrary Frame Prediction with Generative ModelsDeep Learning JP
 
リクルートにおける画像解析事例紹介と周辺技術紹介
リクルートにおける画像解析事例紹介と周辺技術紹介リクルートにおける画像解析事例紹介と周辺技術紹介
リクルートにおける画像解析事例紹介と周辺技術紹介Recruit Technologies
 
ADVENTUREの他のモジュール・関連プロジェクトの紹介
ADVENTUREの他のモジュール・関連プロジェクトの紹介ADVENTUREの他のモジュール・関連プロジェクトの紹介
ADVENTUREの他のモジュール・関連プロジェクトの紹介ADVENTURE Project
 
ディープラーニングによるラーメン二郎全店舗識別と生成
ディープラーニングによるラーメン二郎全店舗識別と生成ディープラーニングによるラーメン二郎全店舗識別と生成
ディープラーニングによるラーメン二郎全店舗識別と生成knjcode
 
【SSII2015】人を観る技術の先端的研究
【SSII2015】人を観る技術の先端的研究【SSII2015】人を観る技術の先端的研究
【SSII2015】人を観る技術の先端的研究Hirokatsu Kataoka
 

Similar to 動画認識における代表的なモデル・データセット(メタサーベイ) (20)

人が注目する箇所を当てるSaliency Detectionの最新モデル UCNet(CVPR2020)
人が注目する箇所を当てるSaliency Detectionの最新モデル UCNet(CVPR2020)人が注目する箇所を当てるSaliency Detectionの最新モデル UCNet(CVPR2020)
人が注目する箇所を当てるSaliency Detectionの最新モデル UCNet(CVPR2020)
 
Arithmer Dynamics Introduction
Arithmer Dynamics Introduction Arithmer Dynamics Introduction
Arithmer Dynamics Introduction
 
リクルートにおける画像解析事例紹介
リクルートにおける画像解析事例紹介リクルートにおける画像解析事例紹介
リクルートにおける画像解析事例紹介
 
【2017.06】 cvpaper.challenge 2017
【2017.06】 cvpaper.challenge 2017【2017.06】 cvpaper.challenge 2017
【2017.06】 cvpaper.challenge 2017
 
CNTK deep dive
CNTK deep diveCNTK deep dive
CNTK deep dive
 
深層学習の新しい応用と、 それを支える計算機の進化 - Preferred Networks CEO 西川徹 (SEMICON Japan 2022 Ke...
深層学習の新しい応用と、 それを支える計算機の進化 - Preferred Networks CEO 西川徹 (SEMICON Japan 2022 Ke...深層学習の新しい応用と、 それを支える計算機の進化 - Preferred Networks CEO 西川徹 (SEMICON Japan 2022 Ke...
深層学習の新しい応用と、 それを支える計算機の進化 - Preferred Networks CEO 西川徹 (SEMICON Japan 2022 Ke...
 
cvsaisentan20141004 kanezaki
cvsaisentan20141004 kanezakicvsaisentan20141004 kanezaki
cvsaisentan20141004 kanezaki
 
大規模画像認識とその周辺
大規模画像認識とその周辺大規模画像認識とその周辺
大規模画像認識とその周辺
 
画像処理応用
画像処理応用画像処理応用
画像処理応用
 
object detection with lidar-camera fusion: survey
object detection with lidar-camera fusion: surveyobject detection with lidar-camera fusion: survey
object detection with lidar-camera fusion: survey
 
TERAS Conference
TERAS ConferenceTERAS Conference
TERAS Conference
 
(文献紹介)深層学習による動被写体ロバストなカメラの動き推定
(文献紹介)深層学習による動被写体ロバストなカメラの動き推定(文献紹介)深層学習による動被写体ロバストなカメラの動き推定
(文献紹介)深層学習による動被写体ロバストなカメラの動き推定
 
[AI05] 目指せ、最先端 AI 技術の実活用!Deep Learning フレームワーク 「Microsoft Cognitive Toolkit 」...
[AI05] 目指せ、最先端 AI 技術の実活用!Deep Learning フレームワーク 「Microsoft Cognitive Toolkit 」...[AI05] 目指せ、最先端 AI 技術の実活用!Deep Learning フレームワーク 「Microsoft Cognitive Toolkit 」...
[AI05] 目指せ、最先端 AI 技術の実活用!Deep Learning フレームワーク 「Microsoft Cognitive Toolkit 」...
 
WebDB Forum 2016 gunosy
WebDB Forum 2016 gunosyWebDB Forum 2016 gunosy
WebDB Forum 2016 gunosy
 
ディープラーニングでラーメン二郎(全店舗)を識別してみた
ディープラーニングでラーメン二郎(全店舗)を識別してみたディープラーニングでラーメン二郎(全店舗)を識別してみた
ディープラーニングでラーメン二郎(全店舗)を識別してみた
 
[DL輪読会]Transframer: Arbitrary Frame Prediction with Generative Models
[DL輪読会]Transframer: Arbitrary Frame Prediction with Generative Models[DL輪読会]Transframer: Arbitrary Frame Prediction with Generative Models
[DL輪読会]Transframer: Arbitrary Frame Prediction with Generative Models
 
リクルートにおける画像解析事例紹介と周辺技術紹介
リクルートにおける画像解析事例紹介と周辺技術紹介リクルートにおける画像解析事例紹介と周辺技術紹介
リクルートにおける画像解析事例紹介と周辺技術紹介
 
ADVENTUREの他のモジュール・関連プロジェクトの紹介
ADVENTUREの他のモジュール・関連プロジェクトの紹介ADVENTUREの他のモジュール・関連プロジェクトの紹介
ADVENTUREの他のモジュール・関連プロジェクトの紹介
 
ディープラーニングによるラーメン二郎全店舗識別と生成
ディープラーニングによるラーメン二郎全店舗識別と生成ディープラーニングによるラーメン二郎全店舗識別と生成
ディープラーニングによるラーメン二郎全店舗識別と生成
 
【SSII2015】人を観る技術の先端的研究
【SSII2015】人を観る技術の先端的研究【SSII2015】人を観る技術の先端的研究
【SSII2015】人を観る技術の先端的研究
 

動画認識における代表的なモデル・データセット(メタサーベイ)