Submit Search
Upload
3D CNNによる人物行動認識の動向
•
23 likes
•
24,432 views
Kensho Hara
Follow
動画中の人物行動認識における3D CNNを用いた手法の動向を紹介します.
Read less
Read more
Technology
Report
Share
Report
Share
1 of 23
Download now
Download to read offline
Recommended
動作認識の最前線:手法,タスク,データセット
動作認識の最前線:手法,タスク,データセット
Toru Tamaki
【メタサーベイ】Video Transformer
【メタサーベイ】Video Transformer
cvpaper. challenge
近年のHierarchical Vision Transformer
近年のHierarchical Vision Transformer
Yusuke Uchida
【チュートリアル】コンピュータビジョンによる動画認識 v2
【チュートリアル】コンピュータビジョンによる動画認識 v2
Hirokatsu Kataoka
実装レベルで学ぶVQVAE
実装レベルで学ぶVQVAE
ぱんいち すみもと
【メタサーベイ】Neural Fields
【メタサーベイ】Neural Fields
cvpaper. challenge
Skip Connection まとめ(Neural Network)
Skip Connection まとめ(Neural Network)
Yamato OKAMOTO
SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜
SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜
SSII
Recommended
動作認識の最前線:手法,タスク,データセット
動作認識の最前線:手法,タスク,データセット
Toru Tamaki
【メタサーベイ】Video Transformer
【メタサーベイ】Video Transformer
cvpaper. challenge
近年のHierarchical Vision Transformer
近年のHierarchical Vision Transformer
Yusuke Uchida
【チュートリアル】コンピュータビジョンによる動画認識 v2
【チュートリアル】コンピュータビジョンによる動画認識 v2
Hirokatsu Kataoka
実装レベルで学ぶVQVAE
実装レベルで学ぶVQVAE
ぱんいち すみもと
【メタサーベイ】Neural Fields
【メタサーベイ】Neural Fields
cvpaper. challenge
Skip Connection まとめ(Neural Network)
Skip Connection まとめ(Neural Network)
Yamato OKAMOTO
SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜
SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜
SSII
【DL輪読会】ViT + Self Supervised Learningまとめ
【DL輪読会】ViT + Self Supervised Learningまとめ
Deep Learning JP
動画認識サーベイv1(メタサーベイ )
動画認識サーベイv1(メタサーベイ )
cvpaper. challenge
【メタサーベイ】数式ドリブン教師あり学習
【メタサーベイ】数式ドリブン教師あり学習
cvpaper. challenge
Transformer メタサーベイ
Transformer メタサーベイ
cvpaper. challenge
画像認識と深層学習
画像認識と深層学習
Yusuke Uchida
論文紹介:Temporal Action Segmentation: An Analysis of Modern Techniques
論文紹介:Temporal Action Segmentation: An Analysis of Modern Techniques
Toru Tamaki
[DL輪読会]Swin Transformer: Hierarchical Vision Transformer using Shifted Windows
[DL輪読会]Swin Transformer: Hierarchical Vision Transformer using Shifted Windows
Deep Learning JP
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Yusuke Uchida
画像生成・生成モデル メタサーベイ
画像生成・生成モデル メタサーベイ
cvpaper. challenge
【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
Deep Learning JP
SSII2021 [SS1] Transformer x Computer Visionの 実活用可能性と展望 〜 TransformerのCompute...
SSII2021 [SS1] Transformer x Computer Visionの 実活用可能性と展望 〜 TransformerのCompute...
SSII
SSII2019企画: 点群深層学習の研究動向
SSII2019企画: 点群深層学習の研究動向
SSII
モデル高速化百選
モデル高速化百選
Yusuke Uchida
深層学習によるHuman Pose Estimationの基礎
深層学習によるHuman Pose Estimationの基礎
Takumi Ohkuma
SSII2021 [OS2-02] 深層学習におけるデータ拡張の原理と最新動向
SSII2021 [OS2-02] 深層学習におけるデータ拡張の原理と最新動向
SSII
Deep Learningによる超解像の進歩
Deep Learningによる超解像の進歩
Hiroto Honda
[DL輪読会]MetaFormer is Actually What You Need for Vision
[DL輪読会]MetaFormer is Actually What You Need for Vision
Deep Learning JP
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)
Deep Learning JP
畳み込みニューラルネットワークの研究動向
畳み込みニューラルネットワークの研究動向
Yusuke Uchida
SSII2020 [OS2-02] 教師あり事前学習を凌駕する「弱」教師あり事前学習
SSII2020 [OS2-02] 教師あり事前学習を凌駕する「弱」教師あり事前学習
SSII
【2017.06】 cvpaper.challenge 2017
【2017.06】 cvpaper.challenge 2017
cvpaper. challenge
動画認識における代表的なモデル・データセット(メタサーベイ)
動画認識における代表的なモデル・データセット(メタサーベイ)
cvpaper. challenge
More Related Content
What's hot
【DL輪読会】ViT + Self Supervised Learningまとめ
【DL輪読会】ViT + Self Supervised Learningまとめ
Deep Learning JP
動画認識サーベイv1(メタサーベイ )
動画認識サーベイv1(メタサーベイ )
cvpaper. challenge
【メタサーベイ】数式ドリブン教師あり学習
【メタサーベイ】数式ドリブン教師あり学習
cvpaper. challenge
Transformer メタサーベイ
Transformer メタサーベイ
cvpaper. challenge
画像認識と深層学習
画像認識と深層学習
Yusuke Uchida
論文紹介:Temporal Action Segmentation: An Analysis of Modern Techniques
論文紹介:Temporal Action Segmentation: An Analysis of Modern Techniques
Toru Tamaki
[DL輪読会]Swin Transformer: Hierarchical Vision Transformer using Shifted Windows
[DL輪読会]Swin Transformer: Hierarchical Vision Transformer using Shifted Windows
Deep Learning JP
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Yusuke Uchida
画像生成・生成モデル メタサーベイ
画像生成・生成モデル メタサーベイ
cvpaper. challenge
【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
Deep Learning JP
SSII2021 [SS1] Transformer x Computer Visionの 実活用可能性と展望 〜 TransformerのCompute...
SSII2021 [SS1] Transformer x Computer Visionの 実活用可能性と展望 〜 TransformerのCompute...
SSII
SSII2019企画: 点群深層学習の研究動向
SSII2019企画: 点群深層学習の研究動向
SSII
モデル高速化百選
モデル高速化百選
Yusuke Uchida
深層学習によるHuman Pose Estimationの基礎
深層学習によるHuman Pose Estimationの基礎
Takumi Ohkuma
SSII2021 [OS2-02] 深層学習におけるデータ拡張の原理と最新動向
SSII2021 [OS2-02] 深層学習におけるデータ拡張の原理と最新動向
SSII
Deep Learningによる超解像の進歩
Deep Learningによる超解像の進歩
Hiroto Honda
[DL輪読会]MetaFormer is Actually What You Need for Vision
[DL輪読会]MetaFormer is Actually What You Need for Vision
Deep Learning JP
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)
Deep Learning JP
畳み込みニューラルネットワークの研究動向
畳み込みニューラルネットワークの研究動向
Yusuke Uchida
SSII2020 [OS2-02] 教師あり事前学習を凌駕する「弱」教師あり事前学習
SSII2020 [OS2-02] 教師あり事前学習を凌駕する「弱」教師あり事前学習
SSII
What's hot
(20)
【DL輪読会】ViT + Self Supervised Learningまとめ
【DL輪読会】ViT + Self Supervised Learningまとめ
動画認識サーベイv1(メタサーベイ )
動画認識サーベイv1(メタサーベイ )
【メタサーベイ】数式ドリブン教師あり学習
【メタサーベイ】数式ドリブン教師あり学習
Transformer メタサーベイ
Transformer メタサーベイ
画像認識と深層学習
画像認識と深層学習
論文紹介:Temporal Action Segmentation: An Analysis of Modern Techniques
論文紹介:Temporal Action Segmentation: An Analysis of Modern Techniques
[DL輪読会]Swin Transformer: Hierarchical Vision Transformer using Shifted Windows
[DL輪読会]Swin Transformer: Hierarchical Vision Transformer using Shifted Windows
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
画像生成・生成モデル メタサーベイ
画像生成・生成モデル メタサーベイ
【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
SSII2021 [SS1] Transformer x Computer Visionの 実活用可能性と展望 〜 TransformerのCompute...
SSII2021 [SS1] Transformer x Computer Visionの 実活用可能性と展望 〜 TransformerのCompute...
SSII2019企画: 点群深層学習の研究動向
SSII2019企画: 点群深層学習の研究動向
モデル高速化百選
モデル高速化百選
深層学習によるHuman Pose Estimationの基礎
深層学習によるHuman Pose Estimationの基礎
SSII2021 [OS2-02] 深層学習におけるデータ拡張の原理と最新動向
SSII2021 [OS2-02] 深層学習におけるデータ拡張の原理と最新動向
Deep Learningによる超解像の進歩
Deep Learningによる超解像の進歩
[DL輪読会]MetaFormer is Actually What You Need for Vision
[DL輪読会]MetaFormer is Actually What You Need for Vision
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)
畳み込みニューラルネットワークの研究動向
畳み込みニューラルネットワークの研究動向
SSII2020 [OS2-02] 教師あり事前学習を凌駕する「弱」教師あり事前学習
SSII2020 [OS2-02] 教師あり事前学習を凌駕する「弱」教師あり事前学習
Similar to 3D CNNによる人物行動認識の動向
【2017.06】 cvpaper.challenge 2017
【2017.06】 cvpaper.challenge 2017
cvpaper. challenge
動画認識における代表的なモデル・データセット(メタサーベイ)
動画認識における代表的なモデル・データセット(メタサーベイ)
cvpaper. challenge
CNTK deep dive
CNTK deep dive
Kyoichi Iwasaki
MIRU2014 tutorial deeplearning
MIRU2014 tutorial deeplearning
Takayoshi Yamashita
「解説資料」VideoMix: Rethinking Data Augmentation for Video Classification
「解説資料」VideoMix: Rethinking Data Augmentation for Video Classification
Takumi Ohkuma
【チュートリアル】コンピュータビジョンによる動画認識
【チュートリアル】コンピュータビジョンによる動画認識
Hirokatsu Kataoka
文献紹介:PolyViT: Co-training Vision Transformers on Images, Videos and Audio
文献紹介:PolyViT: Co-training Vision Transformers on Images, Videos and Audio
Toru Tamaki
生活支援ロボットにおける大規模データ収集に向けて
生活支援ロボットにおける大規模データ収集に向けて
Komei Sugiura
[DL輪読会]Blind Video Temporal Consistency via Deep Video Prior
[DL輪読会]Blind Video Temporal Consistency via Deep Video Prior
Deep Learning JP
R-CNNの原理とここ数年の流れ
R-CNNの原理とここ数年の流れ
Kazuki Motohashi
ae-3. ディープラーニングの基礎
ae-3. ディープラーニングの基礎
kunihikokaneko1
ImageNet Classification with Deep Convolutional Neural Networks
ImageNet Classification with Deep Convolutional Neural Networks
Kouhei Nakajima
人が注目する箇所を当てるSaliency Detectionの最新モデル UCNet(CVPR2020)
人が注目する箇所を当てるSaliency Detectionの最新モデル UCNet(CVPR2020)
Shintaro Yoshida
Arithmer Dynamics Introduction
Arithmer Dynamics Introduction
Arithmer Inc.
Deep Learningと画像認識 ~歴史・理論・実践~
Deep Learningと画像認識 ~歴史・理論・実践~
nlab_utokyo
NVIDIA Seminar ディープラーニングによる画像認識と応用事例
NVIDIA Seminar ディープラーニングによる画像認識と応用事例
Takayoshi Yamashita
(2022年3月版)深層学習によるImage Classificaitonの発展
(2022年3月版)深層学習によるImage Classificaitonの発展
Takumi Ohkuma
関西CVPRML勉強会 2012.2.18 (一般物体認識 - データセット)
関西CVPRML勉強会 2012.2.18 (一般物体認識 - データセット)
Akisato Kimura
(2021年8月版)深層学習によるImage Classificaitonの発展
(2021年8月版)深層学習によるImage Classificaitonの発展
Takumi Ohkuma
NIPS2017 論文まとめ
NIPS2017 論文まとめ
Tatsuya Okunaga
Similar to 3D CNNによる人物行動認識の動向
(20)
【2017.06】 cvpaper.challenge 2017
【2017.06】 cvpaper.challenge 2017
動画認識における代表的なモデル・データセット(メタサーベイ)
動画認識における代表的なモデル・データセット(メタサーベイ)
CNTK deep dive
CNTK deep dive
MIRU2014 tutorial deeplearning
MIRU2014 tutorial deeplearning
「解説資料」VideoMix: Rethinking Data Augmentation for Video Classification
「解説資料」VideoMix: Rethinking Data Augmentation for Video Classification
【チュートリアル】コンピュータビジョンによる動画認識
【チュートリアル】コンピュータビジョンによる動画認識
文献紹介:PolyViT: Co-training Vision Transformers on Images, Videos and Audio
文献紹介:PolyViT: Co-training Vision Transformers on Images, Videos and Audio
生活支援ロボットにおける大規模データ収集に向けて
生活支援ロボットにおける大規模データ収集に向けて
[DL輪読会]Blind Video Temporal Consistency via Deep Video Prior
[DL輪読会]Blind Video Temporal Consistency via Deep Video Prior
R-CNNの原理とここ数年の流れ
R-CNNの原理とここ数年の流れ
ae-3. ディープラーニングの基礎
ae-3. ディープラーニングの基礎
ImageNet Classification with Deep Convolutional Neural Networks
ImageNet Classification with Deep Convolutional Neural Networks
人が注目する箇所を当てるSaliency Detectionの最新モデル UCNet(CVPR2020)
人が注目する箇所を当てるSaliency Detectionの最新モデル UCNet(CVPR2020)
Arithmer Dynamics Introduction
Arithmer Dynamics Introduction
Deep Learningと画像認識 ~歴史・理論・実践~
Deep Learningと画像認識 ~歴史・理論・実践~
NVIDIA Seminar ディープラーニングによる画像認識と応用事例
NVIDIA Seminar ディープラーニングによる画像認識と応用事例
(2022年3月版)深層学習によるImage Classificaitonの発展
(2022年3月版)深層学習によるImage Classificaitonの発展
関西CVPRML勉強会 2012.2.18 (一般物体認識 - データセット)
関西CVPRML勉強会 2012.2.18 (一般物体認識 - データセット)
(2021年8月版)深層学習によるImage Classificaitonの発展
(2021年8月版)深層学習によるImage Classificaitonの発展
NIPS2017 論文まとめ
NIPS2017 論文まとめ
Recently uploaded
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
Hiroshi Tomioka
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
akihisamiyanaga1
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
博三 太田
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
sugiuralab
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
FumieNakayama
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
Yuki Kikuchi
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NTT DATA Technology & Innovation
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
FumieNakayama
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
UEHARA, Tetsutaro
Recently uploaded
(9)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
3D CNNによる人物行動認識の動向
1.
3D CNNによる人物行動認識の動向 原 健翔 0 産業技術総合研究所
コンピュータビジョン研究グループ
2.
人物行動認識 1 入力:動画 → 出力:行動ラベルという課題 *K.
Soomo+, “UCF101: A Dataset of 101 Human Actions Classes From Videos in The Wild”, CRCV-TR-12-01, 2012. *
3.
代表的な大規模行動認識データセット | Trimmed 2 切り出し済み
or 開始終了ラベル込み動画 HMDB-51: 7000動画 (Movie, YouTube),51クラス UCF-101: 13000動画 (YouTube),101クラス ActivityNet: 28000動画 (YouTube),200クラス Kinetics: 30万動画 (YouTube),400クラス 大規模化がどんどん進んでいる
4.
代表的な大規模行動認識データセット | Untrimmed 3 動画単位ラベル&対象以外も含む
Sports-1M: 100万動画 (YouTube),487クラス Youtube-8M (Video Classification Dataset): 800万動画 (YouTube),4800クラス 規模は圧倒的なものの動画単位ラベルのみでノイズが多い
5.
CNN以前の行動認識手法 4 Dense Trajectories &
Fisher Vectorが主流 HOG, HOF, MBHによる局所特徴をFisher Vectorでエンコード* *H. Wang+, “Dense Trajectories and Motion Boundary Descriptors for Action Recognition”, IJCV, 2013.
6.
CNNベースの行動認識 5 2D CNN 時空間特徴抽出のため RGB
& Optical Flowの Two-streamが主流 3D CNN 空間 2D + 時間 1Dの 3D空間で畳み込み *D. Tran+, “Learning Spatiotemporal Features with 3D Convolutional Networks”, ICCV, 2015. * *
7.
3D CNNによる行動認識 |
C3D* 6 大規模動画データ (Sports-1M) を用いて良い性能を達成 著者らによる学習済みモデルの公開もあり3D CNNの標準となる *D. Tran+, “Learning Spatiotemporal Features with 3D Convolutional Networks”, ICCV, 2015. Conv: 3x3x3 kernels with 1 stride Pool: 2x2x2 (Pool1: 1x2x2) 実験的にこれがベストと確認 Input: 3 channels x 16 frames x 112 pixels x 112 pixels
8.
3D CNNによる行動認識 |
Long-term Convolution* 7 時間長変化の影響を検討 C3Dの16フレーム入力を変更 長くすると精度は向上 Optical Flow入力や RGB&Flow入力の有効性も発見 *G. Varol+, “Long-term Temporal Convolutions for Action Recognition”, TPAMI, 2017.
9.
この辺りまでの3D CNN 8 state-of-the-artよりも低精度 ImageNetでpretrainingした Two-stream
2D CNNベースがstate-of-the-art Two-stream 3D CNNでも精度は一歩劣る データ数不足が一番の原因? ネットワーク構造も10層のシンプルなものに とどまっている
10.
Kineticsデータセット* 9 Trimmed Actionで最大のデータセット 切り出された行動のインスタンス数では圧倒的! *W. Kay+,
“The Kinetics Human Action Video Dataset”, arXiv, 2017.
11.
Kineticsでの学習* 10 ImageNet Pretrained 2D
CNNとの差が激減 大量のデータにより3D CNNも学習可能に *W. Kay+, “The Kinetics Human Action Video Dataset”, arXiv, 2017. top-1/top-5
12.
Inception-v1ベースの3D CNN* 11 22層の3D CNN
2D Kernelの重みを 3DにコピーするInflatedにより ImageNetでもPretraining 入力は3x64x224x224 *J. Carreira+, “Quo Vadis, Action Recognition? A New Model and the Kinetics Dataset”, CVPR, 2017.
13.
Inception-v1ベースの3D CNN* 12 圧倒的な精度を達成 大規模(かつきれいな)データ の利用&Deep
3D CNNの 有効性が示された *J. Carreira+, “Quo Vadis, Action Recognition? A New Model and the Kinetics Dataset”, CVPR, 2017.
14.
ResNetベースの3D CNN* 13 画像認識で有効なResNetを動画像に応用 ResNetはInceptionよりも高精度
Kineticsデータセットを利用することで 3D ResNetを学習可能か? *K. Hara+, “Learning Spatio-Temporal Features with 3D Residual Networks for Action Recognition”, ICCV WS, 2017.
15.
学習時の設定 14 入力:3 channels
x 16 frames x 112 pixels x 112 pixels 最適化手法:SGD with momentum (0.9) Learning Rate:0.1 以後Validation Lossが収束したら1/10 Data Augumentation 50%でHorizontal Flip 4 corner, 1 centerからランダム選択してSpatial Crop 動画中から16フレームをランダム抽出
16.
学習に利用したマシン 15 NVIDIA TITAN
Xを4枚 Torchによる実装 4週間かけて学習 PyTorch実装で再学習したら1, 2週間で学習できた
17.
Kineticsでの学習結果 16 Pretrainingなしで過学習せずに3D ResNet-34を学習可能
18.
Kineticsでの認識精度 17 より深いResNetの方がC3Dよりも高い認識精度
19.
3D ResNet-34とI3D (Inception-v1) 18 I3Dの方が高い精度を実現
入力サイズの違い ResNet: 3x16x112x112, I3D: 3x64x224x224 高解像かつ時間長が長い方が精度は高くなる バッチサイズの違い Batch Normalization利用時にはバッチサイズは重要 I3Dの論文では64GPUでバッチサイズを大きく設定
20.
3D ResNetの学習コードと学習済みモデル 19 GitHubで公開中! Torch版https://github.com/kenshohara/3D-ResNets
と PyTorch版https://github.com/kenshohara/3D-ResNets-PyTorch ActivityNetとKineticsデータセットでの 学習・テストが可能 3D ResNet-34などの学習済みモデルも公開 その他のモデルも今後公開予定
21.
学習済みモデルを利用した動画認識用のコード 20 こちらもGitHubで公開中! Torch版https://github.com/kenshohara/video-classification-3d-cnn と PyTorch版https://github.com/kenshohara/video-classification-3d-cnn-pytorch
任意の動画に対してクラス識別(Kineticsの400クラス), 特徴抽出(Global Average Pooling後の400次元)が可能 実行結果の描画ツールも公開
22.
ResNet-34による認識結果例 21
23.
まとめ 22 3D CNNによる行動認識が盛り上がり中 大規模なKineticsデータセットにより 深いモデルも学習可能になってきた
今後この分野の研究が加速していくことが予測される
Download now