SlideShare a Scribd company logo
1 of 11
Download to read offline
動作認識におけるディープラーニングの
最新動向① 3D-CNN	
2016/3/14
株式会社ウェブファーマー
大政 孝充
今回取り上げるのは3D-CNN	
[1]Shuiwang Ji, Wei Xu, Ming Yang, Kai Yu. “3D
Convolutional neural networks for human action recognition.
PAMI, 35(1):221-231, 2013.
画像の一般物体認識で広く使われるCNNを三次元(x, y, t)
に拡張することで、動作認識へ応用した!
ここがポイント!	
[1]のFigure 1, Figure2より
2DのCNN
3D-CNN
vij
wy
= tanh bij + wijm
pq
v(i−1)m
(x+p)(y+q)
q=0
Qi−1
∑
p=0
Pi−1
∑
m
∑
⎛
⎝
⎜⎜
⎞
⎠
⎟⎟ vij
wyz
= tanh bij + wijm
pq
v(i−1)m
(x+p)(y+q)(z+r)
r=0
Ri−1
∑
q=0
Qi−1
∑
p=0
Pi−1
∑
m
∑
⎛
⎝
⎜⎜
⎞
⎠
⎟⎟
時間軸方向
に展開
これが全体の構造!	
[1]のFigure 3より
詳細の構造(1)	
input画像からH1層へ
⑤
④
③
①
②
入力画像に対して
①グレー画像
②x方向の勾配
③y方向の勾配
④x方向のoptical flow
⑤y方向のoptical flow
を生成する。
連続する7シーン
詳細の構造(2)	
H1層からC2層へ
7x7のフィルタで連続する
3シーンをまとめて畳み
込む
詳細の構造(3)	
2x2ピクセルを1ピクセル
にsubscaleingする
C2層からS3層へ
詳細の構造(4)	
S3層からC4層へ
7x6のフィルタで連
続する3シーンをま
とめて畳み込む
詳細の構造(5)	
3x3ピクセルを1ピク
セルにsubscaleing
する
C4層からS5層へ
詳細の構造(6)	
S5層からC6層へ
それぞれの画像を1ピク
セルに畳み込む
C6の各ノードは78枚の
全ての画像と結合する
詳細の構造(7)	
C6層から出力層
へ全結合する
出力層のノードは分類
する各クラスに一致

More Related Content

What's hot

What's hot (20)

論文紹介:Temporal Action Segmentation: An Analysis of Modern Techniques
論文紹介:Temporal Action Segmentation: An Analysis of Modern Techniques論文紹介:Temporal Action Segmentation: An Analysis of Modern Techniques
論文紹介:Temporal Action Segmentation: An Analysis of Modern Techniques
 
【チュートリアル】コンピュータビジョンによる動画認識 v2
【チュートリアル】コンピュータビジョンによる動画認識 v2【チュートリアル】コンピュータビジョンによる動画認識 v2
【チュートリアル】コンピュータビジョンによる動画認識 v2
 
【メタサーベイ】Video Transformer
 【メタサーベイ】Video Transformer 【メタサーベイ】Video Transformer
【メタサーベイ】Video Transformer
 
動画認識における代表的なモデル・データセット(メタサーベイ)
動画認識における代表的なモデル・データセット(メタサーベイ)動画認識における代表的なモデル・データセット(メタサーベイ)
動画認識における代表的なモデル・データセット(メタサーベイ)
 
[DL輪読会]A Higher-Dimensional Representation for Topologically Varying Neural R...
[DL輪読会]A Higher-Dimensional Representation for Topologically Varying Neural R...[DL輪読会]A Higher-Dimensional Representation for Topologically Varying Neural R...
[DL輪読会]A Higher-Dimensional Representation for Topologically Varying Neural R...
 
【DL輪読会】WIRE: Wavelet Implicit Neural Representations
【DL輪読会】WIRE: Wavelet Implicit Neural Representations【DL輪読会】WIRE: Wavelet Implicit Neural Representations
【DL輪読会】WIRE: Wavelet Implicit Neural Representations
 
Spatial Temporal Graph Convolutional Networks for Skeleton-Based Action Recog...
Spatial Temporal Graph Convolutional Networks for Skeleton-Based Action Recog...Spatial Temporal Graph Convolutional Networks for Skeleton-Based Action Recog...
Spatial Temporal Graph Convolutional Networks for Skeleton-Based Action Recog...
 
[DL輪読会]Vision Transformer with Deformable Attention (Deformable Attention Tra...
[DL輪読会]Vision Transformer with Deformable Attention (Deformable Attention Tra...[DL輪読会]Vision Transformer with Deformable Attention (Deformable Attention Tra...
[DL輪読会]Vision Transformer with Deformable Attention (Deformable Attention Tra...
 
【DL輪読会】ViT + Self Supervised Learningまとめ
【DL輪読会】ViT + Self Supervised Learningまとめ【DL輪読会】ViT + Self Supervised Learningまとめ
【DL輪読会】ViT + Self Supervised Learningまとめ
 
動作認識の最前線:手法,タスク,データセット
動作認識の最前線:手法,タスク,データセット動作認識の最前線:手法,タスク,データセット
動作認識の最前線:手法,タスク,データセット
 
文献紹介:X3D: Expanding Architectures for Efficient Video Recognition
文献紹介:X3D: Expanding Architectures for Efficient Video Recognition文献紹介:X3D: Expanding Architectures for Efficient Video Recognition
文献紹介:X3D: Expanding Architectures for Efficient Video Recognition
 
Skip Connection まとめ(Neural Network)
Skip Connection まとめ(Neural Network)Skip Connection まとめ(Neural Network)
Skip Connection まとめ(Neural Network)
 
SSII2020 [OS2-02] 教師あり事前学習を凌駕する「弱」教師あり事前学習
SSII2020 [OS2-02] 教師あり事前学習を凌駕する「弱」教師あり事前学習SSII2020 [OS2-02] 教師あり事前学習を凌駕する「弱」教師あり事前学習
SSII2020 [OS2-02] 教師あり事前学習を凌駕する「弱」教師あり事前学習
 
【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion Models
【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion Models【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion Models
【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion Models
 
【チュートリアル】動的な人物・物体認識技術 -Dense Trajectories-
【チュートリアル】動的な人物・物体認識技術 -Dense Trajectories-【チュートリアル】動的な人物・物体認識技術 -Dense Trajectories-
【チュートリアル】動的な人物・物体認識技術 -Dense Trajectories-
 
[DL輪読会]ICLR2020の分布外検知速報
[DL輪読会]ICLR2020の分布外検知速報[DL輪読会]ICLR2020の分布外検知速報
[DL輪読会]ICLR2020の分布外検知速報
 
【DL輪読会】HexPlaneとK-Planes
【DL輪読会】HexPlaneとK-Planes【DL輪読会】HexPlaneとK-Planes
【DL輪読会】HexPlaneとK-Planes
 
SSII2021 [SS1] Transformer x Computer Visionの 実活用可能性と展望 〜 TransformerのCompute...
SSII2021 [SS1] Transformer x Computer Visionの 実活用可能性と展望 〜 TransformerのCompute...SSII2021 [SS1] Transformer x Computer Visionの 実活用可能性と展望 〜 TransformerのCompute...
SSII2021 [SS1] Transformer x Computer Visionの 実活用可能性と展望 〜 TransformerのCompute...
 
実装レベルで学ぶVQVAE
実装レベルで学ぶVQVAE実装レベルで学ぶVQVAE
実装レベルで学ぶVQVAE
 
Transformerを雰囲気で理解する
Transformerを雰囲気で理解するTransformerを雰囲気で理解する
Transformerを雰囲気で理解する
 

Viewers also liked

Viewers also liked (11)

動作認識におけるディープラーニングの最新動向2Sequential DL for HAR
動作認識におけるディープラーニングの最新動向2Sequential DL for HAR動作認識におけるディープラーニングの最新動向2Sequential DL for HAR
動作認識におけるディープラーニングの最新動向2Sequential DL for HAR
 
3次元タスクにおけるディープラーニングの最新動向1DeepStereo
3次元タスクにおけるディープラーニングの最新動向1DeepStereo3次元タスクにおけるディープラーニングの最新動向1DeepStereo
3次元タスクにおけるディープラーニングの最新動向1DeepStereo
 
サーベイ論文:画像からの歩行者属性認識
サーベイ論文:画像からの歩行者属性認識サーベイ論文:画像からの歩行者属性認識
サーベイ論文:画像からの歩行者属性認識
 
岡谷貴之「深層学習」の解説
岡谷貴之「深層学習」の解説岡谷貴之「深層学習」の解説
岡谷貴之「深層学習」の解説
 
Introduction to Deep Compression
Introduction to Deep CompressionIntroduction to Deep Compression
Introduction to Deep Compression
 
IoTとDeep Learningで自宅警備員を育ててみる
IoTとDeep Learningで自宅警備員を育ててみるIoTとDeep Learningで自宅警備員を育ててみる
IoTとDeep Learningで自宅警備員を育ててみる
 
ディープラーニング・ハンズオン勉強会161229
ディープラーニング・ハンズオン勉強会161229ディープラーニング・ハンズオン勉強会161229
ディープラーニング・ハンズオン勉強会161229
 
introduce to Multimodal Deep Learning for Robust RGB-D Object Recognition
introduce to Multimodal Deep Learning for Robust RGB-D Object Recognitionintroduce to Multimodal Deep Learning for Robust RGB-D Object Recognition
introduce to Multimodal Deep Learning for Robust RGB-D Object Recognition
 
Introduction to YOLO detection model
Introduction to YOLO detection modelIntroduction to YOLO detection model
Introduction to YOLO detection model
 
Deep learning を用いた画像から説明文の自動生成に関する研究の紹介
Deep learning を用いた画像から説明文の自動生成に関する研究の紹介Deep learning を用いた画像から説明文の自動生成に関する研究の紹介
Deep learning を用いた画像から説明文の自動生成に関する研究の紹介
 
最近のDeep Learning (NLP) 界隈におけるAttention事情
最近のDeep Learning (NLP) 界隈におけるAttention事情最近のDeep Learning (NLP) 界隈におけるAttention事情
最近のDeep Learning (NLP) 界隈におけるAttention事情
 

Similar to 動作認識におけるディープラーニングの最新動向1 3D-CNN (6)

画像処理基礎
画像処理基礎画像処理基礎
画像処理基礎
 
九大_DS実践_画像処理基礎
九大_DS実践_画像処理基礎九大_DS実践_画像処理基礎
九大_DS実践_画像処理基礎
 
画像処理応用
画像処理応用画像処理応用
画像処理応用
 
CNN でテニス選手の動きを解析する
CNN でテニス選手の動きを解析するCNN でテニス選手の動きを解析する
CNN でテニス選手の動きを解析する
 
CNTK deep dive
CNTK deep diveCNTK deep dive
CNTK deep dive
 
バイオイメージング研究のためのImageJによるデジタル画像解析入門(2011年6月版)
バイオイメージング研究のためのImageJによるデジタル画像解析入門(2011年6月版)バイオイメージング研究のためのImageJによるデジタル画像解析入門(2011年6月版)
バイオイメージング研究のためのImageJによるデジタル画像解析入門(2011年6月版)
 

More from WEBFARMER. ltd.

More from WEBFARMER. ltd. (20)

論文読み会 発表資料 SPMモデル
論文読み会 発表資料 SPMモデル論文読み会 発表資料 SPMモデル
論文読み会 発表資料 SPMモデル
 
The 53th Computer Vision Study@ kantou by Takamitsu Omasa
The 53th Computer Vision Study@ kantou by Takamitsu OmasaThe 53th Computer Vision Study@ kantou by Takamitsu Omasa
The 53th Computer Vision Study@ kantou by Takamitsu Omasa
 
SPIGAN理論と実装について at 論文LT会 in LPIXEL
SPIGAN理論と実装について at 論文LT会 in LPIXELSPIGAN理論と実装について at 論文LT会 in LPIXEL
SPIGAN理論と実装について at 論文LT会 in LPIXEL
 
Nips2018 study only_pu_net_pdf
Nips2018 study only_pu_net_pdfNips2018 study only_pu_net_pdf
Nips2018 study only_pu_net_pdf
 
第46回コンピュータ・ビジョン勉強会@関東(前編)
第46回コンピュータ・ビジョン勉強会@関東(前編)第46回コンピュータ・ビジョン勉強会@関東(前編)
第46回コンピュータ・ビジョン勉強会@関東(前編)
 
Chainer Meetup 発表資料
Chainer Meetup 発表資料Chainer Meetup 発表資料
Chainer Meetup 発表資料
 
SLAM_study_document
SLAM_study_documentSLAM_study_document
SLAM_study_document
 
Study Group of NIPS2017 presented by webfarmer.ltd
Study Group of NIPS2017 presented by webfarmer.ltdStudy Group of NIPS2017 presented by webfarmer.ltd
Study Group of NIPS2017 presented by webfarmer.ltd
 
Nips20180127
Nips20180127Nips20180127
Nips20180127
 
Machine Learning 15minutes 発表資料(株)ウェブファーマー
Machine Learning 15minutes 発表資料(株)ウェブファーマーMachine Learning 15minutes 発表資料(株)ウェブファーマー
Machine Learning 15minutes 発表資料(株)ウェブファーマー
 
DRL_stydy_1_doc_ohmasa
DRL_stydy_1_doc_ohmasaDRL_stydy_1_doc_ohmasa
DRL_stydy_1_doc_ohmasa
 
Connect_GANs_Actor-Critic
Connect_GANs_Actor-CriticConnect_GANs_Actor-Critic
Connect_GANs_Actor-Critic
 
Ml15min発表資料(提出用)
Ml15min発表資料(提出用)Ml15min発表資料(提出用)
Ml15min発表資料(提出用)
 
Introduction to GAN model
Introduction to GAN modelIntroduction to GAN model
Introduction to GAN model
 
Introduction to A3C model
Introduction to A3C modelIntroduction to A3C model
Introduction to A3C model
 
Introduction to Neural Turning Machine
Introduction to Neural Turning MachineIntroduction to Neural Turning Machine
Introduction to Neural Turning Machine
 
人工知能ハッカソン用プレゼン資料(161217)
人工知能ハッカソン用プレゼン資料(161217)人工知能ハッカソン用プレゼン資料(161217)
人工知能ハッカソン用プレゼン資料(161217)
 
Hackathon 161010 pressen
Hackathon 161010 pressenHackathon 161010 pressen
Hackathon 161010 pressen
 
Introduction to Prioritized Experience Replay
Introduction to Prioritized Experience ReplayIntroduction to Prioritized Experience Replay
Introduction to Prioritized Experience Replay
 
The introduction to FRMQN model
The introduction to FRMQN modelThe introduction to FRMQN model
The introduction to FRMQN model
 

動作認識におけるディープラーニングの最新動向1 3D-CNN