動作認識におけるディープラーニングの最新動向１　3D-CNN

動作認識におけるディープラーニングの
最新動向① 3D-CNN
2016/3/14
株式会社ウェブファーマー
大政　孝充

今回取り上げるのは3D-CNN
[1]Shuiwang Ji, Wei Xu, Ming Yang, Kai Yu. “3D
Convolutional neural networks for human action recognition.
PAMI, 35(1):221-231, 2013.
画像の一般物体認識で広く使われるCNNを三次元（x, y, t)
に拡張することで、動作認識へ応用した！

ここがポイント！
[1]のFigure 1, Figure2より
2DのCNN
3D-CNN
vij
wy
= tanh bij + wijm
pq
v(i−1)m
(x+p)(y+q)
q=0
Qi−1
∑
p=0
Pi−1
∑
m
∑
⎛
⎝
⎜⎜
⎞
⎠
⎟⎟ vij
wyz
= tanh bij + wijm
pq
v(i−1)m
(x+p)(y+q)(z+r)
r=0
Ri−1
∑
q=0
Qi−1
∑
p=0
Pi−1
∑
m
∑
⎛
⎝
⎜⎜
⎞
⎠
⎟⎟
時間軸方向
に展開

これが全体の構造！
[1]のFigure 3より

詳細の構造（１）
input画像からH1層へ
⑤
④
③
①
②
入力画像に対して
①グレー画像
②x方向の勾配
③y方向の勾配
④x方向のoptical flow
⑤y方向のoptical flow
を生成する。
連続する７シーン

詳細の構造（２）
H1層からC2層へ
7x7のフィルタで連続する
３シーンをまとめて畳み
込む

詳細の構造（３）
2x2ピクセルを1ピクセル
にsubscaleingする
C2層からS3層へ

詳細の構造（４）
S3層からC4層へ
7x6のフィルタで連
続する３シーンをま
とめて畳み込む

詳細の構造（５）
3x3ピクセルを1ピク
セルにsubscaleing
する
C4層からS5層へ

詳細の構造（６）
S5層からC6層へ
それぞれの画像を1ピク
セルに畳み込む
C6の各ノードは78枚の
全ての画像と結合する

詳細の構造（７）
C6層から出力層
へ全結合する
出力層のノードは分類
する各クラスに一致

動作認識におけるディープラーニングの最新動向１　3D-CNN

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Viewers also liked

Viewers also liked (11)

Similar to 動作認識におけるディープラーニングの最新動向１　3D-CNN

Similar to 動作認識におけるディープラーニングの最新動向１　3D-CNN (6)

More from WEBFARMER. ltd.

More from WEBFARMER. ltd. (20)