More Related Content
Similar to TransPose: Towards Explainable Human Pose Estimation by Transformer (13)
More from Yasutomo Kawanishi (12)
TransPose: Towards Explainable Human Pose Estimation by Transformer
- 4. 概要
• Transformerを使った姿勢推定器の提案
• 人体構造の推定問題へのTransformerの初応用
• ヒートマップの可視化による説明性
• 73%少ないパラメータで1.4倍高速
• 書誌情報
• 著者:Sen Yang et al. (東南大学)
• arXiv: https://arxiv.org/abs/2012.14214
• Github: https://github.com/yangsenius/TransPose
• Pytorch hub形式でもモデル配布
• タイトルのノリだけで選びました
2021/4/18 第6回全日本コンピュータビジョン勉強会 Transformer読み会
4
- 5. 研究の背景
• 画像からの人物姿勢推定
• CNNによる人物姿勢推定が主流
• CNNによる人物姿勢推定の辛いところ
• 各層が何をしているのか良くわからない
• 特徴マップのActivationを見ても,空間中の相互関係はわからない
• 畳み込み層のパラメータ(固定)では表現に限界がある
• 画像認識や物体検出のような可視化手法が確立されていない
• この研究
• 説明性のあるモデル
• 画像内の関連を可視化
2021/4/18 第6回全日本コンピュータビジョン勉強会 Transformer読み会
5
- 6. 関連研究
• 説明性
• CNNのクラス分類器の分類を説明したり可視化したりするもの
• Network Dissection, Feature Visualization, Excitation Backprop,
LRP, CAM, Grad-CAM
• 姿勢推定での事例は少ない
• 姿勢推定
• CNNベースの姿勢推定器
• CPM, Stacked Hourglass Network, FPN, CPN, Simple Baseline, HRNet, RSN
• 基本は,バックボーンで特徴をとって,
畳み込み層を重ねて特徴点ヒートマップを推定する
• Transformer
• もうご存知ですよね
2021/4/18 第6回全日本コンピュータビジョン勉強会 Transformer読み会
6
- 8. 補足:姿勢推定
• Top-down 姿勢推定器
• 人物検出をしたうえで,人物の矩形内で各関節位置を推定する手法
• Stacked Hourglass Network, CPN, SimpleBaselineなど
• 人物サイズが正規化されるため,大きさの変化に比較的頑健
• Bottom-up 姿勢推定器
• 人物を区別せずに関節候補点を求め,人物ごとにまとめる手法
• OpenPose, PersonLab , PifPafなど
• 人数が増えても速度低下しにくい
2021/4/18 第6回全日本コンピュータビジョン勉強会 Transformer読み会
8
- 11. 2次元のPositional Encoding
• 空間構造を学習するために特徴量に位置情報を埋め込む
• もとのTransformerでは文中の単語の位置に応じてsinやcosの値を足す
• 2D Sine position embedding
• 位置情報はx, y 軸で独立だと仮定し,独立に埋め込み
• Learnable position embedding
• どの位置にどんな値を埋め込むかを学習によって決定する
• (WxH)xDの行列の各要素の値を学習
2021/4/18 第6回全日本コンピュータビジョン勉強会 Transformer読み会
12
+
+ 学習
- 13. 実験
• MS COCO Datasetを利用
• Train2017 150k人を含む57k枚の画像
• Val2017 5k枚の画像
• Test2017 20k枚の画像
• 評価指標:
• Average Precision (AP)
• OKSに対する閾値を0.50∼0.95まで10段階変化させたときの正解率
• Object Keypoint Similarity (OKS)
• 関節点の類似度を表す指標
• 完全に一致していれば1になる
2021/4/18 第6回全日本コンピュータビジョン勉強会 Transformer読み会
14
- 17. まとめ
• Transformerを使った姿勢推定器の提案
• 人体構造の推定問題へのTransformerの初応用
• ヒートマップの可視化による説明性
• 73%少ないパラメータで1.4倍高速
• Transformerを使うことで
• 畳込みでは捉えられない離れた位置の関係を獲得
• 説明性は…
• 画素間の関係を捉えているだけでイマイチでは?
2021/4/18 第6回全日本コンピュータビジョン勉強会 Transformer読み会
19
研究員や博士課程の学生など
一緒に研究してくれる人を
絶賛募集しています!
問い合わせは @yasutomo57jp 宛でも可
ロボットによる
環境認識や
人に関する認識
研究をしたい方
- 18. 関連する論文
• TokenPose: Learning Keypoint Tokens for Human Pose Estimation
• 同じ著者が属するグループからのarXiv論文 (2021/04/09)
• Transformerに,Visual tokenだけでなく,Keypoint tokenを追加
• どの画素がどの関節点に効いているのかを可視化
2021/4/18 第6回全日本コンピュータビジョン勉強会 Transformer読み会
20
この部分が追加されている
※図は論文より引用