SlideShare a Scribd company logo
1 of 39
Download to read offline
HoloGAN: Unsupervised Learning of 3D
Representations from Natural Images
2019/06/02
目次
• 書誌情報・論文概要
• 研究背景・目的
• 先行研究
• 提案手法
• 実験
• まとめ
書誌情報・論文概要
書誌情報
• 著者 : Thu Nguyen-Phuocさん
• PhD student at the University of Bath
• machine learning, 3D vision and computer graphics
• ICCV 2019 accepted
• 選んだ理由
• 物体の三次元的な形状を考慮した画像生成は重要な技術 (と思った)
• 結果の画像がすごい
• スライドの画像は断りがなければ本論文からの引用
論文概要
• 自然画像から教師なし学習で三次元表現 (3D representation)を獲得する
手法の提案
• 3Dモデリングの知識をモデルに組み込んだ
• ボクセルを生成→剛体変換→2D画像にレンダリング
• オブジェクトの姿勢と属性を分離することが可能
• つまり, 画像生成の際に姿勢のみを操作することができる
• 次ページの画像参照
※特に引用元の記載がない画像は, 本論文からの引用
HoloGAN: Unsupervised Learning of 3D Representations from Natural Images
研究背景・目的
研究背景① : GANs
• できること
• 高精細画像生成 (SAGAN, PGGAN, BigGAN, StyleGANなど)
• 画像変換, 画像編集, motion transfer など
• 苦手なこと
• (conditionalでない) GANで特定の属性を陽に制御すること
• cGANでも, ラベルつきのデータを集めるのは大変
T. Karras et al. “A Style-
Based Generator Architecture
for Generative Adversarial
Networks”, CVPR, 2019.
C. Chan, S. Ginosar, T. Zhou,
and A. A. Efros. Everybody
dance now. arXiv:1808.07371,
2018.
画像生成 motion transfer
研究背景② : 三次元構造を理解した画像生成
• ラベルを与えられても物体の三次元構造を理解した画像生成は難しい
• ex) 単一画像から新規視点の画像の生成
• out-of-plane rotation が苦手
• 最近の手法では大量のラベルデータがないと綺麗に生成ができない
• 3Dデータを用いる方法もあるが, データ収集のコストがさらに高い
画像
out of plane rotation画像+ラベル
A. Dosovitskiy, J. Springenberg, M. Tatarchenko, and T. Brox. Learning to
generate chairs, tables and cars with convolutional networks. IEEE
Transactions on Pattern Analysis andMachine Intelligence, 39(4):692–705, 2017.
三次元データを用いた学習
J.-Y. Zhu, Z. Zhang, C. Zhang, J. Wu, A. Torralba, J. Tenenbaum, and B. Freeman.
“Visual object networks: Image generation with disentangled 3D
representations”. In NeurIPS, pages 118–129, 2018.
研究のモチベーション
• 教師なしで三次元表現を獲得するネットワーク構造の設計
• これにより, 視点・形状・外観を操作できる
• 三次元空間についての帰納バイアスを深層生成モデルに導入
本研究では, 下のような順で処理を行うことにより実現
1. 三次元空間でデータを生成
2. 剛体変換
3. 二次元平面に投影
4. 最終的な画像を生成
三次元データの表現方法
explicitな三次元表現
• ボクセル, メッシュなど
 剛体変換などの操作が容易
× メモリを効率悪い
× 離散化の方法が非自明
implicitな三次元表現
• 潜在表現ベクトルなど
 空間的にコンパクト
 表現力が高い
× 陽な変換が難しい
HoloGAN
• 提案手法
 明示的な変換ができる
 表現力も高い
 画像のみから学習可能
H. Kato et al. “Neural 3D Mesh Renderer“, CVPR, 2018. [YouTube] Generative Query Networks
先行研究
先行研究 : GANs
• GANsはノイズからrealisticなデータへの変換を学習する
• 近年のGANのネットワーク構造に関する研究は, 学習の安定性や高精細画
像の生成に注力している
• 教師なしで特徴量の分離を学習するための, ネットワーク構造の研究は限
られる
1. StyleGAN (2018)
2. On self modulation for generative adversarial networks (2019)
損失関数の設計よりもネットワーク構造の方が重要だということを示唆
先行研究 : GANs
• StyleGAN (arXiv 2018)
• ランダムノイズを特徴マップのスケール, バ
イアス項として入力
• Progressive GANを越えて, 超高精細な画像
の生成に成功
• 異なる深さのノイズが異なる特徴を担当
(disentangle)
T. Karras et al. “A Style-Based Generator Architecture for
Generative Adversarial Networks”, arXiv, 2018.
先行研究 : 3Dを考慮した画像生成
• 3Dから2Dへレンダリングする機構 (RenderNet T. H. Nguyen-Phuoc et al.
2019)
× 学習データに3Dデータが必要
• 新しい視点の画像を生成するための三次元の埋め込み表現を獲得する手法
(Rhodin et al. 2018, Sitzmann et al. 2018)
× 入力に複数視点の画像が必要 (Sitzmann et al.)
× 背景のマスクとオブジェクトの姿勢という教師データが必要 (Rhodin et al.)
• 幾何的な情報とテクスチャの情報を分離する手法 (J.-Y. Zhu et al. 2018)
• (1) 3Dオブジェクトを生成, (2) 法線, デプス, シルエットにレンダリング, (3) 画像変換
ネットワークにより, 2D画像に変換
× 学習に3Dデータが必要
× 単一オブジェクトかつ背景が白いデータしか扱えない
先行研究 : 3Dを考慮した画像生成
• HoloGANに近いのはRajeswarらの研究 (Pix2Scene)
• Pix2Scene
• 教師なしでimplicitな3D表現を学習
× 特徴表現がimplicit
• HoloGANはexplicitな表現を使っている
× 単純な人工データでしか学習できない
S. Rajeswar, F. Mannan, F. Golemo, D. Vazquez, D. Nowrouzezahrai, and A.
Courville. “Pix2Scene: Learning implicit 3D representations from images”. 2019.
先行研究 : 特徴表現のdisentangle
• 中間表現を生成画像の一つの要素に対応するように分離する
• 多くの手法は教師ありの枠組みで学習
• ex) GQNでは, 他視点の画像を教師としている
• 教師なしの方法はβ-VAEとInfoGANが代表的
• どちらも損失関数の設計がcontribution
× priorの選定に敏感
× どの要素を学習するか制御できない
× 分離された要素が意味を持つ保証もない
× 生成画像の質と分離具合にトレードオフ (β-VAE)
× 複雑なデータセットでは学習が難しい
提案手法
提案手法
• アーキテクチャは以下のような処理を行うように設計されている
1. 3D-CNNで三次元表現を生成
2. カメラ姿勢をもとに変換を行う
• カメラ姿勢は一様分布からランダムにサンプル
• 剛体変換 (平行移動&回転) を行う
3. 2Dに投影
4. 2D-CNNで画像を生成
提案手法: 三次元表現の獲得
• HoloGANにおいて,
• 三次元表現は定数テンソルから生成される
• “style”はノイズベクトルzによって担われる
• ノイズベクトルzの入力はStyleGANの知見を活用
• MLPに通した後, 特徴マップのスケール, バイアスとして入力
• 入力の深さにより異なるレベルのディティールを制御していることが実験的にわ
かっている
提案手法: 視点に依存した生成の学習
• 3D featureに3D convを適用
• 加えて, 2D画像に投影する前にカメラ姿勢 (ランダム) による変換を行う
• HoloGANが三次元表現表現を学習していることを保証する大事な操作
• DR-GANでも同様の操作をしているがexplicitな変換ではない (pose codeをベクトル
としてNNの入力としている)
この三次元表現は…
• styleと分離されている
• あらゆる視点からレンダリング可能
提案手法: 視点に依存した生成の学習 (Rigid-
body transformation)
• 仮想的なピンホールカメラを想定
• ランダムなパラメータで剛体変換
• ランダムなθで3D featureを回転
• 平行移動は今回はしなかった
• 詳細はsupplemental document…
ここ
提案手法: 視点に依存した生成の学習
(Projection Unit)
• HoloGANは微分可能な投影機構 (projection unit) を持つ
• 3Dから2Dへの投影 (4Dテンソルを3Dテンソルに変換する)
• 学習データは異なる透視画法でキャプチャされているので, 透視投影を学習する必要がある
• カメラパラメータは得られないので, 代わりに3D convを用いて三次元表現をperspective frustumに
変換 (projection unitの前の3D Convモジュール)
• projection unitは, reshaping layer, MLP, 活性化関数から構成される
• 詳細は補助資料参照…
ここ
提案手法: ロス関数
1. GANのロス
2. Identity regularizer
• 生成した画像からzが復元できるような制約を入れる
• zの違いが生成画像に現れるようにする
3. Style discriminator
• discriminatorの中間層のfeatureも判別不能にするロス
• それぞれの深さのfeatureが異なる因子を制御しているので全て揃える働き (本当か?)
• 学習が安定しそうな感じがある
実験
実験
• データセット
• 顔 (人間, 猫), 椅子, 車, ベッドルーム
• 椅子のデータセットはCGからレンダリングした画像を用いる
• 実装
• Generator : Adaptive Instance Normalization (AdaIN)
• Discriminator : instance normalization & spectral normalization
• 詳細は論文・補助資料参照
結果: 質的評価
• Identityを保ちながら滑らかに姿勢を変化させることができている
結果: 質的評価 (InfoGANとの比較)
• InfoGANは潜在表現と生成画像の相互情報量を最大化する手法
• HoloGANの方が上手に姿勢を変化させることができている (左)
• HoloGANはelevation方向の回転も再現できている (右)
結果: 量的評価
• KID scoreによる評価
• 画像の「質」に関する指標, 元のデータセットとの分布の近さを表す
• c.f.) FID score
• そこらのGANよりは綺麗な画像を生成する
• 特徴の分離と生成画像の質の両方を達成していてすごい!
結果: Deep 3D representation vs. 3D geometry
• visual object networks (VON) との比較
• 車画像の生成のsota
• 3D shape (voxel) を生成し, 2Dに投影 (depth, silhouette)
• その後テクスチャを与え画像に変換
• 3D変換はimplicit
J.-Y. Zhu, Z. Zhang, C. Zhang, J. Wu, A. Torralba, J. Tenenbaum, and B. Freeman. “Visual object
networks: Image generation with disentangled 3D representations”. In NeurIPS, pages 118–129, 2018.
結果: Deep 3D representation vs. 3D geometry
• VON
• 背景がない画像を生成
• 苦手な角度がある
• HoloGAN
• 背景あり
• 滑らかな角度変化
• elevation方向の回転にも対応
結果:
shapeとappearanceの分離
• 入力に近いノイズと遠いノイズをそれぞれz1,
z2とする
• これらは画像の異なる要素を制御
• z1はshape
• z2はappearance
z1 z2
結果: ランダム3D変換をせずに学習
• 学習中に剛体変換をキャンセルするとどうなるか
姿勢の変換に関して滑らかな画像を生成できない
ここ
結果: ノイズの入れ方
• 提案手法はノイズを特徴マップのスケール, バイアスとして入力
古典的なGANと同じようにしたらどうなるか
生成に失敗する (disentangleがうまくいかない)
ここに
入れる
まとめ
まとめ
• 姿勢とidentityを分離して学習する手法の提案
• 三次元幾何を考慮したアーキテクチャの導入により実現
• 2DベースのGANと同等に高精細な画像を生成
• 実験においては, 意味のある三次元表現をちゃんと学習できた
• 感想
• 関連研究が参考になる
• 幾何的な知識を明示的に取り込む方法は発展しそう
参考文献
• T. Phuoc et al. “HoloGAN: Unsupervised learning of 3D representations from natural images”,
arXiv, 2019. (project page: https://www.monkeyoverflow.com/#/hologan-unsupervised-
learning-of-3d-representations-from-natural-images/)
• T. Karras et al. “A Style-Based Generator Architecture for Generative Adversarial Networks”,
CVPR, 2019.
• C. Chan, S. Ginosar, T. Zhou, and A. A. Efros. Everybody dance now. arXiv:1808.07371, 2018.
• A. Dosovitskiy, J. Springenberg, M. Tatarchenko, and T. Brox. Learning to generate chairs,
tables and cars with convolutional networks. IEEE Transactions on Pattern Analysis
andMachine Intelligence, 39(4):692–705, 2017.
• J.-Y. Zhu, Z. Zhang, C. Zhang, J. Wu, A. Torralba, J. Tenenbaum, and B. Freeman. “Visual object
networks: Image generation with disentangled 3D representations”. In NeurIPS, pages 118–129,
2018.
参考文献
• H. Kato et al. “Neural 3D Mesh Renderer“, CVPR, 2018.
• S. M. A. Eslami, D. Jimenez Rezende, F. Besse, F. Viola, A. S. Mor- cos,M. Garnelo, A. Ruderman,
A. A. Rusu, I. Danihelka, K. Gregor, D. P. Reichert, L. Buesing, T. Weber, O. Vinyals, D.
Rosenbaum, N. Rabinowitz, H. King, C. Hillier, M. Botvinick, D. Wierstra, K. Kavukcuoglu, and D.
Hassabis. Neural scene representation and rendering. Science, 360(6394):1204–1210, 2018.
• T. Karras et al. “A Style-Based Generator Architecture for Generative Adversarial Networks”,
CVPR, 2019.
• T. Chen et al. “On Self Modulation for Generative Adversarial Networks”, ICLR, 2019.
• T. Phuoc et al. “RenderNet: A deep convolutional network for differentiable rendering from 3D
shapes”, NeurIPS, 2018.
• H. Rhodin, M. Salzmann, and P. Fua. “Unsupervised geometry-aware representation for 3D
human pose estimation”. In ECCV, 2018
参考文献
• V. Sitzmann, J. Thies, F. Heide, M. Nießner, G. Wetzstein, and M. Zollhöfer. “DeepVoxels:
Learning persistent 3D feature embeddings”. arXiv:1812.01024, 2018.
• S. Rajeswar, F. Mannan, F. Golemo, D. Vazquez, D. Nowrouzezahrai, and A. Courville.
“Pix2Scene: Learning implicit 3D representations from images”. 2019.
• I. Higgins, L. Matthey, A. Pal, C. Burgess, X. Glorot, M. Botvinick, S. Mohamed, and A. Lerchner.
β-VAE: Learning basic visual concepts with a constrained variational framework. In ICLR, 2017.
• X. Chen, Y. Duan, R. Houthooft, J. Schulman, I. Sutskever, and P. Abbeel. InfoGAN: Interpretable
representation learning by information maximizing generative adversarial nets. In NIPS, pages
2172–2180, 2016.
• L. Tran et al. Disentangled Representation Learning GAN for Pose-Invariant Face Recognition.
CVPR 2017.

More Related Content

What's hot

グラフデータ分析 入門編
グラフデータ分析 入門編グラフデータ分析 入門編
グラフデータ分析 入門編順也 山口
 
三次元表現まとめ(深層学習を中心に)
三次元表現まとめ(深層学習を中心に)三次元表現まとめ(深層学習を中心に)
三次元表現まとめ(深層学習を中心に)Tomohiro Motoda
 
[DL輪読会]MetaFormer is Actually What You Need for Vision
[DL輪読会]MetaFormer is Actually What You Need for Vision[DL輪読会]MetaFormer is Actually What You Need for Vision
[DL輪読会]MetaFormer is Actually What You Need for VisionDeep Learning JP
 
2018/12/28 LiDARで取得した道路上点群に対するsemantic segmentation
2018/12/28 LiDARで取得した道路上点群に対するsemantic segmentation2018/12/28 LiDARで取得した道路上点群に対するsemantic segmentation
2018/12/28 LiDARで取得した道路上点群に対するsemantic segmentationTakuya Minagawa
 
[DL輪読会]Human Pose Estimation @ ECCV2018
[DL輪読会]Human Pose Estimation @ ECCV2018[DL輪読会]Human Pose Estimation @ ECCV2018
[DL輪読会]Human Pose Estimation @ ECCV2018Deep Learning JP
 
確率モデルを用いた3D点群レジストレーション
確率モデルを用いた3D点群レジストレーション確率モデルを用いた3D点群レジストレーション
確率モデルを用いた3D点群レジストレーションKenta Tanaka
 
Learning Spatial Common Sense with Geometry-Aware Recurrent Networks
Learning Spatial Common Sense with Geometry-Aware Recurrent NetworksLearning Spatial Common Sense with Geometry-Aware Recurrent Networks
Learning Spatial Common Sense with Geometry-Aware Recurrent NetworksKento Doi
 
Deformable Part Modelとその発展
Deformable Part Modelとその発展Deformable Part Modelとその発展
Deformable Part Modelとその発展Takao Yamanaka
 
SakataMoriLab GNN勉強会第一回資料
SakataMoriLab GNN勉強会第一回資料SakataMoriLab GNN勉強会第一回資料
SakataMoriLab GNN勉強会第一回資料ttt_miura
 
点群深層学習 Meta-study
点群深層学習 Meta-study点群深層学習 Meta-study
点群深層学習 Meta-studyNaoya Chiba
 
[DL輪読会]3D Human Pose Estimation @ CVPR’19 / ICCV’19
[DL輪読会]3D Human Pose Estimation @ CVPR’19 / ICCV’19[DL輪読会]3D Human Pose Estimation @ CVPR’19 / ICCV’19
[DL輪読会]3D Human Pose Estimation @ CVPR’19 / ICCV’19Deep Learning JP
 
[DL輪読会]BANMo: Building Animatable 3D Neural Models from Many Casual Videos
[DL輪読会]BANMo: Building Animatable 3D Neural Models from Many Casual Videos[DL輪読会]BANMo: Building Animatable 3D Neural Models from Many Casual Videos
[DL輪読会]BANMo: Building Animatable 3D Neural Models from Many Casual VideosDeep Learning JP
 
Graph Attention Network
Graph Attention NetworkGraph Attention Network
Graph Attention NetworkTakahiro Kubo
 
SuperGlue; Learning Feature Matching with Graph Neural Networks (CVPR'20)
SuperGlue;Learning Feature Matching with Graph Neural Networks (CVPR'20)SuperGlue;Learning Feature Matching with Graph Neural Networks (CVPR'20)
SuperGlue; Learning Feature Matching with Graph Neural Networks (CVPR'20)Yusuke Uchida
 
【CVPR 2020 メタサーベイ】3D From a Single Image and Shape-From-X
【CVPR 2020 メタサーベイ】3D From a Single Image and Shape-From-X【CVPR 2020 メタサーベイ】3D From a Single Image and Shape-From-X
【CVPR 2020 メタサーベイ】3D From a Single Image and Shape-From-Xcvpaper. challenge
 
深層生成モデルと世界モデル, 深層生成モデルライブラリPixyzについて
深層生成モデルと世界モデル,深層生成モデルライブラリPixyzについて深層生成モデルと世界モデル,深層生成モデルライブラリPixyzについて
深層生成モデルと世界モデル, 深層生成モデルライブラリPixyzについてMasahiro Suzuki
 
[DL輪読会]相互情報量最大化による表現学習
[DL輪読会]相互情報量最大化による表現学習[DL輪読会]相互情報量最大化による表現学習
[DL輪読会]相互情報量最大化による表現学習Deep Learning JP
 
CVPR2016 reading - 特徴量学習とクロスモーダル転移について
CVPR2016 reading - 特徴量学習とクロスモーダル転移についてCVPR2016 reading - 特徴量学習とクロスモーダル転移について
CVPR2016 reading - 特徴量学習とクロスモーダル転移についてAkisato Kimura
 

What's hot (20)

グラフデータ分析 入門編
グラフデータ分析 入門編グラフデータ分析 入門編
グラフデータ分析 入門編
 
三次元表現まとめ(深層学習を中心に)
三次元表現まとめ(深層学習を中心に)三次元表現まとめ(深層学習を中心に)
三次元表現まとめ(深層学習を中心に)
 
[DL輪読会]MetaFormer is Actually What You Need for Vision
[DL輪読会]MetaFormer is Actually What You Need for Vision[DL輪読会]MetaFormer is Actually What You Need for Vision
[DL輪読会]MetaFormer is Actually What You Need for Vision
 
2018/12/28 LiDARで取得した道路上点群に対するsemantic segmentation
2018/12/28 LiDARで取得した道路上点群に対するsemantic segmentation2018/12/28 LiDARで取得した道路上点群に対するsemantic segmentation
2018/12/28 LiDARで取得した道路上点群に対するsemantic segmentation
 
[DL輪読会]Human Pose Estimation @ ECCV2018
[DL輪読会]Human Pose Estimation @ ECCV2018[DL輪読会]Human Pose Estimation @ ECCV2018
[DL輪読会]Human Pose Estimation @ ECCV2018
 
確率モデルを用いた3D点群レジストレーション
確率モデルを用いた3D点群レジストレーション確率モデルを用いた3D点群レジストレーション
確率モデルを用いた3D点群レジストレーション
 
Learning Spatial Common Sense with Geometry-Aware Recurrent Networks
Learning Spatial Common Sense with Geometry-Aware Recurrent NetworksLearning Spatial Common Sense with Geometry-Aware Recurrent Networks
Learning Spatial Common Sense with Geometry-Aware Recurrent Networks
 
Deformable Part Modelとその発展
Deformable Part Modelとその発展Deformable Part Modelとその発展
Deformable Part Modelとその発展
 
SakataMoriLab GNN勉強会第一回資料
SakataMoriLab GNN勉強会第一回資料SakataMoriLab GNN勉強会第一回資料
SakataMoriLab GNN勉強会第一回資料
 
Miyazaki microoptics2013
Miyazaki microoptics2013Miyazaki microoptics2013
Miyazaki microoptics2013
 
Point net
Point netPoint net
Point net
 
点群深層学習 Meta-study
点群深層学習 Meta-study点群深層学習 Meta-study
点群深層学習 Meta-study
 
[DL輪読会]3D Human Pose Estimation @ CVPR’19 / ICCV’19
[DL輪読会]3D Human Pose Estimation @ CVPR’19 / ICCV’19[DL輪読会]3D Human Pose Estimation @ CVPR’19 / ICCV’19
[DL輪読会]3D Human Pose Estimation @ CVPR’19 / ICCV’19
 
[DL輪読会]BANMo: Building Animatable 3D Neural Models from Many Casual Videos
[DL輪読会]BANMo: Building Animatable 3D Neural Models from Many Casual Videos[DL輪読会]BANMo: Building Animatable 3D Neural Models from Many Casual Videos
[DL輪読会]BANMo: Building Animatable 3D Neural Models from Many Casual Videos
 
Graph Attention Network
Graph Attention NetworkGraph Attention Network
Graph Attention Network
 
SuperGlue; Learning Feature Matching with Graph Neural Networks (CVPR'20)
SuperGlue;Learning Feature Matching with Graph Neural Networks (CVPR'20)SuperGlue;Learning Feature Matching with Graph Neural Networks (CVPR'20)
SuperGlue; Learning Feature Matching with Graph Neural Networks (CVPR'20)
 
【CVPR 2020 メタサーベイ】3D From a Single Image and Shape-From-X
【CVPR 2020 メタサーベイ】3D From a Single Image and Shape-From-X【CVPR 2020 メタサーベイ】3D From a Single Image and Shape-From-X
【CVPR 2020 メタサーベイ】3D From a Single Image and Shape-From-X
 
深層生成モデルと世界モデル, 深層生成モデルライブラリPixyzについて
深層生成モデルと世界モデル,深層生成モデルライブラリPixyzについて深層生成モデルと世界モデル,深層生成モデルライブラリPixyzについて
深層生成モデルと世界モデル, 深層生成モデルライブラリPixyzについて
 
[DL輪読会]相互情報量最大化による表現学習
[DL輪読会]相互情報量最大化による表現学習[DL輪読会]相互情報量最大化による表現学習
[DL輪読会]相互情報量最大化による表現学習
 
CVPR2016 reading - 特徴量学習とクロスモーダル転移について
CVPR2016 reading - 特徴量学習とクロスモーダル転移についてCVPR2016 reading - 特徴量学習とクロスモーダル転移について
CVPR2016 reading - 特徴量学習とクロスモーダル転移について
 

Similar to HoloGAN: Unsupervised Learning of 3D Representations from Natural Images

ECCV読み会 "Materials for Masses: SVBRDF Acquisition with a Single Mobile Phone ...
ECCV読み会 "Materials for Masses: SVBRDF Acquisition with a Single Mobile Phone ...ECCV読み会 "Materials for Masses: SVBRDF Acquisition with a Single Mobile Phone ...
ECCV読み会 "Materials for Masses: SVBRDF Acquisition with a Single Mobile Phone ...Hajime Mihara
 
「解説資料」ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
「解説資料」ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation 「解説資料」ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
「解説資料」ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation Takumi Ohkuma
 
【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose EstimationDeep Learning JP
 
これからのコンピュータビジョン技術 - cvpaper.challenge in PRMU Grand Challenge 2016 (PRMU研究会 2...
これからのコンピュータビジョン技術 - cvpaper.challenge in PRMU Grand Challenge 2016 (PRMU研究会 2...これからのコンピュータビジョン技術 - cvpaper.challenge in PRMU Grand Challenge 2016 (PRMU研究会 2...
これからのコンピュータビジョン技術 - cvpaper.challenge in PRMU Grand Challenge 2016 (PRMU研究会 2...cvpaper. challenge
 
【CVPR 2020 メタサーベイ】Neural Generative Models
【CVPR 2020 メタサーベイ】Neural Generative Models【CVPR 2020 メタサーベイ】Neural Generative Models
【CVPR 2020 メタサーベイ】Neural Generative Modelscvpaper. challenge
 
[DL輪読会]DeepSketch2Face: A Deep Learning Based Sketching System for 3D Face an...
[DL輪読会]DeepSketch2Face: A Deep Learning Based Sketching System for 3D Face an...[DL輪読会]DeepSketch2Face: A Deep Learning Based Sketching System for 3D Face an...
[DL輪読会]DeepSketch2Face: A Deep Learning Based Sketching System for 3D Face an...Deep Learning JP
 
[cvpaper.challenge] 超解像メタサーベイ #meta-study-group勉強会
[cvpaper.challenge] 超解像メタサーベイ #meta-study-group勉強会[cvpaper.challenge] 超解像メタサーベイ #meta-study-group勉強会
[cvpaper.challenge] 超解像メタサーベイ #meta-study-group勉強会S_aiueo32
 
先端技術とメディア表現 第4回レポートまとめ
先端技術とメディア表現 第4回レポートまとめ先端技術とメディア表現 第4回レポートまとめ
先端技術とメディア表現 第4回レポートまとめDigital Nature Group
 
【チュートリアル】コンピュータビジョンによる動画認識 v2
【チュートリアル】コンピュータビジョンによる動画認識 v2【チュートリアル】コンピュータビジョンによる動画認識 v2
【チュートリアル】コンピュータビジョンによる動画認識 v2Hirokatsu Kataoka
 
Rethinking Knowledge Graph Propagation for Zero-Shot Learinig 論文紹介
Rethinking Knowledge Graph Propagation for Zero-Shot Learinig 論文紹介Rethinking Knowledge Graph Propagation for Zero-Shot Learinig 論文紹介
Rethinking Knowledge Graph Propagation for Zero-Shot Learinig 論文紹介YukiK2
 
PCSJ/IMPS2021 講演資料:深層画像圧縮からAIの生成モデルへ (VAEの定量的な理論解明)
PCSJ/IMPS2021 講演資料:深層画像圧縮からAIの生成モデルへ (VAEの定量的な理論解明)PCSJ/IMPS2021 講演資料:深層画像圧縮からAIの生成モデルへ (VAEの定量的な理論解明)
PCSJ/IMPS2021 講演資料:深層画像圧縮からAIの生成モデルへ (VAEの定量的な理論解明)Akira Nakagawa
 
【メタサーベイ】Face, Gesture, and Body Pose
【メタサーベイ】Face, Gesture, and Body Pose【メタサーベイ】Face, Gesture, and Body Pose
【メタサーベイ】Face, Gesture, and Body Posecvpaper. challenge
 
3Dマップを活用したVisual Localization
3Dマップを活用したVisual Localization3Dマップを活用したVisual Localization
3Dマップを活用したVisual LocalizationHajime Taira
 
[DL輪読会]Dense Captioning分野のまとめ
[DL輪読会]Dense Captioning分野のまとめ[DL輪読会]Dense Captioning分野のまとめ
[DL輪読会]Dense Captioning分野のまとめDeep Learning JP
 
大規模画像認識とその周辺
大規模画像認識とその周辺大規模画像認識とその周辺
大規模画像認識とその周辺n_hidekey
 
Geotag Data Mining (メタサーベイ )
Geotag Data Mining (メタサーベイ )Geotag Data Mining (メタサーベイ )
Geotag Data Mining (メタサーベイ )cvpaper. challenge
 
cvsaisentan20141004 kanezaki
cvsaisentan20141004 kanezakicvsaisentan20141004 kanezaki
cvsaisentan20141004 kanezakikanejaki
 
12. Diffusion Model の数学的基礎.pdf
12. Diffusion Model の数学的基礎.pdf12. Diffusion Model の数学的基礎.pdf
12. Diffusion Model の数学的基礎.pdf幸太朗 岩澤
 
Study on Visual Analytics Framework for Formulating Evaluation Metrics of Mul...
Study on Visual Analytics Framework for Formulating Evaluation Metrics of Mul...Study on Visual Analytics Framework for Formulating Evaluation Metrics of Mul...
Study on Visual Analytics Framework for Formulating Evaluation Metrics of Mul...Rei Takami
 
Convolutional Neural Networks のトレンド @WBAFLカジュアルトーク#2
Convolutional Neural Networks のトレンド @WBAFLカジュアルトーク#2Convolutional Neural Networks のトレンド @WBAFLカジュアルトーク#2
Convolutional Neural Networks のトレンド @WBAFLカジュアルトーク#2Daiki Shimada
 

Similar to HoloGAN: Unsupervised Learning of 3D Representations from Natural Images (20)

ECCV読み会 "Materials for Masses: SVBRDF Acquisition with a Single Mobile Phone ...
ECCV読み会 "Materials for Masses: SVBRDF Acquisition with a Single Mobile Phone ...ECCV読み会 "Materials for Masses: SVBRDF Acquisition with a Single Mobile Phone ...
ECCV読み会 "Materials for Masses: SVBRDF Acquisition with a Single Mobile Phone ...
 
「解説資料」ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
「解説資料」ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation 「解説資料」ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
「解説資料」ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
 
【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
 
これからのコンピュータビジョン技術 - cvpaper.challenge in PRMU Grand Challenge 2016 (PRMU研究会 2...
これからのコンピュータビジョン技術 - cvpaper.challenge in PRMU Grand Challenge 2016 (PRMU研究会 2...これからのコンピュータビジョン技術 - cvpaper.challenge in PRMU Grand Challenge 2016 (PRMU研究会 2...
これからのコンピュータビジョン技術 - cvpaper.challenge in PRMU Grand Challenge 2016 (PRMU研究会 2...
 
【CVPR 2020 メタサーベイ】Neural Generative Models
【CVPR 2020 メタサーベイ】Neural Generative Models【CVPR 2020 メタサーベイ】Neural Generative Models
【CVPR 2020 メタサーベイ】Neural Generative Models
 
[DL輪読会]DeepSketch2Face: A Deep Learning Based Sketching System for 3D Face an...
[DL輪読会]DeepSketch2Face: A Deep Learning Based Sketching System for 3D Face an...[DL輪読会]DeepSketch2Face: A Deep Learning Based Sketching System for 3D Face an...
[DL輪読会]DeepSketch2Face: A Deep Learning Based Sketching System for 3D Face an...
 
[cvpaper.challenge] 超解像メタサーベイ #meta-study-group勉強会
[cvpaper.challenge] 超解像メタサーベイ #meta-study-group勉強会[cvpaper.challenge] 超解像メタサーベイ #meta-study-group勉強会
[cvpaper.challenge] 超解像メタサーベイ #meta-study-group勉強会
 
先端技術とメディア表現 第4回レポートまとめ
先端技術とメディア表現 第4回レポートまとめ先端技術とメディア表現 第4回レポートまとめ
先端技術とメディア表現 第4回レポートまとめ
 
【チュートリアル】コンピュータビジョンによる動画認識 v2
【チュートリアル】コンピュータビジョンによる動画認識 v2【チュートリアル】コンピュータビジョンによる動画認識 v2
【チュートリアル】コンピュータビジョンによる動画認識 v2
 
Rethinking Knowledge Graph Propagation for Zero-Shot Learinig 論文紹介
Rethinking Knowledge Graph Propagation for Zero-Shot Learinig 論文紹介Rethinking Knowledge Graph Propagation for Zero-Shot Learinig 論文紹介
Rethinking Knowledge Graph Propagation for Zero-Shot Learinig 論文紹介
 
PCSJ/IMPS2021 講演資料:深層画像圧縮からAIの生成モデルへ (VAEの定量的な理論解明)
PCSJ/IMPS2021 講演資料:深層画像圧縮からAIの生成モデルへ (VAEの定量的な理論解明)PCSJ/IMPS2021 講演資料:深層画像圧縮からAIの生成モデルへ (VAEの定量的な理論解明)
PCSJ/IMPS2021 講演資料:深層画像圧縮からAIの生成モデルへ (VAEの定量的な理論解明)
 
【メタサーベイ】Face, Gesture, and Body Pose
【メタサーベイ】Face, Gesture, and Body Pose【メタサーベイ】Face, Gesture, and Body Pose
【メタサーベイ】Face, Gesture, and Body Pose
 
3Dマップを活用したVisual Localization
3Dマップを活用したVisual Localization3Dマップを活用したVisual Localization
3Dマップを活用したVisual Localization
 
[DL輪読会]Dense Captioning分野のまとめ
[DL輪読会]Dense Captioning分野のまとめ[DL輪読会]Dense Captioning分野のまとめ
[DL輪読会]Dense Captioning分野のまとめ
 
大規模画像認識とその周辺
大規模画像認識とその周辺大規模画像認識とその周辺
大規模画像認識とその周辺
 
Geotag Data Mining (メタサーベイ )
Geotag Data Mining (メタサーベイ )Geotag Data Mining (メタサーベイ )
Geotag Data Mining (メタサーベイ )
 
cvsaisentan20141004 kanezaki
cvsaisentan20141004 kanezakicvsaisentan20141004 kanezaki
cvsaisentan20141004 kanezaki
 
12. Diffusion Model の数学的基礎.pdf
12. Diffusion Model の数学的基礎.pdf12. Diffusion Model の数学的基礎.pdf
12. Diffusion Model の数学的基礎.pdf
 
Study on Visual Analytics Framework for Formulating Evaluation Metrics of Mul...
Study on Visual Analytics Framework for Formulating Evaluation Metrics of Mul...Study on Visual Analytics Framework for Formulating Evaluation Metrics of Mul...
Study on Visual Analytics Framework for Formulating Evaluation Metrics of Mul...
 
Convolutional Neural Networks のトレンド @WBAFLカジュアルトーク#2
Convolutional Neural Networks のトレンド @WBAFLカジュアルトーク#2Convolutional Neural Networks のトレンド @WBAFLカジュアルトーク#2
Convolutional Neural Networks のトレンド @WBAFLカジュアルトーク#2
 

More from Kento Doi

Unsupervised Learning of Probably Symmetric Deformable 3D Objects from Images...
Unsupervised Learning of Probably Symmetric Deformable 3D Objects from Images...Unsupervised Learning of Probably Symmetric Deformable 3D Objects from Images...
Unsupervised Learning of Probably Symmetric Deformable 3D Objects from Images...Kento Doi
 
[解説スライド] NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis
[解説スライド] NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis[解説スライド] NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis
[解説スライド] NeRF: Representing Scenes as Neural Radiance Fields for View SynthesisKento Doi
 
GENESIS: Generative Scene Inference and Sampling with Object-Centric Latent R...
GENESIS: Generative Scene Inference and Sampling with Object-Centric Latent R...GENESIS: Generative Scene Inference and Sampling with Object-Centric Latent R...
GENESIS: Generative Scene Inference and Sampling with Object-Centric Latent R...Kento Doi
 
Few-Shot Unsupervised Image-to-Image Translation
Few-Shot Unsupervised Image-to-Image TranslationFew-Shot Unsupervised Image-to-Image Translation
Few-Shot Unsupervised Image-to-Image TranslationKento Doi
 
20190406_nlp/cv_勉強会
20190406_nlp/cv_勉強会20190406_nlp/cv_勉強会
20190406_nlp/cv_勉強会Kento Doi
 
Semi-convolutional Operators for Instance Segmentation
Semi-convolutional Operators for Instance SegmentationSemi-convolutional Operators for Instance Segmentation
Semi-convolutional Operators for Instance SegmentationKento Doi
 
カメラキャリブレーション
カメラキャリブレーションカメラキャリブレーション
カメラキャリブレーションKento Doi
 
CVPR2018読み会_20180701
CVPR2018読み会_20180701CVPR2018読み会_20180701
CVPR2018読み会_20180701Kento Doi
 
“Domain Adaptive Faster R-CNN for Object Detection in theWild (CVPR 2018) 他
 “Domain Adaptive Faster R-CNN for Object Detection in theWild (CVPR 2018)  他 “Domain Adaptive Faster R-CNN for Object Detection in theWild (CVPR 2018)  他
“Domain Adaptive Faster R-CNN for Object Detection in theWild (CVPR 2018) 他Kento Doi
 

More from Kento Doi (10)

Unsupervised Learning of Probably Symmetric Deformable 3D Objects from Images...
Unsupervised Learning of Probably Symmetric Deformable 3D Objects from Images...Unsupervised Learning of Probably Symmetric Deformable 3D Objects from Images...
Unsupervised Learning of Probably Symmetric Deformable 3D Objects from Images...
 
[解説スライド] NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis
[解説スライド] NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis[解説スライド] NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis
[解説スライド] NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis
 
GENESIS: Generative Scene Inference and Sampling with Object-Centric Latent R...
GENESIS: Generative Scene Inference and Sampling with Object-Centric Latent R...GENESIS: Generative Scene Inference and Sampling with Object-Centric Latent R...
GENESIS: Generative Scene Inference and Sampling with Object-Centric Latent R...
 
Few-Shot Unsupervised Image-to-Image Translation
Few-Shot Unsupervised Image-to-Image TranslationFew-Shot Unsupervised Image-to-Image Translation
Few-Shot Unsupervised Image-to-Image Translation
 
20190406_nlp/cv_勉強会
20190406_nlp/cv_勉強会20190406_nlp/cv_勉強会
20190406_nlp/cv_勉強会
 
Semi-convolutional Operators for Instance Segmentation
Semi-convolutional Operators for Instance SegmentationSemi-convolutional Operators for Instance Segmentation
Semi-convolutional Operators for Instance Segmentation
 
Style-GAN
Style-GANStyle-GAN
Style-GAN
 
カメラキャリブレーション
カメラキャリブレーションカメラキャリブレーション
カメラキャリブレーション
 
CVPR2018読み会_20180701
CVPR2018読み会_20180701CVPR2018読み会_20180701
CVPR2018読み会_20180701
 
“Domain Adaptive Faster R-CNN for Object Detection in theWild (CVPR 2018) 他
 “Domain Adaptive Faster R-CNN for Object Detection in theWild (CVPR 2018)  他 “Domain Adaptive Faster R-CNN for Object Detection in theWild (CVPR 2018)  他
“Domain Adaptive Faster R-CNN for Object Detection in theWild (CVPR 2018) 他
 

Recently uploaded

ARスタートアップOnePlanetの Apple Vision Proへの情熱と挑戦
ARスタートアップOnePlanetの Apple Vision Proへの情熱と挑戦ARスタートアップOnePlanetの Apple Vision Proへの情熱と挑戦
ARスタートアップOnePlanetの Apple Vision Proへの情熱と挑戦Sadao Tokuyama
 
2024 02 Nihon-Tanken ~Towards a More Inclusive Japan~
2024 02 Nihon-Tanken ~Towards a More Inclusive Japan~2024 02 Nihon-Tanken ~Towards a More Inclusive Japan~
2024 02 Nihon-Tanken ~Towards a More Inclusive Japan~arts yokohama
 
持続可能なDrupal Meetupのコツ - Drupal Meetup Tokyoの知見
持続可能なDrupal Meetupのコツ - Drupal Meetup Tokyoの知見持続可能なDrupal Meetupのコツ - Drupal Meetup Tokyoの知見
持続可能なDrupal Meetupのコツ - Drupal Meetup Tokyoの知見Shumpei Kishi
 
Summary of "ChatDoctor: A Medical Chat Model Fine-Tuned on a Large Language M...
Summary of "ChatDoctor: A Medical Chat Model Fine-Tuned on a Large Language M...Summary of "ChatDoctor: A Medical Chat Model Fine-Tuned on a Large Language M...
Summary of "ChatDoctor: A Medical Chat Model Fine-Tuned on a Large Language M...yoshidakids7
 
TaketoFujikawa_台本中の動作表現に基づくアニメーション原画システムの提案_SIGEC71.pdf
TaketoFujikawa_台本中の動作表現に基づくアニメーション原画システムの提案_SIGEC71.pdfTaketoFujikawa_台本中の動作表現に基づくアニメーション原画システムの提案_SIGEC71.pdf
TaketoFujikawa_台本中の動作表現に基づくアニメーション原画システムの提案_SIGEC71.pdfMatsushita Laboratory
 
IFIP IP3での資格制度を対象とする国際認定(IPSJ86全国大会シンポジウム)
IFIP IP3での資格制度を対象とする国際認定(IPSJ86全国大会シンポジウム)IFIP IP3での資格制度を対象とする国際認定(IPSJ86全国大会シンポジウム)
IFIP IP3での資格制度を対象とする国際認定(IPSJ86全国大会シンポジウム)ssuser539845
 
2024 01 Virtual_Counselor
2024 01 Virtual_Counselor 2024 01 Virtual_Counselor
2024 01 Virtual_Counselor arts yokohama
 
【修士論文】代替出勤者の選定業務における依頼順決定方法に関する研究   千坂知也
【修士論文】代替出勤者の選定業務における依頼順決定方法に関する研究   千坂知也【修士論文】代替出勤者の選定業務における依頼順決定方法に関する研究   千坂知也
【修士論文】代替出勤者の選定業務における依頼順決定方法に関する研究   千坂知也harmonylab
 
情報処理学会86回全国大会_Generic OAMをDeep Learning技術によって実現するための課題と解決方法
情報処理学会86回全国大会_Generic OAMをDeep Learning技術によって実現するための課題と解決方法情報処理学会86回全国大会_Generic OAMをDeep Learning技術によって実現するための課題と解決方法
情報処理学会86回全国大会_Generic OAMをDeep Learning技術によって実現するための課題と解決方法ssuser370dd7
 
「今からでも間に合う」GPTsによる 活用LT会 - 人とAIが協調するHumani-in-the-Loopへ
「今からでも間に合う」GPTsによる 活用LT会 - 人とAIが協調するHumani-in-the-Loopへ「今からでも間に合う」GPTsによる 活用LT会 - 人とAIが協調するHumani-in-the-Loopへ
「今からでも間に合う」GPTsによる 活用LT会 - 人とAIが協調するHumani-in-the-LoopへTetsuya Nihonmatsu
 

Recently uploaded (13)

ARスタートアップOnePlanetの Apple Vision Proへの情熱と挑戦
ARスタートアップOnePlanetの Apple Vision Proへの情熱と挑戦ARスタートアップOnePlanetの Apple Vision Proへの情熱と挑戦
ARスタートアップOnePlanetの Apple Vision Proへの情熱と挑戦
 
2024 02 Nihon-Tanken ~Towards a More Inclusive Japan~
2024 02 Nihon-Tanken ~Towards a More Inclusive Japan~2024 02 Nihon-Tanken ~Towards a More Inclusive Japan~
2024 02 Nihon-Tanken ~Towards a More Inclusive Japan~
 
持続可能なDrupal Meetupのコツ - Drupal Meetup Tokyoの知見
持続可能なDrupal Meetupのコツ - Drupal Meetup Tokyoの知見持続可能なDrupal Meetupのコツ - Drupal Meetup Tokyoの知見
持続可能なDrupal Meetupのコツ - Drupal Meetup Tokyoの知見
 
Summary of "ChatDoctor: A Medical Chat Model Fine-Tuned on a Large Language M...
Summary of "ChatDoctor: A Medical Chat Model Fine-Tuned on a Large Language M...Summary of "ChatDoctor: A Medical Chat Model Fine-Tuned on a Large Language M...
Summary of "ChatDoctor: A Medical Chat Model Fine-Tuned on a Large Language M...
 
TaketoFujikawa_台本中の動作表現に基づくアニメーション原画システムの提案_SIGEC71.pdf
TaketoFujikawa_台本中の動作表現に基づくアニメーション原画システムの提案_SIGEC71.pdfTaketoFujikawa_台本中の動作表現に基づくアニメーション原画システムの提案_SIGEC71.pdf
TaketoFujikawa_台本中の動作表現に基づくアニメーション原画システムの提案_SIGEC71.pdf
 
IFIP IP3での資格制度を対象とする国際認定(IPSJ86全国大会シンポジウム)
IFIP IP3での資格制度を対象とする国際認定(IPSJ86全国大会シンポジウム)IFIP IP3での資格制度を対象とする国際認定(IPSJ86全国大会シンポジウム)
IFIP IP3での資格制度を対象とする国際認定(IPSJ86全国大会シンポジウム)
 
2024 01 Virtual_Counselor
2024 01 Virtual_Counselor 2024 01 Virtual_Counselor
2024 01 Virtual_Counselor
 
【修士論文】代替出勤者の選定業務における依頼順決定方法に関する研究   千坂知也
【修士論文】代替出勤者の選定業務における依頼順決定方法に関する研究   千坂知也【修士論文】代替出勤者の選定業務における依頼順決定方法に関する研究   千坂知也
【修士論文】代替出勤者の選定業務における依頼順決定方法に関する研究   千坂知也
 
What is the world where you can make your own semiconductors?
What is the world where you can make your own semiconductors?What is the world where you can make your own semiconductors?
What is the world where you can make your own semiconductors?
 
情報処理学会86回全国大会_Generic OAMをDeep Learning技術によって実現するための課題と解決方法
情報処理学会86回全国大会_Generic OAMをDeep Learning技術によって実現するための課題と解決方法情報処理学会86回全国大会_Generic OAMをDeep Learning技術によって実現するための課題と解決方法
情報処理学会86回全国大会_Generic OAMをDeep Learning技術によって実現するための課題と解決方法
 
「今からでも間に合う」GPTsによる 活用LT会 - 人とAIが協調するHumani-in-the-Loopへ
「今からでも間に合う」GPTsによる 活用LT会 - 人とAIが協調するHumani-in-the-Loopへ「今からでも間に合う」GPTsによる 活用LT会 - 人とAIが協調するHumani-in-the-Loopへ
「今からでも間に合う」GPTsによる 活用LT会 - 人とAIが協調するHumani-in-the-Loopへ
 
2024 04 minnanoito
2024 04 minnanoito2024 04 minnanoito
2024 04 minnanoito
 
2024 03 CTEA
2024 03 CTEA2024 03 CTEA
2024 03 CTEA
 

HoloGAN: Unsupervised Learning of 3D Representations from Natural Images

  • 1. HoloGAN: Unsupervised Learning of 3D Representations from Natural Images 2019/06/02
  • 2. 目次 • 書誌情報・論文概要 • 研究背景・目的 • 先行研究 • 提案手法 • 実験 • まとめ
  • 4. 書誌情報 • 著者 : Thu Nguyen-Phuocさん • PhD student at the University of Bath • machine learning, 3D vision and computer graphics • ICCV 2019 accepted • 選んだ理由 • 物体の三次元的な形状を考慮した画像生成は重要な技術 (と思った) • 結果の画像がすごい • スライドの画像は断りがなければ本論文からの引用
  • 5. 論文概要 • 自然画像から教師なし学習で三次元表現 (3D representation)を獲得する 手法の提案 • 3Dモデリングの知識をモデルに組み込んだ • ボクセルを生成→剛体変換→2D画像にレンダリング • オブジェクトの姿勢と属性を分離することが可能 • つまり, 画像生成の際に姿勢のみを操作することができる • 次ページの画像参照 ※特に引用元の記載がない画像は, 本論文からの引用
  • 8. 研究背景① : GANs • できること • 高精細画像生成 (SAGAN, PGGAN, BigGAN, StyleGANなど) • 画像変換, 画像編集, motion transfer など • 苦手なこと • (conditionalでない) GANで特定の属性を陽に制御すること • cGANでも, ラベルつきのデータを集めるのは大変 T. Karras et al. “A Style- Based Generator Architecture for Generative Adversarial Networks”, CVPR, 2019. C. Chan, S. Ginosar, T. Zhou, and A. A. Efros. Everybody dance now. arXiv:1808.07371, 2018. 画像生成 motion transfer
  • 9. 研究背景② : 三次元構造を理解した画像生成 • ラベルを与えられても物体の三次元構造を理解した画像生成は難しい • ex) 単一画像から新規視点の画像の生成 • out-of-plane rotation が苦手 • 最近の手法では大量のラベルデータがないと綺麗に生成ができない • 3Dデータを用いる方法もあるが, データ収集のコストがさらに高い 画像 out of plane rotation画像+ラベル A. Dosovitskiy, J. Springenberg, M. Tatarchenko, and T. Brox. Learning to generate chairs, tables and cars with convolutional networks. IEEE Transactions on Pattern Analysis andMachine Intelligence, 39(4):692–705, 2017. 三次元データを用いた学習 J.-Y. Zhu, Z. Zhang, C. Zhang, J. Wu, A. Torralba, J. Tenenbaum, and B. Freeman. “Visual object networks: Image generation with disentangled 3D representations”. In NeurIPS, pages 118–129, 2018.
  • 10. 研究のモチベーション • 教師なしで三次元表現を獲得するネットワーク構造の設計 • これにより, 視点・形状・外観を操作できる • 三次元空間についての帰納バイアスを深層生成モデルに導入 本研究では, 下のような順で処理を行うことにより実現 1. 三次元空間でデータを生成 2. 剛体変換 3. 二次元平面に投影 4. 最終的な画像を生成
  • 11. 三次元データの表現方法 explicitな三次元表現 • ボクセル, メッシュなど  剛体変換などの操作が容易 × メモリを効率悪い × 離散化の方法が非自明 implicitな三次元表現 • 潜在表現ベクトルなど  空間的にコンパクト  表現力が高い × 陽な変換が難しい HoloGAN • 提案手法  明示的な変換ができる  表現力も高い  画像のみから学習可能 H. Kato et al. “Neural 3D Mesh Renderer“, CVPR, 2018. [YouTube] Generative Query Networks
  • 13. 先行研究 : GANs • GANsはノイズからrealisticなデータへの変換を学習する • 近年のGANのネットワーク構造に関する研究は, 学習の安定性や高精細画 像の生成に注力している • 教師なしで特徴量の分離を学習するための, ネットワーク構造の研究は限 られる 1. StyleGAN (2018) 2. On self modulation for generative adversarial networks (2019) 損失関数の設計よりもネットワーク構造の方が重要だということを示唆
  • 14. 先行研究 : GANs • StyleGAN (arXiv 2018) • ランダムノイズを特徴マップのスケール, バ イアス項として入力 • Progressive GANを越えて, 超高精細な画像 の生成に成功 • 異なる深さのノイズが異なる特徴を担当 (disentangle) T. Karras et al. “A Style-Based Generator Architecture for Generative Adversarial Networks”, arXiv, 2018.
  • 15. 先行研究 : 3Dを考慮した画像生成 • 3Dから2Dへレンダリングする機構 (RenderNet T. H. Nguyen-Phuoc et al. 2019) × 学習データに3Dデータが必要 • 新しい視点の画像を生成するための三次元の埋め込み表現を獲得する手法 (Rhodin et al. 2018, Sitzmann et al. 2018) × 入力に複数視点の画像が必要 (Sitzmann et al.) × 背景のマスクとオブジェクトの姿勢という教師データが必要 (Rhodin et al.) • 幾何的な情報とテクスチャの情報を分離する手法 (J.-Y. Zhu et al. 2018) • (1) 3Dオブジェクトを生成, (2) 法線, デプス, シルエットにレンダリング, (3) 画像変換 ネットワークにより, 2D画像に変換 × 学習に3Dデータが必要 × 単一オブジェクトかつ背景が白いデータしか扱えない
  • 16. 先行研究 : 3Dを考慮した画像生成 • HoloGANに近いのはRajeswarらの研究 (Pix2Scene) • Pix2Scene • 教師なしでimplicitな3D表現を学習 × 特徴表現がimplicit • HoloGANはexplicitな表現を使っている × 単純な人工データでしか学習できない S. Rajeswar, F. Mannan, F. Golemo, D. Vazquez, D. Nowrouzezahrai, and A. Courville. “Pix2Scene: Learning implicit 3D representations from images”. 2019.
  • 17. 先行研究 : 特徴表現のdisentangle • 中間表現を生成画像の一つの要素に対応するように分離する • 多くの手法は教師ありの枠組みで学習 • ex) GQNでは, 他視点の画像を教師としている • 教師なしの方法はβ-VAEとInfoGANが代表的 • どちらも損失関数の設計がcontribution × priorの選定に敏感 × どの要素を学習するか制御できない × 分離された要素が意味を持つ保証もない × 生成画像の質と分離具合にトレードオフ (β-VAE) × 複雑なデータセットでは学習が難しい
  • 19. 提案手法 • アーキテクチャは以下のような処理を行うように設計されている 1. 3D-CNNで三次元表現を生成 2. カメラ姿勢をもとに変換を行う • カメラ姿勢は一様分布からランダムにサンプル • 剛体変換 (平行移動&回転) を行う 3. 2Dに投影 4. 2D-CNNで画像を生成
  • 20. 提案手法: 三次元表現の獲得 • HoloGANにおいて, • 三次元表現は定数テンソルから生成される • “style”はノイズベクトルzによって担われる • ノイズベクトルzの入力はStyleGANの知見を活用 • MLPに通した後, 特徴マップのスケール, バイアスとして入力 • 入力の深さにより異なるレベルのディティールを制御していることが実験的にわ かっている
  • 21. 提案手法: 視点に依存した生成の学習 • 3D featureに3D convを適用 • 加えて, 2D画像に投影する前にカメラ姿勢 (ランダム) による変換を行う • HoloGANが三次元表現表現を学習していることを保証する大事な操作 • DR-GANでも同様の操作をしているがexplicitな変換ではない (pose codeをベクトル としてNNの入力としている) この三次元表現は… • styleと分離されている • あらゆる視点からレンダリング可能
  • 22. 提案手法: 視点に依存した生成の学習 (Rigid- body transformation) • 仮想的なピンホールカメラを想定 • ランダムなパラメータで剛体変換 • ランダムなθで3D featureを回転 • 平行移動は今回はしなかった • 詳細はsupplemental document… ここ
  • 23. 提案手法: 視点に依存した生成の学習 (Projection Unit) • HoloGANは微分可能な投影機構 (projection unit) を持つ • 3Dから2Dへの投影 (4Dテンソルを3Dテンソルに変換する) • 学習データは異なる透視画法でキャプチャされているので, 透視投影を学習する必要がある • カメラパラメータは得られないので, 代わりに3D convを用いて三次元表現をperspective frustumに 変換 (projection unitの前の3D Convモジュール) • projection unitは, reshaping layer, MLP, 活性化関数から構成される • 詳細は補助資料参照… ここ
  • 24. 提案手法: ロス関数 1. GANのロス 2. Identity regularizer • 生成した画像からzが復元できるような制約を入れる • zの違いが生成画像に現れるようにする 3. Style discriminator • discriminatorの中間層のfeatureも判別不能にするロス • それぞれの深さのfeatureが異なる因子を制御しているので全て揃える働き (本当か?) • 学習が安定しそうな感じがある
  • 26. 実験 • データセット • 顔 (人間, 猫), 椅子, 車, ベッドルーム • 椅子のデータセットはCGからレンダリングした画像を用いる • 実装 • Generator : Adaptive Instance Normalization (AdaIN) • Discriminator : instance normalization & spectral normalization • 詳細は論文・補助資料参照
  • 28. 結果: 質的評価 (InfoGANとの比較) • InfoGANは潜在表現と生成画像の相互情報量を最大化する手法 • HoloGANの方が上手に姿勢を変化させることができている (左) • HoloGANはelevation方向の回転も再現できている (右)
  • 29. 結果: 量的評価 • KID scoreによる評価 • 画像の「質」に関する指標, 元のデータセットとの分布の近さを表す • c.f.) FID score • そこらのGANよりは綺麗な画像を生成する • 特徴の分離と生成画像の質の両方を達成していてすごい!
  • 30. 結果: Deep 3D representation vs. 3D geometry • visual object networks (VON) との比較 • 車画像の生成のsota • 3D shape (voxel) を生成し, 2Dに投影 (depth, silhouette) • その後テクスチャを与え画像に変換 • 3D変換はimplicit J.-Y. Zhu, Z. Zhang, C. Zhang, J. Wu, A. Torralba, J. Tenenbaum, and B. Freeman. “Visual object networks: Image generation with disentangled 3D representations”. In NeurIPS, pages 118–129, 2018.
  • 31. 結果: Deep 3D representation vs. 3D geometry • VON • 背景がない画像を生成 • 苦手な角度がある • HoloGAN • 背景あり • 滑らかな角度変化 • elevation方向の回転にも対応
  • 34. 結果: ノイズの入れ方 • 提案手法はノイズを特徴マップのスケール, バイアスとして入力 古典的なGANと同じようにしたらどうなるか 生成に失敗する (disentangleがうまくいかない) ここに 入れる
  • 36. まとめ • 姿勢とidentityを分離して学習する手法の提案 • 三次元幾何を考慮したアーキテクチャの導入により実現 • 2DベースのGANと同等に高精細な画像を生成 • 実験においては, 意味のある三次元表現をちゃんと学習できた • 感想 • 関連研究が参考になる • 幾何的な知識を明示的に取り込む方法は発展しそう
  • 37. 参考文献 • T. Phuoc et al. “HoloGAN: Unsupervised learning of 3D representations from natural images”, arXiv, 2019. (project page: https://www.monkeyoverflow.com/#/hologan-unsupervised- learning-of-3d-representations-from-natural-images/) • T. Karras et al. “A Style-Based Generator Architecture for Generative Adversarial Networks”, CVPR, 2019. • C. Chan, S. Ginosar, T. Zhou, and A. A. Efros. Everybody dance now. arXiv:1808.07371, 2018. • A. Dosovitskiy, J. Springenberg, M. Tatarchenko, and T. Brox. Learning to generate chairs, tables and cars with convolutional networks. IEEE Transactions on Pattern Analysis andMachine Intelligence, 39(4):692–705, 2017. • J.-Y. Zhu, Z. Zhang, C. Zhang, J. Wu, A. Torralba, J. Tenenbaum, and B. Freeman. “Visual object networks: Image generation with disentangled 3D representations”. In NeurIPS, pages 118–129, 2018.
  • 38. 参考文献 • H. Kato et al. “Neural 3D Mesh Renderer“, CVPR, 2018. • S. M. A. Eslami, D. Jimenez Rezende, F. Besse, F. Viola, A. S. Mor- cos,M. Garnelo, A. Ruderman, A. A. Rusu, I. Danihelka, K. Gregor, D. P. Reichert, L. Buesing, T. Weber, O. Vinyals, D. Rosenbaum, N. Rabinowitz, H. King, C. Hillier, M. Botvinick, D. Wierstra, K. Kavukcuoglu, and D. Hassabis. Neural scene representation and rendering. Science, 360(6394):1204–1210, 2018. • T. Karras et al. “A Style-Based Generator Architecture for Generative Adversarial Networks”, CVPR, 2019. • T. Chen et al. “On Self Modulation for Generative Adversarial Networks”, ICLR, 2019. • T. Phuoc et al. “RenderNet: A deep convolutional network for differentiable rendering from 3D shapes”, NeurIPS, 2018. • H. Rhodin, M. Salzmann, and P. Fua. “Unsupervised geometry-aware representation for 3D human pose estimation”. In ECCV, 2018
  • 39. 参考文献 • V. Sitzmann, J. Thies, F. Heide, M. Nießner, G. Wetzstein, and M. Zollhöfer. “DeepVoxels: Learning persistent 3D feature embeddings”. arXiv:1812.01024, 2018. • S. Rajeswar, F. Mannan, F. Golemo, D. Vazquez, D. Nowrouzezahrai, and A. Courville. “Pix2Scene: Learning implicit 3D representations from images”. 2019. • I. Higgins, L. Matthey, A. Pal, C. Burgess, X. Glorot, M. Botvinick, S. Mohamed, and A. Lerchner. β-VAE: Learning basic visual concepts with a constrained variational framework. In ICLR, 2017. • X. Chen, Y. Duan, R. Houthooft, J. Schulman, I. Sutskever, and P. Abbeel. InfoGAN: Interpretable representation learning by information maximizing generative adversarial nets. In NIPS, pages 2172–2180, 2016. • L. Tran et al. Disentangled Representation Learning GAN for Pose-Invariant Face Recognition. CVPR 2017.