SlideShare a Scribd company logo
1 of 80
Download to read offline
CV勉強会@関東
SPADE
2019/6/30
株式会社ディー・エヌ・エー
AI本部
李 天琦
自己紹介
自己紹介
■ 名前:李 天琦
■ Twitter:@Leetenki
■ Facebook:Leetenki
■ 経歴
〜2016年3月 :深層強化学習の研究
2016年4月〜 :DeNA入社
2016年6月〜 :Japanリージョンゲーム事業本部(サーバ開発)
2016年10月〜:AIシステム部異動(コンピュータビジョン研究)
好きな事
■ 不動産投資
■ タワマン巡り
好きな事
■ 趣味で機械学習を使った不動産価値予測 -> 不動産投資
好きな事
■ 楽待新聞 (日本最大手不動産メディア) のインタビュー記事
■ https://www.rakumachi.jp/news/column/243118
好きな事
■ Googleに認められたらしい
好きな事
■ CVPRついでにGoogle本社(シリコンバレー)に行ってきた
好きな事
■ Chinese 爆買い at Google
■ Google Tシャツ1年分 & Google パーカ & Googleリュック etc...
■ 買いすぎてトランクに入り切らなかった
Previous Work
Previous Work
■ Chainer YOLOv2 (2016)
■ https://github.com/leetenki/YOLOv2
Previous Work
■ Chainer OpenPose (2017)
■ https://github.com/DeNA/Chainer_Realtime_Multi-Person_Pose_Estimation
Recently Work
■ 高解像度全身アニメ生成
■ PS-GAN (ECCV2018 Workshop paper)
■ https://dena.com/intl/anime-generation/
Recently Work
■ アニメ中割生成
■ https://www.slideshare.net/hamadakoichi/anime-generation
*
Copyright (C) 2013 DeNA Co.,Ltd. All Rights Reserved.
 
*
CVPR2019
CVPR2019
■ DeNAから9人参加 (7人聴講 + 2人発表)
■ 聴講組は各自担当分野を決めて分担して情報収集
CVPR2019
■ Multi-label image classificationのコンペで金メダル (矢野正基、加納龍一)
*
Copyright (C) 2013 DeNA Co.,Ltd. All Rights Reserved.
 
*
本題
*
Copyright (C) 2013 DeNA Co.,Ltd. All Rights Reserved.
 
*
Semantic Image Synthesis with
Spatially-Adaptive Normalization
( SPADE )
概要
■ CVPR 2019 Oral (https://youtu.be/9GR8V-VR4Qg?t=614)
■ UC Berkeley、NVIDIA、MITらの研究 (2019年3月)
■ pix2pixHD (CVPR 2018) の派生研究
■ Semantic layout + Styleを入力して、photorealな画像を生成する
■ Semantic image synthesisのタスク
引用1 [Taesung Park et al., 2019]
*
Copyright (C) 2013 DeNA Co.,Ltd. All Rights Reserved.
 
*
背景
背景
■ GANs (Generative Adversarial Networks) による画像生成
■ 何らかの潜在空間からsampleした値をupsampleしてリアルな画像を生成
■ GeneratorとDiscriminatorを戦わせて、真の分布に近づける
■ Discriminatorを騙せるようなリアル画像をGeneratorに生成させる
引用3 [Alec Radford et al., 2015]
引用2 [Tero Karras et al., 2018]
背景
■ GANsによる画像生成
Image synthesis via GANs
背景
■ Conditional image synthesis = 条件付き画像生成
Image synthesis via GANs
Conditional Image Synthesis
背景
■ Conditional image synthesis = 条件付き画像生成
■ 何らか条件を入力して狙った画像を生成
■ 入力条件の種類によってタスク分類
Image synthesis via GANs
Conditional Image Synthesis
引用4 [Takeru Miyato et al., 2018]
[Condition]
■ Label-to-imageのタスク
Image synthesis via GANs
Conditional Image Synthesis
Label-to-image
背景
■ Label-to-imageのタスク
■ Class labelを入力して狙った画像を生成
Image synthesis via GANs
Conditional Image Synthesis
Label-to-image
引用4 [Takeru Miyato et al., 2018]
背景
[Dog]
[Mushroom]
■ Text-to-imageのタスク
Image synthesis via GANs
Conditional Image Synthesis
Text-to-image
Label-to-image
背景
■ Text-to-imageのタスク
■ 文章を入力して画像を生成
Image synthesis via GANs
Conditional Image Synthesis
Text-to-image
Label-to-image
背景
People riding on
elephants that
are walking through
a river.
引用5 [Seunghoon Hong et al., 2018]
■ Image-to-imageのタスク
Image synthesis via GANs
Conditional Image Synthesis
Text-to-imageImage-to-image
Label-to-image
背景
■ Image-to-imageのタスク
■ 画像を入力して画像を出力
Image synthesis via GANs
Conditional Image Synthesis
Text-to-imageImage-to-image
Label-to-image
背景
引用6 [Phillip Isola et al., 2016]
■ Semantic image synthesisのタスク
Image synthesis via GANs
Conditional Image Synthesis
Text-to-imageImage-to-image
Label-to-image
背景
Semantic image
synthesis
■ Semantic image synthesisのタスク
■ Senamtic mask(map)を入力して
photorealな画像を生成
Image synthesis via GANs
Conditional Image Synthesis
Text-to-imageImage-to-image
Label-to-image
背景
Semantic image
synthesis
引用6 [Phillip Isola et al., 2016]
限定的だが
実応用上重要
*
Copyright (C) 2013 DeNA Co.,Ltd. All Rights Reserved.
 
*
既存研究
■ Pix2pix (CVPR2017)
■ Conditional GANを使ったシンプルなモデル
■ Senamtic maskそのものをConditionと見なして入力
既存研究
引用6 [Phillip Isola et al., 2016]
■ Pix2pixHD (CVPR2018)
■ https://www.slideshare.net/ssuser86aec4/cvpr2018-pix2pixhd-cv-103835371
■ Stacked構造のGenerator + Multi-scale Discriminator
■ 2048 x 1024の高解像度画像を安定して生成可能
既存研究
引用7 [Ting-Chun Wang et al, 2017]
*
Copyright (C) 2013 DeNA Co.,Ltd. All Rights Reserved.
 
*
既存研究の課題
既存研究の課題
引用8 [Qifeng Chen, et al., 2017]
[既存手法]
[提案手法]
引用1 [Taesung Park et al., 2019]
引用7 [Ting-Chun Wang et al, 2017]
■ ネットワーク途中でSemantic mapの情報ロス問題
■ 多様なSemantic labelに汎化できず、単調な画像が生成される
Detailまで生成
単調な生成
■ 標準的なDNNは、conv層で畳み込んだ後にnormalization層で正規化
■ 勾配平滑化、過学習防止等のメリットはあるが、
これをSemantic mapに適用すると、情報のロスにつながるケースが発生
既存研究の課題
引用1 [Taesung Park et al., 2019]
既存研究の課題
引用1 [Taesung Park et al., 2019]
■ 例:全pixelがgrassのSemantic mapを入力
■ Conv層で畳み込んだ後は一様な値(activation map)になる
(全pixelが1だったり2だったり)
■ この状態で直後にnormalizationを適用すると、全pixel = 平均値なので、
全ての値が0になる (情報が完全に失われる)
既存研究の課題
引用1 [Taesung Park et al., 2019]
■ pix2pixHDでは、全pixelが一様なSemantic mapを入力すると、
ラベルの種類に関わらず必ずグレー画像が出力される
SPADE
引用7 [Ting-Chun Wang et al, 2017]
[pix2pixHD]
*
Copyright (C) 2013 DeNA Co.,Ltd. All Rights Reserved.
 
*
SPADEの解説
■ 情報のロスを防ぐために、
■ 各normalization層の直後にsemantic mapの情報を埋め込む
SPADE
引用1 [Taesung Park et al., 2019]
SPADE
引用1 [Taesung Park et al., 2019]
■ SPADE = SPatially-Adaptive DEnormalization という独自のlayerを定義
■ Semantic label mapの情報を埋め込んだnorm層
SPADE
引用1 [Taesung Park et al., 2019]
■ SPADE = SPatially-Adaptive DEnormalization という独自のlayerを定義
■ Semantic label mapの情報を埋め込んだnorm層
■ 正規化の後で、Semantic mapの情報を使って別空間へアフィン変換
-> 非正規化
■ Semantic mapを一度convでembedding spaceへ射影する
SPADE
引用1 [Taesung Park et al., 2019]
■ 更に条件パラメータγとβを出力するようにそれぞれ分岐して畳み込む
■ γとβは空間的な次元を持つテンソル
SPADE
引用1 [Taesung Park et al., 2019]
■ NNのメインストリーム側で、Parameter-freeのBatch normを計算しておく
SPADE
引用1 [Taesung Park et al., 2019]
■ Batch Norm activationの結果に対して、要素ごとにγをかけてβを足す
■ γ = scaling
■ β = bias
SPADE
引用1 [Taesung Park et al., 2019]
SPADE
引用1 [Taesung Park et al., 2019]
■ γとβは学習によって得られるテンソルで、x、y、channelを持つ
= xとyのpixel要素ごとに異なるscalingとbiasのアフィン変換が行われる
■ γとβは正規化されないのでSemantic mapの情報を保存できる
■ 一様なSemantic mapを入力した場合の既存研究との効果比較:
■ pix2pixHDはラベルの種類に関わらず必ずグレー画像が出力される
■ SPADEは綺麗にDetailまで生成される
SPADE
引用1 [Taesung Park et al., 2019]
引用7 [Ting-Chun Wang et al, 2017]
[pix2pixHD] [SPADE]
ネットワーク最後ま
で情報伝搬
ネットワーク
途中で情報ロス
*
Copyright (C) 2013 DeNA Co.,Ltd. All Rights Reserved.
 
*
他Norm手法との比較
■ SPADE = いくつかメジャーなNormalization手法を包含した概念
SPADEと他Normの比較
■ SPADEのSemantic maskを別の画像に、γ と β を空間的不変、
Batch内サンプル数を1にする → AdaINになる
SPADEと他Normの比較
引用9 [Xun Huang et al, 2017]
■ SPADEのSemantic mask をラベル情報に置き換え、γ と β を空間的不変
→ Conditional BNになる
SPADEと他Normの比較
引用10 [Harm de Vries et al. 2017]
*
Copyright (C) 2013 DeNA Co.,Ltd. All Rights Reserved.
 
*
モデル設計
■ SPADEを使えばSemantic mapの情報をネットワーク途中に埋め込める
ので、入力層のSemantic mapが不要
■ pix2pixHDのGeneratorにあったEncoderをなくしてモデル軽量化
モデル設計
引用1 [Taesung Park et al., 2019]
■ Generatorの入力部が空いたので、random vectorを入力
■ 同一のSemantic mapでも、sampleする入力値によって
マルチモーダルな生成が可能 -> Styleを制御
モデル設計
引用1 [Taesung Park et al., 2019]
■ Semantic map側を編集する事で、Semantic Layoutを自由に変更可能
■ Semantic情報とStyle情報の分離制御を実現
モデル設計
引用1 [Taesung Park et al., 2019]
■ random vectorの代わりに、image encoderを取り付けて学習も可能
■ reference画像のstyleを捉えて、狙ったstyleで生成できる
■ (論文ではVAEのreparameterization trickを使用)
モデル設計
引用1 [Taesung Park et al., 2019]
Image
Encoder
*
Copyright (C) 2013 DeNA Co.,Ltd. All Rights Reserved.
 
*
実装詳細
■ Discriminatorはpix2pixHDと同じMulti-scale discriminator (PatchGAN準拠)
(Adversarial loss + Feature Matching loss + Perceptual loss)
■ least squared loss -> Hinge lossに変更
■ DiscriminatorにはSPADE層をいれない
実装詳細
引用1 [Taesung Park et al., 2019]
引用7 [Ting-Chun Wang et al, 2017]
■ GeneratorとDiscriminatorの両方にSpectral Normを適用
■ Generator LR = 0.0001、Discriminator LR = 0.0004
■ ADAM β1 = 0、β2 = 0.999
■ Dataset
⁃ COCO-Stuff: train 118,000枚、validation 5,000枚、182 classes
⁃ ADE20K:train 20,210枚、validation 2,000枚、150 classes
⁃ Cityscapes dataset:train 3,000枚、validation 500枚
⁃ Flickr Landscapes:train 40,000枚、validation 1,000枚 (DeepLabV2使用)
実装詳細
引用11 [Holger Caesar, et al., 2018]
引用12 [Bolei Zhou, et al., 2016]
引用13 [Marius Cordts, et al., 2017]
*
Copyright (C) 2013 DeNA Co.,Ltd. All Rights Reserved.
 
*
評価
■ Base Line:
① Pix2pixHD:SOTAなGANベースアプローチ
ベースライン
引用7 [Ting-Chun Wang et al, 2017]
■ Base Line:
① Pix2pixHD:SOTAなGANベースアプローチ
② CRN:段階的に高解像度Semantic mapを入力するFeedforwardアプローチ
ベースライン
引用14 [Qifeng Chen et al., 2017]
■ Base Line:
① Pix2pixHD:SOTAなGANベースアプローチ
② CRN:段階的に高解像度Semantic mapを入力するFeedforwardアプローチ
③ SIMS:本物画像のDBからセグメント合成するアプローチ
ベースライン
引用15 [Xiaojuan Qi et al., 2018]
■ Semantic label-mapの復元度を計測
評価指標
引用1 [Taesung Park et al., 2019]
■ Semantic label-mapの復元度を計測
■ 生成画像に対してDeepLabV2とDRN-D-105を使って、Semantic mapを予測
評価指標
引用1 [Taesung Park et al., 2019]
GT Synthesized image
DeepLabV2
■ Semantic label-mapの復元度を計測
■ 生成画像に対してDeepLabV2とDRN-D-105を使って、Semantic mapを予測
■ 正解label-mapとのmean IOU (mIoU)、pixel accuracy (accu) を比較
評価指標
引用1 [Taesung Park et al., 2019]
GT Synthesized image
DeepLabV2
mean IOU
pixel accuracy
■ Semantic label-mapの復元度を計測
■ 生成画像に対してDeepLabV2とDRN-D-105を使って、Semantic mapを予測
■ 正解labe-mapとのmean IOU (mIoU)、pixel accuracy (accu) を比較
■ 更にFrechet Inception Distance (FID) で生成画像とGTの分布間距離も比較
評価指標
引用1 [Taesung Park et al., 2019]
GT Synthesized image
DeepLabV2
mean IOU
pixel accuracy
FID
■ Semantic mapの復元指標 (mIOU、accu) で既存手法を大きく上回る結果
定量評価
引用1 [Taesung Park et al., 2019]
■ Semantic mapの復元指標 (mIOU、accu) で既存手法を大きく上回る結果
■ FIDでもほとんど最高値だが、CityscapesでのみSIMSに負ける
⁃ SIMSでは本物画像のパッチをつなぎ合わせて画像合成している
⁃ 必然的に生成分布は本物画像の分布と合致しやすい
⁃ SIMSは欲しいパッチがデータセット内に存在しない場合もあるので
mIOU、accuのスコアは低い
定量評価
引用1 [Taesung Park et al., 2019]
■ 人間(Amazon Mechanical Turk)による定性的評価
■ Semantic maskと2種の生成画像を見せて、適切に対応している方を選ぶ
■ 全てのケースにおいて提案手法が最も高確率で選ばれた
定性評価
引用1 [Taesung Park et al., 2019]
*
Copyright (C) 2013 DeNA Co.,Ltd. All Rights Reserved.
 
*
まとめ
① SPADE = SPatially-Adaptive DEnormalization という独自の正規化層を提案
  -> Semantic mapの情報ロス問題を解決し、生成クォリティ向上
② Encoderネットワークが不要になり、モデル軽量化
③ Semantic mask と Styleを分離制御できるようになり多様な生成を実現
まとめ
■ http://34.209.64.66/
■ 絵描けない人でもイメージ通りの画像を生成できる
Webツールデモ
引用1 [Taesung Park et al., 2019]
参考文献
■ [1] Taesung Park et al. Semantic Image Synthesis with Spatially-Adaptive Normalization, 2019
https://arxiv.org/abs/1903.07291
https://youtu.be/9GR8V-VR4Qg?t=614
■ [2] Tero Karras et al. Progressive Growing of GANs for Improved Quality, Stability, and Variation, 2018
https://arxiv.org/abs/1710.10196
https://youtu.be/XOxxPcy5Gr4
■ [3] Alec Radford et al. Unsupervised Representation Learning with Deep Convolutional Generative Adversarial Networks, 2015
https://arxiv.org/abs/1511.06434
■ [4] Takeru Miyato et al. cGANs with Projection Discriminator, 2018
https://arxiv.org/abs/1802.05637
■ [5] Seunghoon Hong et al. Inferring Semantic Layout for Hierarchical Text-to-Image Synthesis, 2018
https://arxiv.org/abs/1801.05091
■ [6] Phillip Isola et al. Image-to-Image Translation with Conditional Adversarial Networks, 2016
https://arxiv.org/abs/1611.07004
■ [7] Ting-Chun Wang et al. High-Resolution Image Synthesis and Semantic Manipulation with Conditional GANs, 2017
https://arxiv.org/abs/1711.11585
https://youtu.be/3AIpPlzM_qs
参考文献
■ [8] Qifeng Chen, et al. Photographic Image Synthesis with Cascaded Refinement Networks, 2017
https://arxiv.org/abs/1707.09405
■ [9] Xun Huang, et al. Arbitrary Style Transfer in Real-time with Adaptive Instance Normalization, 2017
https://arxiv.org/abs/1703.06868
■ [10] Harm de Vries, et al. Modulating early visual processing by language, 2017
https://arxiv.org/abs/1707.00683
■ [11] Holger Caesar, et al. COCO-Stuff: Thing and Stuff Classes in Context, 2018
https://arxiv.org/abs/1612.03716
■ [12] Bolei Zhou, et al. Semantic Understanding of Scenes through the ADE20K Dataset, 2016
https://arxiv.org/abs/1608.05442
■ [13] Marius Cordts, et al. The Cityscapes Dataset for Semantic Urban Scene Understanding, 2016
https://arxiv.org/abs/1604.01685
■ [14] Qifeng Chen, et al. Photographic Image Synthesis with Cascaded Refinement Networks, 2017
https://arxiv.org/abs/1707.09405
■ [15] Xiaojuan Qi, et al. Semi-parametric Image Synthesis, 2018
https://arxiv.org/abs/1804.10992

More Related Content

What's hot

GAN(と強化学習との関係)
GAN(と強化学習との関係)GAN(と強化学習との関係)
GAN(と強化学習との関係)Masahiro Suzuki
 
[DL輪読会]SOM-VAE: Interpretable Discrete Representation Learning on Time Series
[DL輪読会]SOM-VAE: Interpretable Discrete Representation Learning on Time Series[DL輪読会]SOM-VAE: Interpretable Discrete Representation Learning on Time Series
[DL輪読会]SOM-VAE: Interpretable Discrete Representation Learning on Time SeriesDeep Learning JP
 
ドメイン適応の原理と応用
ドメイン適応の原理と応用ドメイン適応の原理と応用
ドメイン適応の原理と応用Yoshitaka Ushiku
 
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)Deep Learning JP
 
自己教師学習(Self-Supervised Learning)
自己教師学習(Self-Supervised Learning)自己教師学習(Self-Supervised Learning)
自己教師学習(Self-Supervised Learning)cvpaper. challenge
 
Attentionの基礎からTransformerの入門まで
Attentionの基礎からTransformerの入門までAttentionの基礎からTransformerの入門まで
Attentionの基礎からTransformerの入門までAGIRobots
 
SSII2021 [OS2-02] 深層学習におけるデータ拡張の原理と最新動向
SSII2021 [OS2-02] 深層学習におけるデータ拡張の原理と最新動向SSII2021 [OS2-02] 深層学習におけるデータ拡張の原理と最新動向
SSII2021 [OS2-02] 深層学習におけるデータ拡張の原理と最新動向SSII
 
モデルアーキテクチャ観点からの高速化2019
モデルアーキテクチャ観点からの高速化2019モデルアーキテクチャ観点からの高速化2019
モデルアーキテクチャ観点からの高速化2019Yusuke Uchida
 
画像生成・生成モデル メタサーベイ
画像生成・生成モデル メタサーベイ画像生成・生成モデル メタサーベイ
画像生成・生成モデル メタサーベイcvpaper. challenge
 
【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion Models
【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion Models【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion Models
【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion ModelsDeep Learning JP
 
[DL輪読会]NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis
[DL輪読会]NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis[DL輪読会]NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis
[DL輪読会]NeRF: Representing Scenes as Neural Radiance Fields for View SynthesisDeep Learning JP
 
【メタサーベイ】基盤モデル / Foundation Models
【メタサーベイ】基盤モデル / Foundation Models【メタサーベイ】基盤モデル / Foundation Models
【メタサーベイ】基盤モデル / Foundation Modelscvpaper. challenge
 
【メタサーベイ】Vision and Language のトップ研究室/研究者
【メタサーベイ】Vision and Language のトップ研究室/研究者【メタサーベイ】Vision and Language のトップ研究室/研究者
【メタサーベイ】Vision and Language のトップ研究室/研究者cvpaper. challenge
 
モデルアーキテクチャ観点からのDeep Neural Network高速化
モデルアーキテクチャ観点からのDeep Neural Network高速化モデルアーキテクチャ観点からのDeep Neural Network高速化
モデルアーキテクチャ観点からのDeep Neural Network高速化Yusuke Uchida
 
[DLHacks]StyleGANとBigGANのStyle mixing, morphing
[DLHacks]StyleGANとBigGANのStyle mixing, morphing[DLHacks]StyleGANとBigGANのStyle mixing, morphing
[DLHacks]StyleGANとBigGANのStyle mixing, morphingDeep Learning JP
 
【DL輪読会】An Image is Worth One Word: Personalizing Text-to-Image Generation usi...
【DL輪読会】An Image is Worth One Word: Personalizing Text-to-Image Generation usi...【DL輪読会】An Image is Worth One Word: Personalizing Text-to-Image Generation usi...
【DL輪読会】An Image is Worth One Word: Personalizing Text-to-Image Generation usi...Deep Learning JP
 
[DL輪読会]Learning Transferable Visual Models From Natural Language Supervision
[DL輪読会]Learning Transferable Visual Models From Natural Language Supervision[DL輪読会]Learning Transferable Visual Models From Natural Language Supervision
[DL輪読会]Learning Transferable Visual Models From Natural Language SupervisionDeep Learning JP
 
【DL輪読会】A Path Towards Autonomous Machine Intelligence
【DL輪読会】A Path Towards Autonomous Machine Intelligence【DL輪読会】A Path Towards Autonomous Machine Intelligence
【DL輪読会】A Path Towards Autonomous Machine IntelligenceDeep Learning JP
 
【DL輪読会】Patches Are All You Need? (ConvMixer)
【DL輪読会】Patches Are All You Need? (ConvMixer)【DL輪読会】Patches Are All You Need? (ConvMixer)
【DL輪読会】Patches Are All You Need? (ConvMixer)Deep Learning JP
 

What's hot (20)

GAN(と強化学習との関係)
GAN(と強化学習との関係)GAN(と強化学習との関係)
GAN(と強化学習との関係)
 
[DL輪読会]SOM-VAE: Interpretable Discrete Representation Learning on Time Series
[DL輪読会]SOM-VAE: Interpretable Discrete Representation Learning on Time Series[DL輪読会]SOM-VAE: Interpretable Discrete Representation Learning on Time Series
[DL輪読会]SOM-VAE: Interpretable Discrete Representation Learning on Time Series
 
ドメイン適応の原理と応用
ドメイン適応の原理と応用ドメイン適応の原理と応用
ドメイン適応の原理と応用
 
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)
 
自己教師学習(Self-Supervised Learning)
自己教師学習(Self-Supervised Learning)自己教師学習(Self-Supervised Learning)
自己教師学習(Self-Supervised Learning)
 
Attentionの基礎からTransformerの入門まで
Attentionの基礎からTransformerの入門までAttentionの基礎からTransformerの入門まで
Attentionの基礎からTransformerの入門まで
 
SSII2021 [OS2-02] 深層学習におけるデータ拡張の原理と最新動向
SSII2021 [OS2-02] 深層学習におけるデータ拡張の原理と最新動向SSII2021 [OS2-02] 深層学習におけるデータ拡張の原理と最新動向
SSII2021 [OS2-02] 深層学習におけるデータ拡張の原理と最新動向
 
モデルアーキテクチャ観点からの高速化2019
モデルアーキテクチャ観点からの高速化2019モデルアーキテクチャ観点からの高速化2019
モデルアーキテクチャ観点からの高速化2019
 
画像生成・生成モデル メタサーベイ
画像生成・生成モデル メタサーベイ画像生成・生成モデル メタサーベイ
画像生成・生成モデル メタサーベイ
 
【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion Models
【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion Models【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion Models
【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion Models
 
[DL輪読会]NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis
[DL輪読会]NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis[DL輪読会]NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis
[DL輪読会]NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis
 
【メタサーベイ】基盤モデル / Foundation Models
【メタサーベイ】基盤モデル / Foundation Models【メタサーベイ】基盤モデル / Foundation Models
【メタサーベイ】基盤モデル / Foundation Models
 
【メタサーベイ】Vision and Language のトップ研究室/研究者
【メタサーベイ】Vision and Language のトップ研究室/研究者【メタサーベイ】Vision and Language のトップ研究室/研究者
【メタサーベイ】Vision and Language のトップ研究室/研究者
 
モデルアーキテクチャ観点からのDeep Neural Network高速化
モデルアーキテクチャ観点からのDeep Neural Network高速化モデルアーキテクチャ観点からのDeep Neural Network高速化
モデルアーキテクチャ観点からのDeep Neural Network高速化
 
[DLHacks]StyleGANとBigGANのStyle mixing, morphing
[DLHacks]StyleGANとBigGANのStyle mixing, morphing[DLHacks]StyleGANとBigGANのStyle mixing, morphing
[DLHacks]StyleGANとBigGANのStyle mixing, morphing
 
【DL輪読会】An Image is Worth One Word: Personalizing Text-to-Image Generation usi...
【DL輪読会】An Image is Worth One Word: Personalizing Text-to-Image Generation usi...【DL輪読会】An Image is Worth One Word: Personalizing Text-to-Image Generation usi...
【DL輪読会】An Image is Worth One Word: Personalizing Text-to-Image Generation usi...
 
[DL輪読会]Learning Transferable Visual Models From Natural Language Supervision
[DL輪読会]Learning Transferable Visual Models From Natural Language Supervision[DL輪読会]Learning Transferable Visual Models From Natural Language Supervision
[DL輪読会]Learning Transferable Visual Models From Natural Language Supervision
 
能動学習セミナー
能動学習セミナー能動学習セミナー
能動学習セミナー
 
【DL輪読会】A Path Towards Autonomous Machine Intelligence
【DL輪読会】A Path Towards Autonomous Machine Intelligence【DL輪読会】A Path Towards Autonomous Machine Intelligence
【DL輪読会】A Path Towards Autonomous Machine Intelligence
 
【DL輪読会】Patches Are All You Need? (ConvMixer)
【DL輪読会】Patches Are All You Need? (ConvMixer)【DL輪読会】Patches Are All You Need? (ConvMixer)
【DL輪読会】Patches Are All You Need? (ConvMixer)
 

Similar to SPADE :Semantic Image Synthesis with Spatially-Adaptive Normalization

CVPR2018 pix2pixHD論文紹介 (CV勉強会@関東)
CVPR2018 pix2pixHD論文紹介 (CV勉強会@関東)CVPR2018 pix2pixHD論文紹介 (CV勉強会@関東)
CVPR2018 pix2pixHD論文紹介 (CV勉強会@関東)Tenki Lee
 
Bridging between Vision and Language
Bridging between Vision and LanguageBridging between Vision and Language
Bridging between Vision and LanguageShion Honda
 
ドライブレコーダーの Scene Text Recognitionにおける Multi-task Learning
ドライブレコーダーの Scene Text Recognitionにおける Multi-task Learningドライブレコーダーの Scene Text Recognitionにおける Multi-task Learning
ドライブレコーダーの Scene Text Recognitionにおける Multi-task LearningFumihiko Takahashi
 
SSII2020SS: グラフデータでも深層学習 〜 Graph Neural Networks 入門 〜
SSII2020SS: グラフデータでも深層学習 〜 Graph Neural Networks 入門 〜SSII2020SS: グラフデータでも深層学習 〜 Graph Neural Networks 入門 〜
SSII2020SS: グラフデータでも深層学習 〜 Graph Neural Networks 入門 〜SSII
 
ヤフーのロギングSDKの挑戦〜データドリブン企業を目指して〜 #yjdsnight
ヤフーのロギングSDKの挑戦〜データドリブン企業を目指して〜 #yjdsnightヤフーのロギングSDKの挑戦〜データドリブン企業を目指して〜 #yjdsnight
ヤフーのロギングSDKの挑戦〜データドリブン企業を目指して〜 #yjdsnightYahoo!デベロッパーネットワーク
 
自動化ツールの違いを探る
自動化ツールの違いを探る自動化ツールの違いを探る
自動化ツールの違いを探るToshiya Mabuchi
 
Generative Adversarial Networks (GAN) @ NIPS2017
Generative Adversarial Networks (GAN) @ NIPS2017Generative Adversarial Networks (GAN) @ NIPS2017
Generative Adversarial Networks (GAN) @ NIPS2017Koichi Hamada
 
東北大学 先端技術の基礎と実践_深層学習による画像認識とデータの話_菊池悠太
東北大学 先端技術の基礎と実践_深層学習による画像認識とデータの話_菊池悠太東北大学 先端技術の基礎と実践_深層学習による画像認識とデータの話_菊池悠太
東北大学 先端技術の基礎と実践_深層学習による画像認識とデータの話_菊池悠太Preferred Networks
 
位置データもPythonで!!!
位置データもPythonで!!!位置データもPythonで!!!
位置データもPythonで!!!hide ogawa
 
NIPS2015概要資料
NIPS2015概要資料NIPS2015概要資料
NIPS2015概要資料Shohei Hido
 
論文紹介:Panoptic-aware Image-to-Image Translation
論文紹介:Panoptic-aware Image-to-Image Translation論文紹介:Panoptic-aware Image-to-Image Translation
論文紹介:Panoptic-aware Image-to-Image TranslationToru Tamaki
 
CV勉強会ICCV2017読み会:Towards Diverse and Natural Image Descriptions via a Conditi...
CV勉強会ICCV2017読み会:Towards Diverse and Natural Image Descriptions via a Conditi...CV勉強会ICCV2017読み会:Towards Diverse and Natural Image Descriptions via a Conditi...
CV勉強会ICCV2017読み会:Towards Diverse and Natural Image Descriptions via a Conditi...Toshiki Sakai
 
【CVPR 2019】SPADE: Semantic Image Synthesis with Spatially-Adaptive Normalization
【CVPR 2019】SPADE: Semantic Image Synthesis with Spatially-Adaptive Normalization【CVPR 2019】SPADE: Semantic Image Synthesis with Spatially-Adaptive Normalization
【CVPR 2019】SPADE: Semantic Image Synthesis with Spatially-Adaptive Normalizationcvpaper. challenge
 
Python による 「スクレイピング & 自然言語処理」入門
Python による 「スクレイピング & 自然言語処理」入門Python による 「スクレイピング & 自然言語処理」入門
Python による 「スクレイピング & 自然言語処理」入門Tatsuya Tojima
 
「解説資料」ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
「解説資料」ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation 「解説資料」ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
「解説資料」ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation Takumi Ohkuma
 
【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose EstimationDeep Learning JP
 
今年のKDDベストペーパーを実装・公開しました
今年のKDDベストペーパーを実装・公開しました今年のKDDベストペーパーを実装・公開しました
今年のKDDベストペーパーを実装・公開しましたShohei Hido
 
自動化を支えるCI/CDパイプライン
自動化を支えるCI/CDパイプライン自動化を支えるCI/CDパイプライン
自動化を支えるCI/CDパイプラインJunichiMitsunaga
 
[DL輪読会]Deep Face Recognition: A Survey
[DL輪読会]Deep Face Recognition: A Survey[DL輪読会]Deep Face Recognition: A Survey
[DL輪読会]Deep Face Recognition: A SurveyDeep Learning JP
 
MRシミュレータ(仮)の技術的なハナシ
MRシミュレータ(仮)の技術的なハナシMRシミュレータ(仮)の技術的なハナシ
MRシミュレータ(仮)の技術的なハナシ貴文 湯浅
 

Similar to SPADE :Semantic Image Synthesis with Spatially-Adaptive Normalization (20)

CVPR2018 pix2pixHD論文紹介 (CV勉強会@関東)
CVPR2018 pix2pixHD論文紹介 (CV勉強会@関東)CVPR2018 pix2pixHD論文紹介 (CV勉強会@関東)
CVPR2018 pix2pixHD論文紹介 (CV勉強会@関東)
 
Bridging between Vision and Language
Bridging between Vision and LanguageBridging between Vision and Language
Bridging between Vision and Language
 
ドライブレコーダーの Scene Text Recognitionにおける Multi-task Learning
ドライブレコーダーの Scene Text Recognitionにおける Multi-task Learningドライブレコーダーの Scene Text Recognitionにおける Multi-task Learning
ドライブレコーダーの Scene Text Recognitionにおける Multi-task Learning
 
SSII2020SS: グラフデータでも深層学習 〜 Graph Neural Networks 入門 〜
SSII2020SS: グラフデータでも深層学習 〜 Graph Neural Networks 入門 〜SSII2020SS: グラフデータでも深層学習 〜 Graph Neural Networks 入門 〜
SSII2020SS: グラフデータでも深層学習 〜 Graph Neural Networks 入門 〜
 
ヤフーのロギングSDKの挑戦〜データドリブン企業を目指して〜 #yjdsnight
ヤフーのロギングSDKの挑戦〜データドリブン企業を目指して〜 #yjdsnightヤフーのロギングSDKの挑戦〜データドリブン企業を目指して〜 #yjdsnight
ヤフーのロギングSDKの挑戦〜データドリブン企業を目指して〜 #yjdsnight
 
自動化ツールの違いを探る
自動化ツールの違いを探る自動化ツールの違いを探る
自動化ツールの違いを探る
 
Generative Adversarial Networks (GAN) @ NIPS2017
Generative Adversarial Networks (GAN) @ NIPS2017Generative Adversarial Networks (GAN) @ NIPS2017
Generative Adversarial Networks (GAN) @ NIPS2017
 
東北大学 先端技術の基礎と実践_深層学習による画像認識とデータの話_菊池悠太
東北大学 先端技術の基礎と実践_深層学習による画像認識とデータの話_菊池悠太東北大学 先端技術の基礎と実践_深層学習による画像認識とデータの話_菊池悠太
東北大学 先端技術の基礎と実践_深層学習による画像認識とデータの話_菊池悠太
 
位置データもPythonで!!!
位置データもPythonで!!!位置データもPythonで!!!
位置データもPythonで!!!
 
NIPS2015概要資料
NIPS2015概要資料NIPS2015概要資料
NIPS2015概要資料
 
論文紹介:Panoptic-aware Image-to-Image Translation
論文紹介:Panoptic-aware Image-to-Image Translation論文紹介:Panoptic-aware Image-to-Image Translation
論文紹介:Panoptic-aware Image-to-Image Translation
 
CV勉強会ICCV2017読み会:Towards Diverse and Natural Image Descriptions via a Conditi...
CV勉強会ICCV2017読み会:Towards Diverse and Natural Image Descriptions via a Conditi...CV勉強会ICCV2017読み会:Towards Diverse and Natural Image Descriptions via a Conditi...
CV勉強会ICCV2017読み会:Towards Diverse and Natural Image Descriptions via a Conditi...
 
【CVPR 2019】SPADE: Semantic Image Synthesis with Spatially-Adaptive Normalization
【CVPR 2019】SPADE: Semantic Image Synthesis with Spatially-Adaptive Normalization【CVPR 2019】SPADE: Semantic Image Synthesis with Spatially-Adaptive Normalization
【CVPR 2019】SPADE: Semantic Image Synthesis with Spatially-Adaptive Normalization
 
Python による 「スクレイピング & 自然言語処理」入門
Python による 「スクレイピング & 自然言語処理」入門Python による 「スクレイピング & 自然言語処理」入門
Python による 「スクレイピング & 自然言語処理」入門
 
「解説資料」ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
「解説資料」ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation 「解説資料」ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
「解説資料」ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
 
【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
 
今年のKDDベストペーパーを実装・公開しました
今年のKDDベストペーパーを実装・公開しました今年のKDDベストペーパーを実装・公開しました
今年のKDDベストペーパーを実装・公開しました
 
自動化を支えるCI/CDパイプライン
自動化を支えるCI/CDパイプライン自動化を支えるCI/CDパイプライン
自動化を支えるCI/CDパイプライン
 
[DL輪読会]Deep Face Recognition: A Survey
[DL輪読会]Deep Face Recognition: A Survey[DL輪読会]Deep Face Recognition: A Survey
[DL輪読会]Deep Face Recognition: A Survey
 
MRシミュレータ(仮)の技術的なハナシ
MRシミュレータ(仮)の技術的なハナシMRシミュレータ(仮)の技術的なハナシ
MRシミュレータ(仮)の技術的なハナシ
 

Recently uploaded

スマートフォンを用いた新生児あやし動作の教示システム
スマートフォンを用いた新生児あやし動作の教示システムスマートフォンを用いた新生児あやし動作の教示システム
スマートフォンを用いた新生児あやし動作の教示システムsugiuralab
 
新人研修のまとめ 2024/04/12の勉強会で発表されたものです。
新人研修のまとめ       2024/04/12の勉強会で発表されたものです。新人研修のまとめ       2024/04/12の勉強会で発表されたものです。
新人研修のまとめ 2024/04/12の勉強会で発表されたものです。iPride Co., Ltd.
 
Postman LT Fukuoka_Quick Prototype_By Daniel
Postman LT Fukuoka_Quick Prototype_By DanielPostman LT Fukuoka_Quick Prototype_By Daniel
Postman LT Fukuoka_Quick Prototype_By Danieldanielhu54
 
PHP-Conference-Odawara-2024-04-000000000
PHP-Conference-Odawara-2024-04-000000000PHP-Conference-Odawara-2024-04-000000000
PHP-Conference-Odawara-2024-04-000000000Shota Ito
 
Amazon SES を勉強してみる その12024/04/12の勉強会で発表されたものです。
Amazon SES を勉強してみる その12024/04/12の勉強会で発表されたものです。Amazon SES を勉強してみる その12024/04/12の勉強会で発表されたものです。
Amazon SES を勉強してみる その12024/04/12の勉強会で発表されたものです。iPride Co., Ltd.
 
UPWARD_share_company_information_20240415.pdf
UPWARD_share_company_information_20240415.pdfUPWARD_share_company_information_20240415.pdf
UPWARD_share_company_information_20240415.pdffurutsuka
 
20240412_HCCJP での Windows Server 2025 Active Directory
20240412_HCCJP での Windows Server 2025 Active Directory20240412_HCCJP での Windows Server 2025 Active Directory
20240412_HCCJP での Windows Server 2025 Active Directoryosamut
 
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略Ryo Sasaki
 
IoT in the era of generative AI, Thanks IoT ALGYAN.pptx
IoT in the era of generative AI, Thanks IoT ALGYAN.pptxIoT in the era of generative AI, Thanks IoT ALGYAN.pptx
IoT in the era of generative AI, Thanks IoT ALGYAN.pptxAtomu Hidaka
 

Recently uploaded (9)

スマートフォンを用いた新生児あやし動作の教示システム
スマートフォンを用いた新生児あやし動作の教示システムスマートフォンを用いた新生児あやし動作の教示システム
スマートフォンを用いた新生児あやし動作の教示システム
 
新人研修のまとめ 2024/04/12の勉強会で発表されたものです。
新人研修のまとめ       2024/04/12の勉強会で発表されたものです。新人研修のまとめ       2024/04/12の勉強会で発表されたものです。
新人研修のまとめ 2024/04/12の勉強会で発表されたものです。
 
Postman LT Fukuoka_Quick Prototype_By Daniel
Postman LT Fukuoka_Quick Prototype_By DanielPostman LT Fukuoka_Quick Prototype_By Daniel
Postman LT Fukuoka_Quick Prototype_By Daniel
 
PHP-Conference-Odawara-2024-04-000000000
PHP-Conference-Odawara-2024-04-000000000PHP-Conference-Odawara-2024-04-000000000
PHP-Conference-Odawara-2024-04-000000000
 
Amazon SES を勉強してみる その12024/04/12の勉強会で発表されたものです。
Amazon SES を勉強してみる その12024/04/12の勉強会で発表されたものです。Amazon SES を勉強してみる その12024/04/12の勉強会で発表されたものです。
Amazon SES を勉強してみる その12024/04/12の勉強会で発表されたものです。
 
UPWARD_share_company_information_20240415.pdf
UPWARD_share_company_information_20240415.pdfUPWARD_share_company_information_20240415.pdf
UPWARD_share_company_information_20240415.pdf
 
20240412_HCCJP での Windows Server 2025 Active Directory
20240412_HCCJP での Windows Server 2025 Active Directory20240412_HCCJP での Windows Server 2025 Active Directory
20240412_HCCJP での Windows Server 2025 Active Directory
 
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
 
IoT in the era of generative AI, Thanks IoT ALGYAN.pptx
IoT in the era of generative AI, Thanks IoT ALGYAN.pptxIoT in the era of generative AI, Thanks IoT ALGYAN.pptx
IoT in the era of generative AI, Thanks IoT ALGYAN.pptx
 

SPADE :Semantic Image Synthesis with Spatially-Adaptive Normalization