SlideShare a Scribd company logo
1 of 10
Download to read offline
機械学習⼊⾨︓次世代AI「GAN」による仮想現実の⽣成
StackGANの概要とデモンストレーション
2021年 5⽉31⽇
⽇本オラクル
テクノロジー事業戦略統括 戦略ビジネス本部
デジタル・トランスフォーメーション推進室
データアナリスト 横⼭ 慎⼀郎
1
Copyright © 2021, Oracle and/or its affiliates
2
“Flying birds”
input output
生成できる
解像度
References
GAN-INT-CLS 64 Generative Adversarial Text to Image Synthesis, ICML 2016
GAWWN 128 Learning What and Where to Draw, NIPS 2016
StackGAN 256 Text to Photo-realistic Image Synthesis with Stacked Generative
Adversarial Networks, ICCV 2017
TAC-GAN 128 Text Conditioned Auxiliary Classifier Generative Adversarial
Network, arXiv 2017
AttnGAN 256 Fine-Grained Text to Image Generation with Attentional
Generative Adversarial Networks, CVPR 2018
FusedGAN 64 Semi-supervised FusedGAN for Conditional Image
Generation, arXiv 2018
HDGAN 512 Photographic Text-to-Image Synthesis with a Hierarchically-
nested Adversarial Network, arXiv 2018
テキストから画像を生成するGAN
Copyright © 2021, Oracle and/or its affiliates
3
参考: http://akmtn.hatenablog.com/entry/2018/03/25/182759
• 著者
• Han Zhang, Tao Xu, Hongsheng Li, Shaoting Zhang,
Xiaogang Wang, Xiaolei Huang, Dimitris Metaxas
• Rutgers University, Lehigh University, The Chinese
University of Hong Kong, Baidu Research
• 内容
• 先行研究では、テキストから画像を生成することは、大ま
かな特徴は表現できても、細部まで表現できなかった。
• そこでGANを利用して高精度の画像生成モデルを提唱。
• StackGANでは2段階のアプローチにより構成される。
• StageⅠ: テキストから低解像度の画像を生成。
• StageⅡ: Ⅰの生成画像とテキストから高解像度の画像を生成。
• 結果、先行研究のテキストから画像を生成する技術より、
高精度の画像を生成できた。
StackGAN: Text to Photo-realistic
Image Synthesis with Stacked
Generative Adversarial Networks
Copyright © 2021, Oracle and/or its affiliates
4
https://arxiv.org/pdf/1612.03242.pdf
アーキテクチャ
Copyright © 2021, Oracle and/or its affiliates
5
テキスト表現のGauss分布と
作成したGauss分布を組み合
わせて、入力の多様性を維持
大まかな特徴を掴んだ画像を
生成
実物、生成物の画像の識別
StageⅠで生成した画像を入力に利用
StageⅠで漏れた詳細な特徴を把握し、
より解像度の高い画像を生成 実物、生成物の画像の識別
参考: StackGAN: Text to Photo-realistic Image Synthesis with Stacked Generative Adversarial Networks
• パラメータ
• Up-sampling block
• 3 x 3 , ストライド1の畳み込みを適用
• 最終層以外は畳み込み層の後にバッチ正則化とReLU関数を適用
• 128 x 128 StackGANモデルでは、2つの残差ブロックを利用
• 256 x 256 StackGANモデルでは、4つの残差ブロックを利用
• Down-sampling block
• 4 x 4, ストライド2の畳み込みを適用
• 最初の層以外はバッチ正則化とLeakyReLUを適用
• Vector dimension etc.
• Ng = 128 (Conditioningベクトルの次元)
• Nz = 100 (ノイズベクトルの次元)
• Mg = 16 (Ⅱ. Generator: 圧縮するサイズ)
• Md = 4 (Ⅰ. Discriminator: 圧縮するサイズ)
• Nd = 128 (Ⅰ. テキストEmbeddingを圧縮する次元)
• W0 = H0 = 64 (StageⅠで生成される画像サイズ. W0 x H0)
• W = H = 256 (StageⅡで生成される画像サイズ. W x H)
実装方法
Copyright © 2021, Oracle and/or its affiliates
6
• 学習
• StageⅠのG, Dの学習
• 600 epoch
• StageⅡは固定
• StageⅡのG, Dの学習
• 600 epoch
• StageⅠは固定
• Optimizer(最適化アルゴリズム)
• バッチサイズ64のADAMを利用
• 学習率0.0002で100 epoch毎に半減させる
参考: StackGAN: Text to Photo-realistic Image Synthesis with Stacked Generative Adversarial Networks
GAN-INT-CLS, GAWWNとの比較結果
Copyright © 2021, Oracle and/or its affiliates
7
参考: StackGAN: Text to Photo-realistic Image Synthesis with Stacked Generative Adversarial Networks
• https://github.com/anthonyftwang/StackGAN-Pytorch-Python3 を参考に、構造やコードの概要に
ついて説明していく。
• 学習済みモデルを利用して、テキスト表現から画像生成してみる。
• StackGANの応用を考えていく(ざっくり)
デモ
Copyright © 2021, Oracle and/or its affiliates
8
構造
Copyright © 2021, Oracle and/or its affiliates
9
StackGAN-Pytorch-Python3-master
code
data
output
models
cfg
miscc
main.py
model.py
train.py
(省)パラメータの.ymlファイル
(省)CA処理の.pyファイル etc.
train
test
(省)テキストベクトル, 画像ファイル
(省)テキストファイル
stageⅠ
stageⅡ
(省)生成モデル、生成画像ファイルetc.
(省)生成モデル、生成画像ファイルetc.
netG_epoch_x.pth (モデル)
output_imgs (省)新規テキストから生成した画像
output
20210531 ora jam_stackgan

More Related Content

What's hot

Deep Residual Learning (ILSVRC2015 winner)
Deep Residual Learning (ILSVRC2015 winner)Deep Residual Learning (ILSVRC2015 winner)
Deep Residual Learning (ILSVRC2015 winner)Hirokatsu Kataoka
 
CNNの構造最適化手法(第3回3D勉強会)
CNNの構造最適化手法(第3回3D勉強会)CNNの構造最適化手法(第3回3D勉強会)
CNNの構造最適化手法(第3回3D勉強会)MasanoriSuganuma
 
2値化CNN on FPGAでGPUとガチンコバトル(公開版)
2値化CNN on FPGAでGPUとガチンコバトル(公開版)2値化CNN on FPGAでGPUとガチンコバトル(公開版)
2値化CNN on FPGAでGPUとガチンコバトル(公開版)Hiroki Nakahara
 
SSD: Single Shot MultiBox Detector (ECCV2016)
SSD: Single Shot MultiBox Detector (ECCV2016)SSD: Single Shot MultiBox Detector (ECCV2016)
SSD: Single Shot MultiBox Detector (ECCV2016)Takanori Ogata
 
ニューラルネットと深層学習の歴史
ニューラルネットと深層学習の歴史ニューラルネットと深層学習の歴史
ニューラルネットと深層学習の歴史Akinori Abe
 
Deep Forest: Towards An Alternative to Deep Neural Networks
Deep Forest: Towards An Alternative to Deep Neural NetworksDeep Forest: Towards An Alternative to Deep Neural Networks
Deep Forest: Towards An Alternative to Deep Neural Networksharmonylab
 
Generative adversarial nets
Generative adversarial netsGenerative adversarial nets
Generative adversarial netsKeisuke Hosaka
 
When NAS Meets Robustness: In Search of Robust Architectures against Adversar...
When NAS Meets Robustness:In Search of Robust Architectures againstAdversar...When NAS Meets Robustness:In Search of Robust Architectures againstAdversar...
When NAS Meets Robustness: In Search of Robust Architectures against Adversar...MasanoriSuganuma
 
Learning Convolutional Neural Networks for Graphs
Learning Convolutional Neural Networks for GraphsLearning Convolutional Neural Networks for Graphs
Learning Convolutional Neural Networks for GraphsTakuya Akiba
 
高位合成でDeep learning
高位合成でDeep learning高位合成でDeep learning
高位合成でDeep learningMori Labo.
 
2値ディープニューラルネットワークと組込み機器への応用: 開発中のツール紹介
2値ディープニューラルネットワークと組込み機器への応用: 開発中のツール紹介2値ディープニューラルネットワークと組込み機器への応用: 開発中のツール紹介
2値ディープニューラルネットワークと組込み機器への応用: 開発中のツール紹介Hiroki Nakahara
 
0から理解するニューラルネットアーキテクチャサーチ(NAS)
0から理解するニューラルネットアーキテクチャサーチ(NAS)0から理解するニューラルネットアーキテクチャサーチ(NAS)
0から理解するニューラルネットアーキテクチャサーチ(NAS)MasanoriSuganuma
 
semantic segmentation サーベイ
semantic segmentation サーベイsemantic segmentation サーベイ
semantic segmentation サーベイyohei okawa
 
点群深層学習 Meta-study
点群深層学習 Meta-study点群深層学習 Meta-study
点群深層学習 Meta-studyNaoya Chiba
 
20140726.西野研セミナー
20140726.西野研セミナー20140726.西野研セミナー
20140726.西野研セミナーHayaru SHOUNO
 
20140705.西野研セミナー
20140705.西野研セミナー20140705.西野研セミナー
20140705.西野研セミナーHayaru SHOUNO
 
[DL輪読会]QUASI-RECURRENT NEURAL NETWORKS
[DL輪読会]QUASI-RECURRENT NEURAL NETWORKS[DL輪読会]QUASI-RECURRENT NEURAL NETWORKS
[DL輪読会]QUASI-RECURRENT NEURAL NETWORKSDeep Learning JP
 
Pred net使ってみた
Pred net使ってみたPred net使ってみた
Pred net使ってみたkoji ochiai
 
FPGAX2016 ドキュンなFPGA
FPGAX2016 ドキュンなFPGAFPGAX2016 ドキュンなFPGA
FPGAX2016 ドキュンなFPGAHiroki Nakahara
 

What's hot (20)

Deep Residual Learning (ILSVRC2015 winner)
Deep Residual Learning (ILSVRC2015 winner)Deep Residual Learning (ILSVRC2015 winner)
Deep Residual Learning (ILSVRC2015 winner)
 
CNNの構造最適化手法(第3回3D勉強会)
CNNの構造最適化手法(第3回3D勉強会)CNNの構造最適化手法(第3回3D勉強会)
CNNの構造最適化手法(第3回3D勉強会)
 
2値化CNN on FPGAでGPUとガチンコバトル(公開版)
2値化CNN on FPGAでGPUとガチンコバトル(公開版)2値化CNN on FPGAでGPUとガチンコバトル(公開版)
2値化CNN on FPGAでGPUとガチンコバトル(公開版)
 
SSD: Single Shot MultiBox Detector (ECCV2016)
SSD: Single Shot MultiBox Detector (ECCV2016)SSD: Single Shot MultiBox Detector (ECCV2016)
SSD: Single Shot MultiBox Detector (ECCV2016)
 
ニューラルネットと深層学習の歴史
ニューラルネットと深層学習の歴史ニューラルネットと深層学習の歴史
ニューラルネットと深層学習の歴史
 
Deep Forest: Towards An Alternative to Deep Neural Networks
Deep Forest: Towards An Alternative to Deep Neural NetworksDeep Forest: Towards An Alternative to Deep Neural Networks
Deep Forest: Towards An Alternative to Deep Neural Networks
 
Generative adversarial nets
Generative adversarial netsGenerative adversarial nets
Generative adversarial nets
 
When NAS Meets Robustness: In Search of Robust Architectures against Adversar...
When NAS Meets Robustness:In Search of Robust Architectures againstAdversar...When NAS Meets Robustness:In Search of Robust Architectures againstAdversar...
When NAS Meets Robustness: In Search of Robust Architectures against Adversar...
 
Learning Convolutional Neural Networks for Graphs
Learning Convolutional Neural Networks for GraphsLearning Convolutional Neural Networks for Graphs
Learning Convolutional Neural Networks for Graphs
 
高位合成でDeep learning
高位合成でDeep learning高位合成でDeep learning
高位合成でDeep learning
 
2値ディープニューラルネットワークと組込み機器への応用: 開発中のツール紹介
2値ディープニューラルネットワークと組込み機器への応用: 開発中のツール紹介2値ディープニューラルネットワークと組込み機器への応用: 開発中のツール紹介
2値ディープニューラルネットワークと組込み機器への応用: 開発中のツール紹介
 
0から理解するニューラルネットアーキテクチャサーチ(NAS)
0から理解するニューラルネットアーキテクチャサーチ(NAS)0から理解するニューラルネットアーキテクチャサーチ(NAS)
0から理解するニューラルネットアーキテクチャサーチ(NAS)
 
semantic segmentation サーベイ
semantic segmentation サーベイsemantic segmentation サーベイ
semantic segmentation サーベイ
 
点群深層学習 Meta-study
点群深層学習 Meta-study点群深層学習 Meta-study
点群深層学習 Meta-study
 
20140726.西野研セミナー
20140726.西野研セミナー20140726.西野研セミナー
20140726.西野研セミナー
 
20140705.西野研セミナー
20140705.西野研セミナー20140705.西野研セミナー
20140705.西野研セミナー
 
[DL輪読会]QUASI-RECURRENT NEURAL NETWORKS
[DL輪読会]QUASI-RECURRENT NEURAL NETWORKS[DL輪読会]QUASI-RECURRENT NEURAL NETWORKS
[DL輪読会]QUASI-RECURRENT NEURAL NETWORKS
 
Pred net使ってみた
Pred net使ってみたPred net使ってみた
Pred net使ってみた
 
20150930
2015093020150930
20150930
 
FPGAX2016 ドキュンなFPGA
FPGAX2016 ドキュンなFPGAFPGAX2016 ドキュンなFPGA
FPGAX2016 ドキュンなFPGA
 

Similar to 20210531 ora jam_stackgan

[DL輪読会]StackGAN: Text to Photo-realistic Image Synthesis with Stacked Generat...
[DL輪読会]StackGAN: Text to Photo-realistic Image Synthesis with Stacked Generat...[DL輪読会]StackGAN: Text to Photo-realistic Image Synthesis with Stacked Generat...
[DL輪読会]StackGAN: Text to Photo-realistic Image Synthesis with Stacked Generat...Deep Learning JP
 
NINと画像分類 for 人工知能LT祭
NINと画像分類 for 人工知能LT祭NINと画像分類 for 人工知能LT祭
NINと画像分類 for 人工知能LT祭t dev
 
[AI05] 目指せ、最先端 AI 技術の実活用!Deep Learning フレームワーク 「Microsoft Cognitive Toolkit 」...
[AI05] 目指せ、最先端 AI 技術の実活用!Deep Learning フレームワーク 「Microsoft Cognitive Toolkit 」...[AI05] 目指せ、最先端 AI 技術の実活用!Deep Learning フレームワーク 「Microsoft Cognitive Toolkit 」...
[AI05] 目指せ、最先端 AI 技術の実活用!Deep Learning フレームワーク 「Microsoft Cognitive Toolkit 」...de:code 2017
 
(文献紹介)深層学習による動被写体ロバストなカメラの動き推定
(文献紹介)深層学習による動被写体ロバストなカメラの動き推定(文献紹介)深層学習による動被写体ロバストなカメラの動き推定
(文献紹介)深層学習による動被写体ロバストなカメラの動き推定Morpho, Inc.
 
ICCV 2019 論文紹介 (26 papers)
ICCV 2019 論文紹介 (26 papers)ICCV 2019 論文紹介 (26 papers)
ICCV 2019 論文紹介 (26 papers)Hideki Okada
 
汎用性と高速性を目指したペアリング暗号ライブラリ mcl
汎用性と高速性を目指したペアリング暗号ライブラリ mcl汎用性と高速性を目指したペアリング暗号ライブラリ mcl
汎用性と高速性を目指したペアリング暗号ライブラリ mclMITSUNARI Shigeo
 
NGC でインフラ環境整備の時間短縮!素早く始めるディープラーニング
NGC でインフラ環境整備の時間短縮!素早く始めるディープラーニングNGC でインフラ環境整備の時間短縮!素早く始めるディープラーニング
NGC でインフラ環境整備の時間短縮!素早く始めるディープラーニングNVIDIA Japan
 
[DL輪読会]GQNと関連研究,世界モデルとの関係について
[DL輪読会]GQNと関連研究,世界モデルとの関係について[DL輪読会]GQNと関連研究,世界モデルとの関係について
[DL輪読会]GQNと関連研究,世界モデルとの関係についてDeep Learning JP
 
2012-03-08 MSS研究会
2012-03-08 MSS研究会2012-03-08 MSS研究会
2012-03-08 MSS研究会Kimikazu Kato
 
R-CNNの原理とここ数年の流れ
R-CNNの原理とここ数年の流れR-CNNの原理とここ数年の流れ
R-CNNの原理とここ数年の流れKazuki Motohashi
 
大規模化するピグライフを支えるインフラ ~MongoDBとChefについて~ (前編)
大規模化するピグライフを支えるインフラ ~MongoDBとChefについて~ (前編)大規模化するピグライフを支えるインフラ ~MongoDBとChefについて~ (前編)
大規模化するピグライフを支えるインフラ ~MongoDBとChefについて~ (前編)Akihiro Kuwano
 
ICML2018読み会: Overview of NLP / Adversarial Attacks
ICML2018読み会: Overview of NLP / Adversarial AttacksICML2018読み会: Overview of NLP / Adversarial Attacks
ICML2018読み会: Overview of NLP / Adversarial AttacksMotoki Sato
 
PyCoRAMを用いたグラフ処理FPGAアクセラレータ
PyCoRAMを用いたグラフ処理FPGAアクセラレータPyCoRAMを用いたグラフ処理FPGAアクセラレータ
PyCoRAMを用いたグラフ処理FPGAアクセラレータShinya Takamaeda-Y
 
Globally and Locally Consistent Image Completion
Globally and Locally Consistent Image CompletionGlobally and Locally Consistent Image Completion
Globally and Locally Consistent Image Completionharmonylab
 
An Introduction of DNN Compression Technology and Hardware Acceleration on FPGA
An Introduction of DNN Compression Technology and Hardware Acceleration on FPGAAn Introduction of DNN Compression Technology and Hardware Acceleration on FPGA
An Introduction of DNN Compression Technology and Hardware Acceleration on FPGALeapMind Inc
 
Hivemallで始める不動産価格推定サービス
Hivemallで始める不動産価格推定サービスHivemallで始める不動産価格推定サービス
Hivemallで始める不動産価格推定サービスKentaro Yoshida
 
ADVENTUREの他のモジュール・関連プロジェクトの紹介
ADVENTUREの他のモジュール・関連プロジェクトの紹介ADVENTUREの他のモジュール・関連プロジェクトの紹介
ADVENTUREの他のモジュール・関連プロジェクトの紹介ADVENTURE Project
 

Similar to 20210531 ora jam_stackgan (20)

[DL輪読会]StackGAN: Text to Photo-realistic Image Synthesis with Stacked Generat...
[DL輪読会]StackGAN: Text to Photo-realistic Image Synthesis with Stacked Generat...[DL輪読会]StackGAN: Text to Photo-realistic Image Synthesis with Stacked Generat...
[DL輪読会]StackGAN: Text to Photo-realistic Image Synthesis with Stacked Generat...
 
NINと画像分類 for 人工知能LT祭
NINと画像分類 for 人工知能LT祭NINと画像分類 for 人工知能LT祭
NINと画像分類 for 人工知能LT祭
 
MIRU2018 tutorial
MIRU2018 tutorialMIRU2018 tutorial
MIRU2018 tutorial
 
[AI05] 目指せ、最先端 AI 技術の実活用!Deep Learning フレームワーク 「Microsoft Cognitive Toolkit 」...
[AI05] 目指せ、最先端 AI 技術の実活用!Deep Learning フレームワーク 「Microsoft Cognitive Toolkit 」...[AI05] 目指せ、最先端 AI 技術の実活用!Deep Learning フレームワーク 「Microsoft Cognitive Toolkit 」...
[AI05] 目指せ、最先端 AI 技術の実活用!Deep Learning フレームワーク 「Microsoft Cognitive Toolkit 」...
 
(文献紹介)深層学習による動被写体ロバストなカメラの動き推定
(文献紹介)深層学習による動被写体ロバストなカメラの動き推定(文献紹介)深層学習による動被写体ロバストなカメラの動き推定
(文献紹介)深層学習による動被写体ロバストなカメラの動き推定
 
研究を加速するChainerファミリー
研究を加速するChainerファミリー研究を加速するChainerファミリー
研究を加速するChainerファミリー
 
ICCV 2019 論文紹介 (26 papers)
ICCV 2019 論文紹介 (26 papers)ICCV 2019 論文紹介 (26 papers)
ICCV 2019 論文紹介 (26 papers)
 
汎用性と高速性を目指したペアリング暗号ライブラリ mcl
汎用性と高速性を目指したペアリング暗号ライブラリ mcl汎用性と高速性を目指したペアリング暗号ライブラリ mcl
汎用性と高速性を目指したペアリング暗号ライブラリ mcl
 
NGC でインフラ環境整備の時間短縮!素早く始めるディープラーニング
NGC でインフラ環境整備の時間短縮!素早く始めるディープラーニングNGC でインフラ環境整備の時間短縮!素早く始めるディープラーニング
NGC でインフラ環境整備の時間短縮!素早く始めるディープラーニング
 
[DL輪読会]GQNと関連研究,世界モデルとの関係について
[DL輪読会]GQNと関連研究,世界モデルとの関係について[DL輪読会]GQNと関連研究,世界モデルとの関係について
[DL輪読会]GQNと関連研究,世界モデルとの関係について
 
2012-03-08 MSS研究会
2012-03-08 MSS研究会2012-03-08 MSS研究会
2012-03-08 MSS研究会
 
R-CNNの原理とここ数年の流れ
R-CNNの原理とここ数年の流れR-CNNの原理とここ数年の流れ
R-CNNの原理とここ数年の流れ
 
大規模化するピグライフを支えるインフラ ~MongoDBとChefについて~ (前編)
大規模化するピグライフを支えるインフラ ~MongoDBとChefについて~ (前編)大規模化するピグライフを支えるインフラ ~MongoDBとChefについて~ (前編)
大規模化するピグライフを支えるインフラ ~MongoDBとChefについて~ (前編)
 
ICML2018読み会: Overview of NLP / Adversarial Attacks
ICML2018読み会: Overview of NLP / Adversarial AttacksICML2018読み会: Overview of NLP / Adversarial Attacks
ICML2018読み会: Overview of NLP / Adversarial Attacks
 
PyCoRAMを用いたグラフ処理FPGAアクセラレータ
PyCoRAMを用いたグラフ処理FPGAアクセラレータPyCoRAMを用いたグラフ処理FPGAアクセラレータ
PyCoRAMを用いたグラフ処理FPGAアクセラレータ
 
Prometech Particleworks on Rescale
Prometech Particleworks on RescalePrometech Particleworks on Rescale
Prometech Particleworks on Rescale
 
Globally and Locally Consistent Image Completion
Globally and Locally Consistent Image CompletionGlobally and Locally Consistent Image Completion
Globally and Locally Consistent Image Completion
 
An Introduction of DNN Compression Technology and Hardware Acceleration on FPGA
An Introduction of DNN Compression Technology and Hardware Acceleration on FPGAAn Introduction of DNN Compression Technology and Hardware Acceleration on FPGA
An Introduction of DNN Compression Technology and Hardware Acceleration on FPGA
 
Hivemallで始める不動産価格推定サービス
Hivemallで始める不動産価格推定サービスHivemallで始める不動産価格推定サービス
Hivemallで始める不動産価格推定サービス
 
ADVENTUREの他のモジュール・関連プロジェクトの紹介
ADVENTUREの他のモジュール・関連プロジェクトの紹介ADVENTUREの他のモジュール・関連プロジェクトの紹介
ADVENTUREの他のモジュール・関連プロジェクトの紹介
 

More from Kenichi Sonoda

MLflowで学ぶMLOpsことはじめ
MLflowで学ぶMLOpsことはじめMLflowで学ぶMLOpsことはじめ
MLflowで学ぶMLOpsことはじめKenichi Sonoda
 
機械学習基盤として活用するAutonomous Database
機械学習基盤として活用するAutonomous Database機械学習基盤として活用するAutonomous Database
機械学習基盤として活用するAutonomous DatabaseKenichi Sonoda
 
[Oracle Code Night] Reinforcement Learning Demo Code
[Oracle Code Night] Reinforcement Learning Demo Code[Oracle Code Night] Reinforcement Learning Demo Code
[Oracle Code Night] Reinforcement Learning Demo CodeKenichi Sonoda
 
20210831 code night はじめての強化学習
20210831 code night  はじめての強化学習20210831 code night  はじめての強化学習
20210831 code night はじめての強化学習Kenichi Sonoda
 
[Code night 20200531]machine learning for begginer generation of virtual rea...
[Code night 20200531]machine learning for begginer  generation of virtual rea...[Code night 20200531]machine learning for begginer  generation of virtual rea...
[Code night 20200531]machine learning for begginer generation of virtual rea...Kenichi Sonoda
 
20210226[oracle code night] 機械学習入門:ディープラーニングの基礎から転移学習まで
20210226[oracle code night] 機械学習入門:ディープラーニングの基礎から転移学習まで20210226[oracle code night] 機械学習入門:ディープラーニングの基礎から転移学習まで
20210226[oracle code night] 機械学習入門:ディープラーニングの基礎から転移学習までKenichi Sonoda
 
[Code night] natural language proccessing and machine learning
[Code night] natural language proccessing and machine learning[Code night] natural language proccessing and machine learning
[Code night] natural language proccessing and machine learningKenichi Sonoda
 
20200812 Cbject Detection with OpenCV and CNN
20200812 Cbject Detection with OpenCV and CNN20200812 Cbject Detection with OpenCV and CNN
20200812 Cbject Detection with OpenCV and CNNKenichi Sonoda
 
20200402 oracle cloud infrastructure data science
20200402 oracle cloud infrastructure data science20200402 oracle cloud infrastructure data science
20200402 oracle cloud infrastructure data scienceKenichi Sonoda
 
[Oracle big data jam session #1] Apache Spark ことはじめ
[Oracle big data jam session #1] Apache Spark ことはじめ[Oracle big data jam session #1] Apache Spark ことはじめ
[Oracle big data jam session #1] Apache Spark ことはじめKenichi Sonoda
 
Oracle cloud infrastructure shared file service comparison 20181019 ss
Oracle cloud infrastructure shared file service comparison 20181019 ssOracle cloud infrastructure shared file service comparison 20181019 ss
Oracle cloud infrastructure shared file service comparison 20181019 ssKenichi Sonoda
 
Oci file storage service deep dive 20181001 ss
Oci file storage service deep dive 20181001 ssOci file storage service deep dive 20181001 ss
Oci file storage service deep dive 20181001 ssKenichi Sonoda
 
Configureing analytics system with apache spark and object storage service of...
Configureing analytics system with apache spark and object storage service of...Configureing analytics system with apache spark and object storage service of...
Configureing analytics system with apache spark and object storage service of...Kenichi Sonoda
 
Oci object storage deep dive 20190329 ss
Oci object storage deep dive 20190329 ssOci object storage deep dive 20190329 ss
Oci object storage deep dive 20190329 ssKenichi Sonoda
 

More from Kenichi Sonoda (15)

Ocha_MLflow_MLOps.pdf
Ocha_MLflow_MLOps.pdfOcha_MLflow_MLOps.pdf
Ocha_MLflow_MLOps.pdf
 
MLflowで学ぶMLOpsことはじめ
MLflowで学ぶMLOpsことはじめMLflowで学ぶMLOpsことはじめ
MLflowで学ぶMLOpsことはじめ
 
機械学習基盤として活用するAutonomous Database
機械学習基盤として活用するAutonomous Database機械学習基盤として活用するAutonomous Database
機械学習基盤として活用するAutonomous Database
 
[Oracle Code Night] Reinforcement Learning Demo Code
[Oracle Code Night] Reinforcement Learning Demo Code[Oracle Code Night] Reinforcement Learning Demo Code
[Oracle Code Night] Reinforcement Learning Demo Code
 
20210831 code night はじめての強化学習
20210831 code night  はじめての強化学習20210831 code night  はじめての強化学習
20210831 code night はじめての強化学習
 
[Code night 20200531]machine learning for begginer generation of virtual rea...
[Code night 20200531]machine learning for begginer  generation of virtual rea...[Code night 20200531]machine learning for begginer  generation of virtual rea...
[Code night 20200531]machine learning for begginer generation of virtual rea...
 
20210226[oracle code night] 機械学習入門:ディープラーニングの基礎から転移学習まで
20210226[oracle code night] 機械学習入門:ディープラーニングの基礎から転移学習まで20210226[oracle code night] 機械学習入門:ディープラーニングの基礎から転移学習まで
20210226[oracle code night] 機械学習入門:ディープラーニングの基礎から転移学習まで
 
[Code night] natural language proccessing and machine learning
[Code night] natural language proccessing and machine learning[Code night] natural language proccessing and machine learning
[Code night] natural language proccessing and machine learning
 
20200812 Cbject Detection with OpenCV and CNN
20200812 Cbject Detection with OpenCV and CNN20200812 Cbject Detection with OpenCV and CNN
20200812 Cbject Detection with OpenCV and CNN
 
20200402 oracle cloud infrastructure data science
20200402 oracle cloud infrastructure data science20200402 oracle cloud infrastructure data science
20200402 oracle cloud infrastructure data science
 
[Oracle big data jam session #1] Apache Spark ことはじめ
[Oracle big data jam session #1] Apache Spark ことはじめ[Oracle big data jam session #1] Apache Spark ことはじめ
[Oracle big data jam session #1] Apache Spark ことはじめ
 
Oracle cloud infrastructure shared file service comparison 20181019 ss
Oracle cloud infrastructure shared file service comparison 20181019 ssOracle cloud infrastructure shared file service comparison 20181019 ss
Oracle cloud infrastructure shared file service comparison 20181019 ss
 
Oci file storage service deep dive 20181001 ss
Oci file storage service deep dive 20181001 ssOci file storage service deep dive 20181001 ss
Oci file storage service deep dive 20181001 ss
 
Configureing analytics system with apache spark and object storage service of...
Configureing analytics system with apache spark and object storage service of...Configureing analytics system with apache spark and object storage service of...
Configureing analytics system with apache spark and object storage service of...
 
Oci object storage deep dive 20190329 ss
Oci object storage deep dive 20190329 ssOci object storage deep dive 20190329 ss
Oci object storage deep dive 20190329 ss
 

20210531 ora jam_stackgan

  • 2. Copyright © 2021, Oracle and/or its affiliates 2 “Flying birds” input output
  • 3. 生成できる 解像度 References GAN-INT-CLS 64 Generative Adversarial Text to Image Synthesis, ICML 2016 GAWWN 128 Learning What and Where to Draw, NIPS 2016 StackGAN 256 Text to Photo-realistic Image Synthesis with Stacked Generative Adversarial Networks, ICCV 2017 TAC-GAN 128 Text Conditioned Auxiliary Classifier Generative Adversarial Network, arXiv 2017 AttnGAN 256 Fine-Grained Text to Image Generation with Attentional Generative Adversarial Networks, CVPR 2018 FusedGAN 64 Semi-supervised FusedGAN for Conditional Image Generation, arXiv 2018 HDGAN 512 Photographic Text-to-Image Synthesis with a Hierarchically- nested Adversarial Network, arXiv 2018 テキストから画像を生成するGAN Copyright © 2021, Oracle and/or its affiliates 3 参考: http://akmtn.hatenablog.com/entry/2018/03/25/182759
  • 4. • 著者 • Han Zhang, Tao Xu, Hongsheng Li, Shaoting Zhang, Xiaogang Wang, Xiaolei Huang, Dimitris Metaxas • Rutgers University, Lehigh University, The Chinese University of Hong Kong, Baidu Research • 内容 • 先行研究では、テキストから画像を生成することは、大ま かな特徴は表現できても、細部まで表現できなかった。 • そこでGANを利用して高精度の画像生成モデルを提唱。 • StackGANでは2段階のアプローチにより構成される。 • StageⅠ: テキストから低解像度の画像を生成。 • StageⅡ: Ⅰの生成画像とテキストから高解像度の画像を生成。 • 結果、先行研究のテキストから画像を生成する技術より、 高精度の画像を生成できた。 StackGAN: Text to Photo-realistic Image Synthesis with Stacked Generative Adversarial Networks Copyright © 2021, Oracle and/or its affiliates 4 https://arxiv.org/pdf/1612.03242.pdf
  • 5. アーキテクチャ Copyright © 2021, Oracle and/or its affiliates 5 テキスト表現のGauss分布と 作成したGauss分布を組み合 わせて、入力の多様性を維持 大まかな特徴を掴んだ画像を 生成 実物、生成物の画像の識別 StageⅠで生成した画像を入力に利用 StageⅠで漏れた詳細な特徴を把握し、 より解像度の高い画像を生成 実物、生成物の画像の識別 参考: StackGAN: Text to Photo-realistic Image Synthesis with Stacked Generative Adversarial Networks
  • 6. • パラメータ • Up-sampling block • 3 x 3 , ストライド1の畳み込みを適用 • 最終層以外は畳み込み層の後にバッチ正則化とReLU関数を適用 • 128 x 128 StackGANモデルでは、2つの残差ブロックを利用 • 256 x 256 StackGANモデルでは、4つの残差ブロックを利用 • Down-sampling block • 4 x 4, ストライド2の畳み込みを適用 • 最初の層以外はバッチ正則化とLeakyReLUを適用 • Vector dimension etc. • Ng = 128 (Conditioningベクトルの次元) • Nz = 100 (ノイズベクトルの次元) • Mg = 16 (Ⅱ. Generator: 圧縮するサイズ) • Md = 4 (Ⅰ. Discriminator: 圧縮するサイズ) • Nd = 128 (Ⅰ. テキストEmbeddingを圧縮する次元) • W0 = H0 = 64 (StageⅠで生成される画像サイズ. W0 x H0) • W = H = 256 (StageⅡで生成される画像サイズ. W x H) 実装方法 Copyright © 2021, Oracle and/or its affiliates 6 • 学習 • StageⅠのG, Dの学習 • 600 epoch • StageⅡは固定 • StageⅡのG, Dの学習 • 600 epoch • StageⅠは固定 • Optimizer(最適化アルゴリズム) • バッチサイズ64のADAMを利用 • 学習率0.0002で100 epoch毎に半減させる 参考: StackGAN: Text to Photo-realistic Image Synthesis with Stacked Generative Adversarial Networks
  • 7. GAN-INT-CLS, GAWWNとの比較結果 Copyright © 2021, Oracle and/or its affiliates 7 参考: StackGAN: Text to Photo-realistic Image Synthesis with Stacked Generative Adversarial Networks
  • 8. • https://github.com/anthonyftwang/StackGAN-Pytorch-Python3 を参考に、構造やコードの概要に ついて説明していく。 • 学習済みモデルを利用して、テキスト表現から画像生成してみる。 • StackGANの応用を考えていく(ざっくり) デモ Copyright © 2021, Oracle and/or its affiliates 8
  • 9. 構造 Copyright © 2021, Oracle and/or its affiliates 9 StackGAN-Pytorch-Python3-master code data output models cfg miscc main.py model.py train.py (省)パラメータの.ymlファイル (省)CA処理の.pyファイル etc. train test (省)テキストベクトル, 画像ファイル (省)テキストファイル stageⅠ stageⅡ (省)生成モデル、生成画像ファイルetc. (省)生成モデル、生成画像ファイルetc. netG_epoch_x.pth (モデル) output_imgs (省)新規テキストから生成した画像 output