SlideShare a Scribd company logo
1 of 35
Download to read offline
超解像
Meta Study of Super Resolution
@s_aiueo32
東京電機⼤学⼤学院情報通信⼯学専攻 内⽥奏
1
今⽇話すこと & 話さないこと
話すこと
◦ 単⼀画像超解像の話
◦ 深層学習を⽤いた超解像モデルの話
◦ メタな話
話さないこと
◦ 深層学習以前の超解像の話(Example-based SR, Neighbor Embedding, Sparse Coding etc.)
◦ Reference-basedな超解像の話(複数の画像を使う⼿法)
◦ ⾼度な数学的な話
◦ そもそもGANを⽣成モデルとは認めな(ry という話
2
そもそもの話
3
超解像とは
⼊⼒信号の解像度を⾼めて出⼒する技術 i.e. ⾼解像度化
◦ ⾼周波成分を復元する問題を指す場合もある
◦ 画像以外にも⾳声や電波のセンシングの⽂脈でも登場
4
超解像画像 𝐼"#低解像度画像 𝐼$#
Algorithm
問題設定
Image Restoration問題
◦ 低解像度画像 𝐼$#は⾼解像度画像 𝐼%#が劣化して⽣成されたと仮定
◦ 劣化 𝒟の逆変換 ℱを獲得することを⽬標とする
5
超解像画像 𝐼"#低解像度画像 𝐼$#
復元劣化
高解像度画像 𝐼%#
𝒟 𝐼%#; 𝛿 ℱ 𝐼$#; 𝜃
超解像の難しさ(1)
ill-posed問題
◦ ⼀つの⼊⼒画像に対して妥当な出⼒画像が無数に存在
◦ 拡⼤倍率の増加に伴ってill-posedの度合いもきつくなる
6
復元
https://buildersbox.corp-sansan.com/entry/2019/02/21/110000
ex.)	1x3を2x6に超解像
超解像の難しさ(2)
劣化過程は未知(であるべき)
◦ 解像度が低い or ⾼周波成分が⽋ける原因は様々
◦ 撮像系の問題: センササイズ,焦点距離,絞り etc.
◦ ソフトウェア側の問題: 画像圧縮,リサイズがかかっているかも etc.
◦ 実際にはSelf-supervised learningとすることが多い
◦ HR画像を既知のリサイズ⼿法で縮⼩してLR画像を作成
◦ 試しやすい反⾯,特定のリサイズしか対応できない懸念
評価指標が⾊々ある
◦ MSE, MAE, PSNR, SSIM, VIF, NIQE etc.
◦ 画素間の距離 vs ⾃然さ
◦ 詳細は後ほど
7
𝐼%#𝐼$#
学習
リサイズ
データセットの話
8
Set5
[Bevilacqua et al. BMVC2012]で使⽤されたベンチマーク
9
Set14
[Zeyde et al. Springer2012]で使⽤されたベンチマーク
10
BSDS300 or 500
The Berkeley Segmentation Dataset and Benchmark
◦ セグメンテーション⽤のもの
◦ BSDS300のほうが使われてる感じがする
◦ trainデータ200枚を指してBSD200と表現されたりする
◦ testテータ100枚も同様にBSD100と⾔われたりする
◦ BSDS500は300の強化版
11
Urban100
[J. Huang et al. CVPR2015]で使⽤されたベンチマーク
◦ 都市部の建造物のデータセット
◦ ⾼周波成分をよく含む
12
Manga109
⽇本のプロの漫画家によって描かれた109冊の漫画
◦ 東⼤相澤研が公開するデータセット
◦ 線画超解像のベンチマーク
◦ ⾼周波成分をよく含む
13
http://www.manga109.org/ja/
DIV2K
NTIRE2017のコンペ⽤データ
◦ testデータのGround Truthが未配布
◦ 学習にだけ使う
◦ 加⼯された画像が多いイメージ(インスタ映えしそうな)
14
モデルの話
15
SRCNN [C. Dong et al. ECCV2014]
初めてCNNを超解像に適⽤
◦ 3層のCNNで超解像
◦ 𝑓,,𝑓. = 9, 5 , 𝑛,, 𝑛3 = 64, 32 を採⽤
◦ SGD+MSEで3⽇間学習
◦ ⼊⼒画像は事前に出⼒サイズにリサイズ
◦ Pre-Upsampling SRという
◦ Sparse-CodingをCNNと⾒なしている
◦ 1層⽬: パッチ抽出とSparse表現
◦ 2層⽬: 低解像度空間から⾼解像度空間への写像
◦ 3層⽬: 再構成
16
従来手法との比較
VDSR [J. Kim et al. CVPR2016]
SRCNNの多層化 + 学習の⾼速化
◦ 20層のCNN
◦ 「The Deeper,The Better」
◦ Residual構造 + Gradient Clippingの導⼊
◦ Residual構造により特徴マップの値域を⼩さくする
◦ 勾配をクリップして勾配爆発/消失を抑制
◦ ⾼い学習率の設定が可能
◦ 収束までの時間を4時間に短縮
◦ マルチスケールな学習
◦ 複数の倍率を混ぜて学習
17
FSRCNN [C. Dong et al. ECCV2016]
SRCNNを約40倍⾼速化
◦ Deconvolutionの導⼊
◦ LR画像に直接畳み込みを適⽤
◦ 中間の特徴マップのサイズが⼩さい
◦ 層を増やしてもパラメータと処理時間は減少
◦ 最後にDeconvolutionでUpsampling
◦ Post-Upsampling SRという(現在の主流)
◦ 倍率の⾃由度は下がる(⾮整数は厳しい)
◦ その他の⼯夫
◦ 5x5convを3x3conv 2回に置き換え
◦ VGG的なアプローチ
◦ 活性化にPReLU
18
ESPCN [W. Shi et al. CVPR2016]
Subpixel Convolutionの導⼊
◦ Deconvolutionの弱点
◦ 位置によって関与する⼊⼒画素数が異なることでCheckerboard Artifactが出現
◦ ゼロ埋めに対する演算が無駄,遅い
◦ Subpixel Convolution
◦ ⼊⼒マップを畳み込みで𝑟3
枚のマップに増やす(𝑟は倍率)
◦ ピクセルを再配置
◦ 精度向上 + x10⾼速化 (vs SRCNN)
19
https://distill.pub/2016/deconv-checkerboard/
SRGAN [C. Ledig et al. CVPR2017]
GAN超解像の先駆け
◦ SRResNet
◦ SRGANのGenerator部分
◦ ResBlockをスタックしていくシンプルな構造
◦ global skip-connection
◦ SRGAN
◦ GANの枠組みで学習
◦ Perceptual loss function
◦ 𝑙:;
= 𝑙<== + 𝑙?@A
◦ 𝑙<==はpretrained VGGの中間特徴マップの距離
◦ 評価指標ではSRResNet,MOS評価ではSRGAN
◦ GANを導⼊すると⾃然な画像が得られるが,PSNRは下がる
◦ 画素の距離を最適化するのは果たして正しいのか?
20
SRGAN vs SRResNet
21
滑らかすぎる ⾃然だが似てない ⽬が離れすぎている
Perception Distortion Tradeoff
[Y. Blau et al. CVPR2018]
Image Restorationにおけるメトリックと知覚品質の関係を定量評価
◦ メトリックと知覚品質の間にトレードオフを発⾒
◦ Adversarial Lossの係数をいじるとトレードオフを横断できる
◦ 最適な動作点は応⽤依存
22
両立しているモデルは存在しない
EDSR [B. Lim et al. CVPRW2017]
NTIRE2017 Winnerモデル
◦ SRResNetに類似した構造
◦ Batch Normalizationを除去
◦ BNを使うとぼやけたりartifactが出る
◦ 計算をシンプルにしたい
◦ 使わなくても⼗分収束する(ResNetのおかげ?)
◦ Self-ensemble
◦ test setでの精度を上げるテクニック
◦ rot90, flipした画像を超解像
◦ 元の位置に戻して平均をとる
23
[Radu et	al.	CVPR2016]より引用
LapSRN [W. Lai et al. CVPR2017]
Progressiveな超解像
◦ Feature Extraction Branch: 画像のエッジなどを強調するマップを出⼒(まるでラプラシアン)
◦ Image Reconstruction Branch: ぼやけた画像+強調マップ=超解像結果
24
RDN [Y. Zhang et al. CVPR2018]
ResNet + DenseNet
◦ Residual-In-Residual(RIR)な構造
◦ ResidualにするためにDenseNetの出⼒に1x1convを⼊れてチャネル数を合わせる
25
DBPN [Haris et al. CVPR2018]
Up-Downを繰り返して効率的に特徴抽出
◦ Iterative up-and-down sampling SR
◦ 7回のup-and-down
◦ Dense-DBPNはRDNと同じ感じ
◦ コンペで強かった
◦ NTIRE2018 Track 1 Winner
◦ 10回up-and-downしたDense-DBPNを使ってるっぽい
◦ PIRM2018 Challenge Region 2 Winner
◦ GANを導⼊
26
RCAN [Y. Zhang et al. ECCV2018]
超解像でもAttentionis All You Needなのか!?
◦ Channel Attention(CA)を導⼊
◦ SENetの派⽣
◦ 各チャネルに重み付けして効率的に特徴抽出
◦ CAを含むブロック(RCAB)をスタック
◦ RIR構造をとる
◦ 出⼒結果がめちゃくちゃ綺麗!
27
メタな話
誰が強いのか
成功例に素早く反応すべし
現場で使えるのか
フレームワークは何がいい?
マシンリソース⾟くない?
28
どこが強いのか
The Chinese University of Hong Kong
◦ SRCNNの著者のChao Dongがいた研究機関
◦ 今も⼀緒に⾊々やってる
◦ CUHK-SenseTime Joint Lab なるものが…
◦ ECCV2018のPIRMチャレンジでも優勝した模様
◦ ゲームのテクスチャを超解像して話題になったやつ
Twitter
◦ ESPCN & SRGANの発表
ETH Zurich
◦ Low-level vision全般に強い
29
成功例に素早く反応すべし
時系列を追っていると,発表された⼿法がすぐに組み込まれるのがわかる
◦ VDSR: ResNet
◦ EDSR: SRResNet
◦ RDN: DenseNet
◦ RCAN: SENet
◦ 網羅的サーベイ必要
組み込むだけではダメ
◦ 重要な部分を理解していらない部分は捨てる
◦ EDSRがいい例
◦ 分野の歴史を知るべし
◦ 継続的な網羅的サーベイ必要
30
現場で使えるのか
半分イエス,半分ノー
超解像は試しやすいタスク
◦ 画像さえあれば縮⼩して学習するだけ
Pretrainedモデルはそこまでうまくいかない
◦ SRGAN for Super-Resolving Low-Resolution Food Images [Nagano et al. 2018]
◦ クックパッドの論⽂
◦ 単純に適⽤しただけではダメ
◦ 特定の料理画像に特化したSRGANの学習法を提案
◦ 実際のユースケースを考える
◦ ここでは⾃然な復元が好ましいぽいためSRGANを選択
◦ OCR精度を上げたいとかだと…?
31
その他のメタ
フレームワークはどれがいい?
◦ 今の所PyTorch優勢
◦ Subpixel Convolutionがネイティヴ実装されてるのが⼤きい
◦ tfだと,conv -> depth2spaceってやらなきゃダメ
◦ NTIRE2018では (pytorch, tf, matconvnet)=(12, 8, 3)
マシンリソース⾟くない?
◦ 学習はそんなに⾟くない
◦ batch_size=1,48x48とかが主流なため
◦ 推論がキツい
◦ 画像をパッチに切って後でつなぎ合わせては? -> 端が⾟い
◦ スライドさせて平均とってもいいかも.self-emsenbleが許されるくらい.
◦ Recursiveなアプローチを検討する
32
⽂献⼀覧
[1] Dong, Chao, et al. "Learning a deep convolutional network for image super-resolution." Europeanconference on computer vision. Springer, Cham, 2014.
[2] Kim, Jiwon, Jung Kwon Lee, and Kyoung Mu Lee. "Accurate image super-resolution using very deep convolutional networks." Proceedings of the IEEE conference on computer vision and pattern recognition.
2016.
[3] Dong, Chao, Chen Change Loy, and XiaoouTang. "Accelerating the super-resolution convolutional neural network." European conference on computer vision. Springer, Cham, 2016.
[4] Shi, Wenzhe, et al. "Real-time single image and video super-resolution using an efficient sub-pixel convolutional neural network." Proceedings of the IEEE conference on computer vision and pattern
recognition. 2016.
[5] Ledig, Christian, et al. "Photo-realistic single image super-resolution using a generative adversarial network." Proceedings of the IEEE conference on computer vision and pattern recognition. 2017.
[6] Blau, Yochai, and Tomer Michaeli. "The perception-distortion tradeoff." Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2018.
[7] Lim, Bee, et al. "Enhanced deep residual networks for single image super-resolution." Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition Workshops. 2017.
[8] Lai, Wei-Sheng, et al. "Deep laplacian pyramid networks for fast and accurate super-resolution." Proceedings of the IEEE conference on computer vision and pattern recognition. 2017.
[9]Zhang, Yulun, et al. "Residual dense network for image super-resolution." Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2018.
[10] Haris, Muhammad, Gregory Shakhnarovich, and Norimichi Ukita. "Deep back-projection networks for super-resolution." Proceedings of the IEEE conference on computer vision and pattern recognition. 2018.
[11] Zhang, Yulun, et al. "Image super-resolution using very deep residual channel attention networks." Proceedings of the EuropeanConference on Computer Vision (ECCV). 2018.
[12] Nagano, Yudai, and Yohei Kikuta. "SRGAN for super-resolving low-resolution food images." Proceedings of the Joint Workshop on Multimedia for Cooking and Eating Activities and Multimedia Assisted Dietary
Management. ACM, 2018.
[13] Timofte, Radu, Rasmus Rothe, and Luc VanGool. "Seven ways to improve example-based single image super resolution." Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition.
2016.
33
付録 今回参考にしたもの
34
https://paperswithcode.com/
付録 今回参考にしたもの
サーベイ論⽂
◦ 半年に⼀本くらいある
◦ Yang, Wenming, et al. "Deep learning for single image super-resolution: A brief
review." arXiv preprint arXiv:1808.03344(2018).
◦ Yang, Wenming, et al. " Deep Learning for Image Super-Resolution: A Survey." arXiv
preprint arXiv: 1902.06068(20189).
衝撃的にまとまっていた記事
◦ ”トップ学会採択論⽂にみる、超解像ディープラーニング技術のまとめ” -
https://qiita.com/jiny2001/items/e2175b52013bf655d617
◦ お恥ずかしながら⾃分のアドベントカレンダーの次の枠に投稿されていた
◦ スライド作ってる途中に⾒つけて,俺なぞってるだけやんってなった
35

More Related Content

What's hot

【DL輪読会】ViT + Self Supervised Learningまとめ
【DL輪読会】ViT + Self Supervised Learningまとめ【DL輪読会】ViT + Self Supervised Learningまとめ
【DL輪読会】ViT + Self Supervised LearningまとめDeep Learning JP
 
[DL輪読会]Convolutional Conditional Neural Processesと Neural Processes Familyの紹介
[DL輪読会]Convolutional Conditional Neural Processesと Neural Processes Familyの紹介[DL輪読会]Convolutional Conditional Neural Processesと Neural Processes Familyの紹介
[DL輪読会]Convolutional Conditional Neural Processesと Neural Processes Familyの紹介Deep Learning JP
 
【DL輪読会】Reflash Dropout in Image Super-Resolution
【DL輪読会】Reflash Dropout in Image Super-Resolution【DL輪読会】Reflash Dropout in Image Super-Resolution
【DL輪読会】Reflash Dropout in Image Super-ResolutionDeep Learning JP
 
【DL輪読会】An Image is Worth One Word: Personalizing Text-to-Image Generation usi...
【DL輪読会】An Image is Worth One Word: Personalizing Text-to-Image Generation usi...【DL輪読会】An Image is Worth One Word: Personalizing Text-to-Image Generation usi...
【DL輪読会】An Image is Worth One Word: Personalizing Text-to-Image Generation usi...Deep Learning JP
 
最近のDeep Learning (NLP) 界隈におけるAttention事情
最近のDeep Learning (NLP) 界隈におけるAttention事情最近のDeep Learning (NLP) 界隈におけるAttention事情
最近のDeep Learning (NLP) 界隈におけるAttention事情Yuta Kikuchi
 
【DL輪読会】Unpaired Image Super-Resolution Using Pseudo-Supervision
【DL輪読会】Unpaired Image Super-Resolution Using Pseudo-Supervision【DL輪読会】Unpaired Image Super-Resolution Using Pseudo-Supervision
【DL輪読会】Unpaired Image Super-Resolution Using Pseudo-SupervisionDeep Learning JP
 
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料Yusuke Uchida
 
【DL輪読会】"Instant Neural Graphics Primitives with a Multiresolution Hash Encoding"
【DL輪読会】"Instant Neural Graphics Primitives with a Multiresolution Hash Encoding"【DL輪読会】"Instant Neural Graphics Primitives with a Multiresolution Hash Encoding"
【DL輪読会】"Instant Neural Graphics Primitives with a Multiresolution Hash Encoding"Deep Learning JP
 
【DL輪読会】DINOv2: Learning Robust Visual Features without Supervision
【DL輪読会】DINOv2: Learning Robust Visual Features without Supervision【DL輪読会】DINOv2: Learning Robust Visual Features without Supervision
【DL輪読会】DINOv2: Learning Robust Visual Features without SupervisionDeep Learning JP
 
Deep Learningによる超解像の進歩
Deep Learningによる超解像の進歩Deep Learningによる超解像の進歩
Deep Learningによる超解像の進歩Hiroto Honda
 
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence ModelingDeep Learning JP
 
SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜
SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜
SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜SSII
 
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)Deep Learning JP
 
SSII2020 [OS2-02] 教師あり事前学習を凌駕する「弱」教師あり事前学習
SSII2020 [OS2-02] 教師あり事前学習を凌駕する「弱」教師あり事前学習SSII2020 [OS2-02] 教師あり事前学習を凌駕する「弱」教師あり事前学習
SSII2020 [OS2-02] 教師あり事前学習を凌駕する「弱」教師あり事前学習SSII
 
Transformerを雰囲気で理解する
Transformerを雰囲気で理解するTransformerを雰囲気で理解する
Transformerを雰囲気で理解するAtsukiYamaguchi1
 
ドメイン適応の原理と応用
ドメイン適応の原理と応用ドメイン適応の原理と応用
ドメイン適応の原理と応用Yoshitaka Ushiku
 
3D CNNによる人物行動認識の動向
3D CNNによる人物行動認識の動向3D CNNによる人物行動認識の動向
3D CNNによる人物行動認識の動向Kensho Hara
 
SSII2020SS: 微分可能レンダリングの最新動向 〜「見比べる」ことによる3次元理解 〜​
SSII2020SS:  微分可能レンダリングの最新動向 〜「見比べる」ことによる3次元理解 〜​SSII2020SS:  微分可能レンダリングの最新動向 〜「見比べる」ことによる3次元理解 〜​
SSII2020SS: 微分可能レンダリングの最新動向 〜「見比べる」ことによる3次元理解 〜​SSII
 

What's hot (20)

【DL輪読会】ViT + Self Supervised Learningまとめ
【DL輪読会】ViT + Self Supervised Learningまとめ【DL輪読会】ViT + Self Supervised Learningまとめ
【DL輪読会】ViT + Self Supervised Learningまとめ
 
[DL輪読会]Convolutional Conditional Neural Processesと Neural Processes Familyの紹介
[DL輪読会]Convolutional Conditional Neural Processesと Neural Processes Familyの紹介[DL輪読会]Convolutional Conditional Neural Processesと Neural Processes Familyの紹介
[DL輪読会]Convolutional Conditional Neural Processesと Neural Processes Familyの紹介
 
【DL輪読会】Reflash Dropout in Image Super-Resolution
【DL輪読会】Reflash Dropout in Image Super-Resolution【DL輪読会】Reflash Dropout in Image Super-Resolution
【DL輪読会】Reflash Dropout in Image Super-Resolution
 
【DL輪読会】An Image is Worth One Word: Personalizing Text-to-Image Generation usi...
【DL輪読会】An Image is Worth One Word: Personalizing Text-to-Image Generation usi...【DL輪読会】An Image is Worth One Word: Personalizing Text-to-Image Generation usi...
【DL輪読会】An Image is Worth One Word: Personalizing Text-to-Image Generation usi...
 
最近のDeep Learning (NLP) 界隈におけるAttention事情
最近のDeep Learning (NLP) 界隈におけるAttention事情最近のDeep Learning (NLP) 界隈におけるAttention事情
最近のDeep Learning (NLP) 界隈におけるAttention事情
 
【DL輪読会】Unpaired Image Super-Resolution Using Pseudo-Supervision
【DL輪読会】Unpaired Image Super-Resolution Using Pseudo-Supervision【DL輪読会】Unpaired Image Super-Resolution Using Pseudo-Supervision
【DL輪読会】Unpaired Image Super-Resolution Using Pseudo-Supervision
 
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
 
【DL輪読会】"Instant Neural Graphics Primitives with a Multiresolution Hash Encoding"
【DL輪読会】"Instant Neural Graphics Primitives with a Multiresolution Hash Encoding"【DL輪読会】"Instant Neural Graphics Primitives with a Multiresolution Hash Encoding"
【DL輪読会】"Instant Neural Graphics Primitives with a Multiresolution Hash Encoding"
 
【DL輪読会】DINOv2: Learning Robust Visual Features without Supervision
【DL輪読会】DINOv2: Learning Robust Visual Features without Supervision【DL輪読会】DINOv2: Learning Robust Visual Features without Supervision
【DL輪読会】DINOv2: Learning Robust Visual Features without Supervision
 
Deep Learningによる超解像の進歩
Deep Learningによる超解像の進歩Deep Learningによる超解像の進歩
Deep Learningによる超解像の進歩
 
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling
 
Lucas kanade法について
Lucas kanade法についてLucas kanade法について
Lucas kanade法について
 
SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜
SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜
SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜
 
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)
 
SSII2020 [OS2-02] 教師あり事前学習を凌駕する「弱」教師あり事前学習
SSII2020 [OS2-02] 教師あり事前学習を凌駕する「弱」教師あり事前学習SSII2020 [OS2-02] 教師あり事前学習を凌駕する「弱」教師あり事前学習
SSII2020 [OS2-02] 教師あり事前学習を凌駕する「弱」教師あり事前学習
 
Transformerを雰囲気で理解する
Transformerを雰囲気で理解するTransformerを雰囲気で理解する
Transformerを雰囲気で理解する
 
実装レベルで学ぶVQVAE
実装レベルで学ぶVQVAE実装レベルで学ぶVQVAE
実装レベルで学ぶVQVAE
 
ドメイン適応の原理と応用
ドメイン適応の原理と応用ドメイン適応の原理と応用
ドメイン適応の原理と応用
 
3D CNNによる人物行動認識の動向
3D CNNによる人物行動認識の動向3D CNNによる人物行動認識の動向
3D CNNによる人物行動認識の動向
 
SSII2020SS: 微分可能レンダリングの最新動向 〜「見比べる」ことによる3次元理解 〜​
SSII2020SS:  微分可能レンダリングの最新動向 〜「見比べる」ことによる3次元理解 〜​SSII2020SS:  微分可能レンダリングの最新動向 〜「見比べる」ことによる3次元理解 〜​
SSII2020SS: 微分可能レンダリングの最新動向 〜「見比べる」ことによる3次元理解 〜​
 

Similar to [cvpaper.challenge] 超解像メタサーベイ #meta-study-group勉強会

大規模画像認識とその周辺
大規模画像認識とその周辺大規模画像認識とその周辺
大規模画像認識とその周辺n_hidekey
 
SSII2014 チュートリアル資料
SSII2014 チュートリアル資料SSII2014 チュートリアル資料
SSII2014 チュートリアル資料Masayuki Tanaka
 
[DL輪読会]Dense Captioning分野のまとめ
[DL輪読会]Dense Captioning分野のまとめ[DL輪読会]Dense Captioning分野のまとめ
[DL輪読会]Dense Captioning分野のまとめDeep Learning JP
 
「解説資料」ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
「解説資料」ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation 「解説資料」ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
「解説資料」ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation Takumi Ohkuma
 
【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose EstimationDeep Learning JP
 
Deep learningの概要とドメインモデルの変遷
Deep learningの概要とドメインモデルの変遷Deep learningの概要とドメインモデルの変遷
Deep learningの概要とドメインモデルの変遷Taiga Nomi
 
ADVENTUREの他のモジュール・関連プロジェクトの紹介
ADVENTUREの他のモジュール・関連プロジェクトの紹介ADVENTUREの他のモジュール・関連プロジェクトの紹介
ADVENTUREの他のモジュール・関連プロジェクトの紹介ADVENTURE Project
 
これからのコンピュータビジョン技術 - cvpaper.challenge in PRMU Grand Challenge 2016 (PRMU研究会 2...
これからのコンピュータビジョン技術 - cvpaper.challenge in PRMU Grand Challenge 2016 (PRMU研究会 2...これからのコンピュータビジョン技術 - cvpaper.challenge in PRMU Grand Challenge 2016 (PRMU研究会 2...
これからのコンピュータビジョン技術 - cvpaper.challenge in PRMU Grand Challenge 2016 (PRMU研究会 2...cvpaper. challenge
 
Adversarial Networks の画像生成に迫る @WBAFLカジュアルトーク#3
Adversarial Networks の画像生成に迫る @WBAFLカジュアルトーク#3Adversarial Networks の画像生成に迫る @WBAFLカジュアルトーク#3
Adversarial Networks の画像生成に迫る @WBAFLカジュアルトーク#3Daiki Shimada
 
Soft Rasterizer: A Differentiable Renderer for Image-based 3D Reasoning
Soft Rasterizer: A Differentiable Renderer for Image-based 3D ReasoningSoft Rasterizer: A Differentiable Renderer for Image-based 3D Reasoning
Soft Rasterizer: A Differentiable Renderer for Image-based 3D ReasoningKohei Nishimura
 
Deeply-Recursive Convolutional Network for Image Super-Resolution
Deeply-Recursive Convolutional Network for Image Super-ResolutionDeeply-Recursive Convolutional Network for Image Super-Resolution
Deeply-Recursive Convolutional Network for Image Super-Resolutionharmonylab
 
[DL輪読会]HoloGAN: Unsupervised learning of 3D representations from natural images
[DL輪読会]HoloGAN: Unsupervised learning of 3D representations from natural images[DL輪読会]HoloGAN: Unsupervised learning of 3D representations from natural images
[DL輪読会]HoloGAN: Unsupervised learning of 3D representations from natural imagesDeep Learning JP
 
semantic segmentation サーベイ
semantic segmentation サーベイsemantic segmentation サーベイ
semantic segmentation サーベイyohei okawa
 
Convolutional Neural Networks のトレンド @WBAFLカジュアルトーク#2
Convolutional Neural Networks のトレンド @WBAFLカジュアルトーク#2Convolutional Neural Networks のトレンド @WBAFLカジュアルトーク#2
Convolutional Neural Networks のトレンド @WBAFLカジュアルトーク#2Daiki Shimada
 
[論文紹介] Convolutional Neural Network(CNN)による超解像
[論文紹介] Convolutional Neural Network(CNN)による超解像[論文紹介] Convolutional Neural Network(CNN)による超解像
[論文紹介] Convolutional Neural Network(CNN)による超解像Rei Takami
 
畳み込みニューラルネットワークの高精度化と高速化
畳み込みニューラルネットワークの高精度化と高速化畳み込みニューラルネットワークの高精度化と高速化
畳み込みニューラルネットワークの高精度化と高速化Yusuke Uchida
 
SSII2020 [O3-01] Extreme 3D センシング
SSII2020 [O3-01]  Extreme 3D センシングSSII2020 [O3-01]  Extreme 3D センシング
SSII2020 [O3-01] Extreme 3D センシングSSII
 
HoloGAN: Unsupervised Learning of 3D Representations from Natural Images
HoloGAN: Unsupervised Learning of 3D Representations from Natural ImagesHoloGAN: Unsupervised Learning of 3D Representations from Natural Images
HoloGAN: Unsupervised Learning of 3D Representations from Natural ImagesKento Doi
 
(文献紹介)深層学習による動被写体ロバストなカメラの動き推定
(文献紹介)深層学習による動被写体ロバストなカメラの動き推定(文献紹介)深層学習による動被写体ロバストなカメラの動き推定
(文献紹介)深層学習による動被写体ロバストなカメラの動き推定Morpho, Inc.
 
[DL輪読会]MetaFormer is Actually What You Need for Vision
[DL輪読会]MetaFormer is Actually What You Need for Vision[DL輪読会]MetaFormer is Actually What You Need for Vision
[DL輪読会]MetaFormer is Actually What You Need for VisionDeep Learning JP
 

Similar to [cvpaper.challenge] 超解像メタサーベイ #meta-study-group勉強会 (20)

大規模画像認識とその周辺
大規模画像認識とその周辺大規模画像認識とその周辺
大規模画像認識とその周辺
 
SSII2014 チュートリアル資料
SSII2014 チュートリアル資料SSII2014 チュートリアル資料
SSII2014 チュートリアル資料
 
[DL輪読会]Dense Captioning分野のまとめ
[DL輪読会]Dense Captioning分野のまとめ[DL輪読会]Dense Captioning分野のまとめ
[DL輪読会]Dense Captioning分野のまとめ
 
「解説資料」ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
「解説資料」ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation 「解説資料」ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
「解説資料」ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
 
【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
 
Deep learningの概要とドメインモデルの変遷
Deep learningの概要とドメインモデルの変遷Deep learningの概要とドメインモデルの変遷
Deep learningの概要とドメインモデルの変遷
 
ADVENTUREの他のモジュール・関連プロジェクトの紹介
ADVENTUREの他のモジュール・関連プロジェクトの紹介ADVENTUREの他のモジュール・関連プロジェクトの紹介
ADVENTUREの他のモジュール・関連プロジェクトの紹介
 
これからのコンピュータビジョン技術 - cvpaper.challenge in PRMU Grand Challenge 2016 (PRMU研究会 2...
これからのコンピュータビジョン技術 - cvpaper.challenge in PRMU Grand Challenge 2016 (PRMU研究会 2...これからのコンピュータビジョン技術 - cvpaper.challenge in PRMU Grand Challenge 2016 (PRMU研究会 2...
これからのコンピュータビジョン技術 - cvpaper.challenge in PRMU Grand Challenge 2016 (PRMU研究会 2...
 
Adversarial Networks の画像生成に迫る @WBAFLカジュアルトーク#3
Adversarial Networks の画像生成に迫る @WBAFLカジュアルトーク#3Adversarial Networks の画像生成に迫る @WBAFLカジュアルトーク#3
Adversarial Networks の画像生成に迫る @WBAFLカジュアルトーク#3
 
Soft Rasterizer: A Differentiable Renderer for Image-based 3D Reasoning
Soft Rasterizer: A Differentiable Renderer for Image-based 3D ReasoningSoft Rasterizer: A Differentiable Renderer for Image-based 3D Reasoning
Soft Rasterizer: A Differentiable Renderer for Image-based 3D Reasoning
 
Deeply-Recursive Convolutional Network for Image Super-Resolution
Deeply-Recursive Convolutional Network for Image Super-ResolutionDeeply-Recursive Convolutional Network for Image Super-Resolution
Deeply-Recursive Convolutional Network for Image Super-Resolution
 
[DL輪読会]HoloGAN: Unsupervised learning of 3D representations from natural images
[DL輪読会]HoloGAN: Unsupervised learning of 3D representations from natural images[DL輪読会]HoloGAN: Unsupervised learning of 3D representations from natural images
[DL輪読会]HoloGAN: Unsupervised learning of 3D representations from natural images
 
semantic segmentation サーベイ
semantic segmentation サーベイsemantic segmentation サーベイ
semantic segmentation サーベイ
 
Convolutional Neural Networks のトレンド @WBAFLカジュアルトーク#2
Convolutional Neural Networks のトレンド @WBAFLカジュアルトーク#2Convolutional Neural Networks のトレンド @WBAFLカジュアルトーク#2
Convolutional Neural Networks のトレンド @WBAFLカジュアルトーク#2
 
[論文紹介] Convolutional Neural Network(CNN)による超解像
[論文紹介] Convolutional Neural Network(CNN)による超解像[論文紹介] Convolutional Neural Network(CNN)による超解像
[論文紹介] Convolutional Neural Network(CNN)による超解像
 
畳み込みニューラルネットワークの高精度化と高速化
畳み込みニューラルネットワークの高精度化と高速化畳み込みニューラルネットワークの高精度化と高速化
畳み込みニューラルネットワークの高精度化と高速化
 
SSII2020 [O3-01] Extreme 3D センシング
SSII2020 [O3-01]  Extreme 3D センシングSSII2020 [O3-01]  Extreme 3D センシング
SSII2020 [O3-01] Extreme 3D センシング
 
HoloGAN: Unsupervised Learning of 3D Representations from Natural Images
HoloGAN: Unsupervised Learning of 3D Representations from Natural ImagesHoloGAN: Unsupervised Learning of 3D Representations from Natural Images
HoloGAN: Unsupervised Learning of 3D Representations from Natural Images
 
(文献紹介)深層学習による動被写体ロバストなカメラの動き推定
(文献紹介)深層学習による動被写体ロバストなカメラの動き推定(文献紹介)深層学習による動被写体ロバストなカメラの動き推定
(文献紹介)深層学習による動被写体ロバストなカメラの動き推定
 
[DL輪読会]MetaFormer is Actually What You Need for Vision
[DL輪読会]MetaFormer is Actually What You Need for Vision[DL輪読会]MetaFormer is Actually What You Need for Vision
[DL輪読会]MetaFormer is Actually What You Need for Vision
 

[cvpaper.challenge] 超解像メタサーベイ #meta-study-group勉強会

  • 1. 超解像 Meta Study of Super Resolution @s_aiueo32 東京電機⼤学⼤学院情報通信⼯学専攻 内⽥奏 1
  • 2. 今⽇話すこと & 話さないこと 話すこと ◦ 単⼀画像超解像の話 ◦ 深層学習を⽤いた超解像モデルの話 ◦ メタな話 話さないこと ◦ 深層学習以前の超解像の話(Example-based SR, Neighbor Embedding, Sparse Coding etc.) ◦ Reference-basedな超解像の話(複数の画像を使う⼿法) ◦ ⾼度な数学的な話 ◦ そもそもGANを⽣成モデルとは認めな(ry という話 2
  • 4. 超解像とは ⼊⼒信号の解像度を⾼めて出⼒する技術 i.e. ⾼解像度化 ◦ ⾼周波成分を復元する問題を指す場合もある ◦ 画像以外にも⾳声や電波のセンシングの⽂脈でも登場 4 超解像画像 𝐼"#低解像度画像 𝐼$# Algorithm
  • 5. 問題設定 Image Restoration問題 ◦ 低解像度画像 𝐼$#は⾼解像度画像 𝐼%#が劣化して⽣成されたと仮定 ◦ 劣化 𝒟の逆変換 ℱを獲得することを⽬標とする 5 超解像画像 𝐼"#低解像度画像 𝐼$# 復元劣化 高解像度画像 𝐼%# 𝒟 𝐼%#; 𝛿 ℱ 𝐼$#; 𝜃
  • 7. 超解像の難しさ(2) 劣化過程は未知(であるべき) ◦ 解像度が低い or ⾼周波成分が⽋ける原因は様々 ◦ 撮像系の問題: センササイズ,焦点距離,絞り etc. ◦ ソフトウェア側の問題: 画像圧縮,リサイズがかかっているかも etc. ◦ 実際にはSelf-supervised learningとすることが多い ◦ HR画像を既知のリサイズ⼿法で縮⼩してLR画像を作成 ◦ 試しやすい反⾯,特定のリサイズしか対応できない懸念 評価指標が⾊々ある ◦ MSE, MAE, PSNR, SSIM, VIF, NIQE etc. ◦ 画素間の距離 vs ⾃然さ ◦ 詳細は後ほど 7 𝐼%#𝐼$# 学習 リサイズ
  • 9. Set5 [Bevilacqua et al. BMVC2012]で使⽤されたベンチマーク 9
  • 10. Set14 [Zeyde et al. Springer2012]で使⽤されたベンチマーク 10
  • 11. BSDS300 or 500 The Berkeley Segmentation Dataset and Benchmark ◦ セグメンテーション⽤のもの ◦ BSDS300のほうが使われてる感じがする ◦ trainデータ200枚を指してBSD200と表現されたりする ◦ testテータ100枚も同様にBSD100と⾔われたりする ◦ BSDS500は300の強化版 11
  • 12. Urban100 [J. Huang et al. CVPR2015]で使⽤されたベンチマーク ◦ 都市部の建造物のデータセット ◦ ⾼周波成分をよく含む 12
  • 14. DIV2K NTIRE2017のコンペ⽤データ ◦ testデータのGround Truthが未配布 ◦ 学習にだけ使う ◦ 加⼯された画像が多いイメージ(インスタ映えしそうな) 14
  • 16. SRCNN [C. Dong et al. ECCV2014] 初めてCNNを超解像に適⽤ ◦ 3層のCNNで超解像 ◦ 𝑓,,𝑓. = 9, 5 , 𝑛,, 𝑛3 = 64, 32 を採⽤ ◦ SGD+MSEで3⽇間学習 ◦ ⼊⼒画像は事前に出⼒サイズにリサイズ ◦ Pre-Upsampling SRという ◦ Sparse-CodingをCNNと⾒なしている ◦ 1層⽬: パッチ抽出とSparse表現 ◦ 2層⽬: 低解像度空間から⾼解像度空間への写像 ◦ 3層⽬: 再構成 16 従来手法との比較
  • 17. VDSR [J. Kim et al. CVPR2016] SRCNNの多層化 + 学習の⾼速化 ◦ 20層のCNN ◦ 「The Deeper,The Better」 ◦ Residual構造 + Gradient Clippingの導⼊ ◦ Residual構造により特徴マップの値域を⼩さくする ◦ 勾配をクリップして勾配爆発/消失を抑制 ◦ ⾼い学習率の設定が可能 ◦ 収束までの時間を4時間に短縮 ◦ マルチスケールな学習 ◦ 複数の倍率を混ぜて学習 17
  • 18. FSRCNN [C. Dong et al. ECCV2016] SRCNNを約40倍⾼速化 ◦ Deconvolutionの導⼊ ◦ LR画像に直接畳み込みを適⽤ ◦ 中間の特徴マップのサイズが⼩さい ◦ 層を増やしてもパラメータと処理時間は減少 ◦ 最後にDeconvolutionでUpsampling ◦ Post-Upsampling SRという(現在の主流) ◦ 倍率の⾃由度は下がる(⾮整数は厳しい) ◦ その他の⼯夫 ◦ 5x5convを3x3conv 2回に置き換え ◦ VGG的なアプローチ ◦ 活性化にPReLU 18
  • 19. ESPCN [W. Shi et al. CVPR2016] Subpixel Convolutionの導⼊ ◦ Deconvolutionの弱点 ◦ 位置によって関与する⼊⼒画素数が異なることでCheckerboard Artifactが出現 ◦ ゼロ埋めに対する演算が無駄,遅い ◦ Subpixel Convolution ◦ ⼊⼒マップを畳み込みで𝑟3 枚のマップに増やす(𝑟は倍率) ◦ ピクセルを再配置 ◦ 精度向上 + x10⾼速化 (vs SRCNN) 19 https://distill.pub/2016/deconv-checkerboard/
  • 20. SRGAN [C. Ledig et al. CVPR2017] GAN超解像の先駆け ◦ SRResNet ◦ SRGANのGenerator部分 ◦ ResBlockをスタックしていくシンプルな構造 ◦ global skip-connection ◦ SRGAN ◦ GANの枠組みで学習 ◦ Perceptual loss function ◦ 𝑙:; = 𝑙<== + 𝑙?@A ◦ 𝑙<==はpretrained VGGの中間特徴マップの距離 ◦ 評価指標ではSRResNet,MOS評価ではSRGAN ◦ GANを導⼊すると⾃然な画像が得られるが,PSNRは下がる ◦ 画素の距離を最適化するのは果たして正しいのか? 20
  • 21. SRGAN vs SRResNet 21 滑らかすぎる ⾃然だが似てない ⽬が離れすぎている
  • 22. Perception Distortion Tradeoff [Y. Blau et al. CVPR2018] Image Restorationにおけるメトリックと知覚品質の関係を定量評価 ◦ メトリックと知覚品質の間にトレードオフを発⾒ ◦ Adversarial Lossの係数をいじるとトレードオフを横断できる ◦ 最適な動作点は応⽤依存 22 両立しているモデルは存在しない
  • 23. EDSR [B. Lim et al. CVPRW2017] NTIRE2017 Winnerモデル ◦ SRResNetに類似した構造 ◦ Batch Normalizationを除去 ◦ BNを使うとぼやけたりartifactが出る ◦ 計算をシンプルにしたい ◦ 使わなくても⼗分収束する(ResNetのおかげ?) ◦ Self-ensemble ◦ test setでの精度を上げるテクニック ◦ rot90, flipした画像を超解像 ◦ 元の位置に戻して平均をとる 23 [Radu et al. CVPR2016]より引用
  • 24. LapSRN [W. Lai et al. CVPR2017] Progressiveな超解像 ◦ Feature Extraction Branch: 画像のエッジなどを強調するマップを出⼒(まるでラプラシアン) ◦ Image Reconstruction Branch: ぼやけた画像+強調マップ=超解像結果 24
  • 25. RDN [Y. Zhang et al. CVPR2018] ResNet + DenseNet ◦ Residual-In-Residual(RIR)な構造 ◦ ResidualにするためにDenseNetの出⼒に1x1convを⼊れてチャネル数を合わせる 25
  • 26. DBPN [Haris et al. CVPR2018] Up-Downを繰り返して効率的に特徴抽出 ◦ Iterative up-and-down sampling SR ◦ 7回のup-and-down ◦ Dense-DBPNはRDNと同じ感じ ◦ コンペで強かった ◦ NTIRE2018 Track 1 Winner ◦ 10回up-and-downしたDense-DBPNを使ってるっぽい ◦ PIRM2018 Challenge Region 2 Winner ◦ GANを導⼊ 26
  • 27. RCAN [Y. Zhang et al. ECCV2018] 超解像でもAttentionis All You Needなのか!? ◦ Channel Attention(CA)を導⼊ ◦ SENetの派⽣ ◦ 各チャネルに重み付けして効率的に特徴抽出 ◦ CAを含むブロック(RCAB)をスタック ◦ RIR構造をとる ◦ 出⼒結果がめちゃくちゃ綺麗! 27
  • 29. どこが強いのか The Chinese University of Hong Kong ◦ SRCNNの著者のChao Dongがいた研究機関 ◦ 今も⼀緒に⾊々やってる ◦ CUHK-SenseTime Joint Lab なるものが… ◦ ECCV2018のPIRMチャレンジでも優勝した模様 ◦ ゲームのテクスチャを超解像して話題になったやつ Twitter ◦ ESPCN & SRGANの発表 ETH Zurich ◦ Low-level vision全般に強い 29
  • 30. 成功例に素早く反応すべし 時系列を追っていると,発表された⼿法がすぐに組み込まれるのがわかる ◦ VDSR: ResNet ◦ EDSR: SRResNet ◦ RDN: DenseNet ◦ RCAN: SENet ◦ 網羅的サーベイ必要 組み込むだけではダメ ◦ 重要な部分を理解していらない部分は捨てる ◦ EDSRがいい例 ◦ 分野の歴史を知るべし ◦ 継続的な網羅的サーベイ必要 30
  • 31. 現場で使えるのか 半分イエス,半分ノー 超解像は試しやすいタスク ◦ 画像さえあれば縮⼩して学習するだけ Pretrainedモデルはそこまでうまくいかない ◦ SRGAN for Super-Resolving Low-Resolution Food Images [Nagano et al. 2018] ◦ クックパッドの論⽂ ◦ 単純に適⽤しただけではダメ ◦ 特定の料理画像に特化したSRGANの学習法を提案 ◦ 実際のユースケースを考える ◦ ここでは⾃然な復元が好ましいぽいためSRGANを選択 ◦ OCR精度を上げたいとかだと…? 31
  • 32. その他のメタ フレームワークはどれがいい? ◦ 今の所PyTorch優勢 ◦ Subpixel Convolutionがネイティヴ実装されてるのが⼤きい ◦ tfだと,conv -> depth2spaceってやらなきゃダメ ◦ NTIRE2018では (pytorch, tf, matconvnet)=(12, 8, 3) マシンリソース⾟くない? ◦ 学習はそんなに⾟くない ◦ batch_size=1,48x48とかが主流なため ◦ 推論がキツい ◦ 画像をパッチに切って後でつなぎ合わせては? -> 端が⾟い ◦ スライドさせて平均とってもいいかも.self-emsenbleが許されるくらい. ◦ Recursiveなアプローチを検討する 32
  • 33. ⽂献⼀覧 [1] Dong, Chao, et al. "Learning a deep convolutional network for image super-resolution." Europeanconference on computer vision. Springer, Cham, 2014. [2] Kim, Jiwon, Jung Kwon Lee, and Kyoung Mu Lee. "Accurate image super-resolution using very deep convolutional networks." Proceedings of the IEEE conference on computer vision and pattern recognition. 2016. [3] Dong, Chao, Chen Change Loy, and XiaoouTang. "Accelerating the super-resolution convolutional neural network." European conference on computer vision. Springer, Cham, 2016. [4] Shi, Wenzhe, et al. "Real-time single image and video super-resolution using an efficient sub-pixel convolutional neural network." Proceedings of the IEEE conference on computer vision and pattern recognition. 2016. [5] Ledig, Christian, et al. "Photo-realistic single image super-resolution using a generative adversarial network." Proceedings of the IEEE conference on computer vision and pattern recognition. 2017. [6] Blau, Yochai, and Tomer Michaeli. "The perception-distortion tradeoff." Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2018. [7] Lim, Bee, et al. "Enhanced deep residual networks for single image super-resolution." Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition Workshops. 2017. [8] Lai, Wei-Sheng, et al. "Deep laplacian pyramid networks for fast and accurate super-resolution." Proceedings of the IEEE conference on computer vision and pattern recognition. 2017. [9]Zhang, Yulun, et al. "Residual dense network for image super-resolution." Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2018. [10] Haris, Muhammad, Gregory Shakhnarovich, and Norimichi Ukita. "Deep back-projection networks for super-resolution." Proceedings of the IEEE conference on computer vision and pattern recognition. 2018. [11] Zhang, Yulun, et al. "Image super-resolution using very deep residual channel attention networks." Proceedings of the EuropeanConference on Computer Vision (ECCV). 2018. [12] Nagano, Yudai, and Yohei Kikuta. "SRGAN for super-resolving low-resolution food images." Proceedings of the Joint Workshop on Multimedia for Cooking and Eating Activities and Multimedia Assisted Dietary Management. ACM, 2018. [13] Timofte, Radu, Rasmus Rothe, and Luc VanGool. "Seven ways to improve example-based single image super resolution." Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2016. 33
  • 35. 付録 今回参考にしたもの サーベイ論⽂ ◦ 半年に⼀本くらいある ◦ Yang, Wenming, et al. "Deep learning for single image super-resolution: A brief review." arXiv preprint arXiv:1808.03344(2018). ◦ Yang, Wenming, et al. " Deep Learning for Image Super-Resolution: A Survey." arXiv preprint arXiv: 1902.06068(20189). 衝撃的にまとまっていた記事 ◦ ”トップ学会採択論⽂にみる、超解像ディープラーニング技術のまとめ” - https://qiita.com/jiny2001/items/e2175b52013bf655d617 ◦ お恥ずかしながら⾃分のアドベントカレンダーの次の枠に投稿されていた ◦ スライド作ってる途中に⾒つけて,俺なぞってるだけやんってなった 35