[cvpaper.challenge] 超解像メタサーベイ #meta-study-group勉強会

超解像
Meta Study of Super Resolution
@s_aiueo32
東京電機⼤学⼤学院情報通信⼯学専攻内⽥奏
1

今⽇話すこと & 話さないこと
話すこと
◦ 単⼀画像超解像の話
◦ 深層学習を⽤いた超解像モデルの話
◦ メタな話
話さないこと
◦ 深層学習以前の超解像の話(Example-based SR, Neighbor Embedding, Sparse Coding etc.)
◦ Reference-basedな超解像の話(複数の画像を使う⼿法)
◦ ⾼度な数学的な話
◦ そもそもGANを⽣成モデルとは認めな(ry という話
2

超解像とは
⼊⼒信号の解像度を⾼めて出⼒する技術 i.e. ⾼解像度化
◦ ⾼周波成分を復元する問題を指す場合もある
◦ 画像以外にも⾳声や電波のセンシングの⽂脈でも登場
4
超解像画像 𝐼"#低解像度画像 𝐼$#
Algorithm

問題設定
Image Restoration問題
◦ 低解像度画像 𝐼$#は⾼解像度画像 𝐼%#が劣化して⽣成されたと仮定
◦ 劣化 𝒟の逆変換 ℱを獲得することを⽬標とする
5
超解像画像 𝐼"#低解像度画像 𝐼$#
復元劣化
高解像度画像 𝐼%#
𝒟 𝐼%#; 𝛿 ℱ 𝐼$#; 𝜃

超解像の難しさ(1)
ill-posed問題
◦ ⼀つの⼊⼒画像に対して妥当な出⼒画像が無数に存在
◦ 拡⼤倍率の増加に伴ってill-posedの度合いもきつくなる
6
復元
https://buildersbox.corp-sansan.com/entry/2019/02/21/110000
ex.) 1x3を2x6に超解像

超解像の難しさ(2)
劣化過程は未知(であるべき)
◦ 解像度が低い or ⾼周波成分が⽋ける原因は様々
◦ 撮像系の問題: センササイズ，焦点距離，絞り etc.
◦ ソフトウェア側の問題: 画像圧縮，リサイズがかかっているかも etc.
◦ 実際にはSelf-supervised learningとすることが多い
◦ HR画像を既知のリサイズ⼿法で縮⼩してLR画像を作成
◦ 試しやすい反⾯，特定のリサイズしか対応できない懸念
評価指標が⾊々ある
◦ MSE, MAE, PSNR, SSIM, VIF, NIQE etc.
◦ 画素間の距離 vs ⾃然さ
◦ 詳細は後ほど
7
𝐼%#𝐼$#
学習
リサイズ

Set5
[Bevilacqua et al. BMVC2012]で使⽤されたベンチマーク
9

Set14
[Zeyde et al. Springer2012]で使⽤されたベンチマーク
10

BSDS300 or 500
The Berkeley Segmentation Dataset and Benchmark
◦ セグメンテーション⽤のもの
◦ BSDS300のほうが使われてる感じがする
◦ trainデータ200枚を指してBSD200と表現されたりする
◦ testテータ100枚も同様にBSD100と⾔われたりする
◦ BSDS500は300の強化版
11

Urban100
[J. Huang et al. CVPR2015]で使⽤されたベンチマーク
◦ 都市部の建造物のデータセット
◦ ⾼周波成分をよく含む
12

Manga109
⽇本のプロの漫画家によって描かれた109冊の漫画
◦ 東⼤相澤研が公開するデータセット
◦ 線画超解像のベンチマーク
◦ ⾼周波成分をよく含む
13
http://www.manga109.org/ja/

DIV2K
NTIRE2017のコンペ⽤データ
◦ testデータのGround Truthが未配布
◦ 学習にだけ使う
◦ 加⼯された画像が多いイメージ(インスタ映えしそうな)
14

SRCNN [C. Dong et al. ECCV2014]
初めてCNNを超解像に適⽤
◦ 3層のCNNで超解像
◦ 𝑓,,𝑓. = 9, 5 , 𝑛,, 𝑛3 = 64, 32 を採⽤
◦ SGD+MSEで3⽇間学習
◦ ⼊⼒画像は事前に出⼒サイズにリサイズ
◦ Pre-Upsampling SRという
◦ Sparse-CodingをCNNと⾒なしている
◦ 1層⽬: パッチ抽出とSparse表現
◦ 2層⽬: 低解像度空間から⾼解像度空間への写像
◦ 3層⽬: 再構成
16
従来手法との比較

VDSR [J. Kim et al. CVPR2016]
SRCNNの多層化 + 学習の⾼速化
◦ 20層のCNN
◦ 「The Deeper,The Better」
◦ Residual構造 + Gradient Clippingの導⼊
◦ Residual構造により特徴マップの値域を⼩さくする
◦ 勾配をクリップして勾配爆発/消失を抑制
◦ ⾼い学習率の設定が可能
◦ 収束までの時間を4時間に短縮
◦ マルチスケールな学習
◦ 複数の倍率を混ぜて学習
17

FSRCNN [C. Dong et al. ECCV2016]
SRCNNを約40倍⾼速化
◦ Deconvolutionの導⼊
◦ LR画像に直接畳み込みを適⽤
◦ 中間の特徴マップのサイズが⼩さい
◦ 層を増やしてもパラメータと処理時間は減少
◦ 最後にDeconvolutionでUpsampling
◦ Post-Upsampling SRという(現在の主流)
◦ 倍率の⾃由度は下がる(⾮整数は厳しい)
◦ その他の⼯夫
◦ 5x5convを3x3conv 2回に置き換え
◦ VGG的なアプローチ
◦ 活性化にPReLU
18

ESPCN [W. Shi et al. CVPR2016]
Subpixel Convolutionの導⼊
◦ Deconvolutionの弱点
◦ 位置によって関与する⼊⼒画素数が異なることでCheckerboard Artifactが出現
◦ ゼロ埋めに対する演算が無駄，遅い
◦ Subpixel Convolution
◦ ⼊⼒マップを畳み込みで𝑟3
枚のマップに増やす(𝑟は倍率)
◦ ピクセルを再配置
◦ 精度向上 + x10⾼速化 (vs SRCNN)
19
https://distill.pub/2016/deconv-checkerboard/

SRGAN [C. Ledig et al. CVPR2017]
GAN超解像の先駆け
◦ SRResNet
◦ SRGANのGenerator部分
◦ ResBlockをスタックしていくシンプルな構造
◦ global skip-connection
◦ SRGAN
◦ GANの枠組みで学習
◦ Perceptual loss function
◦ 𝑙:;
= 𝑙<== + 𝑙?@A
◦ 𝑙<==はpretrained VGGの中間特徴マップの距離
◦ 評価指標ではSRResNet，MOS評価ではSRGAN
◦ GANを導⼊すると⾃然な画像が得られるが，PSNRは下がる
◦ 画素の距離を最適化するのは果たして正しいのか？
20

SRGAN vs SRResNet
21
滑らかすぎる⾃然だが似てない⽬が離れすぎている

Perception Distortion Tradeoff
[Y. Blau et al. CVPR2018]
Image Restorationにおけるメトリックと知覚品質の関係を定量評価
◦ メトリックと知覚品質の間にトレードオフを発⾒
◦ Adversarial Lossの係数をいじるとトレードオフを横断できる
◦ 最適な動作点は応⽤依存
22
両立しているモデルは存在しない

EDSR [B. Lim et al. CVPRW2017]
NTIRE2017 Winnerモデル
◦ SRResNetに類似した構造
◦ Batch Normalizationを除去
◦ BNを使うとぼやけたりartifactが出る
◦ 計算をシンプルにしたい
◦ 使わなくても⼗分収束する(ResNetのおかげ？)
◦ Self-ensemble
◦ test setでの精度を上げるテクニック
◦ rot90, flipした画像を超解像
◦ 元の位置に戻して平均をとる
23
[Radu et al. CVPR2016]より引用

LapSRN [W. Lai et al. CVPR2017]
Progressiveな超解像
◦ Feature Extraction Branch: 画像のエッジなどを強調するマップを出⼒(まるでラプラシアン)
◦ Image Reconstruction Branch: ぼやけた画像+強調マップ=超解像結果
24

RDN [Y. Zhang et al. CVPR2018]
ResNet + DenseNet
◦ Residual-In-Residual(RIR)な構造
◦ ResidualにするためにDenseNetの出⼒に1x1convを⼊れてチャネル数を合わせる
25

DBPN [Haris et al. CVPR2018]
Up-Downを繰り返して効率的に特徴抽出
◦ Iterative up-and-down sampling SR
◦ 7回のup-and-down
◦ Dense-DBPNはRDNと同じ感じ
◦ コンペで強かった
◦ NTIRE2018 Track 1 Winner
◦ 10回up-and-downしたDense-DBPNを使ってるっぽい
◦ PIRM2018 Challenge Region 2 Winner
◦ GANを導⼊
26

RCAN [Y. Zhang et al. ECCV2018]
超解像でもAttentionis All You Needなのか！？
◦ Channel Attention(CA)を導⼊
◦ SENetの派⽣
◦ 各チャネルに重み付けして効率的に特徴抽出
◦ CAを含むブロック(RCAB)をスタック
◦ RIR構造をとる
◦ 出⼒結果がめちゃくちゃ綺麗！
27

メタな話
誰が強いのか
成功例に素早く反応すべし
現場で使えるのか
フレームワークは何がいい？
マシンリソース⾟くない？
28

どこが強いのか
The Chinese University of Hong Kong
◦ SRCNNの著者のChao Dongがいた研究機関
◦ 今も⼀緒に⾊々やってる
◦ CUHK-SenseTime Joint Lab なるものが…
◦ ECCV2018のPIRMチャレンジでも優勝した模様
◦ ゲームのテクスチャを超解像して話題になったやつ
Twitter
◦ ESPCN & SRGANの発表
ETH Zurich
◦ Low-level vision全般に強い
29

成功例に素早く反応すべし
時系列を追っていると，発表された⼿法がすぐに組み込まれるのがわかる
◦ VDSR: ResNet
◦ EDSR: SRResNet
◦ RDN: DenseNet
◦ RCAN: SENet
◦ 網羅的サーベイ必要
組み込むだけではダメ
◦ 重要な部分を理解していらない部分は捨てる
◦ EDSRがいい例
◦ 分野の歴史を知るべし
◦ 継続的な網羅的サーベイ必要
30

現場で使えるのか
半分イエス，半分ノー
超解像は試しやすいタスク
◦ 画像さえあれば縮⼩して学習するだけ
Pretrainedモデルはそこまでうまくいかない
◦ SRGAN for Super-Resolving Low-Resolution Food Images [Nagano et al. 2018]
◦ クックパッドの論⽂
◦ 単純に適⽤しただけではダメ
◦ 特定の料理画像に特化したSRGANの学習法を提案
◦ 実際のユースケースを考える
◦ ここでは⾃然な復元が好ましいぽいためSRGANを選択
◦ OCR精度を上げたいとかだと…?
31

その他のメタ
フレームワークはどれがいい？
◦ 今の所PyTorch優勢
◦ Subpixel Convolutionがネイティヴ実装されてるのが⼤きい
◦ tfだと，conv -> depth2spaceってやらなきゃダメ
◦ NTIRE2018では (pytorch, tf, matconvnet)=(12, 8, 3)
マシンリソース⾟くない？
◦ 学習はそんなに⾟くない
◦ batch_size=1,48x48とかが主流なため
◦ 推論がキツい
◦ 画像をパッチに切って後でつなぎ合わせては？ -> 端が⾟い
◦ スライドさせて平均とってもいいかも．self-emsenbleが許されるくらい．
◦ Recursiveなアプローチを検討する
32

⽂献⼀覧
[1] Dong, Chao, et al. "Learning a deep convolutional network for image super-resolution." Europeanconference on computer vision. Springer, Cham, 2014.
[2] Kim, Jiwon, Jung Kwon Lee, and Kyoung Mu Lee. "Accurate image super-resolution using very deep convolutional networks." Proceedings of the IEEE conference on computer vision and pattern recognition.
2016.
[3] Dong, Chao, Chen Change Loy, and XiaoouTang. "Accelerating the super-resolution convolutional neural network." European conference on computer vision. Springer, Cham, 2016.
[4] Shi, Wenzhe, et al. "Real-time single image and video super-resolution using an efficient sub-pixel convolutional neural network." Proceedings of the IEEE conference on computer vision and pattern
recognition. 2016.
[5] Ledig, Christian, et al. "Photo-realistic single image super-resolution using a generative adversarial network." Proceedings of the IEEE conference on computer vision and pattern recognition. 2017.
[6] Blau, Yochai, and Tomer Michaeli. "The perception-distortion tradeoff." Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2018.
[7] Lim, Bee, et al. "Enhanced deep residual networks for single image super-resolution." Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition Workshops. 2017.
[8] Lai, Wei-Sheng, et al. "Deep laplacian pyramid networks for fast and accurate super-resolution." Proceedings of the IEEE conference on computer vision and pattern recognition. 2017.
[9]Zhang, Yulun, et al. "Residual dense network for image super-resolution." Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2018.
[10] Haris, Muhammad, Gregory Shakhnarovich, and Norimichi Ukita. "Deep back-projection networks for super-resolution." Proceedings of the IEEE conference on computer vision and pattern recognition. 2018.
[11] Zhang, Yulun, et al. "Image super-resolution using very deep residual channel attention networks." Proceedings of the EuropeanConference on Computer Vision (ECCV). 2018.
[12] Nagano, Yudai, and Yohei Kikuta. "SRGAN for super-resolving low-resolution food images." Proceedings of the Joint Workshop on Multimedia for Cooking and Eating Activities and Multimedia Assisted Dietary
Management. ACM, 2018.
[13] Timofte, Radu, Rasmus Rothe, and Luc VanGool. "Seven ways to improve example-based single image super resolution." Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition.
2016.
33

付録今回参考にしたもの
34
https://paperswithcode.com/

付録今回参考にしたもの
サーベイ論⽂
◦ 半年に⼀本くらいある
◦ Yang, Wenming, et al. "Deep learning for single image super-resolution: A brief
review." arXiv preprint arXiv:1808.03344(2018).
◦ Yang, Wenming, et al. " Deep Learning for Image Super-Resolution: A Survey." arXiv
preprint arXiv: 1902.06068(20189).
衝撃的にまとまっていた記事
◦ ”トップ学会採択論⽂にみる、超解像ディープラーニング技術のまとめ” -
https://qiita.com/jiny2001/items/e2175b52013bf655d617
◦ お恥ずかしながら⾃分のアドベントカレンダーの次の枠に投稿されていた
◦ スライド作ってる途中に⾒つけて，俺なぞってるだけやんってなった
35

[cvpaper.challenge] 超解像メタサーベイ #meta-study-group勉強会

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Similar to [cvpaper.challenge] 超解像メタサーベイ #meta-study-group勉強会

Similar to [cvpaper.challenge] 超解像メタサーベイ #meta-study-group勉強会 (20)

[cvpaper.challenge] 超解像メタサーベイ #meta-study-group勉強会