論文紹介:Semantic segmentation using Vision Transformers: A survey
[DL輪読会]An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale
1. http://deeplearning.jp/
AN IMAGE IS WORTH 16X16 WORDS:
TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE
Present Square Co.,Ltd. 小林 範久
DEEP LEARNING JP
[DL Papers]
1
2. Copyright (C) Present Square Co., Ltd. All Rights Reserved.
書誌情報
AN IMAGE IS WORTH 16X16 WORDS:
TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE
(https://openreview.net/forum?id=YicbFdNTTy)
タイトル:
著者: 匿名(ICLR2021 査読中)
• CNNを一切使わず、Transformerをベースに画像認識を行う、Vision Transformer
(ViT)を提案。
• Transformerの「計算効率の良さ」と「スケーラビリティ」を画像処理タスクにもたらすことに成功。
• 最先端のCNN型モデルよりも優れた結果(もしくは同程度)を出したうえで、学習に必要な
計算コストを大幅に減少。
概要:
※データセットがGoogle独自の非公開のものであることや、TPUの使用などから
おそらくGoogleの研究チーム(特にBig Transferの開発チーム)と推測されている。
2
3. Copyright (C) Present Square Co., Ltd. All Rights Reserved.
アジェンダ
1. 導入
2. 手法
3. 実験
4. まとめ
3
30. Copyright (C) Present Square Co., Ltd. All Rights Reserved.
Appendix
参考文献
• Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N Gomez, Łukasz
Kaiser, and Illia Polosukhin. Attention is all you need. In NIPS, 2017.
• Kaiming He, Xiangyu Zhang, Shaoqing Ren, and Jian Sun. Deep residual learning for image recognition.
In CVPR, 2016.
• J. Deng, W. Dong, R. Socher, L. Li, Kai Li, and Li Fei-Fei. Imagenet: A large-scale hierarchical image
database. In CVPR, 2009.
• Nicolas Carion, Francisco Massa, Gabriel Synnaeve, Nicolas Usunier, Alexander Kirillov, and Sergey
Zagoruyko. End-to-end object detection with transformers. In ECCV, 2020.
• Xiaolong Wang, Ross Girshick, Abhinav Gupta, and Kaiming He. Non-local neural networks. In CVPR,
2018.
• Jacob Devlin, Ming-Wei Chang, Kenton Lee, and Kristina Toutanova. BERT: Pre-training of deep
bidirectional transformers for language understanding. In NAACL, 2019.
30