SlideShare a Scribd company logo
1 of 30
Download to read offline
http://deeplearning.jp/
AN IMAGE IS WORTH 16X16 WORDS:
TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE
Present Square Co.,Ltd. 小林 範久
DEEP LEARNING JP
[DL Papers]
1
Copyright (C) Present Square Co., Ltd. All Rights Reserved.
書誌情報
AN IMAGE IS WORTH 16X16 WORDS:
TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE
(https://openreview.net/forum?id=YicbFdNTTy)
タイトル:
著者: 匿名(ICLR2021 査読中)
• CNNを一切使わず、Transformerをベースに画像認識を行う、Vision Transformer
(ViT)を提案。
• Transformerの「計算効率の良さ」と「スケーラビリティ」を画像処理タスクにもたらすことに成功。
• 最先端のCNN型モデルよりも優れた結果(もしくは同程度)を出したうえで、学習に必要な
計算コストを大幅に減少。
概要:
※データセットがGoogle独自の非公開のものであることや、TPUの使用などから
おそらくGoogleの研究チーム(特にBig Transferの開発チーム)と推測されている。
2
Copyright (C) Present Square Co., Ltd. All Rights Reserved.
アジェンダ
1. 導入
2. 手法
3. 実験
4. まとめ
3
Copyright (C) Present Square Co., Ltd. All Rights Reserved.
1. 導入
標準的なTransformerを、可能な限り少ない修正で画像に直接適用したい!
• Self-Attentionベースのアーキテクチャ、特にTransformerは、自然言語処理タスクのデファクトスタンダードと
なっているが、コンピュータビジョンへの応用は限られている。
• 自然言語処理の成功に触発されて、複数の研究がCNNのようなアーキテクチャとSelf-Attentionを組み合わ
せようとしている。(DETRなど)
• しかし、コンピュータビジョンでは、効果的にスケーリングされておらず、古典的なResNetのようなアーキテクチャが
未だに最先端モデルという状況がある。
4
Copyright (C) Present Square Co., Ltd. All Rights Reserved.
1. 導入
①計算効率の良さ
Transformer をコンピュータービジョンで扱いたいモチベージョン
②スケーラビリティ
• モデルを大きくしても学習が進まなくなる時があるが、Transformerは単純にモデルを大きくしても学習ができる
=大規模化で性能の向上が見込める。(GPT-3で1750億個のパラメータ)
• また、Transformerはデータ内の分散表現を獲得するため、自己教師あり学習に利用できる。ラベルのない
データセットでも有効利用できるため、モデルの大規模化をさらに容易にする。
Transformerがコンピュータービジョンに適用されなかった理由
①Transformerが得意とするのが文章などに代表されるシーケンスデータ(連続性のあるデータ)。
• 繋がりのある要素同士の関係性を明らかにすることに強みがある。
②ピクセル単位でTransformerを利用すると計算要素が多くなる。
• 要素同士の関係性を取るため、要素の二乗分(𝑛2)の計算が必要となる。
• 画像の画素が256×256程度だったとしても4,294,967,296( =(256×256)2
)分の計算が必要。
5
Copyright (C) Present Square Co., Ltd. All Rights Reserved.
2. 手法
Vision Transformer
• 画像処理で一般的なCNNなどを利用せずに純粋に
Transformerのみを利用するモデル。
• 画像を「画像パッチが連なったシーケンスデータ」として
扱うことで画像処理にTransformerを適用することに
成功。
• Transformerの「計算効率の良さ」と「スケーラビリ
ティ」を画像処理タスクにもたらすことに成功。
• 最先端のCNN型モデルよりも優れた結果(もしくは
同程度)を出したうえで、学習に必要な計算コストを
大幅に減少。 画像パッチ(9つのパッチ)として入力
Vision Transformer のモデル
6
Copyright (C) Present Square Co., Ltd. All Rights Reserved.
2. 手法
Vision Transformerのモデル詳細
①
①Liner Projection of Flattened Patches
(一次データ化された画像パッチの線形射影)
②Extra learnable [class] embedding
(学習可能な[class]トークンの埋め込み)
②
④
③Position Embedding(位置埋め込み)
④Transformer Encoderに投入
⑤MLPヘッドと接続して画像分類
⑤
③
7
Copyright (C) Present Square Co., Ltd. All Rights Reserved.
2. 手法
Vision Transformer のモデル詳細
①Liner Projection of Flattened Patches(一次データ化されたパッチの線形射影)
• 二次元の画像(𝐻 × 𝑊 × 𝐶)を 𝑁(𝑃2・𝐶)に変換。
• 二次元である画像データをパッチごとに一次元のシーケンスデータに変換。
• 各ベクトル化されたパッチを次元DのテンソルEに写像し、その出力をPatch Embeddingと呼ぶ。
𝑃:各画像パッチ
の解像度
P
P
・
・
・
𝑁:パッチ数
(𝑁 = 𝐻 × 𝑊 / 𝑃2
)
W
(H, W):オリジナル画像の解像度
H
𝑥 𝑝 𝜖 ℝ 𝑁(𝑃2· C )𝑥 𝜖 ℝ 𝐻 ×𝑊 ×𝐶
flatten
N
Patch Embedding
8
Copyright (C) Present Square Co., Ltd. All Rights Reserved.
2. 手法
Vision Transformer のモデル詳細
②Extra learnable [class] embedding(学習可能な[class]トークンの埋め込み)
• 画像分類を可能にするために、シーケンスデータの先頭に学習可能なトークンを追加する。
※BERTの[cls]トークンと同じ効果を狙ったもの。
Patch
Embedding
・
・
・
+
*(class) [class] Embedding
②
9
Copyright (C) Present Square Co., Ltd. All Rights Reserved.
2. 手法
Vision Transformer のモデル詳細
③Position Embedding(位置埋め込み)
・
・
・
+
*(class)
③
9
2
1
0
[class] Embedding
Patch Embedding
+
+
+
+
Position Embedding
Transformer
Encoder
パッチが画像のどこにあるかを識別する位置情報を付与する。
10
Copyright (C) Present Square Co., Ltd. All Rights Reserved.
2. 手法
Vision Transformer のモデル詳細
④Transformer Encoderに投入
• Multi-head Self-AttentionブロックとMulti
Layer Pecerptronが交互になる形で構成。
• これらのブロックの前にはLayer Normalizationが、
ブロックの後には残差接続が適用されている。
• Self-Attentionを通して自然言語処理の時と同
様にパッチごとの(q, k, v)= (query, key,
value)を獲得する。
本手法 オリジナル
Transformer Encoder
11
Copyright (C) Present Square Co., Ltd. All Rights Reserved.
2. 手法
Vision Transformer のモデル詳細
⑤MLPヘッドと接続して画像分類
活性関数には非線形のGELUを用いる。
(オリジナルのTransformerはReLU )
⑤
12
Copyright (C) Present Square Co., Ltd. All Rights Reserved.
2. 手法
モデルの数式
𝑥 𝑐𝑙𝑎𝑠𝑠 :Class Embedding(cls トークン)
𝑥 𝑝
𝑘
:𝑘個目のパッチ
𝐸 𝑝𝑜𝑠 :Position Embedding
・
・
・
+
*(class)
N
2
1
0
[class] Embedding
Patch Embedding
+
+
+
+
Position Embedding
Transformer
Encoder
𝑧0
𝑥 𝑐𝑙𝑎𝑠𝑠
𝑥 𝑝
1 𝐸
𝑥 𝑝
2
𝐸
𝑥 𝑝
𝑁
𝐸
𝐸 𝑝𝑜𝑠
13
Copyright (C) Present Square Co., Ltd. All Rights Reserved.
2. 手法
モデルの数式
𝑀𝑆𝐴 : Multihead Self-attention
𝑀𝐿𝑃 : Multi Layer Perceptron
𝐿𝑁 : Linear Normalization 𝒁′𝒍
𝒁𝒍
𝑍 𝐿
0
:最終層の出力における前から0番目のベクトル表現
=class トークンの最終出力
14
Copyright (C) Present Square Co., Ltd. All Rights Reserved.
2. 手法
Fine-tuningと高解像度化について
• 一般的に事前学習した際の画像よりも高い解像度でFine-tuningすることが有益であると知られている。
そのためVision Transformerでもより高い解像度の画像を与える場合が想定される。
• Vision Transformerに事前学習時よりも高い解像度の画像を与えると、パッチサイズを同じに保つため、
結果として学習されたときよりも長いシーケンスデータが得られる。これは画像のピクセル数が増えたのに対し、
パッチサイズが変わらないため、画像をパッチに分割したときに生じるパッチ数が増えるため。
• Vision Transformerは、任意のシーケンス長のデータを扱うことができるため、与えるシーケンスデータが
長くなることは問題ないが、事前に訓練されたPositon Embeddingに意味がなくなる可能性がある。
• そのため、高解像度の画像でFine-tuningする際には、元の画像内の位置に応じて、事前に訓練された
Position Embeddingの2D補間を実行している。
• この箇所が、CNNが持つような帰納的バイアスがVision Transformerにおいても、もたらされてしまう唯
一のポイントとなる。
Fine-tuning
高解像度化
• Vision Transformerは大規模なデータセットで事前学習し、(より小さな)下流のタスクに合わせて
Fine-tuningして利用する。そのためタスクに適応するときに、事前学習したMLPヘッドを削除し、ゼロ初期
化されたD×K(Kは下流タスクのクラス数)のフィードフォワード層を追加する。
15
Copyright (C) Present Square Co., Ltd. All Rights Reserved.
3. 実験
モデルのバリエーション
• 以下に示さるような構成をもつBase、Large、Hugeの三タイプで実験を実施。
• 表記として、ViT-L/16と示された場合、「16×16の入力パッチサイズ」を持つ 「Large」モデルを意味する。
• 画像をパッチに分割する代わりに、ResNetを用いて特徴マップを取得してTransformerへの入力データとする
Hybrid Architectureも考案され、実験されている。
16
Copyright (C) Present Square Co., Ltd. All Rights Reserved.
3. 実験
事前学習データセット
ベンチマークデータセット
• モデルのスケーラビリティを調べるために、
右表のデータセットを事前学習に利用。
• 事前学習データセットで事前学習したモデルを、
右表のベンチマークデータセットで転移学習し、検証。
データセット
17
Copyright (C) Present Square Co., Ltd. All Rights Reserved.
3. 実験
【参考】 VTAB(Visual Task Adaptation Benchmark )
• VTABは、Googleが提案した事前学習の汎用性を知るためのベンチマーク。
• 事前学習したモデルが、小数の下流タスク用のデータセットを学習して、どの程度多様なタスクに対応できるのかを測る。
• データが限られている新しいタスクへのアルゴリズムの一般化を評価するために、タスクごとに1000の例のみを使用して
パフォーマンスが評価される。VTABでは、19のタスクが用意されており、以下のグループに分けられている。
【3つのグループ】
(1) Natural : 標準的なカメラで撮られた一般的なオブジェクト、きめ細かいクラス、または抽象的な概念の画像。
(Pets、CIFARなどが該当)
(2) Specialized :医用画像やリモートセンシングなどの特殊な機器を使用してキャプチャされた画像。
(3) Structured :位置把握のような幾何学的な理解を必要とするタスク。
18
Copyright (C) Present Square Co., Ltd. All Rights Reserved.
3. 実験
精度比較
ベンチマークモデル
• Big Transfer(BiT)
• Noisy Student
• ViT-L/16モデルは、すべてのデータセッ
トでBiT-Lと同等か、またはそれを上回
る性能を示した。
• より大きなモデルであるViT-H/14は、
特にImageNetやCIFAR-100、
VTABタスクなど、より難易度の高いデー
タセットで性能をさらに向上させている。
結果
19
Copyright (C) Present Square Co., Ltd. All Rights Reserved.
3. 実験
VTAB (Visual Task Adaptation Benchmark )タスクの結果
VTABタスクを3つのグループ(Natural、Specialized、Structured)に分解し、従来のSOTA手法と比較。
• BiT : Big Transformer
• VIVI: ResNetをベースにImageNetとYoutubeで学習されたモデル
• S4L : ImageNetを利用した教師あり型と半教師あり型で学習されたモデル
ベンチマークモデル
• Naturalタスクでは、BiT-L(R152x4)の方がわずかにViT-H/14を上回っているが、誤差の範囲内としている。
• Specializedタスクでは逆転しているが、同様に誤差の範囲といえる。
• 論文ではViTが有意に優れているといえるのは、Structuredタスクに関してのみと結論付けている。
結果
20
Copyright (C) Present Square Co., Ltd. All Rights Reserved.
3. 実験
事前学習のデータ要件について
• Vision Transformerは、大規模なデータセットで事前にトレーニングを行った場合、良好なパフォーマンスを発揮する。
• ResNetsよりも帰納的バイアスが少ないため、データセットのサイズが重要であると考えられる。
トレーニングデータセットの大きさ
• ImageNet, ImageNet-21k, JFT300Mで事前学習を比較。
• 3つの正則化パラメータ(重み減衰、ドロップアウト、ラベル平滑化)
を最適化。
• 右図はImageNetに対するfine-tuning後の結果を表示。
• ImageNet で事前に学習した場合、ViT-Large モデルは、ViT-
Base モデルよりも精度が悪化したが、ImageNet-21kの事前学
習では、両者の性能は同等まで向上。
• そして、さらに大規模なJFT-300Mで利点が確認できる。
• BiTと比較すると、ImageNet上では、ViTを上回る性能を示してい
るが、より大きなデータセットではViTが逆転していることがわかる。
21
Copyright (C) Present Square Co., Ltd. All Rights Reserved.
3. 実験
スケーラビリティについて
• 右表に示す異なるモデルのスケーリングを比較。JFT-
300Mで事前学習し、Average-5(5つのデータセット
の平均値)とImageNetでfine-tuning 。
• 各モデルの事前学習コスト(Total pre-training
compute)と精度(accuracy)を比較。
①学習コストの低さ
• 同じ性能を達成するために使用する計算量が
ViTは約2倍少なくなっており、計算量に対する
性能はViTがResNetsを圧倒。
②Vision Transformers のスケーラビリティ
• ViTは実験で試された範囲内では性能が飽和してい
ない。今後のスケーラビリティ拡大の可能性がある。
① ①
② ②
結果
22
Copyright (C) Present Square Co., Ltd. All Rights Reserved.
3. 実験
Hybrid Architectureについて
• 画像をパッチに分割する代わりに、ResNetを
用いて特徴マップを取得してTransformerへ
の入力データとするHybrid Architecture を
実験。
• データセットの規模が小さい時はわずかにViTを上回るが、大きな時はViTの方が良い。
• これはCNNが画像の情報を「捨象」して要約していくものであることが影響していると考えられる。すなわち、データセッ
トが小さい間は捨象が有効に働いているが、データセットが大きくなると必要な情報まで捨ててしまっていると考えられる。
結果
23
Copyright (C) Present Square Co., Ltd. All Rights Reserved.
3. 実験
• 入力が大きくなった時の最大バッチサイズはResNetの方が低下が早い。
• 大規模なViTモデルの方がResNetモデルよりも入力サイズが大きくなった場合でも、大きなバッチサイズで計算可能
=メモリ効率が良い、ことがわかる。
計算コストについて
• さまざまな入力サイズで、1つのコアが1秒間
に処理できる画像数を表示。広範囲のバッ
チサイズで測定されたピーク性能を表示して
いる。
• 最大解像度の最大モデル(ViT-H/14)
で、ViTの二次スケーリングが発生している。
(その他では二次スケーリングが発生しにくい、
としている。)
入力サイズ × ピーク速度(左図)
入力サイズ × 最大のバッチサイズ(右図)
24
Copyright (C) Present Square Co., Ltd. All Rights Reserved.
3. 実験
Vision Transformerはどのように画像を理解しているのか
• 1次元データ化されたパッチを低次元空間Dに線形射影。
• 下図に、学習したEmbeddingフィルタの上位の主成分を示す。
• これら主成分は、各パッチ内の微細な構造を低次元で表現するための基底関数に似ていることが指摘されている。
Linear Projection of Flattened Patches について
25
Copyright (C) Present Square Co., Ltd. All Rights Reserved.
3. 実験
Vision Transformerはどのように画像を理解しているのか
• 右上図は異なる層でのAttentionの重みに基づいて、画像空間の平均距離=
「Attention distance」を分析したもの。
• 下層(左下側)で大きくばらついてることがわかる。深さが増すにつれて、すべて
のヘッドで「Attention distance」が増加している。これはネットワークの後半で
は、ほとんどのヘッドが画像全体を注目していることを意味する。この距離はCNN
の受容野の大きさに似ている。
Transformer EncoderのAttention について
• 右下図はResNetを組み込んだHybred Architechture
との比較を示したもの。
• ResNetから抽出された特徴を用いているため、早い段階
から画像の広域を見ていることがわかる。
26
Copyright (C) Present Square Co., Ltd. All Rights Reserved.
3. 実験
Position Embedingについて
• Position Embedding の類似度を比較。
• きれいに行-列構造が現れ、同じ行/列にあるパッチは類似した埋め込み
を持っていることがわかる。
⇒1次元のEmbedding だけで2次元の位置情報に相当する情報が
学習できていることが読み取れる。
本論文では、Position Embedding について、1次元で位置情報をEmbedding している。
(1)位置情報を提供しない
(2)1次元位置情報のEmbeding(各パッチがラスタ順の列で並んでいると考える)
(3)2次元位置情報のEmbedding
(4)相対的な位置情報のEmbedding
を比較し、(2)1次元位置情報をEmbedding を採用。
1次元で位置情報をEmbeddingした結果の考察
27
Copyright (C) Present Square Co., Ltd. All Rights Reserved.
3. 実験
自己教師あり学習
• Transformerは、自然言語の分野で革新的なモデルとなったが、その要因は優れたスケーラビリティだけでなく、
大規模な自己教師あり事前学習にあることが論文では指摘されている。
• 論文では、BERTで使用されているマスク付き言語モデリングタスクを模倣した、自己学習のためのマスク付きパッチ
予測に関する探索が行われている。
• 自己教師あり事前学習により、ViT-B/16モデルは、ImageNet上で79.9%の精度を達成し、スクラッチ
からの学習に比べて2%の有意な改善が示された。しかし、それでも教師あり事前学習に比べて4%低い結果
となった。
• 論文では、発展の可能性を含め今後の研究課題としている。
28
Copyright (C) Present Square Co., Ltd. All Rights Reserved.
4. まとめ
貢献
モデルのサイズが大きくなっても性能がまだ飽和していないように思われている。
ViTをさらにスケールアップすることが求められている。
課題
• 画像をパッチのシーケンスとして解釈することで、NLPで使用されるような標準的なTransformerで処理することに成功。
• Transformerの「計算効率の良さ」と「スケーラビリティ」を画像処理タスクにもたらした。
• 最先端のCNN型モデルよりも優れた結果(もしくは同程度)を出したうえで、学習に必要な計算コストを大幅に減少。
①ViTを検出やセグメンテーションなどの他の画像処理タスク
②自己教師あり事前学習
今回の論文で行われた初期実験では、自己教師付き事前訓練からの改善は示されたが、自己教師あり学習と大
規模な教師あり事前学習の間にはまだ大きなギャップがある。
③さらなる大規模化
29
Copyright (C) Present Square Co., Ltd. All Rights Reserved.
Appendix
参考文献
• Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N Gomez, Łukasz
Kaiser, and Illia Polosukhin. Attention is all you need. In NIPS, 2017.
• Kaiming He, Xiangyu Zhang, Shaoqing Ren, and Jian Sun. Deep residual learning for image recognition.
In CVPR, 2016.
• J. Deng, W. Dong, R. Socher, L. Li, Kai Li, and Li Fei-Fei. Imagenet: A large-scale hierarchical image
database. In CVPR, 2009.
• Nicolas Carion, Francisco Massa, Gabriel Synnaeve, Nicolas Usunier, Alexander Kirillov, and Sergey
Zagoruyko. End-to-end object detection with transformers. In ECCV, 2020.
• Xiaolong Wang, Ross Girshick, Abhinav Gupta, and Kaiming He. Non-local neural networks. In CVPR,
2018.
• Jacob Devlin, Ming-Wei Chang, Kenton Lee, and Kristina Toutanova. BERT: Pre-training of deep
bidirectional transformers for language understanding. In NAACL, 2019.
30

More Related Content

What's hot

Triplet Loss 徹底解説
Triplet Loss 徹底解説Triplet Loss 徹底解説
Triplet Loss 徹底解説tancoro
 
【メタサーベイ】数式ドリブン教師あり学習
【メタサーベイ】数式ドリブン教師あり学習【メタサーベイ】数式ドリブン教師あり学習
【メタサーベイ】数式ドリブン教師あり学習cvpaper. challenge
 
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料Yusuke Uchida
 
Transformer 動向調査 in 画像認識(修正版)
Transformer 動向調査 in 画像認識(修正版)Transformer 動向調査 in 画像認識(修正版)
Transformer 動向調査 in 画像認識(修正版)Kazuki Maeno
 
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法SSII
 
[DL輪読会]Vision Transformer with Deformable Attention (Deformable Attention Tra...
[DL輪読会]Vision Transformer with Deformable Attention (Deformable Attention Tra...[DL輪読会]Vision Transformer with Deformable Attention (Deformable Attention Tra...
[DL輪読会]Vision Transformer with Deformable Attention (Deformable Attention Tra...Deep Learning JP
 
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)Deep Learning JP
 
自己教師学習(Self-Supervised Learning)
自己教師学習(Self-Supervised Learning)自己教師学習(Self-Supervised Learning)
自己教師学習(Self-Supervised Learning)cvpaper. challenge
 
【メタサーベイ】Neural Fields
【メタサーベイ】Neural Fields【メタサーベイ】Neural Fields
【メタサーベイ】Neural Fieldscvpaper. challenge
 
【メタサーベイ】Vision and Language のトップ研究室/研究者
【メタサーベイ】Vision and Language のトップ研究室/研究者【メタサーベイ】Vision and Language のトップ研究室/研究者
【メタサーベイ】Vision and Language のトップ研究室/研究者cvpaper. challenge
 
[DL輪読会]A closer look at few shot classification
[DL輪読会]A closer look at few shot classification[DL輪読会]A closer look at few shot classification
[DL輪読会]A closer look at few shot classificationDeep Learning JP
 
[DL輪読会]When Does Label Smoothing Help?
[DL輪読会]When Does Label Smoothing Help?[DL輪読会]When Does Label Smoothing Help?
[DL輪読会]When Does Label Smoothing Help?Deep Learning JP
 
【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion Models
【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion Models【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion Models
【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion ModelsDeep Learning JP
 
3D CNNによる人物行動認識の動向
3D CNNによる人物行動認識の動向3D CNNによる人物行動認識の動向
3D CNNによる人物行動認識の動向Kensho Hara
 
SSII2021 [SS1] Transformer x Computer Visionの 実活用可能性と展望 〜 TransformerのCompute...
SSII2021 [SS1] Transformer x Computer Visionの 実活用可能性と展望 〜 TransformerのCompute...SSII2021 [SS1] Transformer x Computer Visionの 実活用可能性と展望 〜 TransformerのCompute...
SSII2021 [SS1] Transformer x Computer Visionの 実活用可能性と展望 〜 TransformerのCompute...SSII
 
【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose EstimationDeep Learning JP
 
MS COCO Dataset Introduction
MS COCO Dataset IntroductionMS COCO Dataset Introduction
MS COCO Dataset IntroductionShinagawa Seitaro
 
これからの Vision & Language ~ Acadexit した4つの理由
これからの Vision & Language ~ Acadexit した4つの理由これからの Vision & Language ~ Acadexit した4つの理由
これからの Vision & Language ~ Acadexit した4つの理由Yoshitaka Ushiku
 
[DL輪読会]SlowFast Networks for Video Recognition
[DL輪読会]SlowFast Networks for Video Recognition[DL輪読会]SlowFast Networks for Video Recognition
[DL輪読会]SlowFast Networks for Video RecognitionDeep Learning JP
 

What's hot (20)

Triplet Loss 徹底解説
Triplet Loss 徹底解説Triplet Loss 徹底解説
Triplet Loss 徹底解説
 
【メタサーベイ】数式ドリブン教師あり学習
【メタサーベイ】数式ドリブン教師あり学習【メタサーベイ】数式ドリブン教師あり学習
【メタサーベイ】数式ドリブン教師あり学習
 
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
 
Transformer 動向調査 in 画像認識(修正版)
Transformer 動向調査 in 画像認識(修正版)Transformer 動向調査 in 画像認識(修正版)
Transformer 動向調査 in 画像認識(修正版)
 
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
 
[DL輪読会]Vision Transformer with Deformable Attention (Deformable Attention Tra...
[DL輪読会]Vision Transformer with Deformable Attention (Deformable Attention Tra...[DL輪読会]Vision Transformer with Deformable Attention (Deformable Attention Tra...
[DL輪読会]Vision Transformer with Deformable Attention (Deformable Attention Tra...
 
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)
 
自己教師学習(Self-Supervised Learning)
自己教師学習(Self-Supervised Learning)自己教師学習(Self-Supervised Learning)
自己教師学習(Self-Supervised Learning)
 
【メタサーベイ】Neural Fields
【メタサーベイ】Neural Fields【メタサーベイ】Neural Fields
【メタサーベイ】Neural Fields
 
【メタサーベイ】Vision and Language のトップ研究室/研究者
【メタサーベイ】Vision and Language のトップ研究室/研究者【メタサーベイ】Vision and Language のトップ研究室/研究者
【メタサーベイ】Vision and Language のトップ研究室/研究者
 
[DL輪読会]A closer look at few shot classification
[DL輪読会]A closer look at few shot classification[DL輪読会]A closer look at few shot classification
[DL輪読会]A closer look at few shot classification
 
[DL輪読会]When Does Label Smoothing Help?
[DL輪読会]When Does Label Smoothing Help?[DL輪読会]When Does Label Smoothing Help?
[DL輪読会]When Does Label Smoothing Help?
 
ResNetの仕組み
ResNetの仕組みResNetの仕組み
ResNetの仕組み
 
【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion Models
【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion Models【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion Models
【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion Models
 
3D CNNによる人物行動認識の動向
3D CNNによる人物行動認識の動向3D CNNによる人物行動認識の動向
3D CNNによる人物行動認識の動向
 
SSII2021 [SS1] Transformer x Computer Visionの 実活用可能性と展望 〜 TransformerのCompute...
SSII2021 [SS1] Transformer x Computer Visionの 実活用可能性と展望 〜 TransformerのCompute...SSII2021 [SS1] Transformer x Computer Visionの 実活用可能性と展望 〜 TransformerのCompute...
SSII2021 [SS1] Transformer x Computer Visionの 実活用可能性と展望 〜 TransformerのCompute...
 
【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
 
MS COCO Dataset Introduction
MS COCO Dataset IntroductionMS COCO Dataset Introduction
MS COCO Dataset Introduction
 
これからの Vision & Language ~ Acadexit した4つの理由
これからの Vision & Language ~ Acadexit した4つの理由これからの Vision & Language ~ Acadexit した4つの理由
これからの Vision & Language ~ Acadexit した4つの理由
 
[DL輪読会]SlowFast Networks for Video Recognition
[DL輪読会]SlowFast Networks for Video Recognition[DL輪読会]SlowFast Networks for Video Recognition
[DL輪読会]SlowFast Networks for Video Recognition
 

Similar to [DL輪読会]An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale

(文献紹介)深層学習による動被写体ロバストなカメラの動き推定
(文献紹介)深層学習による動被写体ロバストなカメラの動き推定(文献紹介)深層学習による動被写体ロバストなカメラの動き推定
(文献紹介)深層学習による動被写体ロバストなカメラの動き推定Morpho, Inc.
 
ICCV 2019 論文紹介 (26 papers)
ICCV 2019 論文紹介 (26 papers)ICCV 2019 論文紹介 (26 papers)
ICCV 2019 論文紹介 (26 papers)Hideki Okada
 
130710 02
130710 02130710 02
130710 02openrtm
 
[AI05] 目指せ、最先端 AI 技術の実活用!Deep Learning フレームワーク 「Microsoft Cognitive Toolkit 」...
[AI05] 目指せ、最先端 AI 技術の実活用!Deep Learning フレームワーク 「Microsoft Cognitive Toolkit 」...[AI05] 目指せ、最先端 AI 技術の実活用!Deep Learning フレームワーク 「Microsoft Cognitive Toolkit 」...
[AI05] 目指せ、最先端 AI 技術の実活用!Deep Learning フレームワーク 「Microsoft Cognitive Toolkit 」...de:code 2017
 
CV分野での最近の脱○○系3選
CV分野での最近の脱○○系3選CV分野での最近の脱○○系3選
CV分野での最近の脱○○系3選Kazuyuki Miyazawa
 
OpenCVをAndroidで動かしてみた
OpenCVをAndroidで動かしてみたOpenCVをAndroidで動かしてみた
OpenCVをAndroidで動かしてみた徹 上野山
 
130329 04
130329 04130329 04
130329 04openrtm
 
20130329 rtm4
20130329 rtm420130329 rtm4
20130329 rtm4openrtm
 
人が注目する箇所を当てるSaliency Detectionの最新モデル UCNet(CVPR2020)
人が注目する箇所を当てるSaliency Detectionの最新モデル UCNet(CVPR2020)人が注目する箇所を当てるSaliency Detectionの最新モデル UCNet(CVPR2020)
人が注目する箇所を当てるSaliency Detectionの最新モデル UCNet(CVPR2020)Shintaro Yoshida
 
[CVPR2020読み会@CV勉強会] 3D Packing for Self-Supervised Monocular Depth Estimation
[CVPR2020読み会@CV勉強会] 3D Packing for Self-Supervised Monocular Depth Estimation[CVPR2020読み会@CV勉強会] 3D Packing for Self-Supervised Monocular Depth Estimation
[CVPR2020読み会@CV勉強会] 3D Packing for Self-Supervised Monocular Depth EstimationKazuyuki Miyazawa
 
CVPR 2011 ImageNet Challenge 文献紹介
CVPR 2011 ImageNet Challenge 文献紹介CVPR 2011 ImageNet Challenge 文献紹介
CVPR 2011 ImageNet Challenge 文献紹介Narihira Takuya
 
BMS Molecular Translation 3rd place solution
BMS Molecular Translation 3rd place solutionBMS Molecular Translation 3rd place solution
BMS Molecular Translation 3rd place solutionKazuki Fujikawa
 
チラシルiOSでの広告枠開発
チラシルiOSでの広告枠開発チラシルiOSでの広告枠開発
チラシルiOSでの広告枠開発Satoshi Takano
 
【メタサーベイ】基盤モデル / Foundation Models
【メタサーベイ】基盤モデル / Foundation Models【メタサーベイ】基盤モデル / Foundation Models
【メタサーベイ】基盤モデル / Foundation Modelscvpaper. challenge
 
Intel OpenVINO™ ツールキットのご紹介
Intel OpenVINO™ ツールキットのご紹介Intel OpenVINO™ ツールキットのご紹介
Intel OpenVINO™ ツールキットのご紹介Hiroshi Ouchiyama
 
20151112 kutech lecture_ishizaki_public
20151112 kutech lecture_ishizaki_public20151112 kutech lecture_ishizaki_public
20151112 kutech lecture_ishizaki_publicKazuaki Ishizaki
 
Developer summit continuous deliveryとjenkins
Developer summit   continuous deliveryとjenkinsDeveloper summit   continuous deliveryとjenkins
Developer summit continuous deliveryとjenkinsKohsuke Kawaguchi
 
自習形式で学ぶ「DIGITS による画像分類入門」
自習形式で学ぶ「DIGITS による画像分類入門」自習形式で学ぶ「DIGITS による画像分類入門」
自習形式で学ぶ「DIGITS による画像分類入門」NVIDIA Japan
 
物理ベース時代のライトマップベイク奮闘記
物理ベース時代のライトマップベイク奮闘記物理ベース時代のライトマップベイク奮闘記
物理ベース時代のライトマップベイク奮闘記Silicon Studio Corporation
 

Similar to [DL輪読会]An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale (20)

(文献紹介)深層学習による動被写体ロバストなカメラの動き推定
(文献紹介)深層学習による動被写体ロバストなカメラの動き推定(文献紹介)深層学習による動被写体ロバストなカメラの動き推定
(文献紹介)深層学習による動被写体ロバストなカメラの動き推定
 
ICCV 2019 論文紹介 (26 papers)
ICCV 2019 論文紹介 (26 papers)ICCV 2019 論文紹介 (26 papers)
ICCV 2019 論文紹介 (26 papers)
 
130710 02
130710 02130710 02
130710 02
 
[AI05] 目指せ、最先端 AI 技術の実活用!Deep Learning フレームワーク 「Microsoft Cognitive Toolkit 」...
[AI05] 目指せ、最先端 AI 技術の実活用!Deep Learning フレームワーク 「Microsoft Cognitive Toolkit 」...[AI05] 目指せ、最先端 AI 技術の実活用!Deep Learning フレームワーク 「Microsoft Cognitive Toolkit 」...
[AI05] 目指せ、最先端 AI 技術の実活用!Deep Learning フレームワーク 「Microsoft Cognitive Toolkit 」...
 
CV分野での最近の脱○○系3選
CV分野での最近の脱○○系3選CV分野での最近の脱○○系3選
CV分野での最近の脱○○系3選
 
OpenCVをAndroidで動かしてみた
OpenCVをAndroidで動かしてみたOpenCVをAndroidで動かしてみた
OpenCVをAndroidで動かしてみた
 
130329 04
130329 04130329 04
130329 04
 
20130329 rtm4
20130329 rtm420130329 rtm4
20130329 rtm4
 
人が注目する箇所を当てるSaliency Detectionの最新モデル UCNet(CVPR2020)
人が注目する箇所を当てるSaliency Detectionの最新モデル UCNet(CVPR2020)人が注目する箇所を当てるSaliency Detectionの最新モデル UCNet(CVPR2020)
人が注目する箇所を当てるSaliency Detectionの最新モデル UCNet(CVPR2020)
 
[CVPR2020読み会@CV勉強会] 3D Packing for Self-Supervised Monocular Depth Estimation
[CVPR2020読み会@CV勉強会] 3D Packing for Self-Supervised Monocular Depth Estimation[CVPR2020読み会@CV勉強会] 3D Packing for Self-Supervised Monocular Depth Estimation
[CVPR2020読み会@CV勉強会] 3D Packing for Self-Supervised Monocular Depth Estimation
 
CVPR 2011 ImageNet Challenge 文献紹介
CVPR 2011 ImageNet Challenge 文献紹介CVPR 2011 ImageNet Challenge 文献紹介
CVPR 2011 ImageNet Challenge 文献紹介
 
BMS Molecular Translation 3rd place solution
BMS Molecular Translation 3rd place solutionBMS Molecular Translation 3rd place solution
BMS Molecular Translation 3rd place solution
 
チラシルiOSでの広告枠開発
チラシルiOSでの広告枠開発チラシルiOSでの広告枠開発
チラシルiOSでの広告枠開発
 
【メタサーベイ】基盤モデル / Foundation Models
【メタサーベイ】基盤モデル / Foundation Models【メタサーベイ】基盤モデル / Foundation Models
【メタサーベイ】基盤モデル / Foundation Models
 
Intel OpenVINO™ ツールキットのご紹介
Intel OpenVINO™ ツールキットのご紹介Intel OpenVINO™ ツールキットのご紹介
Intel OpenVINO™ ツールキットのご紹介
 
20151112 kutech lecture_ishizaki_public
20151112 kutech lecture_ishizaki_public20151112 kutech lecture_ishizaki_public
20151112 kutech lecture_ishizaki_public
 
Developer summit continuous deliveryとjenkins
Developer summit   continuous deliveryとjenkinsDeveloper summit   continuous deliveryとjenkins
Developer summit continuous deliveryとjenkins
 
自習形式で学ぶ「DIGITS による画像分類入門」
自習形式で学ぶ「DIGITS による画像分類入門」自習形式で学ぶ「DIGITS による画像分類入門」
自習形式で学ぶ「DIGITS による画像分類入門」
 
Angularreflex20141210
Angularreflex20141210Angularreflex20141210
Angularreflex20141210
 
物理ベース時代のライトマップベイク奮闘記
物理ベース時代のライトマップベイク奮闘記物理ベース時代のライトマップベイク奮闘記
物理ベース時代のライトマップベイク奮闘記
 

More from Deep Learning JP

【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving PlannersDeep Learning JP
 
【DL輪読会】事前学習用データセットについて
【DL輪読会】事前学習用データセットについて【DL輪読会】事前学習用データセットについて
【DL輪読会】事前学習用データセットについてDeep Learning JP
 
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...Deep Learning JP
 
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】Zero-Shot Dual-Lens Super-ResolutionDeep Learning JP
 
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxivDeep Learning JP
 
【DL輪読会】マルチモーダル LLM
【DL輪読会】マルチモーダル LLM【DL輪読会】マルチモーダル LLM
【DL輪読会】マルチモーダル LLMDeep Learning JP
 
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
 【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo... 【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...Deep Learning JP
 
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】AnyLoc: Towards Universal Visual Place RecognitionDeep Learning JP
 
【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?Deep Learning JP
 
【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究について【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究についてDeep Learning JP
 
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )Deep Learning JP
 
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...Deep Learning JP
 
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"Deep Learning JP
 
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
【DL輪読会】"Language Instructed Reinforcement Learning  for Human-AI Coordination "【DL輪読会】"Language Instructed Reinforcement Learning  for Human-AI Coordination "
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "Deep Learning JP
 
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat ModelsDeep Learning JP
 
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"Deep Learning JP
 
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...Deep Learning JP
 
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...Deep Learning JP
 
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...Deep Learning JP
 
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...Deep Learning JP
 

More from Deep Learning JP (20)

【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
 
【DL輪読会】事前学習用データセットについて
【DL輪読会】事前学習用データセットについて【DL輪読会】事前学習用データセットについて
【DL輪読会】事前学習用データセットについて
 
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
 
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
 
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
 
【DL輪読会】マルチモーダル LLM
【DL輪読会】マルチモーダル LLM【DL輪読会】マルチモーダル LLM
【DL輪読会】マルチモーダル LLM
 
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
 【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo... 【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
 
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
 
【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?
 
【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究について【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究について
 
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
 
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
 
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
 
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
【DL輪読会】"Language Instructed Reinforcement Learning  for Human-AI Coordination "【DL輪読会】"Language Instructed Reinforcement Learning  for Human-AI Coordination "
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
 
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
 
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
 
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
 
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
 
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
 
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
 

Recently uploaded

TSAL operation mechanism and circuit diagram.pdf
TSAL operation mechanism and circuit diagram.pdfTSAL operation mechanism and circuit diagram.pdf
TSAL operation mechanism and circuit diagram.pdftaisei2219
 
論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNet論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNetToru Tamaki
 
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...Toru Tamaki
 
スマートフォンを用いた新生児あやし動作の教示システム
スマートフォンを用いた新生児あやし動作の教示システムスマートフォンを用いた新生児あやし動作の教示システム
スマートフォンを用いた新生児あやし動作の教示システムsugiuralab
 
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略Ryo Sasaki
 
SOPを理解する 2024/04/19 の勉強会で発表されたものです
SOPを理解する       2024/04/19 の勉強会で発表されたものですSOPを理解する       2024/04/19 の勉強会で発表されたものです
SOPを理解する 2024/04/19 の勉強会で発表されたものですiPride Co., Ltd.
 
Postman LT Fukuoka_Quick Prototype_By Daniel
Postman LT Fukuoka_Quick Prototype_By DanielPostman LT Fukuoka_Quick Prototype_By Daniel
Postman LT Fukuoka_Quick Prototype_By Danieldanielhu54
 
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介Yuma Ohgami
 
論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A survey論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A surveyToru Tamaki
 

Recently uploaded (9)

TSAL operation mechanism and circuit diagram.pdf
TSAL operation mechanism and circuit diagram.pdfTSAL operation mechanism and circuit diagram.pdf
TSAL operation mechanism and circuit diagram.pdf
 
論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNet論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNet
 
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
 
スマートフォンを用いた新生児あやし動作の教示システム
スマートフォンを用いた新生児あやし動作の教示システムスマートフォンを用いた新生児あやし動作の教示システム
スマートフォンを用いた新生児あやし動作の教示システム
 
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
 
SOPを理解する 2024/04/19 の勉強会で発表されたものです
SOPを理解する       2024/04/19 の勉強会で発表されたものですSOPを理解する       2024/04/19 の勉強会で発表されたものです
SOPを理解する 2024/04/19 の勉強会で発表されたものです
 
Postman LT Fukuoka_Quick Prototype_By Daniel
Postman LT Fukuoka_Quick Prototype_By DanielPostman LT Fukuoka_Quick Prototype_By Daniel
Postman LT Fukuoka_Quick Prototype_By Daniel
 
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
 
論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A survey論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A survey
 

[DL輪読会]An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale

  • 1. http://deeplearning.jp/ AN IMAGE IS WORTH 16X16 WORDS: TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE Present Square Co.,Ltd. 小林 範久 DEEP LEARNING JP [DL Papers] 1
  • 2. Copyright (C) Present Square Co., Ltd. All Rights Reserved. 書誌情報 AN IMAGE IS WORTH 16X16 WORDS: TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE (https://openreview.net/forum?id=YicbFdNTTy) タイトル: 著者: 匿名(ICLR2021 査読中) • CNNを一切使わず、Transformerをベースに画像認識を行う、Vision Transformer (ViT)を提案。 • Transformerの「計算効率の良さ」と「スケーラビリティ」を画像処理タスクにもたらすことに成功。 • 最先端のCNN型モデルよりも優れた結果(もしくは同程度)を出したうえで、学習に必要な 計算コストを大幅に減少。 概要: ※データセットがGoogle独自の非公開のものであることや、TPUの使用などから おそらくGoogleの研究チーム(特にBig Transferの開発チーム)と推測されている。 2
  • 3. Copyright (C) Present Square Co., Ltd. All Rights Reserved. アジェンダ 1. 導入 2. 手法 3. 実験 4. まとめ 3
  • 4. Copyright (C) Present Square Co., Ltd. All Rights Reserved. 1. 導入 標準的なTransformerを、可能な限り少ない修正で画像に直接適用したい! • Self-Attentionベースのアーキテクチャ、特にTransformerは、自然言語処理タスクのデファクトスタンダードと なっているが、コンピュータビジョンへの応用は限られている。 • 自然言語処理の成功に触発されて、複数の研究がCNNのようなアーキテクチャとSelf-Attentionを組み合わ せようとしている。(DETRなど) • しかし、コンピュータビジョンでは、効果的にスケーリングされておらず、古典的なResNetのようなアーキテクチャが 未だに最先端モデルという状況がある。 4
  • 5. Copyright (C) Present Square Co., Ltd. All Rights Reserved. 1. 導入 ①計算効率の良さ Transformer をコンピュータービジョンで扱いたいモチベージョン ②スケーラビリティ • モデルを大きくしても学習が進まなくなる時があるが、Transformerは単純にモデルを大きくしても学習ができる =大規模化で性能の向上が見込める。(GPT-3で1750億個のパラメータ) • また、Transformerはデータ内の分散表現を獲得するため、自己教師あり学習に利用できる。ラベルのない データセットでも有効利用できるため、モデルの大規模化をさらに容易にする。 Transformerがコンピュータービジョンに適用されなかった理由 ①Transformerが得意とするのが文章などに代表されるシーケンスデータ(連続性のあるデータ)。 • 繋がりのある要素同士の関係性を明らかにすることに強みがある。 ②ピクセル単位でTransformerを利用すると計算要素が多くなる。 • 要素同士の関係性を取るため、要素の二乗分(𝑛2)の計算が必要となる。 • 画像の画素が256×256程度だったとしても4,294,967,296( =(256×256)2 )分の計算が必要。 5
  • 6. Copyright (C) Present Square Co., Ltd. All Rights Reserved. 2. 手法 Vision Transformer • 画像処理で一般的なCNNなどを利用せずに純粋に Transformerのみを利用するモデル。 • 画像を「画像パッチが連なったシーケンスデータ」として 扱うことで画像処理にTransformerを適用することに 成功。 • Transformerの「計算効率の良さ」と「スケーラビリ ティ」を画像処理タスクにもたらすことに成功。 • 最先端のCNN型モデルよりも優れた結果(もしくは 同程度)を出したうえで、学習に必要な計算コストを 大幅に減少。 画像パッチ(9つのパッチ)として入力 Vision Transformer のモデル 6
  • 7. Copyright (C) Present Square Co., Ltd. All Rights Reserved. 2. 手法 Vision Transformerのモデル詳細 ① ①Liner Projection of Flattened Patches (一次データ化された画像パッチの線形射影) ②Extra learnable [class] embedding (学習可能な[class]トークンの埋め込み) ② ④ ③Position Embedding(位置埋め込み) ④Transformer Encoderに投入 ⑤MLPヘッドと接続して画像分類 ⑤ ③ 7
  • 8. Copyright (C) Present Square Co., Ltd. All Rights Reserved. 2. 手法 Vision Transformer のモデル詳細 ①Liner Projection of Flattened Patches(一次データ化されたパッチの線形射影) • 二次元の画像(𝐻 × 𝑊 × 𝐶)を 𝑁(𝑃2・𝐶)に変換。 • 二次元である画像データをパッチごとに一次元のシーケンスデータに変換。 • 各ベクトル化されたパッチを次元DのテンソルEに写像し、その出力をPatch Embeddingと呼ぶ。 𝑃:各画像パッチ の解像度 P P ・ ・ ・ 𝑁:パッチ数 (𝑁 = 𝐻 × 𝑊 / 𝑃2 ) W (H, W):オリジナル画像の解像度 H 𝑥 𝑝 𝜖 ℝ 𝑁(𝑃2· C )𝑥 𝜖 ℝ 𝐻 ×𝑊 ×𝐶 flatten N Patch Embedding 8
  • 9. Copyright (C) Present Square Co., Ltd. All Rights Reserved. 2. 手法 Vision Transformer のモデル詳細 ②Extra learnable [class] embedding(学習可能な[class]トークンの埋め込み) • 画像分類を可能にするために、シーケンスデータの先頭に学習可能なトークンを追加する。 ※BERTの[cls]トークンと同じ効果を狙ったもの。 Patch Embedding ・ ・ ・ + *(class) [class] Embedding ② 9
  • 10. Copyright (C) Present Square Co., Ltd. All Rights Reserved. 2. 手法 Vision Transformer のモデル詳細 ③Position Embedding(位置埋め込み) ・ ・ ・ + *(class) ③ 9 2 1 0 [class] Embedding Patch Embedding + + + + Position Embedding Transformer Encoder パッチが画像のどこにあるかを識別する位置情報を付与する。 10
  • 11. Copyright (C) Present Square Co., Ltd. All Rights Reserved. 2. 手法 Vision Transformer のモデル詳細 ④Transformer Encoderに投入 • Multi-head Self-AttentionブロックとMulti Layer Pecerptronが交互になる形で構成。 • これらのブロックの前にはLayer Normalizationが、 ブロックの後には残差接続が適用されている。 • Self-Attentionを通して自然言語処理の時と同 様にパッチごとの(q, k, v)= (query, key, value)を獲得する。 本手法 オリジナル Transformer Encoder 11
  • 12. Copyright (C) Present Square Co., Ltd. All Rights Reserved. 2. 手法 Vision Transformer のモデル詳細 ⑤MLPヘッドと接続して画像分類 活性関数には非線形のGELUを用いる。 (オリジナルのTransformerはReLU ) ⑤ 12
  • 13. Copyright (C) Present Square Co., Ltd. All Rights Reserved. 2. 手法 モデルの数式 𝑥 𝑐𝑙𝑎𝑠𝑠 :Class Embedding(cls トークン) 𝑥 𝑝 𝑘 :𝑘個目のパッチ 𝐸 𝑝𝑜𝑠 :Position Embedding ・ ・ ・ + *(class) N 2 1 0 [class] Embedding Patch Embedding + + + + Position Embedding Transformer Encoder 𝑧0 𝑥 𝑐𝑙𝑎𝑠𝑠 𝑥 𝑝 1 𝐸 𝑥 𝑝 2 𝐸 𝑥 𝑝 𝑁 𝐸 𝐸 𝑝𝑜𝑠 13
  • 14. Copyright (C) Present Square Co., Ltd. All Rights Reserved. 2. 手法 モデルの数式 𝑀𝑆𝐴 : Multihead Self-attention 𝑀𝐿𝑃 : Multi Layer Perceptron 𝐿𝑁 : Linear Normalization 𝒁′𝒍 𝒁𝒍 𝑍 𝐿 0 :最終層の出力における前から0番目のベクトル表現 =class トークンの最終出力 14
  • 15. Copyright (C) Present Square Co., Ltd. All Rights Reserved. 2. 手法 Fine-tuningと高解像度化について • 一般的に事前学習した際の画像よりも高い解像度でFine-tuningすることが有益であると知られている。 そのためVision Transformerでもより高い解像度の画像を与える場合が想定される。 • Vision Transformerに事前学習時よりも高い解像度の画像を与えると、パッチサイズを同じに保つため、 結果として学習されたときよりも長いシーケンスデータが得られる。これは画像のピクセル数が増えたのに対し、 パッチサイズが変わらないため、画像をパッチに分割したときに生じるパッチ数が増えるため。 • Vision Transformerは、任意のシーケンス長のデータを扱うことができるため、与えるシーケンスデータが 長くなることは問題ないが、事前に訓練されたPositon Embeddingに意味がなくなる可能性がある。 • そのため、高解像度の画像でFine-tuningする際には、元の画像内の位置に応じて、事前に訓練された Position Embeddingの2D補間を実行している。 • この箇所が、CNNが持つような帰納的バイアスがVision Transformerにおいても、もたらされてしまう唯 一のポイントとなる。 Fine-tuning 高解像度化 • Vision Transformerは大規模なデータセットで事前学習し、(より小さな)下流のタスクに合わせて Fine-tuningして利用する。そのためタスクに適応するときに、事前学習したMLPヘッドを削除し、ゼロ初期 化されたD×K(Kは下流タスクのクラス数)のフィードフォワード層を追加する。 15
  • 16. Copyright (C) Present Square Co., Ltd. All Rights Reserved. 3. 実験 モデルのバリエーション • 以下に示さるような構成をもつBase、Large、Hugeの三タイプで実験を実施。 • 表記として、ViT-L/16と示された場合、「16×16の入力パッチサイズ」を持つ 「Large」モデルを意味する。 • 画像をパッチに分割する代わりに、ResNetを用いて特徴マップを取得してTransformerへの入力データとする Hybrid Architectureも考案され、実験されている。 16
  • 17. Copyright (C) Present Square Co., Ltd. All Rights Reserved. 3. 実験 事前学習データセット ベンチマークデータセット • モデルのスケーラビリティを調べるために、 右表のデータセットを事前学習に利用。 • 事前学習データセットで事前学習したモデルを、 右表のベンチマークデータセットで転移学習し、検証。 データセット 17
  • 18. Copyright (C) Present Square Co., Ltd. All Rights Reserved. 3. 実験 【参考】 VTAB(Visual Task Adaptation Benchmark ) • VTABは、Googleが提案した事前学習の汎用性を知るためのベンチマーク。 • 事前学習したモデルが、小数の下流タスク用のデータセットを学習して、どの程度多様なタスクに対応できるのかを測る。 • データが限られている新しいタスクへのアルゴリズムの一般化を評価するために、タスクごとに1000の例のみを使用して パフォーマンスが評価される。VTABでは、19のタスクが用意されており、以下のグループに分けられている。 【3つのグループ】 (1) Natural : 標準的なカメラで撮られた一般的なオブジェクト、きめ細かいクラス、または抽象的な概念の画像。 (Pets、CIFARなどが該当) (2) Specialized :医用画像やリモートセンシングなどの特殊な機器を使用してキャプチャされた画像。 (3) Structured :位置把握のような幾何学的な理解を必要とするタスク。 18
  • 19. Copyright (C) Present Square Co., Ltd. All Rights Reserved. 3. 実験 精度比較 ベンチマークモデル • Big Transfer(BiT) • Noisy Student • ViT-L/16モデルは、すべてのデータセッ トでBiT-Lと同等か、またはそれを上回 る性能を示した。 • より大きなモデルであるViT-H/14は、 特にImageNetやCIFAR-100、 VTABタスクなど、より難易度の高いデー タセットで性能をさらに向上させている。 結果 19
  • 20. Copyright (C) Present Square Co., Ltd. All Rights Reserved. 3. 実験 VTAB (Visual Task Adaptation Benchmark )タスクの結果 VTABタスクを3つのグループ(Natural、Specialized、Structured)に分解し、従来のSOTA手法と比較。 • BiT : Big Transformer • VIVI: ResNetをベースにImageNetとYoutubeで学習されたモデル • S4L : ImageNetを利用した教師あり型と半教師あり型で学習されたモデル ベンチマークモデル • Naturalタスクでは、BiT-L(R152x4)の方がわずかにViT-H/14を上回っているが、誤差の範囲内としている。 • Specializedタスクでは逆転しているが、同様に誤差の範囲といえる。 • 論文ではViTが有意に優れているといえるのは、Structuredタスクに関してのみと結論付けている。 結果 20
  • 21. Copyright (C) Present Square Co., Ltd. All Rights Reserved. 3. 実験 事前学習のデータ要件について • Vision Transformerは、大規模なデータセットで事前にトレーニングを行った場合、良好なパフォーマンスを発揮する。 • ResNetsよりも帰納的バイアスが少ないため、データセットのサイズが重要であると考えられる。 トレーニングデータセットの大きさ • ImageNet, ImageNet-21k, JFT300Mで事前学習を比較。 • 3つの正則化パラメータ(重み減衰、ドロップアウト、ラベル平滑化) を最適化。 • 右図はImageNetに対するfine-tuning後の結果を表示。 • ImageNet で事前に学習した場合、ViT-Large モデルは、ViT- Base モデルよりも精度が悪化したが、ImageNet-21kの事前学 習では、両者の性能は同等まで向上。 • そして、さらに大規模なJFT-300Mで利点が確認できる。 • BiTと比較すると、ImageNet上では、ViTを上回る性能を示してい るが、より大きなデータセットではViTが逆転していることがわかる。 21
  • 22. Copyright (C) Present Square Co., Ltd. All Rights Reserved. 3. 実験 スケーラビリティについて • 右表に示す異なるモデルのスケーリングを比較。JFT- 300Mで事前学習し、Average-5(5つのデータセット の平均値)とImageNetでfine-tuning 。 • 各モデルの事前学習コスト(Total pre-training compute)と精度(accuracy)を比較。 ①学習コストの低さ • 同じ性能を達成するために使用する計算量が ViTは約2倍少なくなっており、計算量に対する 性能はViTがResNetsを圧倒。 ②Vision Transformers のスケーラビリティ • ViTは実験で試された範囲内では性能が飽和してい ない。今後のスケーラビリティ拡大の可能性がある。 ① ① ② ② 結果 22
  • 23. Copyright (C) Present Square Co., Ltd. All Rights Reserved. 3. 実験 Hybrid Architectureについて • 画像をパッチに分割する代わりに、ResNetを 用いて特徴マップを取得してTransformerへ の入力データとするHybrid Architecture を 実験。 • データセットの規模が小さい時はわずかにViTを上回るが、大きな時はViTの方が良い。 • これはCNNが画像の情報を「捨象」して要約していくものであることが影響していると考えられる。すなわち、データセッ トが小さい間は捨象が有効に働いているが、データセットが大きくなると必要な情報まで捨ててしまっていると考えられる。 結果 23
  • 24. Copyright (C) Present Square Co., Ltd. All Rights Reserved. 3. 実験 • 入力が大きくなった時の最大バッチサイズはResNetの方が低下が早い。 • 大規模なViTモデルの方がResNetモデルよりも入力サイズが大きくなった場合でも、大きなバッチサイズで計算可能 =メモリ効率が良い、ことがわかる。 計算コストについて • さまざまな入力サイズで、1つのコアが1秒間 に処理できる画像数を表示。広範囲のバッ チサイズで測定されたピーク性能を表示して いる。 • 最大解像度の最大モデル(ViT-H/14) で、ViTの二次スケーリングが発生している。 (その他では二次スケーリングが発生しにくい、 としている。) 入力サイズ × ピーク速度(左図) 入力サイズ × 最大のバッチサイズ(右図) 24
  • 25. Copyright (C) Present Square Co., Ltd. All Rights Reserved. 3. 実験 Vision Transformerはどのように画像を理解しているのか • 1次元データ化されたパッチを低次元空間Dに線形射影。 • 下図に、学習したEmbeddingフィルタの上位の主成分を示す。 • これら主成分は、各パッチ内の微細な構造を低次元で表現するための基底関数に似ていることが指摘されている。 Linear Projection of Flattened Patches について 25
  • 26. Copyright (C) Present Square Co., Ltd. All Rights Reserved. 3. 実験 Vision Transformerはどのように画像を理解しているのか • 右上図は異なる層でのAttentionの重みに基づいて、画像空間の平均距離= 「Attention distance」を分析したもの。 • 下層(左下側)で大きくばらついてることがわかる。深さが増すにつれて、すべて のヘッドで「Attention distance」が増加している。これはネットワークの後半で は、ほとんどのヘッドが画像全体を注目していることを意味する。この距離はCNN の受容野の大きさに似ている。 Transformer EncoderのAttention について • 右下図はResNetを組み込んだHybred Architechture との比較を示したもの。 • ResNetから抽出された特徴を用いているため、早い段階 から画像の広域を見ていることがわかる。 26
  • 27. Copyright (C) Present Square Co., Ltd. All Rights Reserved. 3. 実験 Position Embedingについて • Position Embedding の類似度を比較。 • きれいに行-列構造が現れ、同じ行/列にあるパッチは類似した埋め込み を持っていることがわかる。 ⇒1次元のEmbedding だけで2次元の位置情報に相当する情報が 学習できていることが読み取れる。 本論文では、Position Embedding について、1次元で位置情報をEmbedding している。 (1)位置情報を提供しない (2)1次元位置情報のEmbeding(各パッチがラスタ順の列で並んでいると考える) (3)2次元位置情報のEmbedding (4)相対的な位置情報のEmbedding を比較し、(2)1次元位置情報をEmbedding を採用。 1次元で位置情報をEmbeddingした結果の考察 27
  • 28. Copyright (C) Present Square Co., Ltd. All Rights Reserved. 3. 実験 自己教師あり学習 • Transformerは、自然言語の分野で革新的なモデルとなったが、その要因は優れたスケーラビリティだけでなく、 大規模な自己教師あり事前学習にあることが論文では指摘されている。 • 論文では、BERTで使用されているマスク付き言語モデリングタスクを模倣した、自己学習のためのマスク付きパッチ 予測に関する探索が行われている。 • 自己教師あり事前学習により、ViT-B/16モデルは、ImageNet上で79.9%の精度を達成し、スクラッチ からの学習に比べて2%の有意な改善が示された。しかし、それでも教師あり事前学習に比べて4%低い結果 となった。 • 論文では、発展の可能性を含め今後の研究課題としている。 28
  • 29. Copyright (C) Present Square Co., Ltd. All Rights Reserved. 4. まとめ 貢献 モデルのサイズが大きくなっても性能がまだ飽和していないように思われている。 ViTをさらにスケールアップすることが求められている。 課題 • 画像をパッチのシーケンスとして解釈することで、NLPで使用されるような標準的なTransformerで処理することに成功。 • Transformerの「計算効率の良さ」と「スケーラビリティ」を画像処理タスクにもたらした。 • 最先端のCNN型モデルよりも優れた結果(もしくは同程度)を出したうえで、学習に必要な計算コストを大幅に減少。 ①ViTを検出やセグメンテーションなどの他の画像処理タスク ②自己教師あり事前学習 今回の論文で行われた初期実験では、自己教師付き事前訓練からの改善は示されたが、自己教師あり学習と大 規模な教師あり事前学習の間にはまだ大きなギャップがある。 ③さらなる大規模化 29
  • 30. Copyright (C) Present Square Co., Ltd. All Rights Reserved. Appendix 参考文献 • Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N Gomez, Łukasz Kaiser, and Illia Polosukhin. Attention is all you need. In NIPS, 2017. • Kaiming He, Xiangyu Zhang, Shaoqing Ren, and Jian Sun. Deep residual learning for image recognition. In CVPR, 2016. • J. Deng, W. Dong, R. Socher, L. Li, Kai Li, and Li Fei-Fei. Imagenet: A large-scale hierarchical image database. In CVPR, 2009. • Nicolas Carion, Francisco Massa, Gabriel Synnaeve, Nicolas Usunier, Alexander Kirillov, and Sergey Zagoruyko. End-to-end object detection with transformers. In ECCV, 2020. • Xiaolong Wang, Ross Girshick, Abhinav Gupta, and Kaiming He. Non-local neural networks. In CVPR, 2018. • Jacob Devlin, Ming-Wei Chang, Kenton Lee, and Kristina Toutanova. BERT: Pre-training of deep bidirectional transformers for language understanding. In NAACL, 2019. 30