第六回全日本コンピュータビジョン勉強会資料です。今回は、 UniT: Multimodal Multitask Learning with a Unified Transformer を紹介します。提案手法であるUniTは自然言語、ビジョン、 Vision and Language のタスクをそれぞれ統一的に解けるTransformer になります。
9. Multi Head Attentionとは
• Multi Head AttentionとはAttentionの各⾏列の次元を細かく分
断してまとめたもの(512次元のものを64次元のもの8つに
分断するイメージ)
• Multi Head AttentionにはMulti Head Cross Attentionと
Multi Head Self Attentionに分けることができる
[3]より引⽤
10. Multi Head Cross Attentionと
Multi Head Self Attention
• Multi Head Cross AttentionとMulti Head Self Attentionとは、
Queryの対象を出⼒先とするか⼊⼒先とするかの違いで分か
れる
[4]より引⽤
11. 提案⼿法UniTの概要
• いろんな分野で活躍しているならば、すべて解けるよね
• Multi Head Self Attentionを使ったimage encoderと
Multi Head Self Attentionを使ったtext encoderと
Multi Head Cross AttentionとMulti Head Self Attentionを使った
decoderで構成されているDNNを作った