Bridging between Vision and Language

Bridging between
Vision and Language
Shion Honda, Seitaro Shinagawa,
Keito Ishihara, Hiroyuki Osone
＃nlp-suvey-text2image

発表内容
● Text-to-image
● Text Generation
● Image-to-text->都合により割愛
チームでGitHub issuesにまとめながらサーベイしていました。ご興味のある方は
こちらも御覧ください（image-to-textもあります）。
https://github.com/nlp-survey-text2image/nlp-survey-text2image/issues

Text-to-imageとは？
狭義には、Image-captioningの逆問題となる、
“説明文からの2次元画像生成”という研究課題を指す
画像説明文画像
image-captioning
(image-to-text)
text-to-image

何が研究者達をText-to-imageに駆り立てている？
“The additional information from these descriptions could be used to simplify the
image modelling task.” [Mansimov+, ICLR2016]
“Automatic synthesis of realistic images from text would be interesting and useful,
but current AI systems are still far from this goal.” [Reed+, ICML2016]
“Automatic generation of realistic images from text descriptions has numerous
potential applications, for instance in image editing, in computer gaming or in law
enforcement.” [Sharma+, ICLR2018workshop]
“Automatically generating images according to natural language descriptions is a
fundamental problem in many applications, such as art generation and
computer-aided design” [Xu+, CVPR2018]
“Due to its significant potential in a number of applications...” [Qiao+, CVPR2019]

何を生成する？ー（単一物体生成タスク）
テキストはプロのデザイナーによ
って付与→専門家向け
テキストはクラウドソーシングで
付与→専門性が低く一般向け

何を生成する？ー（複数物体生成タスク）
単一物体生成と違い、物体同士の位置関係も表現できる必要がある
MSCOCO
Turbo learning
[Huang+,NeurIPS2018]
AttnGAN
[Xu+,CVPR2018]

Text-to-imageの代表的手法
AlignDRAW [Mansimov+,ICLR2016]: DRAWとテキストAttentionの組合せ
GAN-INT-CLS [Reed+, ICML2016]: テキスト条件付きDCGAN
StackGAN [Zhang+, ICCV2017]: ・段階的な画像生成で高解像度化
・
text vectorのaugmentationを提案
AttnGAN [Xu+, CVPR2018]: ・テキストからのAttentionを加える
・後世のベースラインとしての地位を確立
黎明期
ポストAttnGAN時代（←イマココ！）
Turbo learning [Huang+, NeurIPS2018]: 画像とテキストをCycleさせる
MirrorGAN [Qiao+, CVPR2019]: 同上
DM-GAN [Zhu+, CVPR2019]: 動的メモリを追加して精度向上

AlignDRAW [Mansimov+, ICLR2016]
● データセット：MSCOCO
● DRAW(Recurrent VAE)の画像生成デコーダとAttention付き
のテキストエンコーダの組合せ
● まだ生成画像は粗いものの、text-to-imageの可能性を示した

GAN-INT-CLS [Reed+, ICML2016]
● データセット：CUB, flower, (MSCOCO)
● テキストによる条件付きDCGANの提案
● 入力テキストと生成画像が適切に対応するように学習するた
めの手法であるmatching-aware lossを提案
● 鳥や花といった単一画像生成ではまあまあうまくいくように

StackGAN [Zhang+, ICCV2017]
● データセット：CUB, flower, (MSCOCO)
● 段階的な画像生成で高解像度化(解像度64→256)
● text vectorのaugmentation(conditioning augmentation)を提案
● CUBのinception score用のモデルも提供

StackGAN++ [Zhang+, IEEE2018]
● StackGANを3段階にしてCUBのFIDを52→15と改善
● 条件あり/なしの両方で損失を計算
● Upsamplingによる色の変化を抑える正則化項を追加
● モード崩壊の軽減に成功

AttnGAN [Xu+, CVPR2018]
● データセット：CUB, MSCOCO
● 単語レベルのAttention機構を追加
● 単語と画像間の類似度を向上するDAMSM lossを提案
● 近年のベースラインとしてよく用いられる

DM-GAN [Zhu+, CVPR2019]
● メモリ構造の導入により、各段階でテキストと画像の対応関
係をより柔軟に捉えて生成できる手法を提案
● 定性的にきいているのかが不明なので追加検証が欲しい

● 画像と説明文の間には、明示的な一対一対応の関係が成り立たない
● 特に複数物体の場合は物体の種類、配置に多様性があり過ぎる
サイクル性の導入により、一対一対応できる情報をアライメントする
● Turbo-learning [Huang+, NeurIPS2018]
● MirrorGAN [Qiao+, CVPR2019]
追加の情報を使って条件づける
● ＋bounding box, key point GAWWN [Reed+,NIPS2016]
● ＋対話文 ChatPainter [Sharma+, ICLR2018workshop]
● ＋bounding box, segmentation mask [Hong+, CVPR2018]
● ＋scene graph [Johnson+,CVPR2018]
黎明期を終えて：Text-to-imageは何が難しい？
最近の話題

Turbo learning [Huang+, NeurIPS2018]
● text-to-imageとimage-to-textの学習を同時に行う手法を提案
● それぞれのタスクで事前学習してTurbo learningでfine-tuning
● text-to-imageとimage-to-textがお互いの性能向上に寄与

MirrorGAN [Qiao+, CVPR2019]
● T2IとI2Tを繋げて鏡のような構造に
● Genの損失に説明文の再構成誤差を追加
● 人による選択評価も行いAttnGANと比較した優位性を示した

Semantics Disentangling GAN [Yin+, CVPR2019]
● 1枚の画像に対してつけられた複数の説明文をSiamese
Networkで活用し、似た文からは似た画像が得られるように
した

GAWWN [Reed+, NIPS2016]
● text-to-imageに説明文以外の情報を用いた最初の研究
● GAN-INT-CLSにbounding box, key pointを追加入力とする拡
張

ChatPainter [Sharma+, ICLR2018workshop]
● 追加の入力として
MSCOCOの対話データ
(Visdial dataset)を利用
● Inception scoreが数pt向上
● エンコーダは事前学習済み
のskip-thought vector
● デコーダは StackGAN
対話データは次の2つの方法で入力
non-recurrent: 全対話文を一文としてベクトル化
recurrent: 各対話文ごとにベクトル化してBiLSTMで再ベクトル化

Inferring Semantic Layout for Hierarchical Text-to-Image
Synthesis [Hong+, CVPR2018]
テキストから各物体のbounding box, segmentation maskを段階
的に予測し、画像のレイアウトを生成してから画像を生成
学習済みのimage
captioning model
により評価
bounding box,
segmentation mask
は学習データに必要

Image Generation from Scene Graphs [Johnson+, CVPR2018]
● データセット：COCO-Stuff, Visual Genome
● 生テキストを変換したScene graphで条件付けして学習
● Scene graphから画像までend-to-endで学習可能
● 生成結果はイマイチだが、位置関係が比較的正確

StoryGAN [Li+, CVPR2019]
● 複数文のstoryから動画を生成する、text-to-imageの発展課題
● textとimageの一致性と時間方向の一貫性も重要
● 画像・説明文ともに時系列性を処理するためにRNNを活用
● データセットとしてCLEVER-SVとPororo-SVを作成
● 結果はまだprimitiveで評価手法も未確定（チャンス？）

Text-to-imageの評価指標
Inception Score (IS) [Salimans+, NIPS2016]
一つ一つが認識で
きないよく分から
ない画像だとIS↘
同じクラスばかりで
多様性がないとIS↘
学習済み認識モデルを用いて、画像の忠実
性(fidelity)と多様性(diversity)を測る指標

Text-to-imageの評価指標
Fréchet Inception Distance (FID) [Heusel+, NIPS2017]
学習済み認識モデルの潜在空間の分布を正規分布として、実画像と生
成画像による潜在変数分布間の距離を測る指標
● Fréchet DistanceはWasserstein距離の正規分布版
● 著者実装では、最低10,000サンプルによって計算を行うことを推奨し
ている(https://github.com/bioinf-jku/TTUR)

text generationの概要
● 教師あり学習
○ 最尤推定
○ Scheduled Sampling
● VAE
● GAN
○ 強化学習
○ soft-argmax
RankGAN[Lin+, NeurIPS2018]

SeqGAN: テキスト生成GANにおける強化学習
argmaxが微分不可能なため通常のGANの構造では学習不可能
→Generatorに強化学習を導入
SeqGAN[Yu+, AAAI2017]

SeqGAN: テキスト生成GANにおける強化学習
強化学習の枠組みにおけるテキスト生成の各要素
● 状態s: その時刻までの生成単語列
● 行動a: 次の単語の決定
● 報酬r: その単語列が実際のテキストである確率
ROLLOUT:各時刻でモンテカルロ探索を行って出力候補を多数生成し、
それぞれに対してDiscriminatorで判別を行いその平均値を報酬として学
習を行う
PolicyGradient: 行動を決定する関数(ここではGenerator)のパラメータ
を直接学習していくための強化学習手法
テキスト生成のための工夫

TextGAN: 強化学習を用いない手法
強化学習を用いた手法ではModeCollapseや勾配消失のリスクが大きい
→soft-argmaxによる近似＆FeatureMatchingによりこれらを低減する手法が登場
※Lを無限大に近づけることで予測分布がone-hotベクトルに近づく
soft-labeling(0,1の正解ベクトルをランダムにぶれさせる)によって
生成テキストと真のテキストのベクトルを近づける
Improved Techniques for Training GANs[Salimans+, NeurIPS2016]

TextGAN: FeatureMatching
TextGAN[Zhang+, ICML2017]
生成テキストとオリジナ
ルテキストのCNNの中間
特徴ベクトルを抽出し、
生成テキストのベクトル
がオリジナルテキストの
分布に近づくように学習

データセット
よく使用されるデータセット
● Chinese Poem
○ 中国詩(五言絶句)
○ 主に短文として利用される
● MS COCO
○ テキストのみを利用
○ 主に中程度の文長の文として利用される
○ 平均11単語
● WMT2017 news
○ 翻訳用データセットのテキストを利用
○ 主に長文として利用される
○ 平均28単語

評価指標
自動評価
● test-BLEU
○ オリジナル文章全体とのBLEU
○ 生成文章の品質評価(高い程良い)
● self-BLEU
○ 生成文章同士のBLEUの平均
○ 生成文書の多様性評価(低い程良い)
人手評価
クオリティの五段階評価や人間によるものと思うかどうかの二値評価など
FMGAN[Chen+, NeurIPS2018]

テキスト生成GANの課題
特に長文生成時、Generatorが破綻なく文章を生成するのが非常に難しくほとん
ど報酬が発生しないという問題がある
→二値の分類結果だけでなく追加の情報をGeneratorに与えることで解決を図る
● +Rank情報 RankGAN[Lin+, NeurIPS2017]
● +Discriminatorの中間表現 LeakGAN[Guo+, AAAI2018]
FeatureMatchingを用いる場合、使用する距離関数に依存する
● Earth Mover's Distanceを使用 FMGAN[Chen+, NeurIPS2018]

テキスト生成GANの代表的手法
SeqGAN[Yu+,AAAI2017](RL-base): 系列生成GANの元祖
TextGAN[Zhang+, ICML2017](RL-free): 強化学習を用いない手法を初提案
最近
LeakGAN[Guo+, AAAI2018](RL-base): Dの中間特徴をGに与える
FMGAN[Chen+, NeurIPS2018](RL-free): EMDを利用 etc
元祖
RankGAN
MaskGAN etc

Training language GANs from Scratch
● original paper: https://arxiv.org/abs/1905.09922
● わかりやすい解説: http://cympfh.cc/paper/language-scratch-gan.html から転載
GAN は画像分野だとうまく行ってるがテキストではまだ難しい. ここでは unconditional な word generation を
Scratch GAN (スクラッチとは事前学習ナシのこと) でやることを考える. この論文の主張は次の3つ
1. 本気を出せば Scratch GAN は最尤推定で生成するものと肩を並べられる
2. 重要なテク: バッチサイズを大きくすること, 稠密な報酬 (Dense rewards), そして判別器の正則化
(regularization)
3. 今の評価指標はクソ: 質と生成の多様性の双方を評価する方法はない

言語モデルによる生成
GPT-2 ベースが流行り(主著のAlec Radford は DCGANの主著でもある)
・GPTとの違いはデータ量とレイヤーの数
・Redditから集めた40GBのデータセット
・タスク志向で学習するのではなく、zeroshotで学習
・パラメータ数が最大15 Billion のモデル

言語モデルによる条件付き生成
先頭に特殊なトークンやキーとなる単語、文をつけて生成していくものが多い
ここ最近流れが来ていそう
・On Extractive and Abstractive Neural Document Summarization with Transformer Language Models
https://arxiv.org/abs/1909.03186
・GPT-based Generation for Classical Chinese Poetry
https://arxiv.org/pdf/1907.00151.pdf
・Transforming Delete, Retrieve, Generate Approach for Controlled Text Style Transfer (EMNLP 2019)

・On Extractive and Abstractive Neural Document Summarization with
Transformer Language Models
重要文をPointerNetworkで抜き出した後、導入、重要文、要約、本文の順に並べた文書生成を自己注意機構ベース言語モデルで学習。推論
時は導入、重要文で条件付して要約を生成 (岡之原氏のツイートより)
https://twitter.com/hillbig/status/1171585503990140928?s=21
既存のseq2seqよりも良い
F-1 ROUGE scores
GTP-2 の220M パラメータ数のバージョンを使用

GPT-based Generation for Classical Chinese Poetry
https://arxiv.org/pdf/1907.00151.pdf
・古典中国詩を生成
・先頭に形式、タイトルで条件づけ
・専門の詩人によって書かれたものに近い出力
・中国語のニュースコーパスでpre-training
・publicly available classical Chinese poemsでfine-tuning

Transforming Delete, Retrieve, Generate Approach for
Controlled Text Style Transfer
Code: https://github.com/agaralabs/transformer-drg-style-transfer
1. Content と 2. Attributes で文が成り立っていると仮定
AttributesをContentの先頭につけて生成している
例
削除および生成を使用したコンテンツからの否定的な感情文（中立）の生成
Content: The food was and the service was
Output: The food tasteless and the service was horrible.
Delete、Retrieve、Generateを使用した、コンテンツからの否定的な感情文（中立）の生成
Content: The food was and the service was
Attributes: blend, slow
Output: The food was blend and the service was slow.

言語モデルの対話への利用
・Large-Scale Transfer Learning for Natural Language Generation
https://aclweb.org/anthology/P19-1608
・ConvAI2
・NeurIPSで開かれている対話のコンペ
・personachatという、対話データとユーザーの情報から対話を生成
・GPTベースの転移学習が優勝
・優勝者が実装と解説をブログに載せている
・https://medium.com/huggingface/how-to-build-a-state-of-the-art-conversational-ai-with-transfer-learning-2d818ac26313

潜在変数ベクトルを中間層にconcat（言語モデル）
・Encoder-Agnostic Adaptation for Conditional Language Generation
・Large-Scale Transfer Learning for Natural Language Generation
https://aclweb.org/anthology/P19-1608

Encoder-Agnostic Adaptation for Conditional Language Generation
事前学習済みの言語モデルを任意の条件付き入力に適合させる方法を検討
発想は従来のNN的手法と同様
（ただ、学習しているうちにconditionの効力がなくなっていく傾向がある）

Flowベース
・言語モデルと違って、文全体をまとまりとして扱えることが特徴

FlowSeq: Non-Autoregressive Conditional Sequence Generation with
Generative Flow
Non-autoregressiveな系列生成モデルの提案。seq2seqなどの系列モデルは自己回帰型であり(前回の生成が今回の生成に影響する)、精度は
高いが順番にしか生成できなかった。そこで系列要素を直接推定する手法を使用し、生成のための潜在表現をFlowベースのモデルで得るこ
とで実行速度/精度面双方を改善 (piqcy氏のツイートより)
https://twitter.com/icoxfog417/status/1171214366970040321
論文：https://arxiv.org/abs/1909.02480
Code: https://github.com/XuezheMax/flowseq

スタイル変換
テキストのスタイル変換がまとまっているページ
https://github.com/fuzhenxin/Style-Transfer-in-Text

Bridging between Vision and Language

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Similar to Bridging between Vision and Language

Similar to Bridging between Vision and Language (20)

More from Shion Honda

More from Shion Honda (11)

Recently uploaded

Recently uploaded (10)

Bridging between Vision and Language

Editor's Notes