[DL輪読会]Style Transfer from Non-Parallel Text by Cross-Alignment

1
Style Transfer from Non-Parallel Text
by Cross-Alignment
東京大学松尾研, 曽根岡侑也
DEEP LEARNING JP
[DL Papers]
http://deeplearning.jp

今回の動機
• parallelデータでの教師あり学習のテキスト生成の成果は多
く報告されているが、non-parallelを使った学習は黎明期っ
ぽい
• テキスト生成周りを俯瞰的に追ってみたかった
2

教師あり学習
2つの対応する系列データ（parallel data）を用いて学習
3
タスク入力例（ｘ）出力例（y）最近の研究
翻訳英語のテキスト日本語のテキスト
• Neural Machine Translation in Linear
Time[2016]
• Attention is all you need[2017]
音声認識音声データテキスト
• Deep Speech2[ICML2016, Baidu]
• WaveNet [2016, DeepMind]
• Very Deep Convolutional Networks for
End-to-End Speech Recognition  
[ICAPPS 2017]
要約リード文 or 文章タイトル
• Deep Recurrent Generative Decoder for
Abstractive Text Summarization 
[EMNLP 2017]
• From Neural Sentence Summarization
to Headline Generation: A Coarse-to-
Fine Approach[IJCAI 2017]
パラフレーズテキスト同意味のテキスト
• A Deep Generative Framework for
Paraphrase Generation[2017]

教師なし学習
大量のテキストを用いて潜在表現 z → テキストｘを学習
• VAEベース
• GANベース
- 離散表現のため、Discriminatorからの逆伝搬が難しい
- SeqGAN：Policy Gradientを利用
- TextGAN：argmaxをsoftmaxの極限で近似
• 変わり種
- Generating Sentences by Editing Prototypes[2017.9]
4

Generating Sentences by Editing Prototypes
• Redditで少し話題になった（arXiv on 26 Sep 2017）
• 訓練データからテキストを抽出し編集ベクトルを条件に変換
• 文法、文章の多様性、文章の長さを担保
5

特定の属性を持つテキスト生成
教師なし学習によるランダムなテキスト生成の代わりに
ある属性のテキストをnon-parallelデータで生成する
6
論文入力（ｘ）出力（y） non-parallelデータ
Toward Controlled
Generation of Text
テキスト
指定した感情や 
時制のテキスト
感情や時制に関する 
ラベル付きデータ
Sequence to Better
Sequence: Continuous
Revision of
Combinatorial
Structures
テキスト
高い成果を生むであ
ろうテキスト
成果（いいね数, Positive度
合い）に関する 
ラベル付きデータ
Style Transfer from
Non-Parallel Text by
Cross-Alignment
テキスト
別ドメインの 
テキスト
2つのドメインの 
テキストデータ 
（感情・暗号・順番等）

Toward Controlled Generation of Text
• 書誌情報
- ICML2017(arxiv on 2 Mar 2017) , 引用：19
- 著者：Zhiting Hu等（今年7本 top conference）
• 概要
- ランダムなテキスト生成ではなく属性を制御したい
- モデル：VAE + Discriminator
- softmax近似, independency constraints, wake-sleep
- 時制と感情に関して制御した文生成に成功
7

• VAEに復数のDiscriminatorを追加
• 潜在ベクトルzに加え、制御したい属性をc（感情・時制等）として用意
• c毎にDiscriminatorを学習（各ラベルが付いたデータがあればいい）
8

• VAEを大量のデータでPretrainし、その後D・G・Eを学習（割愛）
• Gが作ったxをEを用いてzを再構築できるかをLossに追加した
Independent Constraintsの効果でcがzと独立になった
9

• zがContentを持ちながら、cによってテキストが変化
• cはラベル付きデータがあれば増やすことができる
10

Sequence to Better Sequence
• 書誌情報
- ICML2017, 著者：Jonas Mueller等（MIT）
• 概要
- (系列, 成果）のデータを用いて、RNN-VAEと 
zから成果を予測する全結合を学習させる
- 学習済みモデルを用いて、文章を直す
- 文法・コンテンツを保ちながら、 
書き言葉やpositive, negativeの書き換えに成功
11

Sequence to Better Sequence
• x, yのペアからEncoder（X→Z, GRU）,  
Decoder（Z→X, GRU）,Predictor（Z→Y,全結合）を学習
• x→zにしたあと、Predictorの予測を高くするように勾配法で 
zを修正し、zをxに変換する
12

Style Transfer from Non-Parallel Text by
Cross-Alignment
13

メタ情報
• 著者
- Tianxiao Shen, Tao Lei, Regina Barzilay, Tommi Jaakkola
- MITのPhD
• NIPS 2017 spotlight（arXiv on 26 May 2017）
14

概要
• non-parallelなデータ + GANを用いて、 
テキストを別ドメインに近づけるstyle transferを学習させる
• CrossAligned AEモデルを提案
• 感情変換・暗号解読・単語並び替え問題で実験を行ない、 
non-parallelの学習では良い成果を残す
15

背景：StyleTransfer
• Non-parallelな 2つのドメインを近づけるモデル
• 画像ではVGGの中間ベクトルがStyleとContentを分離して
おり、中間ベクトルを近づけることで変換できる
16

テキスト：Style Transfer
• 3つのdataを想定
- y: p(y)からサンプリングされるStyle変数
- z: p(z)からサンプリングされるContent変数
- x: p(x ¦ y,z)の条件分布から作成されるテキスト
• 　 , から生成されるテキスト群を想定
17

• テキストx1→x2の確率分布を書きで定義
• ２つのStepを持つAutoEncoderとみなせる
1.Encoder：X ✕ Y → Z
2.Generator：Y ✕ Z → X
18

• 最適化手法について
- VAE→ Content変数zはxの複雑性を再現する必要があり 
　　　ガウス分布では不十分
- AE→ ReconstructionErrorを使うと、 
　　 p(x¦y, z）のエントロピーが減少してしまう
• 本研究では先行研究と異なり、AE + GANを採用
19

提案手法１：Aligned auto-encoder
EとGはReconstruction Errorを最小化しつつ、 
どちらのStyleかを見抜くDiscriminatorとEncoderとの戦い
20
E（RNN）：隠れ層の初期値→ y, 入力→ x , 出力→ z
G（RNN）：隠れ層の初期値→(y,z), 出力→ x
D（FNN）：1層 + sigmoid

提案手法２：Cross-aligned auto-encoder
• D1：「x1」と「x2をy1のスタイルに変換したx1'」, 
D2：「x2」と「x1をy2のスタイルに変換したx1'」を用意
• argmaxをsoftmax(vt/γ)で近似（γは十分に小さい）
• 隠れ層をDiscriminator（CNN）に入力
21

提案手法２：Cross-aligned auto-encoder
22

実験１：感情変換
• データセット
- Yelpで3点以上（Positive）3点未満（Negative）
- 10文以上のレビュー、15単語以上の文は除外
- Positive：350k, Negative：250k
• 評価方法：
- VAE, 提案手法1, 提案手法2で比較
- 文章をStyleTransferした後の文を 
学習済み分類器（精度85.4%）で評価する
23

Cross-aligned AEが他を圧倒（85.4%に近い）
24

Contentを維持しながら変換できている
25

実験2:単語置き換えによる暗号
- 同じテキストデータの単語を1対1で置換
- オリジナル：200K, 置換文：200K
- 置換比率を20,40,60,80,100%を用意
• 評価
- 実験1の比較対象に加え、 
単語頻度,Parallelデータで学習したものも比較
- BLEUスコア
26

実験3:単語並び替え
- 同じテキストデータの単語をランダムに並び替える
- オリジナル：200K, 並び替え文：200K
• 評価
- 実験2と同じ
27

実験2-3:復号+単語並び替え
• 復号はParallelで学習すると複合は簡単だが、 
non-parallelだとCrossAlignedのみ有効 
（単語並び替えは難しい）
28

実験3:単語並び替え
• BLEUスコアだと間違いになるが意味的にはあっている 
並び替えも多い
29

まとめ
結構やっていることは似ている
30
論文モデルアプローチ
Toward Controlled
Generation of Text
VAE + Discriminators 
（属性毎にDを用意）
• VAEのzに属性cを追加してDecode
• Decodeした結果から、z, cを予測す
るDiscriminatorを用意して学習
• 学習済みVAEでcを変更して変換
Sequence to Better
Sequence:
Continuous Revision
of Combinatorial
Structures
VAE + Discrimator
• (text, y）データでモデルを学習
• VAEのzをDで推測結果のlossを使
って変更し、テキストに戻す
Style Transfer from
Non-Parallel Text by
Cross-Alignment
AE +Discriminator*2
• AEで変換したテキストと近づけ
たいテキストを見分けるDを両方
向に用意し学習（GAN）
• 学習済みモデルで変換

[DL輪読会]Style Transfer from Non-Parallel Text by Cross-Alignment

Recommended

Recommended

More Related Content

Viewers also liked

Viewers also liked (10)

Recently uploaded

Recently uploaded (10)

[DL輪読会]Style Transfer from Non-Parallel Text by Cross-Alignment