SlideShare a Scribd company logo
1 of 30
Download to read offline
1
Style Transfer from Non-Parallel Text
by Cross-Alignment
東京大学松尾研, 曽根岡 侑也
DEEP LEARNING JP
[DL Papers]
http://deeplearning.jp
今回の動機
• parallelデータでの教師あり学習のテキスト生成の成果は多
く報告されているが、non-parallelを使った学習は黎明期っ
ぽい
• テキスト生成周りを俯瞰的に追ってみたかった
2
教師あり学習
2つの対応する系列データ(parallel data)を用いて学習
3
タスク 入力例(x) 出力例(y) 最近の研究
翻訳 英語のテキスト 日本語のテキスト
• Neural Machine Translation in Linear
Time[2016]
• Attention is all you need[2017]
音声認識 音声データ テキスト
• Deep Speech2[ICML2016, Baidu]
• WaveNet [2016, DeepMind]
• Very Deep Convolutional Networks for
End-to-End Speech Recognition 

[ICAPPS 2017]
要約 リード文 or 文章 タイトル
• Deep Recurrent Generative Decoder for
Abstractive Text Summarization

[EMNLP 2017]
• From Neural Sentence Summarization
to Headline Generation: A Coarse-to-
Fine Approach[IJCAI 2017]
パラフレーズ テキスト 同意味のテキスト
• A Deep Generative Framework for
Paraphrase Generation[2017]
教師なし学習
大量のテキストを用いて潜在表現 z → テキストxを学習
• VAEベース
• GANベース
- 離散表現のため、Discriminatorからの逆伝搬が難しい
- SeqGAN:Policy Gradientを利用
- TextGAN:argmaxをsoftmaxの極限で近似
• 変わり種
- Generating Sentences by Editing Prototypes[2017.9]
4
Generating Sentences by Editing Prototypes
• Redditで少し話題になった(arXiv on 26 Sep 2017)
• 訓練データからテキストを抽出し編集ベクトルを条件に変換
• 文法、文章の多様性、文章の長さを担保
5
特定の属性を持つテキスト生成
教師なし学習によるランダムなテキスト生成の代わりに
ある属性のテキストをnon-parallelデータで生成する
6
論文 入力(x) 出力(y) non-parallelデータ
Toward Controlled
Generation of Text
テキスト
指定した感情や

時制のテキスト
感情や時制に関する

ラベル付きデータ
Sequence to Better
Sequence: Continuous
Revision of
Combinatorial
Structures
テキスト
高い成果を生むであ
ろうテキスト
成果(いいね数, Positive度
合い)に関する

ラベル付きデータ
Style Transfer from
Non-Parallel Text by
Cross-Alignment
テキスト
別ドメインの

テキスト
2つのドメインの

テキストデータ

(感情・暗号・順番等)
Toward Controlled Generation of Text
• 書誌情報
- ICML2017(arxiv on 2 Mar 2017) , 引用:19
- 著者:Zhiting Hu等(今年7本 top conference)
• 概要
- ランダムなテキスト生成ではなく属性を制御したい
- モデル:VAE + Discriminator
- softmax近似, independency constraints, wake-sleep
- 時制と感情に関して制御した文生成に成功
7
Toward Controlled Generation of Text
• VAEに復数のDiscriminatorを追加
• 潜在ベクトルzに加え、制御したい属性をc(感情・時制等)として用意
• c毎にDiscriminatorを学習(各ラベルが付いたデータがあればいい)
8
Toward Controlled Generation of Text
• VAEを大量のデータでPretrainし、その後D・G・Eを学習(割愛)
• Gが作ったxをEを用いてzを再構築できるかをLossに追加した
Independent Constraintsの効果でcがzと独立になった
9
Toward Controlled Generation of Text
• zがContentを持ちながら、cによってテキストが変化
• cはラベル付きデータがあれば増やすことができる
10
Sequence to Better Sequence
• 書誌情報
- ICML2017, 著者:Jonas Mueller等(MIT)
• 概要
- (系列, 成果)のデータを用いて、RNN-VAEと

zから成果を予測する全結合を学習させる
- 学習済みモデルを用いて、文章を直す
- 文法・コンテンツを保ちながら、

書き言葉やpositive, negativeの書き換えに成功
11
Sequence to Better Sequence
• x, yのペアからEncoder(X→Z, GRU), 

Decoder(Z→X, GRU),Predictor(Z→Y,全結合)を学習
• x→zにしたあと、Predictorの予測を高くするように勾配法で

zを修正し、zをxに変換する
12
Style Transfer from Non-Parallel Text by
Cross-Alignment
13
メタ情報
• 著者
- Tianxiao Shen, Tao Lei, Regina Barzilay, Tommi Jaakkola
- MITのPhD
• NIPS 2017 spotlight(arXiv on 26 May 2017)
14
概要
• non-parallelなデータ + GANを用いて、

テキストを別ドメインに近づけるstyle transferを学習させる
• CrossAligned AEモデルを提案
• 感情変換・暗号解読・単語並び替え問題で実験を行ない、

non-parallelの学習では良い成果を残す
15
背景:StyleTransfer
• Non-parallelな 2つのドメインを近づけるモデル
• 画像ではVGGの中間ベクトルがStyleとContentを分離して
おり、中間ベクトルを近づけることで変換できる
16
テキスト:Style Transfer
• 3つのdataを想定
- y: p(y)からサンプリングされるStyle変数
- z: p(z)からサンプリングされるContent変数
- x: p(x ¦ y,z)の条件分布から作成されるテキスト
•   , から生成されるテキスト群を想定
17
テキスト:Style Transfer
• テキストx1→x2の確率分布を書きで定義
• 2つのStepを持つAutoEncoderとみなせる
1.Encoder:X ✕ Y → Z
2.Generator:Y ✕ Z → X
18
テキスト:Style Transfer
• 最適化手法について
- VAE→ Content変数zはxの複雑性を再現する必要があり

    ガウス分布では不十分
- AE→ ReconstructionErrorを使うと、

   p(x¦y, z)のエントロピーが減少してしまう
• 本研究では先行研究と異なり、AE + GANを採用
19
提案手法1:Aligned auto-encoder
EとGはReconstruction Errorを最小化しつつ、

どちらのStyleかを見抜くDiscriminatorとEncoderとの戦い
20
E(RNN):隠れ層の初期値→ y, 入力→ x , 出力→ z
G(RNN):隠れ層の初期値→(y,z), 出力→ x
D(FNN):1層 + sigmoid
提案手法2:Cross-aligned auto-encoder
• D1:「x1」と「x2をy1のスタイルに変換したx1'」,

D2:「x2」と「x1をy2のスタイルに変換したx1'」を用意
• argmaxをsoftmax(vt/γ)で近似(γは十分に小さい)
• 隠れ層をDiscriminator(CNN)に入力
21
提案手法2:Cross-aligned auto-encoder
22
実験1:感情変換
• データセット
- Yelpで3点以上(Positive)3点未満(Negative)
- 10文以上のレビュー、15単語以上の文は除外
- Positive:350k, Negative:250k
• 評価方法:
- VAE, 提案手法1, 提案手法2で比較
- 文章をStyleTransferした後の文を

学習済み分類器(精度85.4%)で評価する
23
実験1:感情変換
Cross-aligned AEが他を圧倒(85.4%に近い)
24
実験1:感情変換
Contentを維持しながら変換できている
25
実験2:単語置き換えによる暗号
• データセット
- 同じテキストデータの単語を1対1で置換
- オリジナル:200K, 置換文:200K
- 置換比率を20,40,60,80,100%を用意
• 評価
- 実験1の比較対象に加え、

単語頻度,Parallelデータで学習したものも比較
- BLEUスコア
26
実験3:単語並び替え
• データセット
- 同じテキストデータの単語をランダムに並び替える
- オリジナル:200K, 並び替え文:200K
• 評価
- 実験2と同じ
27
実験2-3:復号+単語並び替え
• 復号はParallelで学習すると複合は簡単だが、

non-parallelだとCrossAlignedのみ有効

(単語並び替えは難しい)
28
実験3:単語並び替え
• BLEUスコアだと間違いになるが意味的にはあっている

並び替えも多い
29
まとめ
結構やっていることは似ている
30
論文 モデル アプローチ
Toward Controlled
Generation of Text
VAE + Discriminators

(属性毎にDを用意)
• VAEのzに属性cを追加してDecode
• Decodeした結果から、z, cを予測す
るDiscriminatorを用意して学習
• 学習済みVAEでcを変更して変換
Sequence to Better
Sequence:
Continuous Revision
of Combinatorial
Structures
VAE + Discrimator
• (text, y)データでモデルを学習
• VAEのzをDで推測結果のlossを使
って変更し、テキストに戻す
Style Transfer from
Non-Parallel Text by
Cross-Alignment
AE +Discriminator*2
• AEで変換したテキストと近づけ
たいテキストを見分けるDを両方
向に用意し学習(GAN)
• 学習済みモデルで変換

More Related Content

Viewers also liked

Viewers also liked (10)

[DL輪読会] “Asymmetric Tri-training for Unsupervised Domain Adaptation (ICML2017...
[DL輪読会] “Asymmetric Tri-training for Unsupervised Domain Adaptation (ICML2017...[DL輪読会] “Asymmetric Tri-training for Unsupervised Domain Adaptation (ICML2017...
[DL輪読会] “Asymmetric Tri-training for Unsupervised Domain Adaptation (ICML2017...
 
[DL輪読会]Opening the Black Box of Deep Neural Networks via Information
[DL輪読会]Opening the Black Box of Deep Neural Networks via Information[DL輪読会]Opening the Black Box of Deep Neural Networks via Information
[DL輪読会]Opening the Black Box of Deep Neural Networks via Information
 
[DL輪読会]Imagination-Augmented Agents for Deep Reinforcement Learning / Learnin...
[DL輪読会]Imagination-Augmented Agents for Deep Reinforcement Learning / Learnin...[DL輪読会]Imagination-Augmented Agents for Deep Reinforcement Learning / Learnin...
[DL輪読会]Imagination-Augmented Agents for Deep Reinforcement Learning / Learnin...
 
[DL輪読会]Energy-based generative adversarial networks
[DL輪読会]Energy-based generative adversarial networks[DL輪読会]Energy-based generative adversarial networks
[DL輪読会]Energy-based generative adversarial networks
 
Prophet入門【Python編】Facebookの時系列予測ツール
Prophet入門【Python編】Facebookの時系列予測ツールProphet入門【Python編】Facebookの時系列予測ツール
Prophet入門【Python編】Facebookの時系列予測ツール
 
Greed is Good: 劣モジュラ関数最大化とその発展
Greed is Good: 劣モジュラ関数最大化とその発展Greed is Good: 劣モジュラ関数最大化とその発展
Greed is Good: 劣モジュラ関数最大化とその発展
 
ドキュメントを作りたくなってしまう魔法のツールSphinx
ドキュメントを作りたくなってしまう魔法のツールSphinxドキュメントを作りたくなってしまう魔法のツールSphinx
ドキュメントを作りたくなってしまう魔法のツールSphinx
 
#ibis2017 Description: IBIS2017の企画セッションでの発表資料
#ibis2017 Description: IBIS2017の企画セッションでの発表資料#ibis2017 Description: IBIS2017の企画セッションでの発表資料
#ibis2017 Description: IBIS2017の企画セッションでの発表資料
 
最近のSingle Shot系の物体検出のアーキテクチャまとめ
最近のSingle Shot系の物体検出のアーキテクチャまとめ最近のSingle Shot系の物体検出のアーキテクチャまとめ
最近のSingle Shot系の物体検出のアーキテクチャまとめ
 
ICCV 2017 速報
ICCV 2017 速報 ICCV 2017 速報
ICCV 2017 速報
 

Recently uploaded

Recently uploaded (10)

LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
LoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイスLoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイス
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
 
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
 
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
 
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
 
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
 
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアルLoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
 
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
 
新人研修 後半 2024/04/26の勉強会で発表されたものです。
新人研修 後半        2024/04/26の勉強会で発表されたものです。新人研修 後半        2024/04/26の勉強会で発表されたものです。
新人研修 後半 2024/04/26の勉強会で発表されたものです。
 
Utilizing Ballerina for Cloud Native Integrations
Utilizing Ballerina for Cloud Native IntegrationsUtilizing Ballerina for Cloud Native Integrations
Utilizing Ballerina for Cloud Native Integrations
 
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
 

[DL輪読会]Style Transfer from Non-Parallel Text by Cross-Alignment