SlideShare a Scribd company logo
1 of 24
Download to read offline
Abstractive Text
Summarization
2017/05/17 レトリバセミナー
アルバイト:小平 知範
1
自己紹介
• 小平 知範 (@kdaira_)
• 首都大学東京大学院 修士2年(小町研究室)
• 研究分野: 要約、平易化
2
目次
• Abstractive Text Summarizationについて
• RNNを用いた生成モデル
• Abstractive Text Summarization using Sequence-
to-sequence RNNs and Beyond (Nallapati et al.,
CoNLL’16)
• Get To The Point: Summarization with Pointer-Generator
Networks (See et al., ACL’17)
3
Abstractive Text Summarization
• タイトル
• 要約
• 記事
http://www.dailymail.co.uk/news/article-4497890/Samurai-swords-axes-air-guns-brought-school.html
4
Sequence-to-Sequence
Model
st
h0 h9
Get To The Point: Summarization with Pointer-Generator Networks (See et al., ACL’17): Figure 2
5
• タスク:abstractive text summarization
• 解決した問題:1. 文章の構造を捉えれてない,
2.<UNK>対応
• 解決手法:
1. hierarchicalな構造のEncoderとそれを考慮した
attentionモデルの提案
2. Large Vocabulary Trickとgenerator/pointerを導入.
6
Abstractive Text Summarization using
Sequence-to-sequence RNNs and
Beyond (Nallapati et al., CoNLL’16)
提案モデル
1. Encoder-Decoder RNN with Attention and Large Vocabulary Trick
2. Capturing Keywords using Feature-rich Encoder
3. Modeling Rare/Unseen Words using Switching Generator-Pointer
4. Capturing Hierarchical Document Structure with Hierarchical Attention
7
1. Encoder-Decoder RNN with
Attention and Large Vocabulary Trick
• ベースモデル: NMT model (Bahdanau et al., 2014)
encoderはbi-directional, decoderはuni-directional
GRU-RNN, attention.
• +α
Large vocabulary ‘trick’ (LVT) (Jean et al., 14)
decoderの語彙をミニバッチ内の語彙と,高頻度語彙を規定の数になる
まで取ってくる
(翻訳とは違い,使う言語が一緒だからできる技)
8
ミニバッチ内のソースの語彙 高頻度の語彙 = N
2. Capturing Keywords
using Feature-rich Encoder
• 基本:単語ベクトル
• +α:linguistic features (One-Hot representation)
POSタグ(品詞),named-entity(固有表現),TF and IDF
• エンコーダ側でのみ+αを使用,デーコーダ側では単語ベクトルのみ使用
9
3.ModelingRare/UnseenWords using
Switching Generator-Pointer
• 未知語対応のためのSwitching Generator-Pointer
• ポインターが発動する確率:
P(si=1) = σ(vs・Wshhi + WseE[oi-1]+ Wscci + bs))
[hi : デコーダの隠れ層,E[oi-1]デコーダが前に出した単語ベクトル,
ciはattention-weighted context vector
• ポインターを使ってソース側の単語を選ぶ
Pia(j) ∝ (va・Wahhi-1 + WaeE[oi-1]+ Wahdj + ba))
pi = arg maxj (Pia(j)) for j ∈{1,…, Nd}.
jはdocument内の単語の位置,hjdはエンコーダの隠れ層
10
3.ModelingRare/UnseenWords using
Switching Generator-Pointer
• P(si=1) = σ(vs・Wshhi + WseE[oi-1]+ Wscci + bs)
11
• Pai(j) ∝ (va・Wahhi-1 + WaeE[oi-1]+ Wahdj + ba))
ij hj
d
E[oi-1]
hi-1
4. Capturing Hierarchical Document
Structure with Hierarchical attention
• 文レベルと単語レベルでbidirectional-RNNsを走らせる
文レベルのLSTMには,何文目かの素性を追加する.
• 文レベルのアテンションと単語レベルのアテンションを考慮
した,softmax
12
4. Capturing Hierarchical Document
Structure with Hierarchical attention
13
Result 1
• Gigaword Corpus (Rushらが用いた文要約のデータ
)での結果
14
Result 2
• CNN/dailymailのデータを使ったときの結果
• データ量が少量かつ、入力が記事、出力が複数文と複
雑であるため、提案手法であまり良くはならなかった
15
• 1. Hybrid Pointer-Generator network
ソースの単語をコピーするpointerと
新しい(ソースにない)単語を生成するgenerator
• 2. Coverage Mechanism
今までに出力した情報を保持することで、単語の繰
り返し生成を防ぐ
• CNN/Daily Mail のデータでsota
Get To The Point: Summarization with
Pointer-Generator Networks
(See et al., ACL’17)
16
概要
Baseline Sequence-to-
Sequence Model
st
h0 h9
17
Generator-Pointer
ht
*
st
xt
at
w: vocabulary U source words
18
if w is OOV, Pvocab(w) = 0
Coverage Mechanism
• coverage model (Tu et al., 2016)のものを適用する。
• coverage vector: un (ct は正規化していない)
これまでのattentionの和をとり、今までに本文のどこを
見ていたのかを明示的に与える。
• Attention:
• Loss:
今まで見たいた単語(ci
t)と逆の方を見るように学習
19
Experiments
• 語彙は50k(sourceとtarget)
• 学習、テスト時の記事の単語長は400単語に制限。
• 学習時の要約長は100、テスト時は120
• pointer-generatorモデルで約230k iteration 学習し、
その後にcoverage mechanismを追加して、
3k iteration追加学習をした。
20
Result
• *(Nallapatiらはテストセットを公開していない)
21
Discussion
• (lead-3 baseline)の結果からこのコーパスでは、前
半に重要な情報が存在する。
• 事前に、記事の最初の400単語と800単語で学習し
た時、400単語で学習したモデルの方がROUGEス
コアが高かった。
22
Modelのabstractiveさ
23
※Baselineは多くのnovelword を生成しているが、その多くはエラーである
重複
24
Coverageの学習は1%の時間にも関わらず、正解に近い単語の重複率になっている

More Related Content

What's hot

Active Learning 入門
Active Learning 入門Active Learning 入門
Active Learning 入門
Shuyo Nakatani
 
111015 tokyo scipy2_ディスカッション
111015 tokyo scipy2_ディスカッション111015 tokyo scipy2_ディスカッション
111015 tokyo scipy2_ディスカッション
Shohei Hido
 

What's hot (20)

ルールベースから機械学習への道 公開用
ルールベースから機械学習への道 公開用ルールベースから機械学習への道 公開用
ルールベースから機械学習への道 公開用
 
Introduction to Chainer and CuPy
Introduction to Chainer and CuPyIntroduction to Chainer and CuPy
Introduction to Chainer and CuPy
 
SensorBeeのご紹介
SensorBeeのご紹介SensorBeeのご紹介
SensorBeeのご紹介
 
プログラマのための文書推薦入門
プログラマのための文書推薦入門プログラマのための文書推薦入門
プログラマのための文書推薦入門
 
ストリーム処理とSensorBee
ストリーム処理とSensorBeeストリーム処理とSensorBee
ストリーム処理とSensorBee
 
Active Learning 入門
Active Learning 入門Active Learning 入門
Active Learning 入門
 
Kerasで深層学習を実践する
Kerasで深層学習を実践するKerasで深層学習を実践する
Kerasで深層学習を実践する
 
SensorBeeでChainerをプラグインとして使う
SensorBeeでChainerをプラグインとして使うSensorBeeでChainerをプラグインとして使う
SensorBeeでChainerをプラグインとして使う
 
ChainerでDeep Learningを試すために必要なこと
ChainerでDeep Learningを試すために必要なことChainerでDeep Learningを試すために必要なこと
ChainerでDeep Learningを試すために必要なこと
 
文法圧縮入門:超高速テキスト処理のためのデータ圧縮(NLP2014チュートリアル)
文法圧縮入門:超高速テキスト処理のためのデータ圧縮(NLP2014チュートリアル)文法圧縮入門:超高速テキスト処理のためのデータ圧縮(NLP2014チュートリアル)
文法圧縮入門:超高速テキスト処理のためのデータ圧縮(NLP2014チュートリアル)
 
[DL輪読会]Neural Ordinary Differential Equations
[DL輪読会]Neural Ordinary Differential Equations[DL輪読会]Neural Ordinary Differential Equations
[DL輪読会]Neural Ordinary Differential Equations
 
Active Learning from Imperfect Labelers @ NIPS読み会・関西
Active Learning from Imperfect Labelers @ NIPS読み会・関西Active Learning from Imperfect Labelers @ NIPS読み会・関西
Active Learning from Imperfect Labelers @ NIPS読み会・関西
 
DATUM STUDIO PyCon2016 Turorial
DATUM STUDIO PyCon2016 TurorialDATUM STUDIO PyCon2016 Turorial
DATUM STUDIO PyCon2016 Turorial
 
111015 tokyo scipy2_ディスカッション
111015 tokyo scipy2_ディスカッション111015 tokyo scipy2_ディスカッション
111015 tokyo scipy2_ディスカッション
 
深層学習フレームワーク Chainerとその進化
深層学習フレームワークChainerとその進化深層学習フレームワークChainerとその進化
深層学習フレームワーク Chainerとその進化
 
Transformerを雰囲気で理解する
Transformerを雰囲気で理解するTransformerを雰囲気で理解する
Transformerを雰囲気で理解する
 
科学技術計算関連Pythonパッケージの概要
科学技術計算関連Pythonパッケージの概要科学技術計算関連Pythonパッケージの概要
科学技術計算関連Pythonパッケージの概要
 
C++のSTLのコンテナ型を概観する @ Ohotech 特盛 #10(2014.8.30)
C++のSTLのコンテナ型を概観する @ Ohotech 特盛 #10(2014.8.30)C++のSTLのコンテナ型を概観する @ Ohotech 特盛 #10(2014.8.30)
C++のSTLのコンテナ型を概観する @ Ohotech 特盛 #10(2014.8.30)
 
STLの型の使い分け(ダイジェスト版) @ Sapporo.cpp 第7回勉強会 (2014.10.18)
STLの型の使い分け(ダイジェスト版) @ Sapporo.cpp 第7回勉強会 (2014.10.18)STLの型の使い分け(ダイジェスト版) @ Sapporo.cpp 第7回勉強会 (2014.10.18)
STLの型の使い分け(ダイジェスト版) @ Sapporo.cpp 第7回勉強会 (2014.10.18)
 
NumPy闇入門
NumPy闇入門NumPy闇入門
NumPy闇入門
 

Similar to Abstractive Text Summarization @Retrieva seminar

蔵書選定のための学位論文タイトルマイニング
蔵書選定のための学位論文タイトルマイニング蔵書選定のための学位論文タイトルマイニング
蔵書選定のための学位論文タイトルマイニング
genroku
 
ピクサー USD 入門 新たなコンテンツパイプラインを構築する
ピクサー USD 入門 新たなコンテンツパイプラインを構築するピクサー USD 入門 新たなコンテンツパイプラインを構築する
ピクサー USD 入門 新たなコンテンツパイプラインを構築する
Takahito Tejima
 
Towards Knowledge-Based Personalized Product Description Generation in E-comm...
Towards Knowledge-Based Personalized Product Description Generation in E-comm...Towards Knowledge-Based Personalized Product Description Generation in E-comm...
Towards Knowledge-Based Personalized Product Description Generation in E-comm...
harmonylab
 

Similar to Abstractive Text Summarization @Retrieva seminar (20)

Generating Better Search Engine Text Advertisements with Deep Reinforcement L...
Generating Better Search Engine Text Advertisements with Deep Reinforcement L...Generating Better Search Engine Text Advertisements with Deep Reinforcement L...
Generating Better Search Engine Text Advertisements with Deep Reinforcement L...
 
蔵書選定のための学位論文タイトルマイニング
蔵書選定のための学位論文タイトルマイニング蔵書選定のための学位論文タイトルマイニング
蔵書選定のための学位論文タイトルマイニング
 
WordNetで作ろう! 言語横断検索サービス
WordNetで作ろう! 言語横断検索サービスWordNetで作ろう! 言語横断検索サービス
WordNetで作ろう! 言語横断検索サービス
 
Vision-and-Language Navigation: Interpreting visually-grounded navigation ins...
Vision-and-Language Navigation: Interpreting visually-grounded navigation ins...Vision-and-Language Navigation: Interpreting visually-grounded navigation ins...
Vision-and-Language Navigation: Interpreting visually-grounded navigation ins...
 
ピクサー USD 入門 新たなコンテンツパイプラインを構築する
ピクサー USD 入門 新たなコンテンツパイプラインを構築するピクサー USD 入門 新たなコンテンツパイプラインを構築する
ピクサー USD 入門 新たなコンテンツパイプラインを構築する
 
10分で分かるr言語入門ver2.14 15 0905
10分で分かるr言語入門ver2.14 15 090510分で分かるr言語入門ver2.14 15 0905
10分で分かるr言語入門ver2.14 15 0905
 
Python による 「スクレイピング & 自然言語処理」入門
Python による 「スクレイピング & 自然言語処理」入門Python による 「スクレイピング & 自然言語処理」入門
Python による 「スクレイピング & 自然言語処理」入門
 
Pythonを含む多くのプログラミング言語を扱う処理フレームワークとパターン、鷲崎弘宜、PyConJP 2016 招待講演
Pythonを含む多くのプログラミング言語を扱う処理フレームワークとパターン、鷲崎弘宜、PyConJP 2016 招待講演Pythonを含む多くのプログラミング言語を扱う処理フレームワークとパターン、鷲崎弘宜、PyConJP 2016 招待講演
Pythonを含む多くのプログラミング言語を扱う処理フレームワークとパターン、鷲崎弘宜、PyConJP 2016 招待講演
 
Hello Dark-Side C# (Part. 1)
Hello Dark-Side C# (Part. 1)Hello Dark-Side C# (Part. 1)
Hello Dark-Side C# (Part. 1)
 
Towards Knowledge-Based Personalized Product Description Generation in E-comm...
Towards Knowledge-Based Personalized Product Description Generation in E-comm...Towards Knowledge-Based Personalized Product Description Generation in E-comm...
Towards Knowledge-Based Personalized Product Description Generation in E-comm...
 
機械学習を用いたWeb上の産学連携関連文書の抽出
機械学習を用いたWeb上の産学連携関連文書の抽出機械学習を用いたWeb上の産学連携関連文書の抽出
機械学習を用いたWeb上の産学連携関連文書の抽出
 
Boost.Spirit.QiとLLVM APIで遊ぼう
Boost.Spirit.QiとLLVM APIで遊ぼうBoost.Spirit.QiとLLVM APIで遊ぼう
Boost.Spirit.QiとLLVM APIで遊ぼう
 
[第2版]Python機械学習プログラミング 第8章
[第2版]Python機械学習プログラミング 第8章[第2版]Python機械学習プログラミング 第8章
[第2版]Python機械学習プログラミング 第8章
 
10分で分かるr言語入門ver2.15 15 1010
10分で分かるr言語入門ver2.15 15 101010分で分かるr言語入門ver2.15 15 1010
10分で分かるr言語入門ver2.15 15 1010
 
GeneratingWikipedia_ICLR18_論文紹介
GeneratingWikipedia_ICLR18_論文紹介GeneratingWikipedia_ICLR18_論文紹介
GeneratingWikipedia_ICLR18_論文紹介
 
捗るリコメンドシステムの裏事情(ハッカドール)
捗るリコメンドシステムの裏事情(ハッカドール)捗るリコメンドシステムの裏事情(ハッカドール)
捗るリコメンドシステムの裏事情(ハッカドール)
 
ふぉとぶらり+LODAC -iPhoneアプリでのSPARQLでの活用事例-
ふぉとぶらり+LODAC -iPhoneアプリでのSPARQLでの活用事例-ふぉとぶらり+LODAC -iPhoneアプリでのSPARQLでの活用事例-
ふぉとぶらり+LODAC -iPhoneアプリでのSPARQLでの活用事例-
 
K-means hashing (CVPR'13) とハッシング周り
K-means hashing (CVPR'13) とハッシング周りK-means hashing (CVPR'13) とハッシング周り
K-means hashing (CVPR'13) とハッシング周り
 
【文献紹介】Abstractive Text Summarization Using Sequence-to-Sequence RNNs and Beyond
【文献紹介】Abstractive Text Summarization Using Sequence-to-Sequence RNNs and Beyond【文献紹介】Abstractive Text Summarization Using Sequence-to-Sequence RNNs and Beyond
【文献紹介】Abstractive Text Summarization Using Sequence-to-Sequence RNNs and Beyond
 
中3女子が狂える本当に気持ちのいい constexpr
中3女子が狂える本当に気持ちのいい constexpr中3女子が狂える本当に気持ちのいい constexpr
中3女子が狂える本当に気持ちのいい constexpr
 

More from Kodaira Tomonori

Simp lex rankng based on contextual and psycholinguistic features
Simp lex rankng based on contextual and psycholinguistic featuresSimp lex rankng based on contextual and psycholinguistic features
Simp lex rankng based on contextual and psycholinguistic features
Kodaira Tomonori
 
Improving text simplification language modeling using unsimplified text data
Improving text simplification language modeling using unsimplified text dataImproving text simplification language modeling using unsimplified text data
Improving text simplification language modeling using unsimplified text data
Kodaira Tomonori
 

More from Kodaira Tomonori (20)

Deep recurrent generative decoder for abstractive text summarization
Deep recurrent generative decoder for abstractive text summarizationDeep recurrent generative decoder for abstractive text summarization
Deep recurrent generative decoder for abstractive text summarization
 
Selective encoding for abstractive sentence summarization
Selective encoding for abstractive sentence summarizationSelective encoding for abstractive sentence summarization
Selective encoding for abstractive sentence summarization
 
AttSum: Joint Learning of Focusing and Summarization with Neural Attention
AttSum: Joint Learning of Focusing and Summarization with Neural AttentionAttSum: Joint Learning of Focusing and Summarization with Neural Attention
AttSum: Joint Learning of Focusing and Summarization with Neural Attention
 
障害情報レポートに対する同時関連文章圧縮
障害情報レポートに対する同時関連文章圧縮障害情報レポートに対する同時関連文章圧縮
障害情報レポートに対する同時関連文章圧縮
 
Neural Summarization by Extracting Sentences and Words
Neural Summarization by Extracting Sentences and WordsNeural Summarization by Extracting Sentences and Words
Neural Summarization by Extracting Sentences and Words
 
Poster: Controlled and Balanced Dataset for Japanese Lexical Simplification
Poster: Controlled and Balanced Dataset for Japanese Lexical SimplificationPoster: Controlled and Balanced Dataset for Japanese Lexical Simplification
Poster: Controlled and Balanced Dataset for Japanese Lexical Simplification
 
[Introduction] Neural Network-Based Abstract Generation for Opinions and Argu...
[Introduction] Neural Network-Based Abstract Generation for Opinions and Argu...[Introduction] Neural Network-Based Abstract Generation for Opinions and Argu...
[Introduction] Neural Network-Based Abstract Generation for Opinions and Argu...
 
[ポスター]均衡コーパスを用いた語彙平易化データセットの構築
[ポスター]均衡コーパスを用いた語彙平易化データセットの構築[ポスター]均衡コーパスを用いた語彙平易化データセットの構築
[ポスター]均衡コーパスを用いた語彙平易化データセットの構築
 
Noise or additional information? Leveraging crowdsource annotation item agree...
Noise or additional information? Leveraging crowdsource annotation item agree...Noise or additional information? Leveraging crowdsource annotation item agree...
Noise or additional information? Leveraging crowdsource annotation item agree...
 
語彙平易化システム評価のためのデータセット改良[ブースター]
語彙平易化システム評価のためのデータセット改良[ブースター]語彙平易化システム評価のためのデータセット改良[ブースター]
語彙平易化システム評価のためのデータセット改良[ブースター]
 
語彙平易化システム評価のためのデータセットの改良[ポスター]
語彙平易化システム評価のためのデータセットの改良[ポスター]語彙平易化システム評価のためのデータセットの改良[ポスター]
語彙平易化システム評価のためのデータセットの改良[ポスター]
 
PPDB 2.0: Better paraphrase ranking, 
fine-grained entailment relations,
word...
PPDB 2.0: Better paraphrase ranking, 
fine-grained entailment relations,
word...PPDB 2.0: Better paraphrase ranking, 
fine-grained entailment relations,
word...
PPDB 2.0: Better paraphrase ranking, 
fine-grained entailment relations,
word...
 
WordNet-Based Lexical Simplification of Document
WordNet-Based Lexical Simplification of DocumentWordNet-Based Lexical Simplification of Document
WordNet-Based Lexical Simplification of Document
 
文レベルの機械翻訳評価尺度に関する調査
文レベルの機械翻訳評価尺度に関する調査文レベルの機械翻訳評価尺度に関する調査
文レベルの機械翻訳評価尺度に関する調査
 
Simp lex rankng based on contextual and psycholinguistic features
Simp lex rankng based on contextual and psycholinguistic featuresSimp lex rankng based on contextual and psycholinguistic features
Simp lex rankng based on contextual and psycholinguistic features
 
Aligning sentences from standard wikipedia to simple wikipedia
Aligning sentences from standard wikipedia to simple wikipediaAligning sentences from standard wikipedia to simple wikipedia
Aligning sentences from standard wikipedia to simple wikipedia
 
日本語の語彙平易化評価セットの構築
日本語の語彙平易化評価セットの構築日本語の語彙平易化評価セットの構築
日本語の語彙平易化評価セットの構築
 
Improving text simplification language modeling using unsimplified text data
Improving text simplification language modeling using unsimplified text dataImproving text simplification language modeling using unsimplified text data
Improving text simplification language modeling using unsimplified text data
 
言い換えを用いたテキスト要約の自動評価
言い換えを用いたテキスト要約の自動評価言い換えを用いたテキスト要約の自動評価
言い換えを用いたテキスト要約の自動評価
 
聾者向け文章読解支援における構文的言い換えの効果について
聾者向け文章読解支援における構文的言い換えの効果について聾者向け文章読解支援における構文的言い換えの効果について
聾者向け文章読解支援における構文的言い換えの効果について
 

Abstractive Text Summarization @Retrieva seminar