ACL2018 Paper Survey: Learning to Ask Good Questions: Ranking Clarification Questions using Neural Expected Value of Perfect Information

Learning to Ask Good Questions
Ranking Clarification Questions using
Neural Expected Value of Perfect Information
Sudha Rao1 and Hal Daumé III1,2
1. University of Maryland
2. Microsoft Research
2018-07-08 ACL2018読み会
西山莉紗 @chopstickexe
https://arxiv.org/abs/1805.04655

どんな論文？
https://acl2018.org/2018/06/10/best-papers/

どんな論文？
Contributions
1. Clarification question rankingという新しいタスクを定義
2. 新しいタスクのための新しいニューラルネットワークモデルを提案
3. 新しいタスクのための新しいデータセットを作成・公開
コードとデータセット: https://github.com/raosudha89/ranking_clarification_questions

新しいタスク:
Clarification Question Ranking
1. What version of Ubuntu do you have?
2. What is the make of your wifi card?
3. Are you running Ubuntu 14.10 kernel 4.4.0-
59-generic on an x86_64 architecture?
…
How to configure path or set environment
variables for installation?
I’m aiming to install ape. I’m having this error
message while running…
Community Q&Aサイトへの新規投稿 (Post)
Past
Clarification
Questions
投稿内容の解決に役立つ回答 (Answer) を
得られることが期待できる順に並べられた
他ユーザーからの確認質問 (Question)
Clarification
Question Ranking

Clarification Question Rankingを解くため
のJoint NN model
Feedforward NN
(5 hidden layers)
𝑭ans( 𝒑, 𝒒)
Feedforward NN
(5 hidden layers)
Post word embeddings
Post repr.
𝒑
LSTM
(1 hidden layer)
Avg
LSTM
(1 hidden layer)
Avg
LSTM
(1 hidden layer)
Avg
LSTM
(1 hidden layer)
Avg
LSTM
(1 hidden layer)
Avg
LSTM
(1 hidden layer)
Avg
Question word embeddings Answer word embeddings
Question repr.
𝒒
Answer repr.
𝒂
𝑭util( 𝒑, 𝒒, 𝒂)
pとqからaが得られる確率（後述） aを得ることの価値（後述）
qのスコア:
qを聞くことで得られる価値の期待値

学習・評価用データセットの作成
（詳しくは後述しますが色々大変）
• StackExchangeのdata dumpを利用
• Original postの抽出
• Clarification questionの抽出
• Postのコメントの先頭から「?」までを抽出
• Clarification questionでないものを除外するためのルールを作成
• Answerの抽出
• 元のPostを改訂して回答するケース: Questionとタイムスタンプが最も近い
版の追記内容を抽出
• Questionの返答として回答するケース: Authorによる最初のコメントを抽出
• どちらも取れた場合は質問とコサイン類似度が高い方をAnswerとして抽出

評価結果
評価者1 or 2がBest questionと
判定したものが正解
評価者1と2がValid questionと
評価用postにもともと投稿され
ていたqが正解
どの正解を使っても提案手法がoutperform
（一位に正解questionが来る割合が21〜36%）
non-neuralの皆さん
回答確率を無視して
だけをFNNの入力変えて
学習・推定する皆さん

超・進行押してたらここまで
論文すごくわかりやすいので是非読んでください

Expected Value of Perfect Information
(EVPI) (Avriel and Williams, 1970)
https://www.jstor.org/stable/169369
EVPI = 未知の状況zを知っている状態で得られる報酬 - 現状で最善と考えられる行動xを選択した場合の報酬
と定義：
φが凹関数であれば、EVPIの値域はzの期待値を利用して計算できることを証明：

本論文の
Expected Value of Perfect Information
• 行動x Clarification question
• 未知の状況z Clarification questionに対する回答（Answer)
• 価値関数φ Answerによってpostに付与される価値 (Utility)
としてφの期待値を計算

提案モデル（推定時）
10個のQuestion候補をEVPIの値でリランキングする

Q&A candidate generator
普通のTF-IDFベースのランキング

Answer Modeling（推定時）
1- Feedforward NNで得られるanswer表現 (Fans) とajのコサイン類似度
ajと、qiに元々付与されていたQuestion (qj)のコサイン類似度

Utility Calculator（推定時）
※実際はqjも使っている
Feedforward NNで得られるpost+answerの表現

Clarification Question Rankingを解くため
のJoint NN model
Feedforward NN
(5 hidden layers)
𝑭ans( 𝒑, 𝒒)
Feedforward NN
(5 hidden layers)
Post word embeddings
Post repr.
𝒑
LSTM
(1 hidden layer)
Avg
LSTM
(1 hidden layer)
Avg
LSTM
(1 hidden layer)
Avg
LSTM
(1 hidden layer)
Avg
LSTM
(1 hidden layer)
Avg
LSTM
(1 hidden layer)
Avg
Question word embeddings Answer word embeddings
Question repr.
𝒒
Answer repr.
𝒂
𝑭util( 𝒑, 𝒒, 𝒂)
pとqからaが得られる確率（後述） aを得ることの価値（後述）
qのスコア:
qを聞くことで得られる価値の期待値
再掲

3つのLSTMと2つのFNNを学習するため
のloss関数
y=0(pi, q1, a1)
y=0(pi, q10, a10)
(pi, qi, ai) y=1
Fansが
• オリジナルの回答aiに近くかつ
• qiと似ている他のqの回答ajに近くなるように学習
がオリジナルのp, q, a tripleに
対して最大値1を取るように学習
学習データ

学習・評価用データセットの作成
• StackExchangeのdata dumpを利用
• Original postの抽出
• Clarification questionの抽出
• Postのコメントの先頭から「?」までを抽出
• Clarification questionでないものを除外するためのルールを作成
• Answerの抽出
• 元のPostを改訂して回答するケース: Questionとタイムスタンプが最も近い
版の追記内容を抽出
• Questionの返答として回答するケース: Authorによる最初のコメントを抽出
• どちらも取れた場合は質問とコサイン類似度が高い方をAnswerとして抽出
再掲

作成したデータセット: 77,097 triples
※この3トピックが選ばれているのは、データ数とClarification questionの投稿のされやすさに
基づいているのだと思います

評価方法1:
もともと付与されていたqを正解とみなす
• テストセットのポストpに元々付与されていたqを「正解」と
みなして評価する
• 問題点
• 元々付与されていたqとして、clarificationでないquestionが混ざって
いることがある
• （がんばったけど）データセットがまだNoisy
• 全体の9%
• 元々付与されていたq以外の有効なclarification questionを不正解とし
てしまう

評価方法2:
Domain Expert呼んできてアノテーション
• クラウドソーシングでUnixの知識があるアノテーターを10人招集
• 1つのExample (p + 10q)を2人がアノテーション
• pと順番をばらした10件のqを渡し、以下の2種類のアノテーションを依頼
• Best: 1件の最も優れたq
• Valid: Bestを含めた1件以上の質問する意義のありそうなq
• Kappa統計量
• Bestについて厳密に計算すると0.15
• 1人がBestでもう一人がValidでも一致したことにすると0.87
• Valid同士の一致は0.58

2人のアノテーターがvalidとした
question数の分布
• 85%以上のpostが2つ以上のvalid questionを持つ
• Original以外のquestionもvalidとされているので、人手でアノテーションする意義はある

対抗手法
• Random: 10個のcandidate question適当に並べ替え
• Bag-of-ngrams: bag-of-ngramモデルで学習したUtilityを使って
ランキング (n=3)
• Community QA: postに対するコメントを関連度順にランキング
• 文字列類似度やword embeddingなどを用いたロジスティック回帰
• Neural baselines
• 回答確率無視
• UtilityのFeedforward NNを入力変えて学習・推定
• pとq, pとa, pとqとa

評価結果
評価者1 or 2がBest questionと
評価者1と2がValid questionと
評価用postにもともと投稿され
ていたqが正解
どの正解を使っても提案手法がoutperform
（一位に正解questionが来る割合が21〜36%）
non-neuralの皆さん
回答確率を無視して
だけをFNNの入力変えて
学習・推定する皆さん
再掲

以降、時間があれば話します

chopstickexe is 誰
• 西山莉紗（にしやまりさ）
• 略歴
• 研究員@IBM東京基礎研究所（2006-2016)
• お客様の課題を解く自然言語処理ツールをPoCでゴリゴリ作る
• ソフトウェアエンジニア@IBM (2017-2018)
• お客様の文書データを機械学習して分類・類似度推定する機能をゴリゴリ作る
• データサイエンティスト@三菱ケミカルHD (Now!)
• 化学メーカー向けテキストマイニングツールを内製でゴリゴリ作る
一言でまとめると自然言語処理が得意なソフトウェアエンジニア

過去にDB系で類似研究があったような
※宣伝っぽくなりましたが発表者とは全く関係のない研究グループの業績です
http://db-event.jpn.org/deim2015/paper/167.pdf
回答可能確率回答確率
質問選択問題の定式化
期待利得
（重要）

まとめ
1. Clarification question rankingという新しいタスクを定義
2. 新しいタスクのための新しいニューラルネットワークモデルを提案
3. 新しいタスクのための新しいデータセットを作成・公開
今後、追従研究が出てくることを期待

ACL2018 Paper Survey: Learning to Ask Good Questions: Ranking Clarification Questions using Neural Expected Value of Perfect Information

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Similar to ACL2018 Paper Survey: Learning to Ask Good Questions: Ranking Clarification Questions using Neural Expected Value of Perfect Information

Similar to ACL2018 Paper Survey: Learning to Ask Good Questions: Ranking Clarification Questions using Neural Expected Value of Perfect Information (20)

ACL2018 Paper Survey: Learning to Ask Good Questions: Ranking Clarification Questions using Neural Expected Value of Perfect Information