SlideShare a Scribd company logo
1 of 27
Learning to Ask Good Questions
Ranking Clarification Questions using
Neural Expected Value of Perfect Information
Sudha Rao1 and Hal Daumé III1,2
1. University of Maryland
2. Microsoft Research
2018-07-08 ACL2018読み会
西山 莉紗 @chopstickexe
https://arxiv.org/abs/1805.04655
どんな論文?
https://acl2018.org/2018/06/10/best-papers/
どんな論文?
Contributions
1. Clarification question rankingという新しいタスクを定義
2. 新しいタスクのための新しいニューラルネットワークモデルを提案
3. 新しいタスクのための新しいデータセットを作成・公開
コードとデータセット: https://github.com/raosudha89/ranking_clarification_questions
新しいタスク:
Clarification Question Ranking
1. What version of Ubuntu do you have?
2. What is the make of your wifi card?
3. Are you running Ubuntu 14.10 kernel 4.4.0-
59-generic on an x86_64 architecture?
…
How to configure path or set environment
variables for installation?
I’m aiming to install ape. I’m having this error
message while running…
Community Q&Aサイトへの新規投稿 (Post)
Past
Clarification
Questions
投稿内容の解決に役立つ回答 (Answer) を
得られることが期待できる順に並べられた
他ユーザーからの確認質問 (Question)
Clarification
Question Ranking
Clarification Question Rankingを解くため
のJoint NN model
Feedforward NN
(5 hidden layers)
𝑭ans( 𝒑, 𝒒)
Feedforward NN
(5 hidden layers)
Post word embeddings
Post repr.
𝒑
LSTM
(1 hidden layer)
Avg
LSTM
(1 hidden layer)
Avg
LSTM
(1 hidden layer)
Avg
LSTM
(1 hidden layer)
Avg
LSTM
(1 hidden layer)
Avg
LSTM
(1 hidden layer)
Avg
Question word embeddings Answer word embeddings
Question repr.
𝒒
Answer repr.
𝒂
𝑭util( 𝒑, 𝒒, 𝒂)
pとqからaが得られる確率(後述) aを得ることの価値(後述)
qのスコア:
qを聞くことで得られる価値の期待値
学習・評価用データセットの作成
(詳しくは後述しますが色々大変)
• StackExchangeのdata dumpを利用
• Original postの抽出
• Clarification questionの抽出
• Postのコメントの先頭から「?」までを抽出
• Clarification questionでないものを除外するためのルールを作成
• Answerの抽出
• 元のPostを改訂して回答するケース: Questionとタイムスタンプが最も近い
版の追記内容を抽出
• Questionの返答として回答するケース: Authorによる最初のコメントを抽出
• どちらも取れた場合は質問とコサイン類似度が高い方をAnswerとして抽出
評価結果
評価者1 or 2がBest questionと
判定したものが正解
評価者1と2がValid questionと
判定したものが正解
評価用postにもともと投稿され
ていたqが正解
どの正解を使っても提案手法がoutperform
(一位に正解questionが来る割合が21〜36%)
non-neuralの皆さん
回答確率 を無視して
だけをFNNの入力変えて
学習・推定する皆さん
超・進行押してたらここまで
論文すごくわかりやすいので是非読んでください
Expected Value of Perfect Information
(EVPI) (Avriel and Williams, 1970)
https://www.jstor.org/stable/169369
EVPI = 未知の状況zを知っている状態で得られる報酬 - 現状で最善と考えられる行動xを選択した場合の報酬
と定義:
φが凹関数であれば、EVPIの値域はzの期待値を利用して計算できることを証明:
本論文の
Expected Value of Perfect Information
• 行動x Clarification question
• 未知の状況z Clarification questionに対する回答(Answer)
• 価値関数φ Answerによってpostに付与される価値 (Utility)
としてφの期待値を計算
提案モデル(推定時)
10個のQuestion候補をEVPIの値でリランキングする
Q&A candidate generator
普通のTF-IDFベースのランキング
Answer Modeling(推定時)
1- Feedforward NNで得られるanswer表現 (Fans) とajのコサイン類似度
ajと、qiに元々付与されていたQuestion (qj)のコサイン類似度
Utility Calculator(推定時)
※実際はqjも使っている
Feedforward NNで得られるpost+answerの表現
Clarification Question Rankingを解くため
のJoint NN model
Feedforward NN
(5 hidden layers)
𝑭ans( 𝒑, 𝒒)
Feedforward NN
(5 hidden layers)
Post word embeddings
Post repr.
𝒑
LSTM
(1 hidden layer)
Avg
LSTM
(1 hidden layer)
Avg
LSTM
(1 hidden layer)
Avg
LSTM
(1 hidden layer)
Avg
LSTM
(1 hidden layer)
Avg
LSTM
(1 hidden layer)
Avg
Question word embeddings Answer word embeddings
Question repr.
𝒒
Answer repr.
𝒂
𝑭util( 𝒑, 𝒒, 𝒂)
pとqからaが得られる確率(後述) aを得ることの価値(後述)
qのスコア:
qを聞くことで得られる価値の期待値
再掲
3つのLSTMと2つのFNNを学習するため
のloss関数
y=0(pi, q1, a1)
y=0(pi, q10, a10)
(pi, qi, ai) y=1
Fansが
• オリジナルの回答aiに近く かつ
• qiと似ている他のqの回答ajに近くなるように学習
がオリジナルのp, q, a tripleに
対して最大値1を取るように学習
学習データ
学習・評価用データセットの作成
• StackExchangeのdata dumpを利用
• Original postの抽出
• Clarification questionの抽出
• Postのコメントの先頭から「?」までを抽出
• Clarification questionでないものを除外するためのルールを作成
• Answerの抽出
• 元のPostを改訂して回答するケース: Questionとタイムスタンプが最も近い
版の追記内容を抽出
• Questionの返答として回答するケース: Authorによる最初のコメントを抽出
• どちらも取れた場合は質問とコサイン類似度が高い方をAnswerとして抽出
再掲
作成したデータセット: 77,097 triples
※この3トピックが選ばれているのは、データ数とClarification questionの投稿のされやすさに
基づいているのだと思います
評価方法1:
もともと付与されていたqを正解とみなす
• テストセットのポストpに元々付与されていたqを「正解」と
みなして評価する
• 問題点
• 元々付与されていたqとして、clarificationでないquestionが混ざって
いることがある
• (がんばったけど)データセットがまだNoisy
• 全体の9%
• 元々付与されていたq以外の有効なclarification questionを不正解とし
てしまう
評価方法2:
Domain Expert呼んできてアノテーション
• クラウドソーシングでUnixの知識があるアノテーターを10人招集
• 1つのExample (p + 10q)を2人がアノテーション
• pと順番をばらした10件のqを渡し、以下の2種類のアノテーションを依頼
• Best: 1件の最も優れたq
• Valid: Bestを含めた1件以上の質問する意義のありそうなq
• Kappa統計量
• Bestについて厳密に計算すると0.15
• 1人がBestでもう一人がValidでも一致したことにすると0.87
• Valid同士の一致は0.58
2人のアノテーターがvalidとした
question数の分布
• 85%以上のpostが2つ以上のvalid questionを持つ
• Original以外のquestionもvalidとされているので、人手でアノテーションする意義はある
対抗手法
• Random: 10個のcandidate question適当に並べ替え
• Bag-of-ngrams: bag-of-ngramモデルで学習したUtilityを使って
ランキング (n=3)
• Community QA: postに対するコメントを関連度順にランキング
• 文字列類似度やword embeddingなどを用いたロジスティック回帰
• Neural baselines
• 回答確率無視
• UtilityのFeedforward NNを入力変えて学習・推定
• pとq, pとa, pとqとa
評価結果
評価者1 or 2がBest questionと
判定したものが正解
評価者1と2がValid questionと
判定したものが正解
評価用postにもともと投稿され
ていたqが正解
どの正解を使っても提案手法がoutperform
(一位に正解questionが来る割合が21〜36%)
non-neuralの皆さん
回答確率 を無視して
だけをFNNの入力変えて
学習・推定する皆さん
再掲
以降、時間があれば話します
chopstickexe is 誰
• 西山 莉紗(にしやま りさ)
• 略歴
• 研究員@IBM東京基礎研究所(2006-2016)
• お客様の課題を解く自然言語処理ツールをPoCでゴリゴリ作る
• ソフトウェアエンジニア@IBM (2017-2018)
• お客様の文書データを機械学習して分類・類似度推定する機能をゴリゴリ作る
• データサイエンティスト@三菱ケミカルHD (Now!)
• 化学メーカー向けテキストマイニングツールを内製でゴリゴリ作る
一言でまとめると自然言語処理が得意なソフトウェアエンジニア
過去にDB系で類似研究があったような
※宣伝っぽくなりましたが発表者とは全く関係のない研究グループの業績です
http://db-event.jpn.org/deim2015/paper/167.pdf
回答可能確率 回答確率
質問選択問題の定式化
期待利得
(重要)
まとめ
1. Clarification question rankingという新しいタスクを定義
2. 新しいタスクのための新しいニューラルネットワークモデルを提案
3. 新しいタスクのための新しいデータセットを作成・公開
今後、追従研究が出てくることを期待

More Related Content

What's hot

AutoEncoderで特徴抽出
AutoEncoderで特徴抽出AutoEncoderで特徴抽出
AutoEncoderで特徴抽出Kai Sasaki
 
Active Learning from Imperfect Labelers @ NIPS読み会・関西
Active Learning from Imperfect Labelers @ NIPS読み会・関西Active Learning from Imperfect Labelers @ NIPS読み会・関西
Active Learning from Imperfect Labelers @ NIPS読み会・関西Taku Tsuzuki
 
LDA等のトピックモデル
LDA等のトピックモデルLDA等のトピックモデル
LDA等のトピックモデルMathieu Bertin
 
DeNA TechCon2018 ゲーム体験を支えるための強化学習
DeNA TechCon2018 ゲーム体験を支えるための強化学習DeNA TechCon2018 ゲーム体験を支えるための強化学習
DeNA TechCon2018 ゲーム体験を支えるための強化学習Jun Okumura
 
プログラマのための文書推薦入門
プログラマのための文書推薦入門プログラマのための文書推薦入門
プログラマのための文書推薦入門y-uti
 
トピックモデルの話
トピックモデルの話トピックモデルの話
トピックモデルの話kogecoo
 
How to use in R model-agnostic data explanation with DALEX & iml
How to use in R model-agnostic data explanation with DALEX & imlHow to use in R model-agnostic data explanation with DALEX & iml
How to use in R model-agnostic data explanation with DALEX & imlSatoshi Kato
 
Optimizing Search Engines using Clickthrough Data
Optimizing Search Engines using Clickthrough DataOptimizing Search Engines using Clickthrough Data
Optimizing Search Engines using Clickthrough DataKoji Yoshida
 
Active Learning 入門
Active Learning 入門Active Learning 入門
Active Learning 入門Shuyo Nakatani
 
質問応答システム入門
質問応答システム入門質問応答システム入門
質問応答システム入門Hiroyoshi Komatsu
 
[DL輪読会]Training RNNs as Fast as CNNs
[DL輪読会]Training RNNs as Fast as CNNs[DL輪読会]Training RNNs as Fast as CNNs
[DL輪読会]Training RNNs as Fast as CNNsDeep Learning JP
 
Using Deep Learning for Recommendation
Using Deep Learning for RecommendationUsing Deep Learning for Recommendation
Using Deep Learning for RecommendationEduardo Gonzalez
 
DATUM STUDIO PyCon2016 Turorial
DATUM STUDIO PyCon2016 TurorialDATUM STUDIO PyCon2016 Turorial
DATUM STUDIO PyCon2016 TurorialTatsuya Tojima
 
このスライドには間違いが含まれています。修正版をご覧ください
このスライドには間違いが含まれています。修正版をご覧くださいこのスライドには間違いが含まれています。修正版をご覧ください
このスライドには間違いが含まれています。修正版をご覧くださいssuser4a5291
 
Kaggle参加報告: Quora Insincere Questions Classification
Kaggle参加報告: Quora Insincere Questions ClassificationKaggle参加報告: Quora Insincere Questions Classification
Kaggle参加報告: Quora Insincere Questions ClassificationKazuki Fujikawa
 
Collaborative Ranking: A Case Study on Entity Ranking (EMNLP2011読み会)
Collaborative Ranking: A Case Study on Entity Ranking (EMNLP2011読み会)Collaborative Ranking: A Case Study on Entity Ranking (EMNLP2011読み会)
Collaborative Ranking: A Case Study on Entity Ranking (EMNLP2011読み会)sleepy_yoshi
 
ACL2011読み会: Query Weighting for Ranking Model Adaptation
ACL2011読み会: Query Weighting for Ranking Model AdaptationACL2011読み会: Query Weighting for Ranking Model Adaptation
ACL2011読み会: Query Weighting for Ranking Model Adaptationsleepy_yoshi
 

What's hot (20)

AutoEncoderで特徴抽出
AutoEncoderで特徴抽出AutoEncoderで特徴抽出
AutoEncoderで特徴抽出
 
Qaシステム解説
Qaシステム解説Qaシステム解説
Qaシステム解説
 
Active Learning from Imperfect Labelers @ NIPS読み会・関西
Active Learning from Imperfect Labelers @ NIPS読み会・関西Active Learning from Imperfect Labelers @ NIPS読み会・関西
Active Learning from Imperfect Labelers @ NIPS読み会・関西
 
LDA等のトピックモデル
LDA等のトピックモデルLDA等のトピックモデル
LDA等のトピックモデル
 
DeNA TechCon2018 ゲーム体験を支えるための強化学習
DeNA TechCon2018 ゲーム体験を支えるための強化学習DeNA TechCon2018 ゲーム体験を支えるための強化学習
DeNA TechCon2018 ゲーム体験を支えるための強化学習
 
プログラマのための文書推薦入門
プログラマのための文書推薦入門プログラマのための文書推薦入門
プログラマのための文書推薦入門
 
研究
研究研究
研究
 
トピックモデルの話
トピックモデルの話トピックモデルの話
トピックモデルの話
 
How to use in R model-agnostic data explanation with DALEX & iml
How to use in R model-agnostic data explanation with DALEX & imlHow to use in R model-agnostic data explanation with DALEX & iml
How to use in R model-agnostic data explanation with DALEX & iml
 
Optimizing Search Engines using Clickthrough Data
Optimizing Search Engines using Clickthrough DataOptimizing Search Engines using Clickthrough Data
Optimizing Search Engines using Clickthrough Data
 
Active Learning 入門
Active Learning 入門Active Learning 入門
Active Learning 入門
 
質問応答システム入門
質問応答システム入門質問応答システム入門
質問応答システム入門
 
[DL輪読会]Training RNNs as Fast as CNNs
[DL輪読会]Training RNNs as Fast as CNNs[DL輪読会]Training RNNs as Fast as CNNs
[DL輪読会]Training RNNs as Fast as CNNs
 
Using Deep Learning for Recommendation
Using Deep Learning for RecommendationUsing Deep Learning for Recommendation
Using Deep Learning for Recommendation
 
Rainbow
RainbowRainbow
Rainbow
 
DATUM STUDIO PyCon2016 Turorial
DATUM STUDIO PyCon2016 TurorialDATUM STUDIO PyCon2016 Turorial
DATUM STUDIO PyCon2016 Turorial
 
このスライドには間違いが含まれています。修正版をご覧ください
このスライドには間違いが含まれています。修正版をご覧くださいこのスライドには間違いが含まれています。修正版をご覧ください
このスライドには間違いが含まれています。修正版をご覧ください
 
Kaggle参加報告: Quora Insincere Questions Classification
Kaggle参加報告: Quora Insincere Questions ClassificationKaggle参加報告: Quora Insincere Questions Classification
Kaggle参加報告: Quora Insincere Questions Classification
 
Collaborative Ranking: A Case Study on Entity Ranking (EMNLP2011読み会)
Collaborative Ranking: A Case Study on Entity Ranking (EMNLP2011読み会)Collaborative Ranking: A Case Study on Entity Ranking (EMNLP2011読み会)
Collaborative Ranking: A Case Study on Entity Ranking (EMNLP2011読み会)
 
ACL2011読み会: Query Weighting for Ranking Model Adaptation
ACL2011読み会: Query Weighting for Ranking Model AdaptationACL2011読み会: Query Weighting for Ranking Model Adaptation
ACL2011読み会: Query Weighting for Ranking Model Adaptation
 

Similar to ACL2018 Paper Survey: Learning to Ask Good Questions: Ranking Clarification Questions using Neural Expected Value of Perfect Information

Learning to Ask Good Questions: Ranking Clarification Questions using Neura...
Learning to Ask Good Questions:  Ranking Clarification Questions  using Neura...Learning to Ask Good Questions:  Ranking Clarification Questions  using Neura...
Learning to Ask Good Questions: Ranking Clarification Questions using Neura...ryoma yoshimura
 
DAシンポジウム2019招待講演「深層学習モデルの高速なTraining/InferenceのためのHW/SW技術」 金子紘也hare
DAシンポジウム2019招待講演「深層学習モデルの高速なTraining/InferenceのためのHW/SW技術」 金子紘也hareDAシンポジウム2019招待講演「深層学習モデルの高速なTraining/InferenceのためのHW/SW技術」 金子紘也hare
DAシンポジウム2019招待講演「深層学習モデルの高速なTraining/InferenceのためのHW/SW技術」 金子紘也harePreferred Networks
 
Proof summit 2017 for slideshare
Proof summit 2017 for slideshareProof summit 2017 for slideshare
Proof summit 2017 for slideshareKeisuke Yahata
 
はじめての人のためのDeep Learning
はじめての人のためのDeep Learningはじめての人のためのDeep Learning
はじめての人のためのDeep LearningTadaichiro Nakano
 
Hadoop conference Japan 2011
Hadoop conference Japan 2011Hadoop conference Japan 2011
Hadoop conference Japan 2011Takahiko Ito
 
Apache Spark チュートリアル
Apache Spark チュートリアルApache Spark チュートリアル
Apache Spark チュートリアルK Yamaguchi
 
jjugccc2018 app review postmortem
jjugccc2018 app review postmortemjjugccc2018 app review postmortem
jjugccc2018 app review postmortemtamtam180
 
WordNetで作ろう! 言語横断検索サービス
WordNetで作ろう! 言語横断検索サービスWordNetで作ろう! 言語横断検索サービス
WordNetで作ろう! 言語横断検索サービスShintaro Takemura
 
Oracle Cloud Developers Meetup@東京
Oracle Cloud Developers Meetup@東京Oracle Cloud Developers Meetup@東京
Oracle Cloud Developers Meetup@東京tuchimur
 
勉強会force#4 Chatter Integration
勉強会force#4 Chatter Integration勉強会force#4 Chatter Integration
勉強会force#4 Chatter IntegrationKazuki Nakajima
 
12-11-30 Kashiwa.R #5 初めてのR Rを始める前に知っておきたい10のこと
12-11-30 Kashiwa.R #5 初めてのR Rを始める前に知っておきたい10のこと 12-11-30 Kashiwa.R #5 初めてのR Rを始める前に知っておきたい10のこと
12-11-30 Kashiwa.R #5 初めてのR Rを始める前に知っておきたい10のこと Haruka Ozaki
 
A Study of the Learnability of Relational Properties - Model Counting Meets M...
A Study of the Learnability of Relational Properties - Model Counting Meets M...A Study of the Learnability of Relational Properties - Model Counting Meets M...
A Study of the Learnability of Relational Properties - Model Counting Meets M...T T
 
LINQ 概要 + 結構便利な LINQ to XML
LINQ 概要 + 結構便利な LINQ to XMLLINQ 概要 + 結構便利な LINQ to XML
LINQ 概要 + 結構便利な LINQ to XMLShinichiAoyagi
 
アノテートによる単語情報を活用したプレゼンテーションにおけるリアルタイム相互支援システムの提案と実装
アノテートによる単語情報を活用したプレゼンテーションにおけるリアルタイム相互支援システムの提案と実装アノテートによる単語情報を活用したプレゼンテーションにおけるリアルタイム相互支援システムの提案と実装
アノテートによる単語情報を活用したプレゼンテーションにおけるリアルタイム相互支援システムの提案と実装Naoki Komatsu
 

Similar to ACL2018 Paper Survey: Learning to Ask Good Questions: Ranking Clarification Questions using Neural Expected Value of Perfect Information (20)

Learning to Ask Good Questions: Ranking Clarification Questions using Neura...
Learning to Ask Good Questions:  Ranking Clarification Questions  using Neura...Learning to Ask Good Questions:  Ranking Clarification Questions  using Neura...
Learning to Ask Good Questions: Ranking Clarification Questions using Neura...
 
XP movement In Japan
XP movement In JapanXP movement In Japan
XP movement In Japan
 
Katayama m
Katayama mKatayama m
Katayama m
 
DAシンポジウム2019招待講演「深層学習モデルの高速なTraining/InferenceのためのHW/SW技術」 金子紘也hare
DAシンポジウム2019招待講演「深層学習モデルの高速なTraining/InferenceのためのHW/SW技術」 金子紘也hareDAシンポジウム2019招待講演「深層学習モデルの高速なTraining/InferenceのためのHW/SW技術」 金子紘也hare
DAシンポジウム2019招待講演「深層学習モデルの高速なTraining/InferenceのためのHW/SW技術」 金子紘也hare
 
Proof summit 2017 for slideshare
Proof summit 2017 for slideshareProof summit 2017 for slideshare
Proof summit 2017 for slideshare
 
はじめての人のためのDeep Learning
はじめての人のためのDeep Learningはじめての人のためのDeep Learning
はじめての人のためのDeep Learning
 
Hadoop conference Japan 2011
Hadoop conference Japan 2011Hadoop conference Japan 2011
Hadoop conference Japan 2011
 
Apache Spark チュートリアル
Apache Spark チュートリアルApache Spark チュートリアル
Apache Spark チュートリアル
 
jjugccc2018 app review postmortem
jjugccc2018 app review postmortemjjugccc2018 app review postmortem
jjugccc2018 app review postmortem
 
ipsjifat201909
ipsjifat201909ipsjifat201909
ipsjifat201909
 
WordNetで作ろう! 言語横断検索サービス
WordNetで作ろう! 言語横断検索サービスWordNetで作ろう! 言語横断検索サービス
WordNetで作ろう! 言語横断検索サービス
 
Oracle Cloud Developers Meetup@東京
Oracle Cloud Developers Meetup@東京Oracle Cloud Developers Meetup@東京
Oracle Cloud Developers Meetup@東京
 
勉強会force#4 Chatter Integration
勉強会force#4 Chatter Integration勉強会force#4 Chatter Integration
勉強会force#4 Chatter Integration
 
Introduction of Python
Introduction of PythonIntroduction of Python
Introduction of Python
 
Pfi last seminar
Pfi last seminarPfi last seminar
Pfi last seminar
 
12-11-30 Kashiwa.R #5 初めてのR Rを始める前に知っておきたい10のこと
12-11-30 Kashiwa.R #5 初めてのR Rを始める前に知っておきたい10のこと 12-11-30 Kashiwa.R #5 初めてのR Rを始める前に知っておきたい10のこと
12-11-30 Kashiwa.R #5 初めてのR Rを始める前に知っておきたい10のこと
 
ATN No.2 Scala事始め
ATN No.2 Scala事始めATN No.2 Scala事始め
ATN No.2 Scala事始め
 
A Study of the Learnability of Relational Properties - Model Counting Meets M...
A Study of the Learnability of Relational Properties - Model Counting Meets M...A Study of the Learnability of Relational Properties - Model Counting Meets M...
A Study of the Learnability of Relational Properties - Model Counting Meets M...
 
LINQ 概要 + 結構便利な LINQ to XML
LINQ 概要 + 結構便利な LINQ to XMLLINQ 概要 + 結構便利な LINQ to XML
LINQ 概要 + 結構便利な LINQ to XML
 
アノテートによる単語情報を活用したプレゼンテーションにおけるリアルタイム相互支援システムの提案と実装
アノテートによる単語情報を活用したプレゼンテーションにおけるリアルタイム相互支援システムの提案と実装アノテートによる単語情報を活用したプレゼンテーションにおけるリアルタイム相互支援システムの提案と実装
アノテートによる単語情報を活用したプレゼンテーションにおけるリアルタイム相互支援システムの提案と実装
 

ACL2018 Paper Survey: Learning to Ask Good Questions: Ranking Clarification Questions using Neural Expected Value of Perfect Information