SlideShare a Scribd company logo
1 of 13
Download to read offline
WWWからの大規模	
  
動詞含意知識の獲得	
橋本力,	
  鳥澤健太郎,	
  黒田航,	
  	
  
デサーガステイン,	
  村田真樹,	
  風間淳一.	
  	
  
	
  情報処理学会論文誌,	
  Vol.52,	
  No.1,	
  pp.293-­‐307,	
  2011.	
  
	
  
プレゼンテーション:野口真人	
1	
  
WWWからの大規模動詞含意知識の獲得	
•  どのような問題を解いたのか	
  
•  WWWから大規模な動詞含意知識を獲得する	
  
•  どうやって解いたのか	
  
•  文書の偏りや低頻度動詞に対して頑健な方向付き分布類
似度尺度Scoreを提案	
  
•  WWW上にある日本語で書かれた 1	
  億文書から構築した,
日本語ウェ ブコーパスから獲得する(52,562	
  動詞)	
  
•  どのような結果を達成したか	
  
•  これまでに提案された分布類似度尺度である
Lin,Precision,Bincより高精度であった(それぞれ200サンプ
ルの人手評価)	
2	
  
含意知識	
•  我々は通常,以下のようなことを常識として扱う	
  
•  「離婚する」→「結婚する」	
•  「勝訴する」→「告訴する」	
※(A→B	
  :	
  AがBを含意している)	
  
•  このような動詞ペアを大規模に獲得したい	
  
•  WWW上にある日本語で書かれた 1	
  億文書から
構築した,日本語ウェブコーパスから獲得	
  
•  文脈(注目する動詞の主語や目的語)から類似度
尺度を求め,含意かどうかを判定	
  
3	
  
一項テンプレートを用いた類似度尺度	
•  Lin	
  らが,2	
  つの変数からなるテンプレートを対象
に,DIRT(Discovery	
  of	
  Inference	
  Rules	
  from	
  Text)と呼
ばれる言い換え知識獲得手法を提案	
  
•  その中で,一項テンプレート間の類似度を以下のよ
う提案した	
  
	
  
(l, r :	
  テンプレート Fx : xに入る名詞の集合 wx( f ) : Fx内の名詞fの重み)	
  
4	
  
r	
  :	
  Yで加熱する	
l	
  :	
  Xでソテーする	
 Fl : フライパン, 中華鍋,・・・	
Fr : フライパン, コンロ,・・・	
f	
 f	
f	
 f	
※重みは相互情報量(PMI)が最適であった	
テンプレート
類似度尺度に方向性を付与	
•  DIRTは,どちらがどちらを含意するかは示せない.	
  	
  
•  Weeds	
  らは,Precision	
  と Recall	
  と名付けられた方
向性を付与した概念から構成される枠組みを提
案した	
  
•  提案手法と直接比較可能な Precision	
  は次のように定
義される(l → r の含意らしさ)	
  
•  Szpektor	
  らは,BInc(BalancedInclusion)という名前
の方向性のある類似度計算法を提案した	
   5	
  
提案手法(Score, Scorebase)	
•  今回開発した方向付き類似度尺度 Score	
  は次のよ
うに定義される 	
  
	
  
•  一項テンプレートは ⟨p, v⟩(p	
  は助詞,v	
  は動詞)	
  
•  Scorebase	
  は Score	
  の根幹で,以下のようにあらわす	
  
(l, r :	
  テンプレート Fx : xに入る名詞の集合 f : 共起名詞)	
  
•  P (r|f) ・P (f|l)は最尤推定で求める	
6	
  
提案手法(Scoretrick)	
•  Scorebase	
  は低頻度動詞における問題を軽減する	
  
•  低頻度の動詞において,共起名詞のうちの1つによって高
い類似度が誤って付与されることがある(P (f|l)が高くなる)	
  
•  類似度への貢献度が最大の名詞を無視することで,複数の
名詞で安定的に高い類似度が得られるペアだけを含意ペア
とみなすようにした	
7	
  
テンプレート共起名詞データベースの構築	
•  動詞含意知識獲得のためには,一項テンプレート間の
含意知識の獲得が必要	
  
•  そのために,テンプレート共起名詞データベースを構築
する必要がある	
  
•  テンプレート共起名詞データベースは,テンプレート ⟨p,
v⟩ とその共起名詞 n,⟨p, v⟩ と n	
  の共起頻度 f	
  から構成
される三つ組 ⟨n,	
  ⟨p, v⟩,	
  f	
  ⟩ の集合からなる	
  
•  頻度が	
  α	
  未満のものは除外	
  
•  助詞が「は」「が」「を」「に」「で」以外のものは除外	
  
•  α	
  =	
  20	
  とするとテンプレート共起名詞データベース
127,808	
  ・	
  動詞の異なり数 52,562	
  語を得た	
8	
  
含意知識の獲得 	
•  動詞含意知識は以下のように獲得	
  
1)  テンプレート共起名詞データベースから,テンプレートペ
アとその Score	
  の値からなるリストを生成	
  
2)  テンプレートから助詞と変数を取り去り,動詞ペアのリス
トに変換 	
3)  重複した動詞ペアを削除する(	
  Score	
  値が最も高いもの
だけを残し,他をすべて削除)	
4)  Score	
  値上位 N	
  位内にある動詞ペアを取得	
  
•  テンプレート単位の含意知識も獲得する	
  
•  スコア計算格テンプレートとガ格テンプレートを獲得	
  
•  スコア計算格テンプレート:上の	
  1)	
  の結果	
  
•  ガ格計算格テンプレート:スコア計算格テンプレート内の助詞をす
べて「が」に変換したもの	
9	
  
評価実験	
•  提案手法の評価として,作業者3名(いずれも著者で
はない)が含意知識の正解判定を行った 	
  
•  評価指標は次の式で定義される Acculacy	
  を用いた	
  
•  	
  Accuracy	
  はさらに以下のように分かれる	
  
•  	
  Accuracy-1:作業者1名以上が正解と判定した場合に正解	
  
•  Accuracy-2:2名以上の正解判定で正解	
  
•  Accuracy-3,	
  3名とも正解とした場合正解	
10	
  
動詞含意知識獲得の精度 	
•  α	
  =	
  200	
  とした場合のテンプレート共起頻度データベー
ス(V200)と α	
  =	
  20	
  とした場合のテンプレート共起頻度テ
゙ータベース(V20)の2種類を用いて動詞含意知識獲得
を行った	
  
•  評価対象は獲得手法ごとに,スコア上位 20,000	
  の動詞
ペアの中からサンプリングした 200	
  ペア	
  
•  Lin	
  で獲得された 200	
  ペアはいずれかの方向で正しい
含意ペアと判定されれば正解と見なす 	
11	
  
低頻度語でも高い精度が得られる!
その他の精度	
12	
  
•  Score	
  全体,Scoretrick	
  のみ,Scorebase	
  のみの精度(V20)
を表3に示す	
  
•  テンプレート単位の含意獲得の精度(V20)を表4に示
す	
  
•  動詞含意知識獲得の場合と比べて 10%ほど精度が低下
した
終わりに	
13	
  
•  提案した方向付き分布類似度尺度 Score	
  は,	
  大規
模な動詞含意知識獲得において,これまでに提案さ
れた Lin,Precision,Binc より高精度	
  
•  	
  Scoretrick	
  として実装したトリック関数は,動詞含意知
識獲得の精度を大きく向上させる	
  
•  Score	
  はテンプレート単位の含意知識獲得にも有効	
  
•  今後の課題	
  
•  矛盾関係の動詞ペアがあった(例:欠場する→出場する)	
  
•  理由:本研究で使用した手法はすべて分布類似度に基づ
くものであるため 	
•  分布類似度の高い動詞ペアの中から含意ペアと,それ以
外を区別するモデルの開発が今後の課題 	
  

More Related Content

Similar to 論文紹介:WWWからの大規模動詞含意知識の獲得

読解支援@2015 08-10-1
読解支援@2015 08-10-1読解支援@2015 08-10-1
読解支援@2015 08-10-1sekizawayuuki
 
Pennington, Socher, and Manning. (2014) GloVe: Global vectors for word repres...
Pennington, Socher, and Manning. (2014) GloVe: Global vectors for word repres...Pennington, Socher, and Manning. (2014) GloVe: Global vectors for word repres...
Pennington, Socher, and Manning. (2014) GloVe: Global vectors for word repres...Naoaki Okazaki
 
分散表現を用いた語の上位下位関係の学習―Lexical Memorizationの緩和―
分散表現を用いた語の上位下位関係の学習―Lexical Memorizationの緩和―分散表現を用いた語の上位下位関係の学習―Lexical Memorizationの緩和―
分散表現を用いた語の上位下位関係の学習―Lexical Memorizationの緩和―Washio Koki
 
読解支援プレゼン 4 28
読解支援プレゼン 4 28読解支援プレゼン 4 28
読解支援プレゼン 4 28kentshioda
 
Aligning sentences from standard wikipedia to simple wikipedia
Aligning sentences from standard wikipedia to simple wikipediaAligning sentences from standard wikipedia to simple wikipedia
Aligning sentences from standard wikipedia to simple wikipediaKodaira Tomonori
 
日本語の語彙平易化システムおよび評価セットの構築
日本語の語彙平易化システムおよび評価セットの構築日本語の語彙平易化システムおよび評価セットの構築
日本語の語彙平易化システムおよび評価セットの構築Tomoyuki Kajiwara
 
言語資源と付き合う
言語資源と付き合う言語資源と付き合う
言語資源と付き合うYuya Unno
 

Similar to 論文紹介:WWWからの大規模動詞含意知識の獲得 (8)

読解支援@2015 08-10-1
読解支援@2015 08-10-1読解支援@2015 08-10-1
読解支援@2015 08-10-1
 
Pennington, Socher, and Manning. (2014) GloVe: Global vectors for word repres...
Pennington, Socher, and Manning. (2014) GloVe: Global vectors for word repres...Pennington, Socher, and Manning. (2014) GloVe: Global vectors for word repres...
Pennington, Socher, and Manning. (2014) GloVe: Global vectors for word repres...
 
分散表現を用いた語の上位下位関係の学習―Lexical Memorizationの緩和―
分散表現を用いた語の上位下位関係の学習―Lexical Memorizationの緩和―分散表現を用いた語の上位下位関係の学習―Lexical Memorizationの緩和―
分散表現を用いた語の上位下位関係の学習―Lexical Memorizationの緩和―
 
大規模常識知識ベース構築のための常識表現の自動獲得
大規模常識知識ベース構築のための常識表現の自動獲得大規模常識知識ベース構築のための常識表現の自動獲得
大規模常識知識ベース構築のための常識表現の自動獲得
 
読解支援プレゼン 4 28
読解支援プレゼン 4 28読解支援プレゼン 4 28
読解支援プレゼン 4 28
 
Aligning sentences from standard wikipedia to simple wikipedia
Aligning sentences from standard wikipedia to simple wikipediaAligning sentences from standard wikipedia to simple wikipedia
Aligning sentences from standard wikipedia to simple wikipedia
 
日本語の語彙平易化システムおよび評価セットの構築
日本語の語彙平易化システムおよび評価セットの構築日本語の語彙平易化システムおよび評価セットの構築
日本語の語彙平易化システムおよび評価セットの構築
 
言語資源と付き合う
言語資源と付き合う言語資源と付き合う
言語資源と付き合う
 

More from swenbe

Paraphrasing rules for automatic evaluation of translation into japanese
Paraphrasing rules for automatic evaluation of translation into japaneseParaphrasing rules for automatic evaluation of translation into japanese
Paraphrasing rules for automatic evaluation of translation into japaneseswenbe
 
Text simplification for reading assistance
Text simplification for reading assistanceText simplification for reading assistance
Text simplification for reading assistanceswenbe
 
論文紹介:語釈文を用いた小学生のための語彙平易化
論文紹介:語釈文を用いた小学生のための語彙平易化論文紹介:語釈文を用いた小学生のための語彙平易化
論文紹介:語釈文を用いた小学生のための語彙平易化swenbe
 
論文紹介 : Inducing lexical style properties for paraphrase and genre differentia...
論文紹介 : Inducing lexical style properties for paraphrase and genre differentia...論文紹介 : Inducing lexical style properties for paraphrase and genre differentia...
論文紹介 : Inducing lexical style properties for paraphrase and genre differentia...swenbe
 
論文紹介:Improve smt quality with automatically extracted paraphrase rules
論文紹介:Improve smt quality with automatically extracted paraphrase rules論文紹介:Improve smt quality with automatically extracted paraphrase rules
論文紹介:Improve smt quality with automatically extracted paraphrase rulesswenbe
 
Learning a lexical simplifier using wikipedia
Learning a lexical simplifier  using wikipediaLearning a lexical simplifier  using wikipedia
Learning a lexical simplifier using wikipediaswenbe
 
平易な表現への言い換えに必要なテキスト修正処理
平易な表現への言い換えに必要なテキスト修正処理平易な表現への言い換えに必要なテキスト修正処理
平易な表現への言い換えに必要なテキスト修正処理swenbe
 
言い換え認識技術の評価に適した言い換えコーパスの構築指針
言い換え認識技術の評価に適した言い換えコーパスの構築指針言い換え認識技術の評価に適した言い換えコーパスの構築指針
言い換え認識技術の評価に適した言い換えコーパスの構築指針swenbe
 
放送ニュースの動詞連用形名詞の平易化
放送ニュースの動詞連用形名詞の平易化放送ニュースの動詞連用形名詞の平易化
放送ニュースの動詞連用形名詞の平易化swenbe
 

More from swenbe (9)

Paraphrasing rules for automatic evaluation of translation into japanese
Paraphrasing rules for automatic evaluation of translation into japaneseParaphrasing rules for automatic evaluation of translation into japanese
Paraphrasing rules for automatic evaluation of translation into japanese
 
Text simplification for reading assistance
Text simplification for reading assistanceText simplification for reading assistance
Text simplification for reading assistance
 
論文紹介:語釈文を用いた小学生のための語彙平易化
論文紹介:語釈文を用いた小学生のための語彙平易化論文紹介:語釈文を用いた小学生のための語彙平易化
論文紹介:語釈文を用いた小学生のための語彙平易化
 
論文紹介 : Inducing lexical style properties for paraphrase and genre differentia...
論文紹介 : Inducing lexical style properties for paraphrase and genre differentia...論文紹介 : Inducing lexical style properties for paraphrase and genre differentia...
論文紹介 : Inducing lexical style properties for paraphrase and genre differentia...
 
論文紹介:Improve smt quality with automatically extracted paraphrase rules
論文紹介:Improve smt quality with automatically extracted paraphrase rules論文紹介:Improve smt quality with automatically extracted paraphrase rules
論文紹介:Improve smt quality with automatically extracted paraphrase rules
 
Learning a lexical simplifier using wikipedia
Learning a lexical simplifier  using wikipediaLearning a lexical simplifier  using wikipedia
Learning a lexical simplifier using wikipedia
 
平易な表現への言い換えに必要なテキスト修正処理
平易な表現への言い換えに必要なテキスト修正処理平易な表現への言い換えに必要なテキスト修正処理
平易な表現への言い換えに必要なテキスト修正処理
 
言い換え認識技術の評価に適した言い換えコーパスの構築指針
言い換え認識技術の評価に適した言い換えコーパスの構築指針言い換え認識技術の評価に適した言い換えコーパスの構築指針
言い換え認識技術の評価に適した言い換えコーパスの構築指針
 
放送ニュースの動詞連用形名詞の平易化
放送ニュースの動詞連用形名詞の平易化放送ニュースの動詞連用形名詞の平易化
放送ニュースの動詞連用形名詞の平易化
 

論文紹介:WWWからの大規模動詞含意知識の獲得

  • 1. WWWからの大規模   動詞含意知識の獲得 橋本力,  鳥澤健太郎,  黒田航,     デサーガステイン,  村田真樹,  風間淳一.      情報処理学会論文誌,  Vol.52,  No.1,  pp.293-­‐307,  2011.     プレゼンテーション:野口真人 1  
  • 2. WWWからの大規模動詞含意知識の獲得 •  どのような問題を解いたのか   •  WWWから大規模な動詞含意知識を獲得する   •  どうやって解いたのか   •  文書の偏りや低頻度動詞に対して頑健な方向付き分布類 似度尺度Scoreを提案   •  WWW上にある日本語で書かれた 1  億文書から構築した, 日本語ウェ ブコーパスから獲得する(52,562  動詞)   •  どのような結果を達成したか   •  これまでに提案された分布類似度尺度である Lin,Precision,Bincより高精度であった(それぞれ200サンプ ルの人手評価) 2  
  • 3. 含意知識 •  我々は通常,以下のようなことを常識として扱う   •  「離婚する」→「結婚する」 •  「勝訴する」→「告訴する」 ※(A→B  :  AがBを含意している)   •  このような動詞ペアを大規模に獲得したい   •  WWW上にある日本語で書かれた 1  億文書から 構築した,日本語ウェブコーパスから獲得   •  文脈(注目する動詞の主語や目的語)から類似度 尺度を求め,含意かどうかを判定   3  
  • 4. 一項テンプレートを用いた類似度尺度 •  Lin  らが,2  つの変数からなるテンプレートを対象 に,DIRT(Discovery  of  Inference  Rules  from  Text)と呼 ばれる言い換え知識獲得手法を提案   •  その中で,一項テンプレート間の類似度を以下のよ う提案した     (l, r :  テンプレート Fx : xに入る名詞の集合 wx( f ) : Fx内の名詞fの重み)   4   r  :  Yで加熱する l  :  Xでソテーする Fl : フライパン, 中華鍋,・・・ Fr : フライパン, コンロ,・・・ f f f f ※重みは相互情報量(PMI)が最適であった テンプレート
  • 5. 類似度尺度に方向性を付与 •  DIRTは,どちらがどちらを含意するかは示せない.     •  Weeds  らは,Precision  と Recall  と名付けられた方 向性を付与した概念から構成される枠組みを提 案した   •  提案手法と直接比較可能な Precision  は次のように定 義される(l → r の含意らしさ)   •  Szpektor  らは,BInc(BalancedInclusion)という名前 の方向性のある類似度計算法を提案した   5  
  • 6. 提案手法(Score, Scorebase) •  今回開発した方向付き類似度尺度 Score  は次のよ うに定義される     •  一項テンプレートは ⟨p, v⟩(p  は助詞,v  は動詞)   •  Scorebase  は Score  の根幹で,以下のようにあらわす   (l, r :  テンプレート Fx : xに入る名詞の集合 f : 共起名詞)   •  P (r|f) ・P (f|l)は最尤推定で求める 6  
  • 7. 提案手法(Scoretrick) •  Scorebase  は低頻度動詞における問題を軽減する   •  低頻度の動詞において,共起名詞のうちの1つによって高 い類似度が誤って付与されることがある(P (f|l)が高くなる)   •  類似度への貢献度が最大の名詞を無視することで,複数の 名詞で安定的に高い類似度が得られるペアだけを含意ペア とみなすようにした 7  
  • 8. テンプレート共起名詞データベースの構築 •  動詞含意知識獲得のためには,一項テンプレート間の 含意知識の獲得が必要   •  そのために,テンプレート共起名詞データベースを構築 する必要がある   •  テンプレート共起名詞データベースは,テンプレート ⟨p, v⟩ とその共起名詞 n,⟨p, v⟩ と n  の共起頻度 f  から構成 される三つ組 ⟨n,  ⟨p, v⟩,  f  ⟩ の集合からなる   •  頻度が  α  未満のものは除外   •  助詞が「は」「が」「を」「に」「で」以外のものは除外   •  α  =  20  とするとテンプレート共起名詞データベース 127,808  ・  動詞の異なり数 52,562  語を得た 8  
  • 9. 含意知識の獲得 •  動詞含意知識は以下のように獲得   1)  テンプレート共起名詞データベースから,テンプレートペ アとその Score  の値からなるリストを生成   2)  テンプレートから助詞と変数を取り去り,動詞ペアのリス トに変換 3)  重複した動詞ペアを削除する(  Score  値が最も高いもの だけを残し,他をすべて削除) 4)  Score  値上位 N  位内にある動詞ペアを取得   •  テンプレート単位の含意知識も獲得する   •  スコア計算格テンプレートとガ格テンプレートを獲得   •  スコア計算格テンプレート:上の  1)  の結果   •  ガ格計算格テンプレート:スコア計算格テンプレート内の助詞をす べて「が」に変換したもの 9  
  • 10. 評価実験 •  提案手法の評価として,作業者3名(いずれも著者で はない)が含意知識の正解判定を行った   •  評価指標は次の式で定義される Acculacy  を用いた   •   Accuracy  はさらに以下のように分かれる   •   Accuracy-1:作業者1名以上が正解と判定した場合に正解   •  Accuracy-2:2名以上の正解判定で正解   •  Accuracy-3,  3名とも正解とした場合正解 10  
  • 11. 動詞含意知識獲得の精度 •  α  =  200  とした場合のテンプレート共起頻度データベー ス(V200)と α  =  20  とした場合のテンプレート共起頻度テ ゙ータベース(V20)の2種類を用いて動詞含意知識獲得 を行った   •  評価対象は獲得手法ごとに,スコア上位 20,000  の動詞 ペアの中からサンプリングした 200  ペア   •  Lin  で獲得された 200  ペアはいずれかの方向で正しい 含意ペアと判定されれば正解と見なす 11   低頻度語でも高い精度が得られる!
  • 12. その他の精度 12   •  Score  全体,Scoretrick  のみ,Scorebase  のみの精度(V20) を表3に示す   •  テンプレート単位の含意獲得の精度(V20)を表4に示 す   •  動詞含意知識獲得の場合と比べて 10%ほど精度が低下 した
  • 13. 終わりに 13   •  提案した方向付き分布類似度尺度 Score  は,  大規 模な動詞含意知識獲得において,これまでに提案さ れた Lin,Precision,Binc より高精度   •   Scoretrick  として実装したトリック関数は,動詞含意知 識獲得の精度を大きく向上させる   •  Score  はテンプレート単位の含意知識獲得にも有効   •  今後の課題   •  矛盾関係の動詞ペアがあった(例:欠場する→出場する)   •  理由:本研究で使用した手法はすべて分布類似度に基づ くものであるため •  分布類似度の高い動詞ペアの中から含意ペアと,それ以 外を区別するモデルの開発が今後の課題