論文紹介:WWWからの大規模動詞含意知識の獲得

WWWからの大規模

動詞含意知識の獲得
橋本力,
鳥澤健太郎,
黒田航,

デサーガステイン,
村田真樹,
風間淳一.

情報処理学会論文誌,
Vol.52,
No.1,
pp.293-‐307,
2011.

プレゼンテーション：野口真人
1

WWWからの大規模動詞含意知識の獲得
•  どのような問題を解いたのか

•  WWWから大規模な動詞含意知識を獲得する

•  どうやって解いたのか

•  文書の偏りや低頻度動詞に対して頑健な方向付き分布類
似度尺度Scoreを提案

•  WWW上にある日本語で書かれた 1
億文書から構築した,
日本語ウェブコーパスから獲得する(52,562
動詞)

•  どのような結果を達成したか

•  これまでに提案された分布類似度尺度である
Lin,Precision,Bincより高精度であった(それぞれ200サンプ
ルの人手評価)
2

含意知識
•  我々は通常,以下のようなことを常識として扱う

•  「離婚する」→「結婚する」
•  「勝訴する」→「告訴する」
※(A→B
:
AがBを含意している)

•  このような動詞ペアを大規模に獲得したい

•  WWW上にある日本語で書かれた 1
億文書から
構築した,日本語ウェブコーパスから獲得

•  文脈(注目する動詞の主語や目的語)から類似度
尺度を求め,含意かどうかを判定

3

一項テンプレートを用いた類似度尺度
•  Lin
らが,2
つの変数からなるテンプレートを対象
に,DIRT(Discovery
of
Inference
Rules
from
Text)と呼
ばれる言い換え知識獲得手法を提案

•  その中で,一項テンプレート間の類似度を以下のよ
う提案した

(l, r :
テンプレート　Fx : xに入る名詞の集合　wx( f ) : Fx内の名詞fの重み)

4

r
:
Yで加熱する
l
:
Xでソテーする
Fl : フライパン, 中華鍋,･･･
Fr : フライパン, コンロ,･･･
f
f
f
f
※重みは相互情報量(PMI)が最適であった
テンプレート

類似度尺度に方向性を付与
•  DIRTは,どちらがどちらを含意するかは示せない.

•  Weeds
らは,Precision
と Recall
と名付けられた方
向性を付与した概念から構成される枠組みを提
案した

•  提案手法と直接比較可能な Precision
は次のように定
義される(l → r の含意らしさ)

•  Szpektor
らは,BInc(BalancedInclusion)という名前
の方向性のある類似度計算法を提案した
5

提案手法(Score, Scorebase)
•  今回開発した方向付き類似度尺度 Score
は次のよ
うに定義される

•  一項テンプレートは ⟨p, v⟩(p
は助詞,v
は動詞)

•  Scorebase
は Score
の根幹で,以下のようにあらわす

(l, r :
テンプレート　Fx : xに入る名詞の集合　f : 共起名詞)

•  P (r|f) ･P (f|l)は最尤推定で求める
6

提案手法(Scoretrick)
•  Scorebase
は低頻度動詞における問題を軽減する

•  低頻度の動詞において,共起名詞のうちの1つによって高
い類似度が誤って付与されることがある(P (f|l)が高くなる)

•  類似度への貢献度が最大の名詞を無視することで,複数の
名詞で安定的に高い類似度が得られるペアだけを含意ペア
とみなすようにした
7

テンプレート共起名詞データベースの構築
•  動詞含意知識獲得のためには,一項テンプレート間の
含意知識の獲得が必要

•  そのために,テンプレート共起名詞データベースを構築
する必要がある

•  テンプレート共起名詞データベースは,テンプレート ⟨p,
v⟩ とその共起名詞 n,⟨p, v⟩ と n
の共起頻度 f
から構成
される三つ組 ⟨n,
⟨p, v⟩,
f
⟩ の集合からなる

•  頻度が
α
未満のものは除外

•  助詞が「は」「が」「を」「に」「で」以外のものは除外

•  α
=
20
とするとテンプレート共起名詞データベース
127,808
･
動詞の異なり数 52,562
語を得た
8

含意知識の獲得
•  動詞含意知識は以下のように獲得

1)  テンプレート共起名詞データベースから,テンプレートペ
アとその Score
の値からなるリストを生成

2)  テンプレートから助詞と変数を取り去り,動詞ペアのリス
トに変換
3)  重複した動詞ペアを削除する(
Score
値が最も高いもの
だけを残し,他をすべて削除)
4)  Score
値上位 N
位内にある動詞ペアを取得

•  テンプレート単位の含意知識も獲得する

•  スコア計算格テンプレートとガ格テンプレートを獲得

•  スコア計算格テンプレート：上の
1)
の結果

•  ガ格計算格テンプレート：スコア計算格テンプレート内の助詞をす
べて「が」に変換したもの
9

評価実験
•  提案手法の評価として,作業者3名(いずれも著者で
はない)が含意知識の正解判定を行った

•  評価指標は次の式で定義される Acculacy
を用いた

• 
Accuracy
はさらに以下のように分かれる

• 
Accuracy-1:作業者1名以上が正解と判定した場合に正解

•  Accuracy-2:2名以上の正解判定で正解

•  Accuracy-3,
3名とも正解とした場合正解
10

動詞含意知識獲得の精度
•  α
=
200
とした場合のテンプレート共起頻度データベー
ス(V200)と α
=
20
とした場合のテンプレート共起頻度テ
゙ータベース(V20)の2種類を用いて動詞含意知識獲得
を行った

•  評価対象は獲得手法ごとに,スコア上位 20,000
の動詞
ペアの中からサンプリングした 200
ペア

•  Lin
で獲得された 200
ペアはいずれかの方向で正しい
含意ペアと判定されれば正解と見なす
11

低頻度語でも高い精度が得られる！

その他の精度
12

•  Score
全体,Scoretrick
のみ,Scorebase
のみの精度(V20)
を表3に示す

•  テンプレート単位の含意獲得の精度(V20)を表4に示
す

•  動詞含意知識獲得の場合と比べて 10%ほど精度が低下
した

終わりに
13

•  提案した方向付き分布類似度尺度 Score
は,
大規
模な動詞含意知識獲得において,これまでに提案さ
れた Lin,Precision,Binc より高精度

• 
Scoretrick
として実装したトリック関数は,動詞含意知
識獲得の精度を大きく向上させる

•  Score
はテンプレート単位の含意知識獲得にも有効

•  今後の課題

•  矛盾関係の動詞ペアがあった(例：欠場する→出場する)

•  理由：本研究で使用した手法はすべて分布類似度に基づ
くものであるため
•  分布類似度の高い動詞ペアの中から含意ペアと,それ以
外を区別するモデルの開発が今後の課題

論文紹介:WWWからの大規模動詞含意知識の獲得

Recommended

Recommended

More Related Content

Similar to 論文紹介:WWWからの大規模動詞含意知識の獲得

Similar to 論文紹介:WWWからの大規模動詞含意知識の獲得 (8)

More from swenbe

More from swenbe (9)

論文紹介:WWWからの大規模動詞含意知識の獲得