More Related Content More from Yahoo!デベロッパーネットワーク (20) 言語処理学会年次大会(NLP2019) F1-1 ウェブ検索クエリに対する周辺語を考慮した教師なしエンティティリンキング #nlp20191. Copyright (C) 2019 Yahoo Japan Corporation. All Rights Reserved.
2019年3⽉6⽇
豊⽥樹⽣, 夜久真也, ⽯川葉⼦, ⼟沢誉太, Kulkarni Kaustubh
Bhattacharjee Anupam, 宰川潤⼆
ウェブ検索クエリに対する
周辺語を考慮した
エンティティリンキング
2. Copyright (C) 2019 Yahoo Japan Corporation. All Rights Reserved.
⽬次
2
• はじめに -2つのRQ(リサーチクエスチョン)-
• 提案⼿法
• 概要
• クエリ-エンティティモデル
• クエリ補完モデル
• FEL (Blanco 2015)
• エンティティ-周辺語モデル
• 実験結果
• クエリ分類 (RQ1の結果)
• 評価⽤事例作成
• 再現率-適合率, F1値 (RQ2の結果)
• まとめと今後の課題
3. Copyright (C) 2019 Yahoo Japan Corporation. All Rights Reserved.
はじめに -2つのRQ-
3
検索ガリレオ 競⾛⾺
ガリレオ・ガリレイ
ガリレオ・ガリレイは、
イタリアの物理学者、天⽂学者、哲学者。
出⾝地: ピサ
死没⽇: 1642年 1⽉ 8⽇
検索ガリレオ 天⽂学者
ウェブ検索クエリに対する周辺語を考慮したエンティティリンキングとは
2. エンティティリンキングできると
知識パネルを提⽰できる
1. エンティティクエリ
(エンティティ⾃⾝が回答になるようなクエリ)
における周辺語の違いを考慮して
主要語(ガリレオ)のエンティティを判断
4. Copyright (C) 2019 Yahoo Japan Corporation. All Rights Reserved.
はじめに -2つのRQ-
4
検索ガリレオ 競⾛⾺
ガリレオ・ガリレイ
ガリレオ・ガリレイは、
イタリアの物理学者、天⽂学者、哲学者。
出⾝地: ピサ
死没⽇: 1642年 1⽉ 8⽇
検索ガリレオ 天⽂学者
ウェブ検索クエリに対する周辺語を考慮したエンティティリンキングとは
2. エンティティリンキングできると
知識パネルを提⽰できる
1. エンティティクエリ
(エンティティ⾃⾝が回答になるようなクエリ)
における周辺語の違いを考慮して
主要語(ガリレオ)のエンティティを判断
RQ1: クエリ全体に占める
エンティティクエリの割合はどの程度か?
全体のうちのどれだけのクエリで
知識パネルが提⽰できるんだろう?
5. Copyright (C) 2019 Yahoo Japan Corporation. All Rights Reserved.
はじめに -2つのRQ-
5
検索ガリレオ 天⽂学者
天⽂学者
類似度( ), =?
天⽂学
類似度( ), =0.5検索ガリレオ 天⽂学
形態素解析の精度によっては
word2vecによる分散表現が得られない
イタリア の 物理 学者 、 天⽂学 者
従来⼿法の課題: エンティティ-周辺語の類似度計算に
word2vecを利⽤できない場合がある (Blanco 2015)
6. Copyright (C) 2019 Yahoo Japan Corporation. All Rights Reserved.
はじめに -2つのRQ-
6
検索ガリレオ 天⽂学者
天⽂学者
類似度( ), =?
天⽂学
類似度( ), =0.5検索ガリレオ 天⽂学
形態素解析の精度によっては
word2vecによる分散表現が得られない
イタリア の 物理 学者 天⽂学 者
従来⼿法の課題: エンティティ-周辺語の類似度計算に
word2vecを利⽤できない場合がある (Blanco 2015)形態素解析がなかったら
どれだけ精度が良くなるんだろう?
RQ2: 形態素解析の必要のないモデルを⽤いることで
従来⼿法よりどの程度性能が改善されるか?
7. Copyright (C) 2019 Yahoo Japan Corporation. All Rights Reserved.
⽬次
7
• はじめに -2つのRQ-
• 提案⼿法
• 概要
• クエリ-エンティティモデル
• クエリ補完モデル
• FEL (Blanco 2015)
• エンティティ-周辺語モデル
• 実験結果
• クエリ分類
• 評価⽤事例作成
• 再現率-適合率, F1値
• まとめと今後の課題
8. Copyright (C) 2019 Yahoo Japan Corporation. All Rights Reserved.
提案⼿法 –概要-
8
(𝐞, 𝒔 𝒔, 𝒔 𝒄)∗
= argmax
.∈𝐄1,(𝒔 𝒔,𝒔 𝒄)∈21
𝐏 𝐞 𝐪 × 𝐏 𝒔 𝒄 𝐞
クエリqからエンティティe
への関連の強さ
クエリ-エンティティモデル と エンティティ-周辺語モデルを組み合わせ、確率最⼤の候補を選択
天⽂学者 名⾔
・・・ガリレオ・ガリレイ
検索ガリレオ 天⽂学者
ガリレオ・ガリレイ
バンド youtube
・・・
・・・ ・・・
エンティティeから周辺語sc
への関連の強さ
クエリq
エンティティe1,e2… eにおける周辺語scの仮想⽂書
9. Copyright (C) 2019 Yahoo Japan Corporation. All Rights Reserved.
提案⼿法 –概要-
9
(𝐞, 𝒔 𝒔, 𝒔 𝒄)∗
= argmax
.∈𝐄1,(𝒔 𝒔,𝒔 𝒄)∈21
𝐏 𝐞 𝐪 × 𝐏 𝒔 𝒄 𝐞
クエリqからエンティティe
への関連の強さ
クエリ-エンティティモデル と エンティティ-周辺語モデルを組み合わせ、確率最⼤の候補を選択
天⽂学者 名⾔
・・・ガリレオ・ガリレイ
検索ガリレオ 天⽂学者
ガリレオ・ガリレイ
バンド youtube
・・・
・・・ ・・・
エンティティeから周辺語sc
への関連の強さ
クエリq
エンティティe1,e2… eにおける周辺語scの仮想⽂書
(e= , ss=”ガリレオ”, sc=“天⽂学者”)
確率最⼤の候補:
確率の低い、バンドの⽅は選択されない
10. Copyright (C) 2019 Yahoo Japan Corporation. All Rights Reserved.
⽬次
10
• はじめに -2つのRQ(リサーチクエスチョン)-
• 提案⼿法
• 概要
• クエリ-エンティティモデル
• クエリ補完モデル
• FEL (Blanco 2015)
• エンティティ-周辺語モデル
• 実験結果
• クエリ分類 (RQ1の結果)
• 評価⽤事例作成
• 再現率-適合率, F1値 (RQ2の結果)
• まとめと今後の課題
11. Copyright (C) 2019 Yahoo Japan Corporation. All Rights Reserved.
提案⼿法 –概要-
11
(𝐞, 𝒔 𝒔, 𝒔 𝒄)∗
= argmax
.∈𝐄1,(𝒔 𝒔,𝒔 𝒄)∈21
𝐏 𝐞 𝐪 × 𝐏 𝒔 𝒄 𝐞
クエリqからエンティティe
への関連の強さ
クエリ-エンティティモデル と エンティティ-周辺語モデルを組み合わせ、確率最⼤の候補を選択
天⽂学者 名⾔
・・・ガリレオ・ガリレイ
検索ガリレオ 天⽂学者
ガリレオ・ガリレイ
バンド youtube
・・・
・・・ ・・・
エンティティeから周辺語sc
への関連の強さ
クエリq
エンティティe1,e2… eにおける周辺語scの仮想⽂書
再掲
クエリ-エンティティモデル
12. Copyright (C) 2019 Yahoo Japan Corporation. All Rights Reserved.
クエリ-エンティティモデル
12
・・・
ガリレオ・ガリレイ
検索ガリレオ 天⽂学者
ガリレオ・ガリレイ
ガリレオ・ガリレイ
ガリレオ
実に⾯⽩い
ガリレオ (ドラマ)
クエリ-エンティティモデル: クエリ補完モデル と FEL を組み合わせたもの
クエリ補完モデル
FEL (Blanco2015)
13. Copyright (C) 2019 Yahoo Japan Corporation. All Rights Reserved.
クエリ-エンティティモデル
13
・・・
ガリレオ・ガリレイ
検索ガリレオ 天⽂学者
ガリレオ・ガリレイ
ガリレオ・ガリレイ
ガリレオ
実に⾯⽩い
ガリレオ (ドラマ)
クエリ-エンティティモデル: クエリ補完モデル と FEL を組み合わせたもの
クエリ補完モデル
FEL (Blanco2015)
再掲
14. Copyright (C) 2019 Yahoo Japan Corporation. All Rights Reserved.
𝑷 𝒔 𝒔 𝒔, 𝒔 𝒄 =
𝒏 𝒔, 𝒔 𝒔, 𝒔 𝒄, 𝒄 𝒒 + 𝜶 𝑰(𝒔=𝒔 𝒔)
∑ (𝒏 𝒔′, 𝒔 𝒔, 𝒔 𝒄, 𝒄 𝒒 + 𝜶 𝑰(𝒔@=𝒔 𝒔))𝒔@∈{𝒔 𝒔}∪𝑺(𝒔 𝒔,𝒔 𝒄)
クエリ補完モデル
14
クリックログcqでの(正式名称s,主要語ss,周辺語sc)の共起頻度
遷移のしにくさを決めるパラメータα
検索ガリレオ 天⽂学者
ガリレオ・ガリレイ
・・・
α ⾼: “ガリレオ”から
遷移しにくい
α 低: “ガリレオ”から
遷移しやすい
検索ガリレオ 天⽂学者
クエリ補完モデル: 主要語ssから正式名称sへの遷移確率を持つモデル
15. Copyright (C) 2019 Yahoo Japan Corporation. All Rights Reserved.
クエリ-エンティティモデル
15
・・・
ガリレオ・ガリレイ
検索ガリレオ 天⽂学者
ガリレオ・ガリレイ
ガリレオ・ガリレイ
ガリレオ
実に⾯⽩い
ガリレオ (ドラマ)
クエリ-エンティティモデル: クエリ補完モデル と FEL を組み合わせたもの
クエリ補完モデル
FEL (Blanco2015)
再掲
16. Copyright (C) 2019 Yahoo Japan Corporation. All Rights Reserved.
FEL (Blanco 2015)
16
キーフレーズ度合い
Commonness(CMNS)
情報元(Wikipedia or クリックログ)の重要度
FEL: 正式名称sがエンティティeを参照する確率を持つモデル
17. Copyright (C) 2019 Yahoo Japan Corporation. All Rights Reserved.
FEL (Blanco 2015)
17
キーフレーズ度合い
Commonness(CMNS)
𝑷 𝒄 𝒔 =
𝒏(𝒔, 𝒄)
|𝑪| + ∑ 𝒏(𝒔, 𝒄′)𝒄@
あるセグメントsが⽣起しやすい情報元はどちらか
情報元(Wikipedia or クリックログ)の重要度
18. Copyright (C) 2019 Yahoo Japan Corporation. All Rights Reserved.
FEL (Blanco 2015)
18
Commonness(CMNS)
𝑷 𝒂 𝒔 = 𝟏 𝒄, 𝒔 =
∑ 𝒏(𝒔, 𝒄)𝒔:𝒂 𝒔=𝟏
𝒏(𝒔, 𝒄)
・・・ [[ガリレオ・ガリレイ]] にちなんで命名
されているが、それは彼がこの温度計が基礎を
あるセグメントsにどれだけリンクがあるか
キーフレーズ度合い
19. Copyright (C) 2019 Yahoo Japan Corporation. All Rights Reserved.
FEL (Blanco 2015)
19
𝑷(𝒆|𝒂 𝒔 = 𝟏, 𝒄, 𝒔) =
∑ 𝒏(𝒔, 𝒄)𝒔:𝒂 𝒔,𝒆=𝟏
∑ 𝒏(𝒔, 𝒄)𝒔:𝒂 𝒔=𝟏
あるセグメントsが
どれだけエンティティeを参照しているか
検索ガリレオ・ガリレイ
タイトルA - サイトA
Entity_A
XXXXは、
XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX
XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX
エンティティe
セグメントs
Commonness(CMNS)
クリックログの例
20. Copyright (C) 2019 Yahoo Japan Corporation. All Rights Reserved.
⽬次
20
• はじめに -2つのRQ(リサーチクエスチョン)-
• 提案⼿法
• 概要
• クエリ-エンティティモデル
• クエリ補完モデル
• FEL (Blanco 2015)
• エンティティ-周辺語モデル
• 実験結果
• クエリ分類 (RQ1の結果)
• 評価⽤事例作成
• 再現率-適合率, F1値 (RQ2の結果)
• まとめと今後の課題
21. Copyright (C) 2019 Yahoo Japan Corporation. All Rights Reserved.
提案⼿法 –概要-
21
(𝐞, 𝒔 𝒔, 𝒔 𝒄)∗
= argmax
.∈𝐄1,(𝒔 𝒔,𝒔 𝒄)∈21
𝐏 𝐞 𝐪 × 𝐏 𝒔 𝒄 𝐞
クエリqからエンティティe
への関連の強さ
クエリ-エンティティモデル と エンティティ-周辺語モデルを組み合わせ、確率最⼤の候補を選択
天⽂学者 名⾔
・・・ガリレオ・ガリレイ
検索ガリレオ 天⽂学者
ガリレオ・ガリレイ
バンド youtube
・・・
・・・ ・・・
エンティティeから周辺語sc
への関連の強さ
クエリq
エンティティe1,e2… eにおける周辺語scの仮想⽂書
再掲
エンティティ-周辺語モデル
22. Copyright (C) 2019 Yahoo Japan Corporation. All Rights Reserved.
エンティティ-周辺語モデル
22
周辺語のつきやすさを⽰す係数β
値の区間 [0.0, 1.0]
LDAの推定したエンティティeにおける
周辺語scの⽣成確率
エンティティ-周辺語モデル: エンティティe
における周辺語scの⽣起確率を持つモデル
23. Copyright (C) 2019 Yahoo Japan Corporation. All Rights Reserved.
エンティティ-周辺語モデル
23
周辺語のつきやすさを⽰す係数β
値の区間 [0.0, 1.0]
検索ガリレオ 天⽂学 検索ガリレオ 天才
タイトルA - サイトA
Entity_A
XXXXは、
XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX
XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX
1. クリックログから周辺語を取得エンティティ-周辺語モデル: エンティティe
における周辺語scの⽣起確率を持つモデル
24. Copyright (C) 2019 Yahoo Japan Corporation. All Rights Reserved.
エンティティ-周辺語モデル
24
周辺語のつきやすさを⽰す係数β
値の区間 [0.0, 1.0]
2. 周辺語で構成される仮想⽂書を⽣成
天⽂学 天⽂学者 天才
温度計 名⾔ ピサ
天動説 地動説 …
エンティティ-周辺語モデル: エンティティe
における周辺語scの⽣起確率を持つモデル
25. Copyright (C) 2019 Yahoo Japan Corporation. All Rights Reserved.
エンティティ-周辺語モデル
25
周辺語のつきやすさを⽰す係数β
値の区間 [0.0, 1.0]
3. LDAを適⽤し、トピックの分布を推定
天⽂学 天⽂学者
温度計 望遠鏡
天動説 地動説 …
エンティティ-周辺語モデル: エンティティe
における周辺語scの⽣起確率を持つモデル
26. Copyright (C) 2019 Yahoo Japan Corporation. All Rights Reserved.
エンティティ-周辺語モデル
26
周辺語のつきやすさを⽰す係数β
値の区間 [0.0, 1.0]
4. トピックの分布の類似度で確率算出
topic
1
topic
122
topic
1
topic
122
“天⽂学者”
𝑃MNO 天⽂学者 = 0.30
エンティティ-周辺語モデル: エンティティe
における周辺語scの⽣起確率を持つモデル
27. Copyright (C) 2019 Yahoo Japan Corporation. All Rights Reserved.
⽬次
27
• はじめに -2つのRQ (リサーチクエスチョン)-
• 提案⼿法
• 概要
• クエリ-エンティティモデル
• クエリ補完モデル
• FEL (Blanco 2015)
• エンティティ-周辺語モデル
• 実験結果
• クエリ分類 (RQ1の結果)
• 評価⽤事例作成
• 再現率-適合率, F1値 (RQ2の結果)
• まとめと今後の課題
28. Copyright (C) 2019 Yahoo Japan Corporation. All Rights Reserved.
実験結果: クエリ分類
28
対象:2018年12⽉01⽇~12⽉14⽇にYahoo!検索に発⾏されたクエリ
エンティティクエリの例:
1. 上記のうち9,542クエリ(10,000PVs)を抽出。
2. うち約23%の2,020(2,257 PVs)クエリをエンティティクエリと判定。
29. Copyright (C) 2019 Yahoo Japan Corporation. All Rights Reserved.
実験結果: RQ1
29
RQ1: クエリ全体に占める
エンティティクエリの割合はどの程度か?
Answer: 約23%
30. Copyright (C) 2019 Yahoo Japan Corporation. All Rights Reserved.
実験結果: 評価⽤事例作成
30
1. 先ほど抽出したクエリのうち1,915例に対して、参照しうるエンティティを付与し組を⽣成
2. この組に対して関連度に応じてスコア(1.0, 0.5, 0.0)を付与。
クエリ エンティティ スコア 備考
深田恭子 深田恭子 (女優) 1.0
フミヤ 藤井フミヤ (ミュージシャン) 1.0
ミッドランドスクエアシネマ 名古屋 ミッドランドスクエアシネマ (映画館) 1.0
ディスカウントドラッグコスモス コスモス薬品 (会社) 0.5 ブランドと運営会社の違い
有馬記念 2018 有馬記念 0.5 エンティティの範囲が広い
笠森 ユートピア 笠森寺 (寺院) 0 適切な回答は宿泊施設
31. Copyright (C) 2019 Yahoo Japan Corporation. All Rights Reserved.
実験結果: 再現率-適合率
31
総合○ 再現率○
総合○
対象:前述の評価⽤事例を使⽤
評価指標:各再現率点での重み付き適合率@1
32. Copyright (C) 2019 Yahoo Japan Corporation. All Rights Reserved.
実験結果: F1値
32
F1値:
提案⼿法が
FELを+0.123上回った
対象:前述の評価⽤事例を使⽤
33. Copyright (C) 2019 Yahoo Japan Corporation. All Rights Reserved.
実験結果: RQ2
33
RQ2: 形態素解析の必要のないモデルを⽤いることで
従来⼿法よりどの程度性能が改善されるか?
Answer: F1値で+0.123
34. Copyright (C) 2019 Yahoo Japan Corporation. All Rights Reserved.
まとめと今後の課題
34
• 周辺語を考慮したエンティティリンキング⼿法を提案
• RQ1: エンティティクエリの占める割合は?
• 約23%がエンティティクエリ
• RQ2: 形態素解析の必要のないモデルを⽤いることで従来⼿
法よりどの程度性能が改善されるか?
• 提案⼿法はF1値0.839(+0.123)を達成した
• 今後の課題:モデル毎の最適化ではなく全体で最適化する
35. Copyright (C) 2019 Yahoo Japan Corporation. All Rights Reserved.
画像提供元およびライセンス
35
• 画像提供元: アフロ
• 画像の種類
• ガリレオ・ガリレイ (天⽂学者)
• License:
• アフロ社とヤフー社のライセンス契約に基づく
• 画像提供元: Twemoji( https://github.com/twitter/twemoji )
• 画像の種類
• Thinking Face
• License:
• Code licensed under the MIT
License: http://opensource.org/licenses/MIT
• Graphics licensed under CC-BY
4.0: https://creativecommons.org/licenses/by/4.0/
36. Copyright (C) 2019 Yahoo Japan Corporation. All Rights Reserved.
画像提供元およびライセンス
36
• 画像提供元: いらすとや( https://www.irasutoya.com/ )
• 画像の種類
• ⾼いハードルのイラスト(男性)
• 低いハードルのイラスト(男性)
• バンドミュージシャンのイラスト
• ⼈差し指を⽴てた⼿のイラスト(掌・甲)
• 紙テープを読む科学者のイラスト
• License
• “商⽤⽬的の場合、⼀つの作成物の中に20点までは無料でご利
⽤いただけます。”
• https://www.irasutoya.com/p/faq.html
• https://www.irasutoya.com/p/terms.html