SlideShare a Scribd company logo
1 of 36
Download to read offline
Copyright (C) 2019 Yahoo Japan Corporation. All Rights Reserved.
2019年3⽉6⽇
豊⽥樹⽣, 夜久真也, ⽯川葉⼦, ⼟沢誉太, Kulkarni Kaustubh
Bhattacharjee Anupam, 宰川潤⼆
ウェブ検索クエリに対する
周辺語を考慮した
エンティティリンキング
Copyright (C) 2019 Yahoo Japan Corporation. All Rights Reserved.
⽬次
2
• はじめに -2つのRQ(リサーチクエスチョン)-
• 提案⼿法
• 概要
• クエリ-エンティティモデル
• クエリ補完モデル
• FEL (Blanco 2015)
• エンティティ-周辺語モデル
• 実験結果
• クエリ分類 (RQ1の結果)
• 評価⽤事例作成
• 再現率-適合率, F1値 (RQ2の結果)
• まとめと今後の課題
Copyright (C) 2019 Yahoo Japan Corporation. All Rights Reserved.
はじめに -2つのRQ-
3
検索ガリレオ 競⾛⾺
ガリレオ・ガリレイ
ガリレオ・ガリレイは、
イタリアの物理学者、天⽂学者、哲学者。
出⾝地: ピサ
死没⽇: 1642年 1⽉ 8⽇
検索ガリレオ 天⽂学者
ウェブ検索クエリに対する周辺語を考慮したエンティティリンキングとは
2. エンティティリンキングできると
知識パネルを提⽰できる
1. エンティティクエリ
(エンティティ⾃⾝が回答になるようなクエリ)
における周辺語の違いを考慮して
主要語(ガリレオ)のエンティティを判断
Copyright (C) 2019 Yahoo Japan Corporation. All Rights Reserved.
はじめに -2つのRQ-
4
検索ガリレオ 競⾛⾺
ガリレオ・ガリレイ
ガリレオ・ガリレイは、
イタリアの物理学者、天⽂学者、哲学者。
出⾝地: ピサ
死没⽇: 1642年 1⽉ 8⽇
検索ガリレオ 天⽂学者
ウェブ検索クエリに対する周辺語を考慮したエンティティリンキングとは
2. エンティティリンキングできると
知識パネルを提⽰できる
1. エンティティクエリ
(エンティティ⾃⾝が回答になるようなクエリ)
における周辺語の違いを考慮して
主要語(ガリレオ)のエンティティを判断
RQ1: クエリ全体に占める
エンティティクエリの割合はどの程度か?
全体のうちのどれだけのクエリで
知識パネルが提⽰できるんだろう?
Copyright (C) 2019 Yahoo Japan Corporation. All Rights Reserved.
はじめに -2つのRQ-
5
検索ガリレオ 天⽂学者
天⽂学者
類似度( ), =?
天⽂学
類似度( ), =0.5検索ガリレオ 天⽂学
形態素解析の精度によっては
word2vecによる分散表現が得られない
イタリア の 物理 学者 、 天⽂学 者
従来⼿法の課題: エンティティ-周辺語の類似度計算に
word2vecを利⽤できない場合がある (Blanco 2015)
Copyright (C) 2019 Yahoo Japan Corporation. All Rights Reserved.
はじめに -2つのRQ-
6
検索ガリレオ 天⽂学者
天⽂学者
類似度( ), =?
天⽂学
類似度( ), =0.5検索ガリレオ 天⽂学
形態素解析の精度によっては
word2vecによる分散表現が得られない
イタリア の 物理 学者 天⽂学 者
従来⼿法の課題: エンティティ-周辺語の類似度計算に
word2vecを利⽤できない場合がある (Blanco 2015)形態素解析がなかったら
どれだけ精度が良くなるんだろう?
RQ2: 形態素解析の必要のないモデルを⽤いることで
従来⼿法よりどの程度性能が改善されるか?
Copyright (C) 2019 Yahoo Japan Corporation. All Rights Reserved.
⽬次
7
• はじめに -2つのRQ-
• 提案⼿法
• 概要
• クエリ-エンティティモデル
• クエリ補完モデル
• FEL (Blanco 2015)
• エンティティ-周辺語モデル
• 実験結果
• クエリ分類
• 評価⽤事例作成
• 再現率-適合率, F1値
• まとめと今後の課題
Copyright (C) 2019 Yahoo Japan Corporation. All Rights Reserved.
提案⼿法 –概要-
8
(𝐞, 𝒔 𝒔, 𝒔 𝒄)∗
= argmax
.∈𝐄1,(𝒔 𝒔,𝒔 𝒄)∈21
𝐏 𝐞 𝐪 								×								𝐏 𝒔 𝒄 𝐞
クエリqからエンティティe
への関連の強さ
クエリ-エンティティモデル と エンティティ-周辺語モデルを組み合わせ、確率最⼤の候補を選択
天⽂学者 名⾔
・・・ガリレオ・ガリレイ
検索ガリレオ 天⽂学者
ガリレオ・ガリレイ
バンド youtube
・・・
・・・ ・・・
エンティティeから周辺語sc
への関連の強さ
クエリq
エンティティe1,e2… eにおける周辺語scの仮想⽂書
Copyright (C) 2019 Yahoo Japan Corporation. All Rights Reserved.
提案⼿法 –概要-
9
(𝐞, 𝒔 𝒔, 𝒔 𝒄)∗
= argmax
.∈𝐄1,(𝒔 𝒔,𝒔 𝒄)∈21
𝐏 𝐞 𝐪 								×								𝐏 𝒔 𝒄 𝐞
クエリqからエンティティe
への関連の強さ
クエリ-エンティティモデル と エンティティ-周辺語モデルを組み合わせ、確率最⼤の候補を選択
天⽂学者 名⾔
・・・ガリレオ・ガリレイ
検索ガリレオ 天⽂学者
ガリレオ・ガリレイ
バンド youtube
・・・
・・・ ・・・
エンティティeから周辺語sc
への関連の強さ
クエリq
エンティティe1,e2… eにおける周辺語scの仮想⽂書
(e= , ss=”ガリレオ”, sc=“天⽂学者”)
確率最⼤の候補:
確率の低い、バンドの⽅は選択されない
Copyright (C) 2019 Yahoo Japan Corporation. All Rights Reserved.
⽬次
10
• はじめに -2つのRQ(リサーチクエスチョン)-
• 提案⼿法
• 概要
• クエリ-エンティティモデル
• クエリ補完モデル
• FEL (Blanco 2015)
• エンティティ-周辺語モデル
• 実験結果
• クエリ分類 (RQ1の結果)
• 評価⽤事例作成
• 再現率-適合率, F1値 (RQ2の結果)
• まとめと今後の課題
Copyright (C) 2019 Yahoo Japan Corporation. All Rights Reserved.
提案⼿法 –概要-
11
(𝐞, 𝒔 𝒔, 𝒔 𝒄)∗
= argmax
.∈𝐄1,(𝒔 𝒔,𝒔 𝒄)∈21
𝐏 𝐞 𝐪 								×								𝐏 𝒔 𝒄 𝐞
クエリqからエンティティe
への関連の強さ
クエリ-エンティティモデル と エンティティ-周辺語モデルを組み合わせ、確率最⼤の候補を選択
天⽂学者 名⾔
・・・ガリレオ・ガリレイ
検索ガリレオ 天⽂学者
ガリレオ・ガリレイ
バンド youtube
・・・
・・・ ・・・
エンティティeから周辺語sc
への関連の強さ
クエリq
エンティティe1,e2… eにおける周辺語scの仮想⽂書
再掲
クエリ-エンティティモデル
Copyright (C) 2019 Yahoo Japan Corporation. All Rights Reserved.
クエリ-エンティティモデル
12
・・・
ガリレオ・ガリレイ
検索ガリレオ 天⽂学者
ガリレオ・ガリレイ
ガリレオ・ガリレイ
ガリレオ
実に⾯⽩い
ガリレオ (ドラマ)
クエリ-エンティティモデル: クエリ補完モデル と FEL を組み合わせたもの
クエリ補完モデル
FEL (Blanco2015)
Copyright (C) 2019 Yahoo Japan Corporation. All Rights Reserved.
クエリ-エンティティモデル
13
・・・
ガリレオ・ガリレイ
検索ガリレオ 天⽂学者
ガリレオ・ガリレイ
ガリレオ・ガリレイ
ガリレオ
実に⾯⽩い
ガリレオ (ドラマ)
クエリ-エンティティモデル: クエリ補完モデル と FEL を組み合わせたもの
クエリ補完モデル
FEL (Blanco2015)
再掲
Copyright (C) 2019 Yahoo Japan Corporation. All Rights Reserved.
𝑷 𝒔 𝒔 𝒔, 𝒔 𝒄 =
𝒏 𝒔, 𝒔 𝒔, 𝒔 𝒄, 𝒄 𝒒 + 𝜶 𝑰(𝒔=𝒔 𝒔)
∑ (𝒏 𝒔′, 𝒔 𝒔, 𝒔 𝒄, 𝒄 𝒒 + 𝜶 𝑰(𝒔@=𝒔 𝒔))𝒔@∈{𝒔 𝒔}∪𝑺(𝒔 𝒔,𝒔 𝒄)
クエリ補完モデル
14
クリックログcqでの(正式名称s,主要語ss,周辺語sc)の共起頻度
遷移のしにくさを決めるパラメータα
検索ガリレオ 天⽂学者
ガリレオ・ガリレイ
・・・
α ⾼: “ガリレオ”から
遷移しにくい
α 低: “ガリレオ”から
遷移しやすい
検索ガリレオ 天⽂学者
クエリ補完モデル: 主要語ssから正式名称sへの遷移確率を持つモデル
Copyright (C) 2019 Yahoo Japan Corporation. All Rights Reserved.
クエリ-エンティティモデル
15
・・・
ガリレオ・ガリレイ
検索ガリレオ 天⽂学者
ガリレオ・ガリレイ
ガリレオ・ガリレイ
ガリレオ
実に⾯⽩い
ガリレオ (ドラマ)
クエリ-エンティティモデル: クエリ補完モデル と FEL を組み合わせたもの
クエリ補完モデル
FEL (Blanco2015)
再掲
Copyright (C) 2019 Yahoo Japan Corporation. All Rights Reserved.
FEL (Blanco 2015)
16
キーフレーズ度合い
Commonness(CMNS)
情報元(Wikipedia or クリックログ)の重要度
FEL: 正式名称sがエンティティeを参照する確率を持つモデル
Copyright (C) 2019 Yahoo Japan Corporation. All Rights Reserved.
FEL (Blanco 2015)
17
キーフレーズ度合い
Commonness(CMNS)
𝑷 𝒄 𝒔 =
𝒏(𝒔, 𝒄)
|𝑪| + ∑ 𝒏(𝒔, 𝒄′)𝒄@
あるセグメントsが⽣起しやすい情報元はどちらか
情報元(Wikipedia or クリックログ)の重要度
Copyright (C) 2019 Yahoo Japan Corporation. All Rights Reserved.
FEL (Blanco 2015)
18
Commonness(CMNS)
𝑷 𝒂 𝒔 = 𝟏 𝒄, 𝒔 =
∑ 𝒏(𝒔, 𝒄)𝒔:𝒂 𝒔=𝟏
𝒏(𝒔, 𝒄)
・・・ [[ガリレオ・ガリレイ]] にちなんで命名
されているが、それは彼がこの温度計が基礎を
あるセグメントsにどれだけリンクがあるか
キーフレーズ度合い
Copyright (C) 2019 Yahoo Japan Corporation. All Rights Reserved.
FEL (Blanco 2015)
19
𝑷(𝒆|𝒂 𝒔 = 𝟏, 𝒄, 𝒔) =
∑ 𝒏(𝒔, 𝒄)𝒔:𝒂 𝒔,𝒆=𝟏
∑ 𝒏(𝒔, 𝒄)𝒔:𝒂 𝒔=𝟏
あるセグメントsが
どれだけエンティティeを参照しているか
検索ガリレオ・ガリレイ
タイトルA - サイトA
Entity_A
XXXXは、
XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX
XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX
エンティティe
セグメントs
Commonness(CMNS)
クリックログの例
Copyright (C) 2019 Yahoo Japan Corporation. All Rights Reserved.
⽬次
20
• はじめに -2つのRQ(リサーチクエスチョン)-
• 提案⼿法
• 概要
• クエリ-エンティティモデル
• クエリ補完モデル
• FEL (Blanco 2015)
• エンティティ-周辺語モデル
• 実験結果
• クエリ分類 (RQ1の結果)
• 評価⽤事例作成
• 再現率-適合率, F1値 (RQ2の結果)
• まとめと今後の課題
Copyright (C) 2019 Yahoo Japan Corporation. All Rights Reserved.
提案⼿法 –概要-
21
(𝐞, 𝒔 𝒔, 𝒔 𝒄)∗
= argmax
.∈𝐄1,(𝒔 𝒔,𝒔 𝒄)∈21
𝐏 𝐞 𝐪 								×								𝐏 𝒔 𝒄 𝐞
クエリqからエンティティe
への関連の強さ
クエリ-エンティティモデル と エンティティ-周辺語モデルを組み合わせ、確率最⼤の候補を選択
天⽂学者 名⾔
・・・ガリレオ・ガリレイ
検索ガリレオ 天⽂学者
ガリレオ・ガリレイ
バンド youtube
・・・
・・・ ・・・
エンティティeから周辺語sc
への関連の強さ
クエリq
エンティティe1,e2… eにおける周辺語scの仮想⽂書
再掲
エンティティ-周辺語モデル
Copyright (C) 2019 Yahoo Japan Corporation. All Rights Reserved.
エンティティ-周辺語モデル
22
周辺語のつきやすさを⽰す係数β
値の区間 [0.0, 1.0]
LDAの推定したエンティティeにおける
周辺語scの⽣成確率
エンティティ-周辺語モデル: エンティティe
における周辺語scの⽣起確率を持つモデル
Copyright (C) 2019 Yahoo Japan Corporation. All Rights Reserved.
エンティティ-周辺語モデル
23
周辺語のつきやすさを⽰す係数β
値の区間 [0.0, 1.0]
検索ガリレオ 天⽂学 検索ガリレオ 天才
タイトルA - サイトA
Entity_A
XXXXは、
XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX
XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX
1. クリックログから周辺語を取得エンティティ-周辺語モデル: エンティティe
における周辺語scの⽣起確率を持つモデル
Copyright (C) 2019 Yahoo Japan Corporation. All Rights Reserved.
エンティティ-周辺語モデル
24
周辺語のつきやすさを⽰す係数β
値の区間 [0.0, 1.0]
2. 周辺語で構成される仮想⽂書を⽣成
天⽂学 天⽂学者 天才
温度計 名⾔ ピサ
天動説 地動説 …
エンティティ-周辺語モデル: エンティティe
における周辺語scの⽣起確率を持つモデル
Copyright (C) 2019 Yahoo Japan Corporation. All Rights Reserved.
エンティティ-周辺語モデル
25
周辺語のつきやすさを⽰す係数β
値の区間 [0.0, 1.0]
3. LDAを適⽤し、トピックの分布を推定
天⽂学 天⽂学者
温度計 望遠鏡
天動説 地動説 …
エンティティ-周辺語モデル: エンティティe
における周辺語scの⽣起確率を持つモデル
Copyright (C) 2019 Yahoo Japan Corporation. All Rights Reserved.
エンティティ-周辺語モデル
26
周辺語のつきやすさを⽰す係数β
値の区間 [0.0, 1.0]
4. トピックの分布の類似度で確率算出
topic
1
topic
122
topic
1
topic
122
“天⽂学者”
𝑃MNO 天⽂学者 															 = 0.30
エンティティ-周辺語モデル: エンティティe
における周辺語scの⽣起確率を持つモデル
Copyright (C) 2019 Yahoo Japan Corporation. All Rights Reserved.
⽬次
27
• はじめに -2つのRQ (リサーチクエスチョン)-
• 提案⼿法
• 概要
• クエリ-エンティティモデル
• クエリ補完モデル
• FEL (Blanco 2015)
• エンティティ-周辺語モデル
• 実験結果
• クエリ分類 (RQ1の結果)
• 評価⽤事例作成
• 再現率-適合率, F1値 (RQ2の結果)
• まとめと今後の課題
Copyright (C) 2019 Yahoo Japan Corporation. All Rights Reserved.
実験結果: クエリ分類
28
対象:2018年12⽉01⽇~12⽉14⽇にYahoo!検索に発⾏されたクエリ
エンティティクエリの例:
1. 上記のうち9,542クエリ(10,000PVs)を抽出。
2. うち約23%の2,020(2,257 PVs)クエリをエンティティクエリと判定。
Copyright (C) 2019 Yahoo Japan Corporation. All Rights Reserved.
実験結果: RQ1
29
RQ1: クエリ全体に占める
エンティティクエリの割合はどの程度か?
Answer: 約23%
Copyright (C) 2019 Yahoo Japan Corporation. All Rights Reserved.
実験結果: 評価⽤事例作成
30
1. 先ほど抽出したクエリのうち1,915例に対して、参照しうるエンティティを付与し組を⽣成
2. この組に対して関連度に応じてスコア(1.0, 0.5, 0.0)を付与。
クエリ エンティティ スコア 備考
深田恭子 深田恭子 (女優) 1.0
フミヤ 藤井フミヤ (ミュージシャン) 1.0
ミッドランドスクエアシネマ 名古屋 ミッドランドスクエアシネマ (映画館) 1.0
ディスカウントドラッグコスモス コスモス薬品 (会社) 0.5 ブランドと運営会社の違い
有馬記念 2018 有馬記念 0.5 エンティティの範囲が広い
笠森 ユートピア 笠森寺 (寺院) 0 適切な回答は宿泊施設
Copyright (C) 2019 Yahoo Japan Corporation. All Rights Reserved.
実験結果: 再現率-適合率
31
総合○ 再現率○
総合○
対象:前述の評価⽤事例を使⽤
評価指標:各再現率点での重み付き適合率@1
Copyright (C) 2019 Yahoo Japan Corporation. All Rights Reserved.
実験結果: F1値
32
F1値:
提案⼿法が
FELを+0.123上回った
対象:前述の評価⽤事例を使⽤
Copyright (C) 2019 Yahoo Japan Corporation. All Rights Reserved.
実験結果: RQ2
33
RQ2: 形態素解析の必要のないモデルを⽤いることで
従来⼿法よりどの程度性能が改善されるか?
Answer: F1値で+0.123
Copyright (C) 2019 Yahoo Japan Corporation. All Rights Reserved.
まとめと今後の課題
34
• 周辺語を考慮したエンティティリンキング⼿法を提案
• RQ1: エンティティクエリの占める割合は?
• 約23%がエンティティクエリ
• RQ2: 形態素解析の必要のないモデルを⽤いることで従来⼿
法よりどの程度性能が改善されるか?
• 提案⼿法はF1値0.839(+0.123)を達成した
• 今後の課題:モデル毎の最適化ではなく全体で最適化する
Copyright (C) 2019 Yahoo Japan Corporation. All Rights Reserved.
画像提供元およびライセンス
35
• 画像提供元: アフロ
• 画像の種類
• ガリレオ・ガリレイ (天⽂学者)
• License:
• アフロ社とヤフー社のライセンス契約に基づく
• 画像提供元: Twemoji( https://github.com/twitter/twemoji )
• 画像の種類
• Thinking Face
• License:
• Code licensed under the MIT
License: http://opensource.org/licenses/MIT
• Graphics licensed under CC-BY
4.0: https://creativecommons.org/licenses/by/4.0/
Copyright (C) 2019 Yahoo Japan Corporation. All Rights Reserved.
画像提供元およびライセンス
36
• 画像提供元: いらすとや( https://www.irasutoya.com/ )
• 画像の種類
• ⾼いハードルのイラスト(男性)
• 低いハードルのイラスト(男性)
• バンドミュージシャンのイラスト
• ⼈差し指を⽴てた⼿のイラスト(掌・甲)
• 紙テープを読む科学者のイラスト
• License
• “商⽤⽬的の場合、⼀つの作成物の中に20点までは無料でご利
⽤いただけます。”
• https://www.irasutoya.com/p/faq.html
• https://www.irasutoya.com/p/terms.html

More Related Content

What's hot

プログラミングコンテストでの動的計画法
プログラミングコンテストでの動的計画法プログラミングコンテストでの動的計画法
プログラミングコンテストでの動的計画法
Takuya Akiba
 
メタプログラミングって何だろう
メタプログラミングって何だろうメタプログラミングって何だろう
メタプログラミングって何だろう
Kota Mizushima
 
Twitterのsnowflakeについて
TwitterのsnowflakeについてTwitterのsnowflakeについて
Twitterのsnowflakeについて
moai kids
 
Pythonの理解を試みる 〜バイトコードインタプリタを作成する〜
Pythonの理解を試みる 〜バイトコードインタプリタを作成する〜Pythonの理解を試みる 〜バイトコードインタプリタを作成する〜
Pythonの理解を試みる 〜バイトコードインタプリタを作成する〜
Preferred Networks
 

What's hot (20)

Pythonはどうやってlen関数で長さを手にいれているの?
Pythonはどうやってlen関数で長さを手にいれているの?Pythonはどうやってlen関数で長さを手にいれているの?
Pythonはどうやってlen関数で長さを手にいれているの?
 
ADO.NETとORMとMicro-ORM -dapper dot netを使ってみた
ADO.NETとORMとMicro-ORM -dapper dot netを使ってみたADO.NETとORMとMicro-ORM -dapper dot netを使ってみた
ADO.NETとORMとMicro-ORM -dapper dot netを使ってみた
 
プログラミングコンテストでの動的計画法
プログラミングコンテストでの動的計画法プログラミングコンテストでの動的計画法
プログラミングコンテストでの動的計画法
 
メタプログラミングって何だろう
メタプログラミングって何だろうメタプログラミングって何だろう
メタプログラミングって何だろう
 
RailsGirls から始める エンジニアリングはじめの一歩
RailsGirls から始める エンジニアリングはじめの一歩RailsGirls から始める エンジニアリングはじめの一歩
RailsGirls から始める エンジニアリングはじめの一歩
 
例外設計における大罪
例外設計における大罪例外設計における大罪
例外設計における大罪
 
Pythonによる黒魔術入門
Pythonによる黒魔術入門Pythonによる黒魔術入門
Pythonによる黒魔術入門
 
PHPでWebSocketを実装してみてわかったこと
PHPでWebSocketを実装してみてわかったことPHPでWebSocketを実装してみてわかったこと
PHPでWebSocketを実装してみてわかったこと
 
明日使えないすごいビット演算
明日使えないすごいビット演算明日使えないすごいビット演算
明日使えないすごいビット演算
 
Twitterのsnowflakeについて
TwitterのsnowflakeについてTwitterのsnowflakeについて
Twitterのsnowflakeについて
 
エンジニアの個人ブランディングと技術組織
エンジニアの個人ブランディングと技術組織エンジニアの個人ブランディングと技術組織
エンジニアの個人ブランディングと技術組織
 
Ansibleの最近の動向を追ってみた
Ansibleの最近の動向を追ってみたAnsibleの最近の動向を追ってみた
Ansibleの最近の動向を追ってみた
 
「速」を落とさないコードレビュー
「速」を落とさないコードレビュー「速」を落とさないコードレビュー
「速」を落とさないコードレビュー
 
tcolorboxによる装飾表現(TeXユーザの集い2015)
tcolorboxによる装飾表現(TeXユーザの集い2015)tcolorboxによる装飾表現(TeXユーザの集い2015)
tcolorboxによる装飾表現(TeXユーザの集い2015)
 
第16回Lucene/Solr勉強会 – ランキングチューニングと定量評価 #SolrJP
第16回Lucene/Solr勉強会 – ランキングチューニングと定量評価 #SolrJP第16回Lucene/Solr勉強会 – ランキングチューニングと定量評価 #SolrJP
第16回Lucene/Solr勉強会 – ランキングチューニングと定量評価 #SolrJP
 
Kotlinアンチパターン
KotlinアンチパターンKotlinアンチパターン
Kotlinアンチパターン
 
Pythonの理解を試みる 〜バイトコードインタプリタを作成する〜
Pythonの理解を試みる 〜バイトコードインタプリタを作成する〜Pythonの理解を試みる 〜バイトコードインタプリタを作成する〜
Pythonの理解を試みる 〜バイトコードインタプリタを作成する〜
 
ドメイン駆動設計のためのオブジェクト指向入門
ドメイン駆動設計のためのオブジェクト指向入門ドメイン駆動設計のためのオブジェクト指向入門
ドメイン駆動設計のためのオブジェクト指向入門
 
⼤企業で実現するイマドキの内製開発
⼤企業で実現するイマドキの内製開発⼤企業で実現するイマドキの内製開発
⼤企業で実現するイマドキの内製開発
 
BERT入門
BERT入門BERT入門
BERT入門
 

More from Yahoo!デベロッパーネットワーク

More from Yahoo!デベロッパーネットワーク (20)

ゼロから始める転移学習
ゼロから始める転移学習ゼロから始める転移学習
ゼロから始める転移学習
 
継続的なモデルモニタリングを実現するKubernetes Operator
継続的なモデルモニタリングを実現するKubernetes Operator継続的なモデルモニタリングを実現するKubernetes Operator
継続的なモデルモニタリングを実現するKubernetes Operator
 
ヤフーでは開発迅速性と品質のバランスをどう取ってるか
ヤフーでは開発迅速性と品質のバランスをどう取ってるかヤフーでは開発迅速性と品質のバランスをどう取ってるか
ヤフーでは開発迅速性と品質のバランスをどう取ってるか
 
オンプレML基盤on Kubernetes パネルディスカッション
オンプレML基盤on Kubernetes パネルディスカッションオンプレML基盤on Kubernetes パネルディスカッション
オンプレML基盤on Kubernetes パネルディスカッション
 
LakeTahoe
LakeTahoeLakeTahoe
LakeTahoe
 
オンプレML基盤on Kubernetes 〜Yahoo! JAPAN AIPF〜
オンプレML基盤on Kubernetes 〜Yahoo! JAPAN AIPF〜オンプレML基盤on Kubernetes 〜Yahoo! JAPAN AIPF〜
オンプレML基盤on Kubernetes 〜Yahoo! JAPAN AIPF〜
 
Persistent-memory-native Database High-availability Feature
Persistent-memory-native Database High-availability FeaturePersistent-memory-native Database High-availability Feature
Persistent-memory-native Database High-availability Feature
 
データの価値を最大化させるためのデザイン~データビジュアライゼーションの方法~ #devsumi 17-E-2
データの価値を最大化させるためのデザイン~データビジュアライゼーションの方法~ #devsumi 17-E-2データの価値を最大化させるためのデザイン~データビジュアライゼーションの方法~ #devsumi 17-E-2
データの価値を最大化させるためのデザイン~データビジュアライゼーションの方法~ #devsumi 17-E-2
 
eコマースと実店舗の相互利益を目指したデザイン #yjtc
eコマースと実店舗の相互利益を目指したデザイン #yjtceコマースと実店舗の相互利益を目指したデザイン #yjtc
eコマースと実店舗の相互利益を目指したデザイン #yjtc
 
ヤフーを支えるセキュリティ ~サイバー攻撃を防ぐエンジニアの仕事とは~ #yjtc
ヤフーを支えるセキュリティ ~サイバー攻撃を防ぐエンジニアの仕事とは~ #yjtcヤフーを支えるセキュリティ ~サイバー攻撃を防ぐエンジニアの仕事とは~ #yjtc
ヤフーを支えるセキュリティ ~サイバー攻撃を防ぐエンジニアの仕事とは~ #yjtc
 
Yahoo! JAPANのIaaSを支えるKubernetesクラスタ、アップデート自動化への挑戦 #yjtc
Yahoo! JAPANのIaaSを支えるKubernetesクラスタ、アップデート自動化への挑戦 #yjtcYahoo! JAPANのIaaSを支えるKubernetesクラスタ、アップデート自動化への挑戦 #yjtc
Yahoo! JAPANのIaaSを支えるKubernetesクラスタ、アップデート自動化への挑戦 #yjtc
 
ビッグデータから人々のムードを捉える #yjtc
ビッグデータから人々のムードを捉える #yjtcビッグデータから人々のムードを捉える #yjtc
ビッグデータから人々のムードを捉える #yjtc
 
サイエンス領域におけるMLOpsの取り組み #yjtc
サイエンス領域におけるMLOpsの取り組み #yjtcサイエンス領域におけるMLOpsの取り組み #yjtc
サイエンス領域におけるMLOpsの取り組み #yjtc
 
ヤフーのAIプラットフォーム紹介 ~AIテックカンパニーを支えるデータ基盤~ #yjtc
ヤフーのAIプラットフォーム紹介 ~AIテックカンパニーを支えるデータ基盤~ #yjtcヤフーのAIプラットフォーム紹介 ~AIテックカンパニーを支えるデータ基盤~ #yjtc
ヤフーのAIプラットフォーム紹介 ~AIテックカンパニーを支えるデータ基盤~ #yjtc
 
Yahoo! JAPAN Tech Conference 2022 Day2 Keynote #yjtc
Yahoo! JAPAN Tech Conference 2022 Day2 Keynote #yjtcYahoo! JAPAN Tech Conference 2022 Day2 Keynote #yjtc
Yahoo! JAPAN Tech Conference 2022 Day2 Keynote #yjtc
 
新技術を使った次世代の商品の見せ方 ~ヤフオク!のマルチビュー機能~ #yjtc
新技術を使った次世代の商品の見せ方 ~ヤフオク!のマルチビュー機能~ #yjtc新技術を使った次世代の商品の見せ方 ~ヤフオク!のマルチビュー機能~ #yjtc
新技術を使った次世代の商品の見せ方 ~ヤフオク!のマルチビュー機能~ #yjtc
 
PC版Yahoo!メールリニューアル ~サービスのUI/UX統合と改善プロセス~ #yjtc
PC版Yahoo!メールリニューアル ~サービスのUI/UX統合と改善プロセス~ #yjtcPC版Yahoo!メールリニューアル ~サービスのUI/UX統合と改善プロセス~ #yjtc
PC版Yahoo!メールリニューアル ~サービスのUI/UX統合と改善プロセス~ #yjtc
 
モブデザインによる多職種チームのコミュニケーション改善 #yjtc
モブデザインによる多職種チームのコミュニケーション改善 #yjtcモブデザインによる多職種チームのコミュニケーション改善 #yjtc
モブデザインによる多職種チームのコミュニケーション改善 #yjtc
 
「新しいおうち探し」のためのAIアシスト検索 #yjtc
「新しいおうち探し」のためのAIアシスト検索 #yjtc「新しいおうち探し」のためのAIアシスト検索 #yjtc
「新しいおうち探し」のためのAIアシスト検索 #yjtc
 
ユーザーの地域を考慮した検索入力補助機能の改善の試み #yjtc
ユーザーの地域を考慮した検索入力補助機能の改善の試み #yjtcユーザーの地域を考慮した検索入力補助機能の改善の試み #yjtc
ユーザーの地域を考慮した検索入力補助機能の改善の試み #yjtc
 

Recently uploaded

Recently uploaded (7)

LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアルLoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
 
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
 
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
 
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
LoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイスLoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイス
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
 
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
 
新人研修 後半 2024/04/26の勉強会で発表されたものです。
新人研修 後半        2024/04/26の勉強会で発表されたものです。新人研修 後半        2024/04/26の勉強会で発表されたものです。
新人研修 後半 2024/04/26の勉強会で発表されたものです。
 
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
 

言語処理学会年次大会(NLP2019) F1-1 ウェブ検索クエリに対する周辺語を考慮した教師なしエンティティリンキング #nlp2019

  • 1. Copyright (C) 2019 Yahoo Japan Corporation. All Rights Reserved. 2019年3⽉6⽇ 豊⽥樹⽣, 夜久真也, ⽯川葉⼦, ⼟沢誉太, Kulkarni Kaustubh Bhattacharjee Anupam, 宰川潤⼆ ウェブ検索クエリに対する 周辺語を考慮した エンティティリンキング
  • 2. Copyright (C) 2019 Yahoo Japan Corporation. All Rights Reserved. ⽬次 2 • はじめに -2つのRQ(リサーチクエスチョン)- • 提案⼿法 • 概要 • クエリ-エンティティモデル • クエリ補完モデル • FEL (Blanco 2015) • エンティティ-周辺語モデル • 実験結果 • クエリ分類 (RQ1の結果) • 評価⽤事例作成 • 再現率-適合率, F1値 (RQ2の結果) • まとめと今後の課題
  • 3. Copyright (C) 2019 Yahoo Japan Corporation. All Rights Reserved. はじめに -2つのRQ- 3 検索ガリレオ 競⾛⾺ ガリレオ・ガリレイ ガリレオ・ガリレイは、 イタリアの物理学者、天⽂学者、哲学者。 出⾝地: ピサ 死没⽇: 1642年 1⽉ 8⽇ 検索ガリレオ 天⽂学者 ウェブ検索クエリに対する周辺語を考慮したエンティティリンキングとは 2. エンティティリンキングできると 知識パネルを提⽰できる 1. エンティティクエリ (エンティティ⾃⾝が回答になるようなクエリ) における周辺語の違いを考慮して 主要語(ガリレオ)のエンティティを判断
  • 4. Copyright (C) 2019 Yahoo Japan Corporation. All Rights Reserved. はじめに -2つのRQ- 4 検索ガリレオ 競⾛⾺ ガリレオ・ガリレイ ガリレオ・ガリレイは、 イタリアの物理学者、天⽂学者、哲学者。 出⾝地: ピサ 死没⽇: 1642年 1⽉ 8⽇ 検索ガリレオ 天⽂学者 ウェブ検索クエリに対する周辺語を考慮したエンティティリンキングとは 2. エンティティリンキングできると 知識パネルを提⽰できる 1. エンティティクエリ (エンティティ⾃⾝が回答になるようなクエリ) における周辺語の違いを考慮して 主要語(ガリレオ)のエンティティを判断 RQ1: クエリ全体に占める エンティティクエリの割合はどの程度か? 全体のうちのどれだけのクエリで 知識パネルが提⽰できるんだろう?
  • 5. Copyright (C) 2019 Yahoo Japan Corporation. All Rights Reserved. はじめに -2つのRQ- 5 検索ガリレオ 天⽂学者 天⽂学者 類似度( ), =? 天⽂学 類似度( ), =0.5検索ガリレオ 天⽂学 形態素解析の精度によっては word2vecによる分散表現が得られない イタリア の 物理 学者 、 天⽂学 者 従来⼿法の課題: エンティティ-周辺語の類似度計算に word2vecを利⽤できない場合がある (Blanco 2015)
  • 6. Copyright (C) 2019 Yahoo Japan Corporation. All Rights Reserved. はじめに -2つのRQ- 6 検索ガリレオ 天⽂学者 天⽂学者 類似度( ), =? 天⽂学 類似度( ), =0.5検索ガリレオ 天⽂学 形態素解析の精度によっては word2vecによる分散表現が得られない イタリア の 物理 学者 天⽂学 者 従来⼿法の課題: エンティティ-周辺語の類似度計算に word2vecを利⽤できない場合がある (Blanco 2015)形態素解析がなかったら どれだけ精度が良くなるんだろう? RQ2: 形態素解析の必要のないモデルを⽤いることで 従来⼿法よりどの程度性能が改善されるか?
  • 7. Copyright (C) 2019 Yahoo Japan Corporation. All Rights Reserved. ⽬次 7 • はじめに -2つのRQ- • 提案⼿法 • 概要 • クエリ-エンティティモデル • クエリ補完モデル • FEL (Blanco 2015) • エンティティ-周辺語モデル • 実験結果 • クエリ分類 • 評価⽤事例作成 • 再現率-適合率, F1値 • まとめと今後の課題
  • 8. Copyright (C) 2019 Yahoo Japan Corporation. All Rights Reserved. 提案⼿法 –概要- 8 (𝐞, 𝒔 𝒔, 𝒔 𝒄)∗ = argmax .∈𝐄1,(𝒔 𝒔,𝒔 𝒄)∈21 𝐏 𝐞 𝐪 × 𝐏 𝒔 𝒄 𝐞 クエリqからエンティティe への関連の強さ クエリ-エンティティモデル と エンティティ-周辺語モデルを組み合わせ、確率最⼤の候補を選択 天⽂学者 名⾔ ・・・ガリレオ・ガリレイ 検索ガリレオ 天⽂学者 ガリレオ・ガリレイ バンド youtube ・・・ ・・・ ・・・ エンティティeから周辺語sc への関連の強さ クエリq エンティティe1,e2… eにおける周辺語scの仮想⽂書
  • 9. Copyright (C) 2019 Yahoo Japan Corporation. All Rights Reserved. 提案⼿法 –概要- 9 (𝐞, 𝒔 𝒔, 𝒔 𝒄)∗ = argmax .∈𝐄1,(𝒔 𝒔,𝒔 𝒄)∈21 𝐏 𝐞 𝐪 × 𝐏 𝒔 𝒄 𝐞 クエリqからエンティティe への関連の強さ クエリ-エンティティモデル と エンティティ-周辺語モデルを組み合わせ、確率最⼤の候補を選択 天⽂学者 名⾔ ・・・ガリレオ・ガリレイ 検索ガリレオ 天⽂学者 ガリレオ・ガリレイ バンド youtube ・・・ ・・・ ・・・ エンティティeから周辺語sc への関連の強さ クエリq エンティティe1,e2… eにおける周辺語scの仮想⽂書 (e= , ss=”ガリレオ”, sc=“天⽂学者”) 確率最⼤の候補: 確率の低い、バンドの⽅は選択されない
  • 10. Copyright (C) 2019 Yahoo Japan Corporation. All Rights Reserved. ⽬次 10 • はじめに -2つのRQ(リサーチクエスチョン)- • 提案⼿法 • 概要 • クエリ-エンティティモデル • クエリ補完モデル • FEL (Blanco 2015) • エンティティ-周辺語モデル • 実験結果 • クエリ分類 (RQ1の結果) • 評価⽤事例作成 • 再現率-適合率, F1値 (RQ2の結果) • まとめと今後の課題
  • 11. Copyright (C) 2019 Yahoo Japan Corporation. All Rights Reserved. 提案⼿法 –概要- 11 (𝐞, 𝒔 𝒔, 𝒔 𝒄)∗ = argmax .∈𝐄1,(𝒔 𝒔,𝒔 𝒄)∈21 𝐏 𝐞 𝐪 × 𝐏 𝒔 𝒄 𝐞 クエリqからエンティティe への関連の強さ クエリ-エンティティモデル と エンティティ-周辺語モデルを組み合わせ、確率最⼤の候補を選択 天⽂学者 名⾔ ・・・ガリレオ・ガリレイ 検索ガリレオ 天⽂学者 ガリレオ・ガリレイ バンド youtube ・・・ ・・・ ・・・ エンティティeから周辺語sc への関連の強さ クエリq エンティティe1,e2… eにおける周辺語scの仮想⽂書 再掲 クエリ-エンティティモデル
  • 12. Copyright (C) 2019 Yahoo Japan Corporation. All Rights Reserved. クエリ-エンティティモデル 12 ・・・ ガリレオ・ガリレイ 検索ガリレオ 天⽂学者 ガリレオ・ガリレイ ガリレオ・ガリレイ ガリレオ 実に⾯⽩い ガリレオ (ドラマ) クエリ-エンティティモデル: クエリ補完モデル と FEL を組み合わせたもの クエリ補完モデル FEL (Blanco2015)
  • 13. Copyright (C) 2019 Yahoo Japan Corporation. All Rights Reserved. クエリ-エンティティモデル 13 ・・・ ガリレオ・ガリレイ 検索ガリレオ 天⽂学者 ガリレオ・ガリレイ ガリレオ・ガリレイ ガリレオ 実に⾯⽩い ガリレオ (ドラマ) クエリ-エンティティモデル: クエリ補完モデル と FEL を組み合わせたもの クエリ補完モデル FEL (Blanco2015) 再掲
  • 14. Copyright (C) 2019 Yahoo Japan Corporation. All Rights Reserved. 𝑷 𝒔 𝒔 𝒔, 𝒔 𝒄 = 𝒏 𝒔, 𝒔 𝒔, 𝒔 𝒄, 𝒄 𝒒 + 𝜶 𝑰(𝒔=𝒔 𝒔) ∑ (𝒏 𝒔′, 𝒔 𝒔, 𝒔 𝒄, 𝒄 𝒒 + 𝜶 𝑰(𝒔@=𝒔 𝒔))𝒔@∈{𝒔 𝒔}∪𝑺(𝒔 𝒔,𝒔 𝒄) クエリ補完モデル 14 クリックログcqでの(正式名称s,主要語ss,周辺語sc)の共起頻度 遷移のしにくさを決めるパラメータα 検索ガリレオ 天⽂学者 ガリレオ・ガリレイ ・・・ α ⾼: “ガリレオ”から 遷移しにくい α 低: “ガリレオ”から 遷移しやすい 検索ガリレオ 天⽂学者 クエリ補完モデル: 主要語ssから正式名称sへの遷移確率を持つモデル
  • 15. Copyright (C) 2019 Yahoo Japan Corporation. All Rights Reserved. クエリ-エンティティモデル 15 ・・・ ガリレオ・ガリレイ 検索ガリレオ 天⽂学者 ガリレオ・ガリレイ ガリレオ・ガリレイ ガリレオ 実に⾯⽩い ガリレオ (ドラマ) クエリ-エンティティモデル: クエリ補完モデル と FEL を組み合わせたもの クエリ補完モデル FEL (Blanco2015) 再掲
  • 16. Copyright (C) 2019 Yahoo Japan Corporation. All Rights Reserved. FEL (Blanco 2015) 16 キーフレーズ度合い Commonness(CMNS) 情報元(Wikipedia or クリックログ)の重要度 FEL: 正式名称sがエンティティeを参照する確率を持つモデル
  • 17. Copyright (C) 2019 Yahoo Japan Corporation. All Rights Reserved. FEL (Blanco 2015) 17 キーフレーズ度合い Commonness(CMNS) 𝑷 𝒄 𝒔 = 𝒏(𝒔, 𝒄) |𝑪| + ∑ 𝒏(𝒔, 𝒄′)𝒄@ あるセグメントsが⽣起しやすい情報元はどちらか 情報元(Wikipedia or クリックログ)の重要度
  • 18. Copyright (C) 2019 Yahoo Japan Corporation. All Rights Reserved. FEL (Blanco 2015) 18 Commonness(CMNS) 𝑷 𝒂 𝒔 = 𝟏 𝒄, 𝒔 = ∑ 𝒏(𝒔, 𝒄)𝒔:𝒂 𝒔=𝟏 𝒏(𝒔, 𝒄) ・・・ [[ガリレオ・ガリレイ]] にちなんで命名 されているが、それは彼がこの温度計が基礎を あるセグメントsにどれだけリンクがあるか キーフレーズ度合い
  • 19. Copyright (C) 2019 Yahoo Japan Corporation. All Rights Reserved. FEL (Blanco 2015) 19 𝑷(𝒆|𝒂 𝒔 = 𝟏, 𝒄, 𝒔) = ∑ 𝒏(𝒔, 𝒄)𝒔:𝒂 𝒔,𝒆=𝟏 ∑ 𝒏(𝒔, 𝒄)𝒔:𝒂 𝒔=𝟏 あるセグメントsが どれだけエンティティeを参照しているか 検索ガリレオ・ガリレイ タイトルA - サイトA Entity_A XXXXは、 XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX エンティティe セグメントs Commonness(CMNS) クリックログの例
  • 20. Copyright (C) 2019 Yahoo Japan Corporation. All Rights Reserved. ⽬次 20 • はじめに -2つのRQ(リサーチクエスチョン)- • 提案⼿法 • 概要 • クエリ-エンティティモデル • クエリ補完モデル • FEL (Blanco 2015) • エンティティ-周辺語モデル • 実験結果 • クエリ分類 (RQ1の結果) • 評価⽤事例作成 • 再現率-適合率, F1値 (RQ2の結果) • まとめと今後の課題
  • 21. Copyright (C) 2019 Yahoo Japan Corporation. All Rights Reserved. 提案⼿法 –概要- 21 (𝐞, 𝒔 𝒔, 𝒔 𝒄)∗ = argmax .∈𝐄1,(𝒔 𝒔,𝒔 𝒄)∈21 𝐏 𝐞 𝐪 × 𝐏 𝒔 𝒄 𝐞 クエリqからエンティティe への関連の強さ クエリ-エンティティモデル と エンティティ-周辺語モデルを組み合わせ、確率最⼤の候補を選択 天⽂学者 名⾔ ・・・ガリレオ・ガリレイ 検索ガリレオ 天⽂学者 ガリレオ・ガリレイ バンド youtube ・・・ ・・・ ・・・ エンティティeから周辺語sc への関連の強さ クエリq エンティティe1,e2… eにおける周辺語scの仮想⽂書 再掲 エンティティ-周辺語モデル
  • 22. Copyright (C) 2019 Yahoo Japan Corporation. All Rights Reserved. エンティティ-周辺語モデル 22 周辺語のつきやすさを⽰す係数β 値の区間 [0.0, 1.0] LDAの推定したエンティティeにおける 周辺語scの⽣成確率 エンティティ-周辺語モデル: エンティティe における周辺語scの⽣起確率を持つモデル
  • 23. Copyright (C) 2019 Yahoo Japan Corporation. All Rights Reserved. エンティティ-周辺語モデル 23 周辺語のつきやすさを⽰す係数β 値の区間 [0.0, 1.0] 検索ガリレオ 天⽂学 検索ガリレオ 天才 タイトルA - サイトA Entity_A XXXXは、 XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX 1. クリックログから周辺語を取得エンティティ-周辺語モデル: エンティティe における周辺語scの⽣起確率を持つモデル
  • 24. Copyright (C) 2019 Yahoo Japan Corporation. All Rights Reserved. エンティティ-周辺語モデル 24 周辺語のつきやすさを⽰す係数β 値の区間 [0.0, 1.0] 2. 周辺語で構成される仮想⽂書を⽣成 天⽂学 天⽂学者 天才 温度計 名⾔ ピサ 天動説 地動説 … エンティティ-周辺語モデル: エンティティe における周辺語scの⽣起確率を持つモデル
  • 25. Copyright (C) 2019 Yahoo Japan Corporation. All Rights Reserved. エンティティ-周辺語モデル 25 周辺語のつきやすさを⽰す係数β 値の区間 [0.0, 1.0] 3. LDAを適⽤し、トピックの分布を推定 天⽂学 天⽂学者 温度計 望遠鏡 天動説 地動説 … エンティティ-周辺語モデル: エンティティe における周辺語scの⽣起確率を持つモデル
  • 26. Copyright (C) 2019 Yahoo Japan Corporation. All Rights Reserved. エンティティ-周辺語モデル 26 周辺語のつきやすさを⽰す係数β 値の区間 [0.0, 1.0] 4. トピックの分布の類似度で確率算出 topic 1 topic 122 topic 1 topic 122 “天⽂学者” 𝑃MNO 天⽂学者 = 0.30 エンティティ-周辺語モデル: エンティティe における周辺語scの⽣起確率を持つモデル
  • 27. Copyright (C) 2019 Yahoo Japan Corporation. All Rights Reserved. ⽬次 27 • はじめに -2つのRQ (リサーチクエスチョン)- • 提案⼿法 • 概要 • クエリ-エンティティモデル • クエリ補完モデル • FEL (Blanco 2015) • エンティティ-周辺語モデル • 実験結果 • クエリ分類 (RQ1の結果) • 評価⽤事例作成 • 再現率-適合率, F1値 (RQ2の結果) • まとめと今後の課題
  • 28. Copyright (C) 2019 Yahoo Japan Corporation. All Rights Reserved. 実験結果: クエリ分類 28 対象:2018年12⽉01⽇~12⽉14⽇にYahoo!検索に発⾏されたクエリ エンティティクエリの例: 1. 上記のうち9,542クエリ(10,000PVs)を抽出。 2. うち約23%の2,020(2,257 PVs)クエリをエンティティクエリと判定。
  • 29. Copyright (C) 2019 Yahoo Japan Corporation. All Rights Reserved. 実験結果: RQ1 29 RQ1: クエリ全体に占める エンティティクエリの割合はどの程度か? Answer: 約23%
  • 30. Copyright (C) 2019 Yahoo Japan Corporation. All Rights Reserved. 実験結果: 評価⽤事例作成 30 1. 先ほど抽出したクエリのうち1,915例に対して、参照しうるエンティティを付与し組を⽣成 2. この組に対して関連度に応じてスコア(1.0, 0.5, 0.0)を付与。 クエリ エンティティ スコア 備考 深田恭子 深田恭子 (女優) 1.0 フミヤ 藤井フミヤ (ミュージシャン) 1.0 ミッドランドスクエアシネマ 名古屋 ミッドランドスクエアシネマ (映画館) 1.0 ディスカウントドラッグコスモス コスモス薬品 (会社) 0.5 ブランドと運営会社の違い 有馬記念 2018 有馬記念 0.5 エンティティの範囲が広い 笠森 ユートピア 笠森寺 (寺院) 0 適切な回答は宿泊施設
  • 31. Copyright (C) 2019 Yahoo Japan Corporation. All Rights Reserved. 実験結果: 再現率-適合率 31 総合○ 再現率○ 総合○ 対象:前述の評価⽤事例を使⽤ 評価指標:各再現率点での重み付き適合率@1
  • 32. Copyright (C) 2019 Yahoo Japan Corporation. All Rights Reserved. 実験結果: F1値 32 F1値: 提案⼿法が FELを+0.123上回った 対象:前述の評価⽤事例を使⽤
  • 33. Copyright (C) 2019 Yahoo Japan Corporation. All Rights Reserved. 実験結果: RQ2 33 RQ2: 形態素解析の必要のないモデルを⽤いることで 従来⼿法よりどの程度性能が改善されるか? Answer: F1値で+0.123
  • 34. Copyright (C) 2019 Yahoo Japan Corporation. All Rights Reserved. まとめと今後の課題 34 • 周辺語を考慮したエンティティリンキング⼿法を提案 • RQ1: エンティティクエリの占める割合は? • 約23%がエンティティクエリ • RQ2: 形態素解析の必要のないモデルを⽤いることで従来⼿ 法よりどの程度性能が改善されるか? • 提案⼿法はF1値0.839(+0.123)を達成した • 今後の課題:モデル毎の最適化ではなく全体で最適化する
  • 35. Copyright (C) 2019 Yahoo Japan Corporation. All Rights Reserved. 画像提供元およびライセンス 35 • 画像提供元: アフロ • 画像の種類 • ガリレオ・ガリレイ (天⽂学者) • License: • アフロ社とヤフー社のライセンス契約に基づく • 画像提供元: Twemoji( https://github.com/twitter/twemoji ) • 画像の種類 • Thinking Face • License: • Code licensed under the MIT License: http://opensource.org/licenses/MIT • Graphics licensed under CC-BY 4.0: https://creativecommons.org/licenses/by/4.0/
  • 36. Copyright (C) 2019 Yahoo Japan Corporation. All Rights Reserved. 画像提供元およびライセンス 36 • 画像提供元: いらすとや( https://www.irasutoya.com/ ) • 画像の種類 • ⾼いハードルのイラスト(男性) • 低いハードルのイラスト(男性) • バンドミュージシャンのイラスト • ⼈差し指を⽴てた⼿のイラスト(掌・甲) • 紙テープを読む科学者のイラスト • License • “商⽤⽬的の場合、⼀つの作成物の中に20点までは無料でご利 ⽤いただけます。” • https://www.irasutoya.com/p/faq.html • https://www.irasutoya.com/p/terms.html