WWW2018 論文読み会 Web Search and Mining

Web Search and Mining
株式会社サイバーエージェント
秋葉原ラボ
角田孝昭
1
WWW2018 論文読み会

イントロダクション
自己紹介: 角田孝昭
● 業務:
– アメブロ等を対象としたスパムからの
防御、既侵蝕スパムの索敵・殲滅
– テキスト ↔ ハッシュタグ関連度算出
– そのほか、自然言語処理・データ分析周り色々
● 経歴:
– 筑波大学大学院 CS 専攻、博士（工学）
評判分析・時系列予測周りの研究をしていました
– 現職 → 上記のような業務へ
● 鳥が好きです（※飼ってません）
2
噛まれている方が
登壇者

本発表の進行次第
1. イントロダクション
– どんなセッション？
– 分野概観
– 各論文の1行要約
2. ピックアップ概説
– Neural Attentional Rating Regression with
Review-level Explanations
– Detecting Crowdturfing “Add to Favorites” Activities in
Online Shopping
3

どんなセッション？
4
Web Search and Mining
● Search 分 (11件?)
– Search と言うものの割と多分野
– 真っ当な「自然言語文書の検索」がメインテーマの論文は
むしろ少数
● Mining 分 (13件?)
– なんでもあり！！
– なんでもありすぎるので詳細は次ページ以降参照

Search 分の分野概観
5
小分野論文リスト
検索一般
● Leveraging Fine-Grained Wikipedia Categories for Entity Search
● Subgraph-augmented Path Embedding for Semantic User Search on
Heterogeneous Social Network
● Ad Hoc Table Retrieval using Semantic Similarity
対話検索・
クエリ提案
● Query Suggestion with Feedback Memory Network
● Conversational Query Understanding Using Sequence to Sequence Modeling
Hashing ● Scalable Supervised Discrete Hashing for Large-Scale Search
プライバシー
● Privacy and Efficiency Tradeoffs for Multiword Top K Search with Linear Additive
Rank Scoring
データ整備
● StaQC: A Systematically Mined Question-Code Dataset from Stack Overflow
● Strategies for Geographical Scoping and Improving a Gazetteer
検索行動
分析
● “Satisfaction with Failure” or “Unsatisfied Success”: Investigating the Relationship
between Search Success and User Satisfaction
● Search Process as Transitions Between Neural States
※Search / Mining の分類や
小分野は発表者の主観による
分類です

Mining 分の分野概観
6
小分野論文リスト
機械学習・
アルゴリズム
● Parabel: Partitioned Label Trees for Extreme Classification with Application to
Dynamic Search Advertising
● Learning from Multi-View Multi-Way Data via Structural Factorization Machines
● Online Compact Convexified Factorization Machine
● Learning on Partial-Order Hypergraphs
● Manifold Learning for Rank Aggregation
レビュー
分析
● A Sparse Topic Model for Extracting Aspect-Specific Summaries from Online
Reviews
● Neural Attentional Rating Regression with Review-level Explanations
行動分析
● Detecting Crowdturfing “Add to Favorites” Activities in Online Shopping
● Understanding and Predicting Delay in Reciprocal Relations
その他
● Finding Subcube Heavy Hitters in Analytics Data Streams
● Joint User- and Event- Driven Stable Social Event Organization
● TEM: Tree-enhanced Embedding Model for Explainable Recommendation
● Hierarchical Variational Memory Network for Dialogue Generation
※Search / Mining の分類や
小分野は発表者の主観による
分類です

ざっくり概要 – Search 分 (1/2)
● Leveraging Fine-Grained Wikipedia Categories for Entity Search
○ クエリのメイン語 headword とそれ以外 modifier に注目した category matching で精度 ↑
● Subgraph-augmented Path Embedding for Semantic User Search on Heterogeneous Social
Network
○ 色々なタイプの関係 (e.g. schoolmates 等) があるネットワーク (heterogeneous social
network) における「特定ユーザ」と「関係」を入力としたユーザ検索を実現
● Ad Hoc Table Retrieval using Semantic Similarity
○ クエリから表を検索。クエリと表を同じ embedding space に置いてマッチする
● Query Suggestion with Feedback Memory Network
○ 検索結果ページでのクリック履歴から、次にクエリされそうなフレーズを予測 w/ seq2seq (を
改変したモデル)
● Conversational Query Understanding Using Sequence to Sequence Modeling
○ 文脈を考慮できる stateful な対話検索が目的。context も利用した seq2seq で発話生成
● Scalable Supervised Discrete Hashing for Large-Scale Search
○ 教師あり hashing。大規模データ対応・計算過程で discrete constraints に違反しないと言う
好特性
7

ざっくり概要 – Search 分 (2/2)
● StaQC: A Systematically Mined Question-Code Dataset from Stack Overflow
○ accepted answer の複数のコード片から「それ単体で解決できるコード」を systematic に判
定
● Strategies for Geographical Scoping and Improving a Gazetteer
○ 複数の地理情報 DB (gazetteer) を統合。各 DB が異なるデータタイプ（点、範囲）だったり不
正確なデータでも、うまく統合できる確率的なモデルを提案
● Privacy and Efficiency Tradeoffs for Multiword Top K Search with Linear Additive Rank
Scoring
○ searchable encryption。従来研究でまだだった ranking (i.e. top-k search) を実現
● “Satisfaction with Failure” or “Unsatisfied Success”: Investigating the Relationship between
Search Success and User Satisfaction
○ 「ユーザが検索に満足してても、実際には誤った情報で満足している」など、ユーザ満足度と
検索の成功の間にあるギャップについて詳しく調査
● Search Process as Transitions Between Neural States
○ 検索行動が4つの過程からなるとし、各過程で脳活動がどのように異なるか・共通しているか
を fMRI で調査
8

ざっくり概要 – Mining 分 (1/2)
● Parabel: Partitioned Label Trees for Extreme Classification with Application to Dynamic
Search Advertising
○ ラベル数が非常に多い分類問題（extreme classification）を同精度で 600-900 倍早く学習で
きる手法を提案。似たようなラベルをまとめて (label trees) 1-vs-All 爆発しないように工夫
● Learning from Multi-View Multi-Way Data via Structural Factorization Machines
○ 色々な種類の素性をそのまま使うとベクトル大き過ぎとか問題 → 潜在空間にうまく落とす手
法を提案
● Online Compact Convexified Factorization Machine
○ FM を頑張ってオンライン凸最適化問題にしてオンライン化。分類・回帰とも精度向上
● Learning on Partial-Order Hypergraphs
○ グラフベース学習手法を POH (hypergraph を拡張したデータ構造) に適用できるように
● A Sparse Topic Model for Extracting Aspect-Specific Summaries from Online Reviews
○ レビュー文書群から商品の評価視点がうまく取り出せるような topic model を提案
● ☆ Neural Attentional Rating Regression with Review-level Explanations
○ レビュー点数を、レビュー有用度を考慮して推定。レビュー点数推定精度の向上に加え、有用
度予測では「有用とした人数」よりも高い精度を実現
9

ざっくり概要 – Mining 分 (2/2)
● ☆ Detecting Crowdturfing “Add to Favorites” Activities in Online Shopping
○ 「お気に入りに追加」しまくって順位を上げるタイプのスパムを分析・検出
● Understanding and Predicting Delay in Reciprocal Relations
○ Tumblr で「フォロー返し」するまでの時間を分析 + 分析に基づいた予測手法を提案
● Finding Subcube Heavy Hitters in Analytics Data Streams
○ 高次元・ストリーミングデータに対応可能な heavy hitters 抽出手法を提案
● Manifold Learning for Rank Aggregation
○ 従来の rank aggregation では文書間の独立性が前提であったが、manifold で非独立性を考
慮
● Joint User- and Event- Driven Stable Social Event Organization
○ ユーザ–イベント選好とユーザ間選好を考慮したヒューリスティックにより効率的に Social
Event Organization 問題を解く
● TEM: Tree-enhanced Embedding Model for Explainable Recommendation
○ 理由が説明可能な推薦。GBDT で素性 (cross feature) 抽出 → embed
● Hierarchical Variational Memory Network for Dialogue Generation
○ 階層構造と variational memory network を seq2seq モデルに導入。長文での返答が可能
に
10

2. ピックアップ概説 (1)
Neural Attentional Rating Regression with Review-level
Explanations
11

Neural Attentional Rating Regression with Review-level Explanations
目的: 高精度なレーティング予測
● もしユーザ u が商品 i を買ったら何点を付ける？
– 予測できればリコメンドに活用できる
● 商品 i の特徴はレビュー文書で補間できるが
有用ではないレビューも存在する
●
– 各レビューの有用度（usefulness）を考慮して活用
– 各レビュー（とユーザ）の有用度は学習データに不要
（レーティング予測モデルの学習時、同時に学習される）
– レーティング予測に加え、有用度推定も高い精度
12
アイディア・貢献

従来モデル: Latent Factor Model
13
以下の式でレーティング予測
バイアス項
（本質ではない）
ユーザ u とアイテム i の
ベクトル
（似ているほど高い値に）
提案モデルでは…
アイテムやユーザの情報を
レビュー文書から有用性を
考慮して補間する

提案モデル: NARRE
14
レビューテキストを
CNN で素性ベクトル化
レビューベクトル &
書き手埋め込みベクトルから
attention (≒ 有用度) を計算
attention を重みとして
素性ベクトルの和を計算
有用なレビュー（・書き手）を
選択して特徴ベクトルを補間できる！
※Item Modeling の場合

性能評価: レーティング予測
1. レビュー情報の利用により性能向上
2. Deep Learning の活用により概ね性能向上
3. 【提案手法】各レビューの有用度を活用することでさ
らに性能向上！
表3: レーティング予測精度: RMSE による評価（低いほど良い）
(1)
(2)
(3)
15

性能評価: 有用度予測
16
表5: 有用度予測性能（いずれも高いほど良い）
ベースラインはそれぞれ時刻順・ランダム・レビュー長さ降順
提案手法の有用度予測で
出したレビューの方が有用
有用とした人数降順
（※正解データ）の方が有用
同じ
ぐらい
図10: 人手評価の結果
各種ベースライン・
有用とした人数降順
よりも高精度！
（学習時に「有用とした人数」
等のデータは使っていないの
がすごい）

2. ピックアップ概説 (2)
Detecting Crowdturfing “Add to Favorites” Activities in
Online Shopping
17

Detecting Crowdturfing “Add to Favorites” Activities in Online Shopping
目的: 「リストに追加」スパムの検出
● 欲しいものリストに追加（A2F = Add to Favorites）により
ランキング上昇を狙うスパムが存在
– クラウドソーシングでスパマーを集めている
– 正解データがない、煙に巻く行動までしている
●
– クラウドソーシングの依頼を逆手に取って利用、
A2F スパマー（正解データ）を特定する手法を提案
– A2F スパマー・対象商品の特性を様々な観点から分析
– 因子グラフでモデル化して推定、推定性能向上
18
アイディア・貢献

19
図1(下): A2F クラウドソーシングタスクの例
クエリの
指定
煙に巻く
行動指示
スクリーンショットが必要

データセットの用意 (§3)
20
クラウドソーシングサービス
296
spam queries
113
users
● A2F タスクを人手で抽出
● タスク参加者をスパマーとして抽出
（スクリーンショットから ID は特定可能）
81,778
users
1,544,996
items
4,272,221
user behavior logs
1. スパマーが関わった全 item を抽出
2. 当該 item に関わった全 user を抽出
3. 当該全 user が関わった
全 user behavior logs, 全 item を抽出
(+) A2F タスクが
指定するクエリで
検索しているログは
スパム確定と考える
(-) A2F 数が
≧500のアイテムは
非スパム確定と考える
(?) 残りは不明とする
半教師有り学習の
過程でラベル付け

データ分析: ユーザ行動分析
21
● スパムは対象アイテムの前に
別アイテムを見やすい
（タスクで指示されている）
● スパムは週末に多い
クエリが特定の長さに集中
（指示されたクエリで検索）
検索ページが遠い
（スパム商品は見つけにくい）
閲覧時間が長め
（タスクで指示されている）

データ分析: ユーザ・アイテム分析
22
いずれの行動もスパマーの
方が少ない
A2F から購入に至った割合で
見ても明らか
表4: ユーザ軸で見た場合
表5: アイテム軸で見た場合
スパム対象アイテムの方が
少ない（魅力に欠けるため）
A2F からの割合で見ても同様

A2F スパム検出提案手法
23
● 因子グラフ（factor graph）でモデル化
● 既知・未知ラベルの双方が混在（partially labeled）していても学習可能
詳細は時間の都合で省略！

A2F スパム検出の性能評価
24
● AFGM が提案モデル
● AFGM - UP, Cu, Cp は一部因子を削除した比較用

WWW2018 論文読み会 Web Search and Mining

Recommended

Recommended

More Related Content

Similar to WWW2018 論文読み会 Web Search and Mining

Similar to WWW2018 論文読み会 Web Search and Mining (20)

More from cyberagent

More from cyberagent (20)

WWW2018 論文読み会 Web Search and Mining