SlideShare a Scribd company logo
1 of 12
Download to read offline
WSDM2016勉強会
Geographic segmentation via latent poisson factor model
リクルートテクノロジーズ 坪坂 正志
2016/3/17
背景
• GPS機能を備えた携帯端末の普及により位置情報の数が増えてい
る
• データはプライバシーの観点から個人レベルではなく、地域レベル
での集計になることも多い
• 地域AではアプリXが10回, アプリYが30回開かれた, 地域BではアプリXが8回,
アプリYが10回開かれたなどの情報
• 本論文ではGeographic segmentationという観測を異なる地理的な領
域にわけ、その観測の潜在構造を同定するタスクを扱う
課題
• セグメントでの観測と地理的な近さの関係が薄い
• Yelpアプリが開かられるのはレストランの近くで地理的な位置は関係ない
• 観測数が地域によって異なる
• サンフランシスコ市内とサニーベールではアプリが開かれる個数は異なる
• 観測数は異なるユーザのものが混じっている
• 集計値を利用しているため、異なるユーザのログがまじっているためデータ
にノイズが入る
これらの問題を解決するため
Labeled Poisson model (LPM)を提案
利用するデータについて
• App Usage Data
• Yahoo AvitateというAndroid用のランチャーソフトのアプリのログ
• Yahoo News Data
• Yahoo Homepageのニュースのクリックログ
データの定式化
• 観測データ {𝑋𝑖𝑗} , アイテムiが地域jで何回開かれたか
• ラベルデータ : 𝑌𝑧, 𝑌𝑠 , 各アイテムi, 地域jについているカテゴリ
• 例えばアプリログであれば
• アイテムのカテゴリはNews, Restaurantsなど
• 地域のカテゴリはNightlife spot, Restaurantなど
Labeled poisson factor model
• アイテムごとに事前トピック確率の計算を行う
• 𝛼𝑖 = 𝑆𝐻𝑅𝐼𝑁𝐾 𝛼, 𝑌𝑧𝑖
• 𝜃𝑖~𝐷𝑖𝑟(𝛼𝑖)
• 位置ごとに事前トピック確率の計算を行う
• 𝛽𝑗 = 𝑆𝐻𝑅𝐼𝑁𝐾 𝛽, 𝑌𝑠𝑗
• 𝜋𝑗~𝐷𝑖𝑟(𝛽𝑗)
• 各観測ごとに
• 𝑍𝑖𝑗~𝑀𝑢𝑙𝑡𝑖 𝜃𝑖 , 𝑆𝑖𝑗~𝑀𝑢𝑙𝑡𝑖(𝛽𝑗)
• 𝑋𝑖𝑗~𝑃𝑜𝑖𝑠𝑠𝑜𝑛 Λ 𝑍 𝑖𝑗,𝑆 𝑖𝑗
ここでSHRINKはラベルがついてるものだけを1,そ
うでないものを0にする処理
Labeled LDA(Ramge+, ACL 2009)と同じ処理
Λ 𝑖𝑗~𝐺𝑎𝑚𝑚𝑎(𝑎, 𝑏)
この部分については既存ではベクトルの内積で表現
することが多いが本論文では個別に計算する
実験設定
• ラベルづけについて
• アプリ
• アイテム : “Productivity”, “News”など24のラベルが存在
• ロケーション : FourSquareで引っ張ってくる, “Restaurant”, “College or University”など10
のラベルが存在
• ニュース
• アイテム : 記事のカテゴリを利用、21のラベルが存在
• ロケーション : 郵便番号情報から収入、年齢、世帯数、人口をそれぞれ10段階に離散
かしたものを利用、40のラベルが存在
RMSEによる評価(アプリログ)
• アプリを利用頻度の高い100個に限定、地域もサンフランシスコBay
areaを100に分割
• 100*100の行列のうち20%を除外して、訓練したモデルで欠損値を予
測する
セグメントの例
• 茶色がschool, 黄色がshopping area, オレンジがhotelを示している
学習されたパラメータ(Λ 𝑖𝑗)
ニュース記事の場合
まとめ
• 地域ごとに集計されたデータをカテゴライズするためのLPFというモ
デルを提案した
• モデルは従来の座標情報ではなく、その地域に何があるかにもとづ
ており、ニュース記事やモバイルアプリの分析にとってはより有用な
情報を得ることができた

More Related Content

Viewers also liked

WSDM勉強会発表資料(2016/3/19)
WSDM勉強会発表資料(2016/3/19)WSDM勉強会発表資料(2016/3/19)
WSDM勉強会発表資料(2016/3/19)Kosetsu Tsukuda
 
Big Data Bootstrap (ICML読み会)
Big Data Bootstrap (ICML読み会)Big Data Bootstrap (ICML読み会)
Big Data Bootstrap (ICML読み会)正志 坪坂
 
Introduction to contexual bandit
Introduction to contexual banditIntroduction to contexual bandit
Introduction to contexual bandit正志 坪坂
 
Riak Search 2.0を使ったデータ集計
Riak Search 2.0を使ったデータ集計Riak Search 2.0を使ったデータ集計
Riak Search 2.0を使ったデータ集計正志 坪坂
 
Contexual bandit @TokyoWebMining
Contexual bandit @TokyoWebMiningContexual bandit @TokyoWebMining
Contexual bandit @TokyoWebMining正志 坪坂
 
確率モデルを使ったグラフクラスタリング
確率モデルを使ったグラフクラスタリング確率モデルを使ったグラフクラスタリング
確率モデルを使ったグラフクラスタリング正志 坪坂
 
OnlineMatching勉強会第一回
OnlineMatching勉強会第一回OnlineMatching勉強会第一回
OnlineMatching勉強会第一回正志 坪坂
 
A Unified Model for Word Sense Representation and Disambiguation
A Unified Model for Word Sense Representation and DisambiguationA Unified Model for Word Sense Representation and Disambiguation
A Unified Model for Word Sense Representation and Disambiguationsakaizawa
 
static index pruningについて
static index pruningについてstatic index pruningについて
static index pruningについて正志 坪坂
 
1994年頃の電子書籍(LT『本を読む人々 Vol.3』)
1994年頃の電子書籍(LT『本を読む人々 Vol.3』)1994年頃の電子書籍(LT『本を読む人々 Vol.3』)
1994年頃の電子書籍(LT『本を読む人々 Vol.3』)Hiroko Ohki Takagi
 
Exreme coffee brewing 2013 summer
Exreme coffee brewing 2013 summerExreme coffee brewing 2013 summer
Exreme coffee brewing 2013 summerHiroko Ohki Takagi
 
Creator's night 05 31 2013
Creator's night 05 31 2013Creator's night 05 31 2013
Creator's night 05 31 2013Len Matsuyama
 

Viewers also liked (20)

WSDM2016勉強会 資料
WSDM2016勉強会 資料WSDM2016勉強会 資料
WSDM2016勉強会 資料
 
WSDM勉強会発表資料(2016/3/19)
WSDM勉強会発表資料(2016/3/19)WSDM勉強会発表資料(2016/3/19)
WSDM勉強会発表資料(2016/3/19)
 
Tokyowebmining2012
Tokyowebmining2012Tokyowebmining2012
Tokyowebmining2012
 
Recsys2014 recruit
Recsys2014 recruitRecsys2014 recruit
Recsys2014 recruit
 
Big Data Bootstrap (ICML読み会)
Big Data Bootstrap (ICML読み会)Big Data Bootstrap (ICML読み会)
Big Data Bootstrap (ICML読み会)
 
Recsys2015
Recsys2015Recsys2015
Recsys2015
 
Introduction to contexual bandit
Introduction to contexual banditIntroduction to contexual bandit
Introduction to contexual bandit
 
KDD 2015読み会
KDD 2015読み会KDD 2015読み会
KDD 2015読み会
 
Riak Search 2.0を使ったデータ集計
Riak Search 2.0を使ったデータ集計Riak Search 2.0を使ったデータ集計
Riak Search 2.0を使ったデータ集計
 
KDD2014_study
KDD2014_study KDD2014_study
KDD2014_study
 
EMNLP2014_reading
EMNLP2014_readingEMNLP2014_reading
EMNLP2014_reading
 
Contexual bandit @TokyoWebMining
Contexual bandit @TokyoWebMiningContexual bandit @TokyoWebMining
Contexual bandit @TokyoWebMining
 
NIPS 2012 読む会
NIPS 2012 読む会NIPS 2012 読む会
NIPS 2012 読む会
 
確率モデルを使ったグラフクラスタリング
確率モデルを使ったグラフクラスタリング確率モデルを使ったグラフクラスタリング
確率モデルを使ったグラフクラスタリング
 
OnlineMatching勉強会第一回
OnlineMatching勉強会第一回OnlineMatching勉強会第一回
OnlineMatching勉強会第一回
 
A Unified Model for Word Sense Representation and Disambiguation
A Unified Model for Word Sense Representation and DisambiguationA Unified Model for Word Sense Representation and Disambiguation
A Unified Model for Word Sense Representation and Disambiguation
 
static index pruningについて
static index pruningについてstatic index pruningについて
static index pruningについて
 
1994年頃の電子書籍(LT『本を読む人々 Vol.3』)
1994年頃の電子書籍(LT『本を読む人々 Vol.3』)1994年頃の電子書籍(LT『本を読む人々 Vol.3』)
1994年頃の電子書籍(LT『本を読む人々 Vol.3』)
 
Exreme coffee brewing 2013 summer
Exreme coffee brewing 2013 summerExreme coffee brewing 2013 summer
Exreme coffee brewing 2013 summer
 
Creator's night 05 31 2013
Creator's night 05 31 2013Creator's night 05 31 2013
Creator's night 05 31 2013
 

More from 正志 坪坂

WSDM 2012 勉強会資料
WSDM 2012 勉強会資料WSDM 2012 勉強会資料
WSDM 2012 勉強会資料正志 坪坂
 
Complex network-reading 7
Complex network-reading 7Complex network-reading 7
Complex network-reading 7正志 坪坂
 
転置インデックスとTop k-query
転置インデックスとTop k-query転置インデックスとTop k-query
転置インデックスとTop k-query正志 坪坂
 
A scalable probablistic classifier for language modeling: ACL 2011 読み会
A scalable probablistic classifier for language modeling: ACL 2011 読み会A scalable probablistic classifier for language modeling: ACL 2011 読み会
A scalable probablistic classifier for language modeling: ACL 2011 読み会正志 坪坂
 
Cvpr2011 reading-tsubosaka
Cvpr2011 reading-tsubosakaCvpr2011 reading-tsubosaka
Cvpr2011 reading-tsubosaka正志 坪坂
 
Icml2011 reading-sage
Icml2011 reading-sageIcml2011 reading-sage
Icml2011 reading-sage正志 坪坂
 
TokyowebminingInferNet
TokyowebminingInferNetTokyowebminingInferNet
TokyowebminingInferNet正志 坪坂
 
Infer.NETを使ってLDAを実装してみた
Infer.NETを使ってLDAを実装してみたInfer.NETを使ってLDAを実装してみた
Infer.NETを使ってLDAを実装してみた正志 坪坂
 

More from 正志 坪坂 (11)

Recsys2018 unbiased
Recsys2018 unbiasedRecsys2018 unbiased
Recsys2018 unbiased
 
WSDM2018Study
WSDM2018StudyWSDM2018Study
WSDM2018Study
 
WSDM 2012 勉強会資料
WSDM 2012 勉強会資料WSDM 2012 勉強会資料
WSDM 2012 勉強会資料
 
Complex network-reading 7
Complex network-reading 7Complex network-reading 7
Complex network-reading 7
 
転置インデックスとTop k-query
転置インデックスとTop k-query転置インデックスとTop k-query
転置インデックスとTop k-query
 
EMNLP 2011 reading
EMNLP 2011 readingEMNLP 2011 reading
EMNLP 2011 reading
 
A scalable probablistic classifier for language modeling: ACL 2011 読み会
A scalable probablistic classifier for language modeling: ACL 2011 読み会A scalable probablistic classifier for language modeling: ACL 2011 読み会
A scalable probablistic classifier for language modeling: ACL 2011 読み会
 
Cvpr2011 reading-tsubosaka
Cvpr2011 reading-tsubosakaCvpr2011 reading-tsubosaka
Cvpr2011 reading-tsubosaka
 
Icml2011 reading-sage
Icml2011 reading-sageIcml2011 reading-sage
Icml2011 reading-sage
 
TokyowebminingInferNet
TokyowebminingInferNetTokyowebminingInferNet
TokyowebminingInferNet
 
Infer.NETを使ってLDAを実装してみた
Infer.NETを使ってLDAを実装してみたInfer.NETを使ってLDAを実装してみた
Infer.NETを使ってLDAを実装してみた
 

Recently uploaded

PHP-Conference-Odawara-2024-04-000000000
PHP-Conference-Odawara-2024-04-000000000PHP-Conference-Odawara-2024-04-000000000
PHP-Conference-Odawara-2024-04-000000000Shota Ito
 
新人研修のまとめ 2024/04/12の勉強会で発表されたものです。
新人研修のまとめ       2024/04/12の勉強会で発表されたものです。新人研修のまとめ       2024/04/12の勉強会で発表されたものです。
新人研修のまとめ 2024/04/12の勉強会で発表されたものです。iPride Co., Ltd.
 
Amazon SES を勉強してみる その12024/04/12の勉強会で発表されたものです。
Amazon SES を勉強してみる その12024/04/12の勉強会で発表されたものです。Amazon SES を勉強してみる その12024/04/12の勉強会で発表されたものです。
Amazon SES を勉強してみる その12024/04/12の勉強会で発表されたものです。iPride Co., Ltd.
 
IoT in the era of generative AI, Thanks IoT ALGYAN.pptx
IoT in the era of generative AI, Thanks IoT ALGYAN.pptxIoT in the era of generative AI, Thanks IoT ALGYAN.pptx
IoT in the era of generative AI, Thanks IoT ALGYAN.pptxAtomu Hidaka
 
プレイマットのパターン生成支援ツールの評価
プレイマットのパターン生成支援ツールの評価プレイマットのパターン生成支援ツールの評価
プレイマットのパターン生成支援ツールの評価sugiuralab
 
20240412_HCCJP での Windows Server 2025 Active Directory
20240412_HCCJP での Windows Server 2025 Active Directory20240412_HCCJP での Windows Server 2025 Active Directory
20240412_HCCJP での Windows Server 2025 Active Directoryosamut
 
プレイマットのパターン生成支援ツール
プレイマットのパターン生成支援ツールプレイマットのパターン生成支援ツール
プレイマットのパターン生成支援ツールsugiuralab
 

Recently uploaded (7)

PHP-Conference-Odawara-2024-04-000000000
PHP-Conference-Odawara-2024-04-000000000PHP-Conference-Odawara-2024-04-000000000
PHP-Conference-Odawara-2024-04-000000000
 
新人研修のまとめ 2024/04/12の勉強会で発表されたものです。
新人研修のまとめ       2024/04/12の勉強会で発表されたものです。新人研修のまとめ       2024/04/12の勉強会で発表されたものです。
新人研修のまとめ 2024/04/12の勉強会で発表されたものです。
 
Amazon SES を勉強してみる その12024/04/12の勉強会で発表されたものです。
Amazon SES を勉強してみる その12024/04/12の勉強会で発表されたものです。Amazon SES を勉強してみる その12024/04/12の勉強会で発表されたものです。
Amazon SES を勉強してみる その12024/04/12の勉強会で発表されたものです。
 
IoT in the era of generative AI, Thanks IoT ALGYAN.pptx
IoT in the era of generative AI, Thanks IoT ALGYAN.pptxIoT in the era of generative AI, Thanks IoT ALGYAN.pptx
IoT in the era of generative AI, Thanks IoT ALGYAN.pptx
 
プレイマットのパターン生成支援ツールの評価
プレイマットのパターン生成支援ツールの評価プレイマットのパターン生成支援ツールの評価
プレイマットのパターン生成支援ツールの評価
 
20240412_HCCJP での Windows Server 2025 Active Directory
20240412_HCCJP での Windows Server 2025 Active Directory20240412_HCCJP での Windows Server 2025 Active Directory
20240412_HCCJP での Windows Server 2025 Active Directory
 
プレイマットのパターン生成支援ツール
プレイマットのパターン生成支援ツールプレイマットのパターン生成支援ツール
プレイマットのパターン生成支援ツール
 

WSDM 2016勉強会 Geographic Segmentation via latent factor model