More Related Content
Similar to Tokyor26 data fusion
Similar to Tokyor26 data fusion (20)
Tokyor26 data fusion
- 1. R言語で学ぶ
Data Fusion入門
@yokkuns: 里 洋平
yohei0511@gmail.com
2012.09.08 TokyoR26
2012年9月9日日曜日
- 2. AGENDA
■ 自己紹介
■ Data Fusionとは
■ よく使われるデータ融合手法
◆ Matching
◆ 潜在変数モデリング
◆ 回帰モデル
■ Data Fusionの仕組み
■ セミパラメトリックモデルによる融合
◆ ディリクレ過程混合モデル
■ 参考資料
2012年9月9日日曜日
- 3. AGENDA
■ 自己紹介
■ Data Fusionとは
■ よく使われるデータ融合手法
◆ Matching
◆ 潜在変数モデリング
◆ 回帰モデル
■ Data Fusionの仕組み
■ セミパラメトリックモデルによる融合
◆ ディリクレ過程混合モデル
■ 参考資料
2012年9月9日日曜日
- 4. 自己紹介
◆ 名前: 里 洋平
◆ ID : yokkuns
◆ 職業:
データサイエンティスト
◆ 時系列解析や異常検知など
各種方法論を実ビジネスに適用
2012年9月9日日曜日
- 8. 活動例: 異常検知
Anomaly detection
複数時系列から異常な振る舞いを検知する
C
A
時系列のモデリング 複数時系列の異常検知 B
時系列A 時系列A
異常な振る舞い
時系列B
時系列C 時系列B 時系列C
異常な振る舞いの時系列を検出
例1:トラフィック異常検知 例2:CM効果のノイズ除去
トラフィックA ケースA
CM効果
トラフィックB ケースB
トラフィックC 調査 ケースC
異常な振る舞いをしている 異常な振る舞いをしているケースを
トラフィックの原因を調査する 除外して、CMの効果を算出する
85
2012年9月9日日曜日
- 9. 活動例: 時系列解析と影響分析
TV Commercial Effects
時系列的な振る舞いの特徴から各KPIへのCMの影響度を算出
イベン
CM時系列 ト
新規
登録
CM ARPP
U
ARPU
各KPIの時系列
その他
外部
継続率
要因
ケース
87
2012年9月9日日曜日
- 10. AGENDA
■ 自己紹介
■ Data Fusionとは
■ よく使われるデータ融合手法
◆ Matching
◆ 潜在変数モデリング
◆ 回帰モデル
■ Data Fusionの仕組み
■ セミパラメトリックモデルによる融合
◆ ディリクレ過程混合モデル
■ 参考資料
2012年9月9日日曜日
- 13. Data Fusionとは
異なる複数のデータを
単一のデータに統合することで
個別のデータからは得られない
複合的な情報を抽出し
87
2012年9月9日日曜日
- 14. Data Fusionとは
異なる複数のデータを
単一のデータに統合することで
個別のデータからは得られない
複合的な情報を抽出し
予測や意思決定を支援する方法論
87
2012年9月9日日曜日
- 15. Data Fusionとは
異なる複数のデータを単一のデータに統合し
個別のデータからは得られない、複合的な情報を抽出する
データA データB
データAとデータBの相関関係
データBで特定の値だったユーザのデータAの値の予測・補完
87
2012年9月9日日曜日
- 16. Data Fusionの活用シーン
広告接触のデータと購買履歴のデータ
異なる対象者によるデータである事が多い
購買履歴データ 広告接触データ
2012年9月9日日曜日
- 17. Data Fusionの活用シーン
広告接触データでの購買有無
購買データでの広告接触の有無
これらを予測・補完できれば、重要な示唆が得られる
購買履歴データ 広告接触データ
ある広告を見たユーザーのうち、ある商品はどれだけ購入されたか
どのような広告媒体にどのような情報を載せれば、より購入されるか
・・・
87
2012年9月9日日曜日
- 18. AGENDA
■ 自己紹介
■ Data Fusionとは
■ よく使われるデータ融合手法
◆ Matching
◆ 潜在変数モデリング
◆ 回帰モデル
■ Data Fusionの仕組み
■ セミパラメトリックモデルによる融合
◆ ディリクレ過程混合モデル
■ 参考資料
2012年9月9日日曜日
- 19. 類似度からのアプローチ
広告媒体への接触やある特性を有する商品の購入は
ユーザーの属性に偏りが存在する
広告A 商品A 広告B 商品B
属性が似ている
属性は似てない
2012年9月9日日曜日
- 20. 類似度からのアプローチ
属性が似ているユーザーは
接触する広告媒体や購入する商品が似ている
広告A 商品A 広告B 商品B
属性が似ている
属性は似てない
87
2012年9月9日日曜日
- 21. Matching法
購買履歴データと広告接触データで
属性が似ている人でペアを作り、同一ユーザーと見なす
購買履歴データ 広告接触データ
商品A 広告A
買った 見た
商品A 広告A
買った 見た
2012年9月9日日曜日
- 22. Rでの実行方法
MatchingパッケージのMatch関数でペアを抽出し
擬似的なシングルソースデータを作成する
割当変数 共変量 データAのindex
データBのindex
87
2012年9月9日日曜日
- 24. Matchingの問題点
測定誤差などによりバイアスが生じてしまい
推定精度があまり高くない
87
2012年9月9日日曜日
- 25. Matchingの問題点
測定誤差などによりバイアスが生じてしまい
推定精度があまり高くない
マッチングに利用しない対象者のデータが
無駄になるため、非常に非効率
87
2012年9月9日日曜日
- 26. AGENDA
■ 自己紹介
■ Data Fusionとは
■ よく使われるデータ融合手法
◆ Matching
◆ 潜在変数モデリング
◆ 回帰モデル
■ Data Fusionの仕組み
■ セミパラメトリックモデルによる融合
◆ ディリクレ過程混合モデル
■ 参考資料
2012年9月9日日曜日
- 27. 因子分析モデル
購買有無・広告接触有無・属性
3つの変数の背後に共通の因子を仮定して予測を行う
共通因子 共通因子
購買有無 共変量 広告有無 購買有無 共変量 広告有無
共通因子
購買有無 共変量 広告有無
87
2012年9月9日日曜日
- 28. 潜在クラスモデル
消費者市場のセグメンテーションと同じ概念
各潜在クラス内では広告接触や購入する商品が似ている
商品Aが2/3 広告Aが2/3
商品Bが1/3 購買履歴データ 広告接触データ
広告Bが1/3
潜在クラスA 潜在クラスA
商品A 広告A
商品B 潜在クラスA 広告A
商品A 広告B
2012年9月9日日曜日
- 29. AGENDA
■ 自己紹介
■ Data Fusionとは
■ よく使われるデータ融合手法
◆ Matching
◆ 潜在変数モデリング
◆ 回帰モデル
■ Data Fusionの仕組み
■ セミパラメトリックモデルによる融合
◆ ディリクレ過程混合モデル
■ 参考資料
2012年9月9日日曜日
- 30. 回帰モデルによる融合
属性データを用いて直接購買の有無をモデリングする
2値変数の場合ロジスティック回帰が使われる
87
2012年9月9日日曜日
- 31. Rでの実行方法
一般化線形モデルの関数glmを使って
ロジスティック回帰分析を実行して予測する
87
2012年9月9日日曜日
- 32. Rでの実行例: 使うデータ
データセットlalondeを2分割してマルチソースデータを作成
NSW受講者の78年賃金有りの割合を予測する
87
2012年9月9日日曜日
- 35. Rによる実行結果
どちらも手法も値が希薄化が起きている
バラツキは回帰モデルの方が小さい
NSW受講者の78年賃金有りの比率の推定結果
87
2012年9月9日日曜日
- 36. AGENDA
■ 自己紹介
■ Data Fusionとは
■ よく使われるデータ融合手法
◆ Matching
◆ 潜在変数モデリング
◆ 回帰モデル
■ Data Fusionの仕組み
■ セミパラメトリックモデルによる融合
◆ ディリクレ過程混合モデル
■ 参考資料
2012年9月9日日曜日
- 37. 欠測データとしてのData Fusion
購買履歴データと広告接触データは
他方のデータが欠測しているシングルソースデータ
欠測データとしてのData Fusion
購買履歴データ 市場調査データ
購買履歴 購買履歴データ 欠測
広告接触 欠測 広告接触データ
共変量 共通で得られている属性データ
2012年9月9日日曜日
- 39. Data Fusionの前提条件① : ランダムな欠測
商品の購入と広告接触データ割当は依存していない
欠測はランダムに発生すると仮定出来る
購買と広告接触データへの割当は
依存していないので除外出来る
87
2012年9月9日日曜日
- 40. Data Fusionの前提条件① : ランダムな欠測
商品の購入と広告接触データ割当は依存していない
欠測はランダムに発生すると仮定出来る
購買と広告接触データへの割当は
依存していないので除外出来る
87
2012年9月9日日曜日
- 41. Data Fusionの前提条件① : ランダムな欠測
商品の購入と広告接触データ割当は依存していない
欠測はランダムに発生すると仮定出来る
購買と広告接触データへの割当は
依存していないので除外出来る
87
2012年9月9日日曜日
- 42. Data Fusionの前提条件① : ランダムな欠測
商品の購入と広告接触データ割当は依存していない
欠測はランダムに発生すると仮定出来る
購買と広告接触データへの割当は
依存していないので除外出来る
87
2012年9月9日日曜日
- 43. 欠測しているデータの予測分布
ある属性を条件付けた時の
購買有無と広告接触の同時分布が分かれば
ある広告に接触した人がどれくらい購買しているかが分かる
87
2012年9月9日日曜日
- 48. AGENDA
■ 自己紹介
■ Data Fusionとは
■ よく使われるデータ融合手法
◆ Matching
◆ 潜在変数モデリング
◆ 回帰モデル
■ Data Fusionの仕組み
■ セミパラメトリックモデルによる融合
◆ ディリクレ過程混合モデル
■ 参考資料
2012年9月9日日曜日
- 49. 混合モデルで説明力を上げる
通常の回帰モデルでは説明力が低い
混合モデルを利用することで説明力を上げる
混合回帰モデルのイメージ
図: http://chasen.org/~daiti-m/paper/ibis2008-npbayes-tutorial.pdf 87
2012年9月9日日曜日
- 50. ディリクレ過程混合モデル
混合モデルにおいて要素数を事前に決めるのは難しい
ディリクレ過程混合モデルは、要素数をデータから決定する
混合回帰モデルとディリクレ過程混合モデル
図: http://chasen.org/~daiti-m/paper/ibis2008-npbayes-tutorial.pdf 87
2012年9月9日日曜日
- 51. AGENDA
■ 自己紹介
■ Data Fusionとは
■ よく使われるデータ融合手法
◆ Matching
◆ 潜在変数モデリング
◆ 回帰モデル
■ Data Fusionの仕組み
■ セミパラメトリックモデルによる融合
◆ ディリクレ過程混合モデル
■ 参考資料
2012年9月9日日曜日
- 52. 参考資料
■調査観察データの統計科学
http://www.amazon.co.jp/dp/4000069721
■data fusion についてのメモ - BOD
http://d.hatena.ne.jp/dichika/20110907/1315359207
■A Direct Approach to Data Fusion
http://www.chicagobooth.edu/research/workshops/marketing/archive/
WorkshopPapers/Rossi.pdf
■IBIS 2008 企画セッション 「ノンパラメトリックベイズ」
http://chasen.org/ daiti-m/paper/ibis2008-npbayes-tutorial.pdf
2012年9月9日日曜日
- 53. AGENDA
■ 自己紹介
■ Data Fusionとは
■ よく使われるデータ融合手法
◆ Matching
◆ 潜在変数モデリング
◆ 回帰モデル
■ Data Fusionの仕組み
■ セミパラメトリックモデルによる融合
◆ ディリクレ過程混合モデル
■ 参考資料
2012年9月9日日曜日
- 54. 次回以降の
発表者を募集しています!
導入セッション・初心者セッションも
絶賛募集中です!
87
2012年9月9日日曜日