SlideShare a Scribd company logo
1 of 54
Download to read offline
R言語で学ぶ
               Data Fusion入門

                  @yokkuns: 里 洋平
                yohei0511@gmail.com
                2012.09.08 TokyoR26


2012年9月9日日曜日
AGENDA
    ■ 自己紹介
    ■ Data Fusionとは
    ■ よく使われるデータ融合手法
      ◆ Matching
          ◆ 潜在変数モデリング
          ◆ 回帰モデル
    ■ Data Fusionの仕組み
    ■ セミパラメトリックモデルによる融合
          ◆ ディリクレ過程混合モデル
    ■ 参考資料
2012年9月9日日曜日
AGENDA
    ■ 自己紹介
    ■ Data Fusionとは
    ■ よく使われるデータ融合手法
      ◆ Matching
          ◆ 潜在変数モデリング
          ◆ 回帰モデル
    ■ Data Fusionの仕組み
    ■ セミパラメトリックモデルによる融合
          ◆ ディリクレ過程混合モデル
    ■ 参考資料
2012年9月9日日曜日
自己紹介



    ◆ 名前: 里 洋平
    ◆ ID : yokkuns
    ◆ 職業:
    データサイエンティスト

    ◆     時系列解析や異常検知など
           各種方法論を実ビジネスに適用




2012年9月9日日曜日
活動例: 勉強会の主催・執筆


                  Tokyo.R主催




               パッケージ本執筆しました!




2012年9月9日日曜日
活動例: 動画レコメンド

               閲覧されている動画の情報を用いておすすめ動画を表示する




2012年9月9日日曜日
活動例: 市場予測

               Web上の情報から市場予測




2012年9月9日日曜日
活動例: 異常検知
                              Anomaly detection

                    複数時系列から異常な振る舞いを検知する

                                                                            C
                                                                            A
        時系列のモデリング               複数時系列の異常検知                                  B

      時系列A                             時系列A

                                                                        異常な振る舞い
      時系列B


      時系列C                      時系列B          時系列C

                                 異常な振る舞いの時系列を検出




                例1:トラフィック異常検知                   例2:CM効果のノイズ除去

                    トラフィックA                          ケースA
                                                              CM効果
                    トラフィックB                          ケースB

                    トラフィックC      調査                  ケースC

                     異常な振る舞いをしている                    異常な振る舞いをしているケースを
                     トラフィックの原因を調査する                  除外して、CMの効果を算出する
                                                                                  85
2012年9月9日日曜日
活動例: 時系列解析と影響分析
                       TV Commercial Effects

               時系列的な振る舞いの特徴から各KPIへのCMの影響度を算出
                                                  イベン
               CM時系列                               ト

                                         新規
                                         登録


                             CM                   ARPP
                                                   U




                                         ARPU

           各KPIの時系列
                                                         その他
                                                          外部
                                  継続率
                                                          要因




                                                ケース




                                                           87

2012年9月9日日曜日
AGENDA
    ■ 自己紹介
    ■ Data Fusionとは
    ■ よく使われるデータ融合手法
      ◆ Matching
          ◆ 潜在変数モデリング
          ◆ 回帰モデル
    ■ Data Fusionの仕組み
    ■ セミパラメトリックモデルによる融合
          ◆ ディリクレ過程混合モデル
    ■ 参考資料
2012年9月9日日曜日
Data Fusionとは




                 87

2012年9月9日日曜日
Data Fusionとは


                異なる複数のデータを
               単一のデータに統合することで




                                87

2012年9月9日日曜日
Data Fusionとは


                 異なる複数のデータを
               単一のデータに統合することで


               個別のデータからは得られない
                 複合的な情報を抽出し




                                87

2012年9月9日日曜日
Data Fusionとは


                 異なる複数のデータを
               単一のデータに統合することで


               個別のデータからは得られない
                 複合的な情報を抽出し


               予測や意思決定を支援する方法論


                                 87

2012年9月9日日曜日
Data Fusionとは

               異なる複数のデータを単一のデータに統合し
     個別のデータからは得られない、複合的な情報を抽出する


                  データA                    データB




                         データAとデータBの相関関係
               データBで特定の値だったユーザのデータAの値の予測・補完

                                                 87

2012年9月9日日曜日
Data Fusionの活用シーン

               広告接触のデータと購買履歴のデータ
               異なる対象者によるデータである事が多い

                 購買履歴データ   広告接触データ




2012年9月9日日曜日
Data Fusionの活用シーン
                   広告接触データでの購買有無
                   購買データでの広告接触の有無
   これらを予測・補完できれば、重要な示唆が得られる
                  購買履歴データ          広告接触データ




               ある広告を見たユーザーのうち、ある商品はどれだけ購入されたか
               どのような広告媒体にどのような情報を載せれば、より購入されるか
                             ・・・
                                                 87

2012年9月9日日曜日
AGENDA
    ■ 自己紹介
    ■ Data Fusionとは
    ■ よく使われるデータ融合手法
      ◆ Matching
          ◆ 潜在変数モデリング
          ◆ 回帰モデル
    ■ Data Fusionの仕組み
    ■ セミパラメトリックモデルによる融合
          ◆ ディリクレ過程混合モデル
    ■ 参考資料
2012年9月9日日曜日
類似度からのアプローチ

      広告媒体への接触やある特性を有する商品の購入は
                ユーザーの属性に偏りが存在する


               広告A   商品A       広告B   商品B




                属性が似ている
                          属性は似てない


2012年9月9日日曜日
類似度からのアプローチ

                      属性が似ているユーザーは
               接触する広告媒体や購入する商品が似ている


                広告A     商品A     広告B   商品B




                 属性が似ている
                           属性は似てない
                                            87

2012年9月9日日曜日
Matching法

                 購買履歴データと広告接触データで
 属性が似ている人でペアを作り、同一ユーザーと見なす

                     購買履歴データ    広告接触データ
               商品A                        広告A

               買った                        見た




                          商品A   広告A

                          買った   見た




2012年9月9日日曜日
Rでの実行方法

     MatchingパッケージのMatch関数でペアを抽出し
               擬似的なシングルソースデータを作成する


                  割当変数   共変量   データAのindex




                               データBのindex




                                            87

2012年9月9日日曜日
Matchingの問題点




                87

2012年9月9日日曜日
Matchingの問題点



               測定誤差などによりバイアスが生じてしまい
                  推定精度があまり高くない




                                      87

2012年9月9日日曜日
Matchingの問題点



               測定誤差などによりバイアスが生じてしまい
                  推定精度があまり高くない




               マッチングに利用しない対象者のデータが
                 無駄になるため、非常に非効率



                                      87

2012年9月9日日曜日
AGENDA
    ■ 自己紹介
    ■ Data Fusionとは
    ■ よく使われるデータ融合手法
      ◆ Matching
          ◆ 潜在変数モデリング
          ◆ 回帰モデル
    ■ Data Fusionの仕組み
    ■ セミパラメトリックモデルによる融合
          ◆ ディリクレ過程混合モデル
    ■ 参考資料
2012年9月9日日曜日
因子分析モデル

                購買有無・広告接触有無・属性
    3つの変数の背後に共通の因子を仮定して予測を行う

               共通因子                          共通因子




       購買有無    共変量    広告有無          購買有無     共変量    広告有無




                             共通因子




                      購買有無   共変量      広告有無
                                                           87

2012年9月9日日曜日
潜在クラスモデル

               消費者市場のセグメンテーションと同じ概念
  各潜在クラス内では広告接触や購入する商品が似ている

 商品Aが2/3                                      広告Aが2/3
 商品Bが1/3         購買履歴データ            広告接触データ
                                              広告Bが1/3


                 潜在クラスA             潜在クラスA




                  商品A                  広告A


                  商品B      潜在クラスA      広告A



                  商品A                  広告B


2012年9月9日日曜日
AGENDA
    ■ 自己紹介
    ■ Data Fusionとは
    ■ よく使われるデータ融合手法
      ◆ Matching
          ◆ 潜在変数モデリング
          ◆ 回帰モデル
    ■ Data Fusionの仕組み
    ■ セミパラメトリックモデルによる融合
          ◆ ディリクレ過程混合モデル
    ■ 参考資料
2012年9月9日日曜日
回帰モデルによる融合

    属性データを用いて直接購買の有無をモデリングする
          2値変数の場合ロジスティック回帰が使われる




                                  87

2012年9月9日日曜日
Rでの実行方法

                一般化線形モデルの関数glmを使って
               ロジスティック回帰分析を実行して予測する




                                      87

2012年9月9日日曜日
Rでの実行例: 使うデータ

    データセットlalondeを2分割してマルチソースデータを作成
       NSW受講者の78年賃金有りの割合を予測する




                                  87

2012年9月9日日曜日
Rでの実行例: Data Fusionによる予測

               Matchingとロジスティック回帰による
                   Data Fusionの関数を定義




                                       87

2012年9月9日日曜日
Rでの実行例: Data Fusionによる予測

       Matchingとロジスティック回帰の2つの手法で予測する
                サンプリングして100回実行




                                       87

2012年9月9日日曜日
Rによる実行結果

               どちらも手法も値が希薄化が起きている
                バラツキは回帰モデルの方が小さい
                 NSW受講者の78年賃金有りの比率の推定結果




                                          87

2012年9月9日日曜日
AGENDA
    ■ 自己紹介
    ■ Data Fusionとは
    ■ よく使われるデータ融合手法
      ◆ Matching
          ◆ 潜在変数モデリング
          ◆ 回帰モデル
    ■ Data Fusionの仕組み
    ■ セミパラメトリックモデルによる融合
          ◆ ディリクレ過程混合モデル
    ■ 参考資料
2012年9月9日日曜日
欠測データとしてのData Fusion

                 購買履歴データと広告接触データは
      他方のデータが欠測しているシングルソースデータ

                       欠測データとしてのData Fusion

                   購買履歴データ             市場調査データ




          購買履歴    購買履歴データ                欠測 



          広告接触      欠測                広告接触データ 




          共変量            共通で得られている属性データ 




2012年9月9日日曜日
欠測しているデータの予測分布

               広告接触データで欠測している購買データの
                     予測分布を考える




                                      87

2012年9月9日日曜日
Data Fusionの前提条件① : ランダムな欠測

      商品の購入と広告接触データ割当は依存していない
               欠測はランダムに発生すると仮定出来る

                       購買と広告接触データへの割当は
                        依存していないので除外出来る




                                         87

2012年9月9日日曜日
Data Fusionの前提条件① : ランダムな欠測

      商品の購入と広告接触データ割当は依存していない
               欠測はランダムに発生すると仮定出来る

                       購買と広告接触データへの割当は
                        依存していないので除外出来る




                                         87

2012年9月9日日曜日
Data Fusionの前提条件① : ランダムな欠測

      商品の購入と広告接触データ割当は依存していない
               欠測はランダムに発生すると仮定出来る

                       購買と広告接触データへの割当は
                        依存していないので除外出来る




                                         87

2012年9月9日日曜日
Data Fusionの前提条件① : ランダムな欠測

      商品の購入と広告接触データ割当は依存していない
               欠測はランダムに発生すると仮定出来る

                       購買と広告接触データへの割当は
                        依存していないので除外出来る




                                         87

2012年9月9日日曜日
欠測しているデータの予測分布
          ある属性を条件付けた時の
      購買有無と広告接触の同時分布が分かれば
  ある広告に接触した人がどれくらい購買しているかが分かる




                            87

2012年9月9日日曜日
Data Fusionの前提条件② : 条件付き独立性

     属性が似ていれば広告接触も似ていると仮定すると
          属性を条件づけた購買履歴は広告に依存しない




                                  87

2012年9月9日日曜日
Data Fusionの前提条件② : 条件付き独立性

     属性が似ていれば広告接触も似ていると仮定すると
          属性を条件づけた購買履歴は広告に依存しない




                                  87

2012年9月9日日曜日
Data Fusionの前提条件② : 条件付き独立性

     属性が似ていれば広告接触も似ていると仮定すると
          属性を条件づけた購買履歴は広告に依存しない




                                  87

2012年9月9日日曜日
Data Fusionの前提条件が成り立つためには

               条件付き独立性の仮定が成り立つためには
      属性による購買有無の予測力が十分高い必要がある




                                     87

2012年9月9日日曜日
AGENDA
    ■ 自己紹介
    ■ Data Fusionとは
    ■ よく使われるデータ融合手法
      ◆ Matching
          ◆ 潜在変数モデリング
          ◆ 回帰モデル
    ■ Data Fusionの仕組み
    ■ セミパラメトリックモデルによる融合
          ◆ ディリクレ過程混合モデル
    ■ 参考資料
2012年9月9日日曜日
混合モデルで説明力を上げる

                 通常の回帰モデルでは説明力が低い
               混合モデルを利用することで説明力を上げる
                                 混合回帰モデルのイメージ




                  図: http://chasen.org/~daiti-m/paper/ibis2008-npbayes-tutorial.pdf   87

2012年9月9日日曜日
ディリクレ過程混合モデル

    混合モデルにおいて要素数を事前に決めるのは難しい
  ディリクレ過程混合モデルは、要素数をデータから決定する

                  混合回帰モデルとディリクレ過程混合モデル




               図: http://chasen.org/~daiti-m/paper/ibis2008-npbayes-tutorial.pdf   87

2012年9月9日日曜日
AGENDA
    ■ 自己紹介
    ■ Data Fusionとは
    ■ よく使われるデータ融合手法
      ◆ Matching
          ◆ 潜在変数モデリング
          ◆ 回帰モデル
    ■ Data Fusionの仕組み
    ■ セミパラメトリックモデルによる融合
          ◆ ディリクレ過程混合モデル
    ■ 参考資料
2012年9月9日日曜日
参考資料
    ■調査観察データの統計科学
        http://www.amazon.co.jp/dp/4000069721




    ■data fusion についてのメモ - BOD
       http://d.hatena.ne.jp/dichika/20110907/1315359207



    ■A Direct Approach to Data Fusion
       http://www.chicagobooth.edu/research/workshops/marketing/archive/
       WorkshopPapers/Rossi.pdf


    ■IBIS 2008 企画セッション 「ノンパラメトリックベイズ」
       http://chasen.org/ daiti-m/paper/ibis2008-npbayes-tutorial.pdf


2012年9月9日日曜日
AGENDA
    ■ 自己紹介
    ■ Data Fusionとは
    ■ よく使われるデータ融合手法
      ◆ Matching
          ◆ 潜在変数モデリング
          ◆ 回帰モデル
    ■ Data Fusionの仕組み
    ■ セミパラメトリックモデルによる融合
          ◆ ディリクレ過程混合モデル
    ■ 参考資料
2012年9月9日日曜日
次回以降の
               発表者を募集しています!


        導入セッション・初心者セッションも
             絶賛募集中です!


                              87

2012年9月9日日曜日

More Related Content

What's hot

Tokyor24 yokkuns
Tokyor24 yokkunsTokyor24 yokkuns
Tokyor24 yokkunsYohei Sato
 
Tokyor22 selection bias
Tokyor22 selection biasTokyor22 selection bias
Tokyor22 selection biasYohei Sato
 
Japan r2 lt_yokkuns
Japan r2 lt_yokkunsJapan r2 lt_yokkuns
Japan r2 lt_yokkunsYohei Sato
 
Lilien, G.L. & Rangaswamy, A. (2004) Marketing Engineering: Chapter 5
Lilien, G.L. & Rangaswamy, A. (2004) Marketing Engineering: Chapter 5Lilien, G.L. & Rangaswamy, A. (2004) Marketing Engineering: Chapter 5
Lilien, G.L. & Rangaswamy, A. (2004) Marketing Engineering: Chapter 5Ono Shigeru
 
モデル最適化指標・評価指標の選び方
モデル最適化指標・評価指標の選び方モデル最適化指標・評価指標の選び方
モデル最適化指標・評価指標の選び方幹雄 小川
 
モデル最適化指標・評価指標の選び方
モデル最適化指標・評価指標の選び方モデル最適化指標・評価指標の選び方
モデル最適化指標・評価指標の選び方幹雄 小川
 
Lilien, G.L. & Rangaswamy, A. (2004) Marketing Engineering: Chapter 6
Lilien, G.L. & Rangaswamy, A. (2004) Marketing Engineering: Chapter 6Lilien, G.L. & Rangaswamy, A. (2004) Marketing Engineering: Chapter 6
Lilien, G.L. & Rangaswamy, A. (2004) Marketing Engineering: Chapter 6kenichiroyamada
 
Tokyo r15 異常検知入門
Tokyo r15 異常検知入門Tokyo r15 異常検知入門
Tokyo r15 異常検知入門Yohei Sato
 

What's hot (9)

Tokyor24 yokkuns
Tokyor24 yokkunsTokyor24 yokkuns
Tokyor24 yokkuns
 
Tokyor22 selection bias
Tokyor22 selection biasTokyor22 selection bias
Tokyor22 selection bias
 
Japan r2 lt_yokkuns
Japan r2 lt_yokkunsJapan r2 lt_yokkuns
Japan r2 lt_yokkuns
 
Lilien, G.L. & Rangaswamy, A. (2004) Marketing Engineering: Chapter 5
Lilien, G.L. & Rangaswamy, A. (2004) Marketing Engineering: Chapter 5Lilien, G.L. & Rangaswamy, A. (2004) Marketing Engineering: Chapter 5
Lilien, G.L. & Rangaswamy, A. (2004) Marketing Engineering: Chapter 5
 
モデル最適化指標・評価指標の選び方
モデル最適化指標・評価指標の選び方モデル最適化指標・評価指標の選び方
モデル最適化指標・評価指標の選び方
 
モデル最適化指標・評価指標の選び方
モデル最適化指標・評価指標の選び方モデル最適化指標・評価指標の選び方
モデル最適化指標・評価指標の選び方
 
Lilien, G.L. & Rangaswamy, A. (2004) Marketing Engineering: Chapter 6
Lilien, G.L. & Rangaswamy, A. (2004) Marketing Engineering: Chapter 6Lilien, G.L. & Rangaswamy, A. (2004) Marketing Engineering: Chapter 6
Lilien, G.L. & Rangaswamy, A. (2004) Marketing Engineering: Chapter 6
 
wacate2012s
wacate2012swacate2012s
wacate2012s
 
Tokyo r15 異常検知入門
Tokyo r15 異常検知入門Tokyo r15 異常検知入門
Tokyo r15 異常検知入門
 

Viewers also liked

第3回Japan rパネルディスカッション
第3回Japan rパネルディスカッション第3回Japan rパネルディスカッション
第3回Japan rパネルディスカッションYohei Sato
 
Tokyor13 - YjdnJlpパッケージとTokyo.R翻訳プロジェクトの紹介
Tokyor13 - YjdnJlpパッケージとTokyo.R翻訳プロジェクトの紹介Tokyor13 - YjdnJlpパッケージとTokyo.R翻訳プロジェクトの紹介
Tokyor13 - YjdnJlpパッケージとTokyo.R翻訳プロジェクトの紹介Yohei Sato
 
Sakuteki02 yokkuns
Sakuteki02 yokkunsSakuteki02 yokkuns
Sakuteki02 yokkunsYohei Sato
 
Tokyowebmining09 初めてでも分かるペアトレード
Tokyowebmining09 初めてでも分かるペアトレードTokyowebmining09 初めてでも分かるペアトレード
Tokyowebmining09 初めてでも分かるペアトレードYohei Sato
 
Tokyor45 カーネル多変量解析第2章 カーネル多変量解析の仕組み
Tokyor45 カーネル多変量解析第2章 カーネル多変量解析の仕組みTokyor45 カーネル多変量解析第2章 カーネル多変量解析の仕組み
Tokyor45 カーネル多変量解析第2章 カーネル多変量解析の仕組みYohei Sato
 
Tokyor42 ggplot2
Tokyor42 ggplot2Tokyor42 ggplot2
Tokyor42 ggplot2Yohei Sato
 
Tokyor42_r_datamining_18
Tokyor42_r_datamining_18Tokyor42_r_datamining_18
Tokyor42_r_datamining_18Yohei Sato
 
異常行動検出入門 – 行動データ時系列のデータマイニング –
異常行動検出入門 – 行動データ時系列のデータマイニング –異常行動検出入門 – 行動データ時系列のデータマイニング –
異常行動検出入門 – 行動データ時系列のデータマイニング –Yohei Sato
 
Rで学ぶ 傾向スコア解析入門 - 無作為割り当てが出来ない時の因果効果推定 -
Rで学ぶ 傾向スコア解析入門 - 無作為割り当てが出来ない時の因果効果推定 -Rで学ぶ 傾向スコア解析入門 - 無作為割り当てが出来ない時の因果効果推定 -
Rで学ぶ 傾向スコア解析入門 - 無作為割り当てが出来ない時の因果効果推定 -Yohei Sato
 
Tokyo r12 - R言語による回帰分析入門
Tokyo r12 - R言語による回帰分析入門Tokyo r12 - R言語による回帰分析入門
Tokyo r12 - R言語による回帰分析入門Yohei Sato
 
時系列分析による異常検知入門
時系列分析による異常検知入門時系列分析による異常検知入門
時系列分析による異常検知入門Yohei Sato
 
Japan r2 tokyor
Japan r2 tokyorJapan r2 tokyor
Japan r2 tokyorYohei Sato
 
Japan r2 opening
Japan r2 openingJapan r2 opening
Japan r2 openingYohei Sato
 
Tokyowebmining07 初めてでも分かるヘッジファンド入門
Tokyowebmining07 初めてでも分かるヘッジファンド入門Tokyowebmining07 初めてでも分かるヘッジファンド入門
Tokyowebmining07 初めてでも分かるヘッジファンド入門Yohei Sato
 
エンジニアサポート新年会2012 データマイニングcross 第1部
エンジニアサポート新年会2012 データマイニングcross 第1部エンジニアサポート新年会2012 データマイニングcross 第1部
エンジニアサポート新年会2012 データマイニングcross 第1部Yohei Sato
 
Tokyor14 - R言語でユニットテスト
Tokyor14 - R言語でユニットテストTokyor14 - R言語でユニットテスト
Tokyor14 - R言語でユニットテストYohei Sato
 
Tokyor39 yokkuns
Tokyor39 yokkunsTokyor39 yokkuns
Tokyor39 yokkunsYohei Sato
 

Viewers also liked (19)

第3回Japan rパネルディスカッション
第3回Japan rパネルディスカッション第3回Japan rパネルディスカッション
第3回Japan rパネルディスカッション
 
Tokyor13 - YjdnJlpパッケージとTokyo.R翻訳プロジェクトの紹介
Tokyor13 - YjdnJlpパッケージとTokyo.R翻訳プロジェクトの紹介Tokyor13 - YjdnJlpパッケージとTokyo.R翻訳プロジェクトの紹介
Tokyor13 - YjdnJlpパッケージとTokyo.R翻訳プロジェクトの紹介
 
Sakuteki02 yokkuns
Sakuteki02 yokkunsSakuteki02 yokkuns
Sakuteki02 yokkuns
 
Tokyowebmining09 初めてでも分かるペアトレード
Tokyowebmining09 初めてでも分かるペアトレードTokyowebmining09 初めてでも分かるペアトレード
Tokyowebmining09 初めてでも分かるペアトレード
 
Tokyor45 カーネル多変量解析第2章 カーネル多変量解析の仕組み
Tokyor45 カーネル多変量解析第2章 カーネル多変量解析の仕組みTokyor45 カーネル多変量解析第2章 カーネル多変量解析の仕組み
Tokyor45 カーネル多変量解析第2章 カーネル多変量解析の仕組み
 
Tokyor42 ggplot2
Tokyor42 ggplot2Tokyor42 ggplot2
Tokyor42 ggplot2
 
Tokyor42_r_datamining_18
Tokyor42_r_datamining_18Tokyor42_r_datamining_18
Tokyor42_r_datamining_18
 
異常行動検出入門 – 行動データ時系列のデータマイニング –
異常行動検出入門 – 行動データ時系列のデータマイニング –異常行動検出入門 – 行動データ時系列のデータマイニング –
異常行動検出入門 – 行動データ時系列のデータマイニング –
 
Rで学ぶ 傾向スコア解析入門 - 無作為割り当てが出来ない時の因果効果推定 -
Rで学ぶ 傾向スコア解析入門 - 無作為割り当てが出来ない時の因果効果推定 -Rで学ぶ 傾向スコア解析入門 - 無作為割り当てが出来ない時の因果効果推定 -
Rで学ぶ 傾向スコア解析入門 - 無作為割り当てが出来ない時の因果効果推定 -
 
Tokyo r12 - R言語による回帰分析入門
Tokyo r12 - R言語による回帰分析入門Tokyo r12 - R言語による回帰分析入門
Tokyo r12 - R言語による回帰分析入門
 
時系列分析による異常検知入門
時系列分析による異常検知入門時系列分析による異常検知入門
時系列分析による異常検知入門
 
Japan r2 tokyor
Japan r2 tokyorJapan r2 tokyor
Japan r2 tokyor
 
Japan r2 opening
Japan r2 openingJapan r2 opening
Japan r2 opening
 
Ml4nlp04 1
Ml4nlp04 1Ml4nlp04 1
Ml4nlp04 1
 
Japanr01
Japanr01Japanr01
Japanr01
 
Tokyowebmining07 初めてでも分かるヘッジファンド入門
Tokyowebmining07 初めてでも分かるヘッジファンド入門Tokyowebmining07 初めてでも分かるヘッジファンド入門
Tokyowebmining07 初めてでも分かるヘッジファンド入門
 
エンジニアサポート新年会2012 データマイニングcross 第1部
エンジニアサポート新年会2012 データマイニングcross 第1部エンジニアサポート新年会2012 データマイニングcross 第1部
エンジニアサポート新年会2012 データマイニングcross 第1部
 
Tokyor14 - R言語でユニットテスト
Tokyor14 - R言語でユニットテストTokyor14 - R言語でユニットテスト
Tokyor14 - R言語でユニットテスト
 
Tokyor39 yokkuns
Tokyor39 yokkunsTokyor39 yokkuns
Tokyor39 yokkuns
 

Similar to Tokyor26 data fusion

Arcuss Japan EMOROCO for Dynamics 365 紹介
Arcuss Japan EMOROCO for Dynamics 365 紹介Arcuss Japan EMOROCO for Dynamics 365 紹介
Arcuss Japan EMOROCO for Dynamics 365 紹介Nobuaki Matsubara
 
データフィードマーケティング概要
データフィードマーケティング概要データフィードマーケティング概要
データフィードマーケティング概要Go Sugihara
 
Big data解析ビジネス
Big data解析ビジネスBig data解析ビジネス
Big data解析ビジネスMie Mori
 
ビックデータ戦略
ビックデータ戦略ビックデータ戦略
ビックデータ戦略Kengo Nagahashi
 
感性から科学へ データに基づくWebサイト改善手法 2012 09-27-2
感性から科学へ データに基づくWebサイト改善手法 2012 09-27-2感性から科学へ データに基づくWebサイト改善手法 2012 09-27-2
感性から科学へ データに基づくWebサイト改善手法 2012 09-27-2Yoichiro Takehora
 
分析のリアルがここに!現場で使えるデータ分析(1限目) 先生:吉永 恵一
分析のリアルがここに!現場で使えるデータ分析(1限目) 先生:吉永 恵一分析のリアルがここに!現場で使えるデータ分析(1限目) 先生:吉永 恵一
分析のリアルがここに!現場で使えるデータ分析(1限目) 先生:吉永 恵一schoowebcampus
 
【Schoo web campus】データ分析、その前にやっておくべきこと 先生 田畑直
【Schoo web campus】データ分析、その前にやっておくべきこと 先生 田畑直【Schoo web campus】データ分析、その前にやっておくべきこと 先生 田畑直
【Schoo web campus】データ分析、その前にやっておくべきこと 先生 田畑直schoowebcampus
 
データ分析グループの組織編制とその課題 マーケティングにおけるKPI設計の失敗例 ABテストの活用と、機械学習の導入 #CWT2016
データ分析グループの組織編制とその課題 マーケティングにおけるKPI設計の失敗例 ABテストの活用と、機械学習の導入 #CWT2016データ分析グループの組織編制とその課題 マーケティングにおけるKPI設計の失敗例 ABテストの活用と、機械学習の導入 #CWT2016
データ分析グループの組織編制とその課題 マーケティングにおけるKPI設計の失敗例 ABテストの活用と、機械学習の導入 #CWT2016Tokoroten Nakayama
 
Jubatus: 分散協調をキーとした大規模リアルタイム機械学習プラットフォーム
Jubatus: 分散協調をキーとした大規模リアルタイム機械学習プラットフォームJubatus: 分散協調をキーとした大規模リアルタイム機械学習プラットフォーム
Jubatus: 分散協調をキーとした大規模リアルタイム機械学習プラットフォームPreferred Networks
 
バージョンアップした「ReNomIMG」の紹介
バージョンアップした「ReNomIMG」の紹介バージョンアップした「ReNomIMG」の紹介
バージョンアップした「ReNomIMG」の紹介ReNom User Group
 
データ分析で Excel を活用しよう
データ分析で Excel を活用しようデータ分析で Excel を活用しよう
データ分析で Excel を活用しようTsuyoshi Kitagawa
 
iPhoneアプリ「トリセツ」にて実践したリーンスタートアップ
iPhoneアプリ「トリセツ」にて実践したリーンスタートアップiPhoneアプリ「トリセツ」にて実践したリーンスタートアップ
iPhoneアプリ「トリセツ」にて実践したリーンスタートアップVOYAGE GROUP
 
iPhoneアプリ「トリセツ」にて実践したリーンスタートアップ
iPhoneアプリ「トリセツ」にて実践したリーンスタートアップiPhoneアプリ「トリセツ」にて実践したリーンスタートアップ
iPhoneアプリ「トリセツ」にて実践したリーンスタートアップKenji Tomita
 
Oracle Data Minerハンズオンセミナー170927:②Oracle data minerハンズオン資料
Oracle Data Minerハンズオンセミナー170927:②Oracle data minerハンズオン資料Oracle Data Minerハンズオンセミナー170927:②Oracle data minerハンズオン資料
Oracle Data Minerハンズオンセミナー170927:②Oracle data minerハンズオン資料オラクルエンジニア通信
 
ディープラーニングによるラーメン二郎全店舗識別と生成
ディープラーニングによるラーメン二郎全店舗識別と生成ディープラーニングによるラーメン二郎全店舗識別と生成
ディープラーニングによるラーメン二郎全店舗識別と生成knjcode
 
Oracle Data Minerハンズオンセミナー170927:③Business Analytics概要と事例
Oracle Data Minerハンズオンセミナー170927:③Business Analytics概要と事例Oracle Data Minerハンズオンセミナー170927:③Business Analytics概要と事例
Oracle Data Minerハンズオンセミナー170927:③Business Analytics概要と事例オラクルエンジニア通信
 
[RIT]MLmodeling service
[RIT]MLmodeling service[RIT]MLmodeling service
[RIT]MLmodeling serviceRIT
 
20120326 zansa勉強会発表資料 (公開用) 02 04-38
20120326 zansa勉強会発表資料 (公開用) 02 04-3820120326 zansa勉強会発表資料 (公開用) 02 04-38
20120326 zansa勉強会発表資料 (公開用) 02 04-38tetsuro ito
 

Similar to Tokyor26 data fusion (20)

Arcuss Japan EMOROCO for Dynamics 365 紹介
Arcuss Japan EMOROCO for Dynamics 365 紹介Arcuss Japan EMOROCO for Dynamics 365 紹介
Arcuss Japan EMOROCO for Dynamics 365 紹介
 
Oracle Advanced Analytics 概要
Oracle Advanced Analytics 概要Oracle Advanced Analytics 概要
Oracle Advanced Analytics 概要
 
データフィードマーケティング概要
データフィードマーケティング概要データフィードマーケティング概要
データフィードマーケティング概要
 
Big data解析ビジネス
Big data解析ビジネスBig data解析ビジネス
Big data解析ビジネス
 
ビックデータ戦略
ビックデータ戦略ビックデータ戦略
ビックデータ戦略
 
感性から科学へ データに基づくWebサイト改善手法 2012 09-27-2
感性から科学へ データに基づくWebサイト改善手法 2012 09-27-2感性から科学へ データに基づくWebサイト改善手法 2012 09-27-2
感性から科学へ データに基づくWebサイト改善手法 2012 09-27-2
 
分析のリアルがここに!現場で使えるデータ分析(1限目) 先生:吉永 恵一
分析のリアルがここに!現場で使えるデータ分析(1限目) 先生:吉永 恵一分析のリアルがここに!現場で使えるデータ分析(1限目) 先生:吉永 恵一
分析のリアルがここに!現場で使えるデータ分析(1限目) 先生:吉永 恵一
 
おしゃスタat銀座
おしゃスタat銀座おしゃスタat銀座
おしゃスタat銀座
 
【Schoo web campus】データ分析、その前にやっておくべきこと 先生 田畑直
【Schoo web campus】データ分析、その前にやっておくべきこと 先生 田畑直【Schoo web campus】データ分析、その前にやっておくべきこと 先生 田畑直
【Schoo web campus】データ分析、その前にやっておくべきこと 先生 田畑直
 
データ分析グループの組織編制とその課題 マーケティングにおけるKPI設計の失敗例 ABテストの活用と、機械学習の導入 #CWT2016
データ分析グループの組織編制とその課題 マーケティングにおけるKPI設計の失敗例 ABテストの活用と、機械学習の導入 #CWT2016データ分析グループの組織編制とその課題 マーケティングにおけるKPI設計の失敗例 ABテストの活用と、機械学習の導入 #CWT2016
データ分析グループの組織編制とその課題 マーケティングにおけるKPI設計の失敗例 ABテストの活用と、機械学習の導入 #CWT2016
 
Jubatus: 分散協調をキーとした大規模リアルタイム機械学習プラットフォーム
Jubatus: 分散協調をキーとした大規模リアルタイム機械学習プラットフォームJubatus: 分散協調をキーとした大規模リアルタイム機械学習プラットフォーム
Jubatus: 分散協調をキーとした大規模リアルタイム機械学習プラットフォーム
 
バージョンアップした「ReNomIMG」の紹介
バージョンアップした「ReNomIMG」の紹介バージョンアップした「ReNomIMG」の紹介
バージョンアップした「ReNomIMG」の紹介
 
データ分析で Excel を活用しよう
データ分析で Excel を活用しようデータ分析で Excel を活用しよう
データ分析で Excel を活用しよう
 
iPhoneアプリ「トリセツ」にて実践したリーンスタートアップ
iPhoneアプリ「トリセツ」にて実践したリーンスタートアップiPhoneアプリ「トリセツ」にて実践したリーンスタートアップ
iPhoneアプリ「トリセツ」にて実践したリーンスタートアップ
 
iPhoneアプリ「トリセツ」にて実践したリーンスタートアップ
iPhoneアプリ「トリセツ」にて実践したリーンスタートアップiPhoneアプリ「トリセツ」にて実践したリーンスタートアップ
iPhoneアプリ「トリセツ」にて実践したリーンスタートアップ
 
Oracle Data Minerハンズオンセミナー170927:②Oracle data minerハンズオン資料
Oracle Data Minerハンズオンセミナー170927:②Oracle data minerハンズオン資料Oracle Data Minerハンズオンセミナー170927:②Oracle data minerハンズオン資料
Oracle Data Minerハンズオンセミナー170927:②Oracle data minerハンズオン資料
 
ディープラーニングによるラーメン二郎全店舗識別と生成
ディープラーニングによるラーメン二郎全店舗識別と生成ディープラーニングによるラーメン二郎全店舗識別と生成
ディープラーニングによるラーメン二郎全店舗識別と生成
 
Oracle Data Minerハンズオンセミナー170927:③Business Analytics概要と事例
Oracle Data Minerハンズオンセミナー170927:③Business Analytics概要と事例Oracle Data Minerハンズオンセミナー170927:③Business Analytics概要と事例
Oracle Data Minerハンズオンセミナー170927:③Business Analytics概要と事例
 
[RIT]MLmodeling service
[RIT]MLmodeling service[RIT]MLmodeling service
[RIT]MLmodeling service
 
20120326 zansa勉強会発表資料 (公開用) 02 04-38
20120326 zansa勉強会発表資料 (公開用) 02 04-3820120326 zansa勉強会発表資料 (公開用) 02 04-38
20120326 zansa勉強会発表資料 (公開用) 02 04-38
 

More from Yohei Sato

Tokyor60 r data_science_part1
Tokyor60 r data_science_part1Tokyor60 r data_science_part1
Tokyor60 r data_science_part1Yohei Sato
 
Tokyor60 opening
Tokyor60 openingTokyor60 opening
Tokyor60 openingYohei Sato
 
EasyHtmlReportの紹介
EasyHtmlReportの紹介EasyHtmlReportの紹介
EasyHtmlReportの紹介Yohei Sato
 
20131206 japan r
20131206 japan r20131206 japan r
20131206 japan rYohei Sato
 
Tokyor35 人工データの発生
Tokyor35 人工データの発生Tokyor35 人工データの発生
Tokyor35 人工データの発生Yohei Sato
 
ドリコムの分析環境とデータサイエンス活用事例
ドリコムの分析環境とデータサイエンス活用事例ドリコムの分析環境とデータサイエンス活用事例
ドリコムの分析環境とデータサイエンス活用事例Yohei Sato
 
R言語で学ぶマーケティング分析 競争ポジショニング戦略
R言語で学ぶマーケティング分析 競争ポジショニング戦略R言語で学ぶマーケティング分析 競争ポジショニング戦略
R言語で学ぶマーケティング分析 競争ポジショニング戦略Yohei Sato
 

More from Yohei Sato (7)

Tokyor60 r data_science_part1
Tokyor60 r data_science_part1Tokyor60 r data_science_part1
Tokyor60 r data_science_part1
 
Tokyor60 opening
Tokyor60 openingTokyor60 opening
Tokyor60 opening
 
EasyHtmlReportの紹介
EasyHtmlReportの紹介EasyHtmlReportの紹介
EasyHtmlReportの紹介
 
20131206 japan r
20131206 japan r20131206 japan r
20131206 japan r
 
Tokyor35 人工データの発生
Tokyor35 人工データの発生Tokyor35 人工データの発生
Tokyor35 人工データの発生
 
ドリコムの分析環境とデータサイエンス活用事例
ドリコムの分析環境とデータサイエンス活用事例ドリコムの分析環境とデータサイエンス活用事例
ドリコムの分析環境とデータサイエンス活用事例
 
R言語で学ぶマーケティング分析 競争ポジショニング戦略
R言語で学ぶマーケティング分析 競争ポジショニング戦略R言語で学ぶマーケティング分析 競争ポジショニング戦略
R言語で学ぶマーケティング分析 競争ポジショニング戦略
 

Tokyor26 data fusion

  • 1. R言語で学ぶ Data Fusion入門 @yokkuns: 里 洋平 yohei0511@gmail.com 2012.09.08 TokyoR26 2012年9月9日日曜日
  • 2. AGENDA ■ 自己紹介 ■ Data Fusionとは ■ よく使われるデータ融合手法 ◆ Matching ◆ 潜在変数モデリング ◆ 回帰モデル ■ Data Fusionの仕組み ■ セミパラメトリックモデルによる融合 ◆ ディリクレ過程混合モデル ■ 参考資料 2012年9月9日日曜日
  • 3. AGENDA ■ 自己紹介 ■ Data Fusionとは ■ よく使われるデータ融合手法 ◆ Matching ◆ 潜在変数モデリング ◆ 回帰モデル ■ Data Fusionの仕組み ■ セミパラメトリックモデルによる融合 ◆ ディリクレ過程混合モデル ■ 参考資料 2012年9月9日日曜日
  • 4. 自己紹介 ◆ 名前: 里 洋平 ◆ ID : yokkuns ◆ 職業: データサイエンティスト ◆ 時系列解析や異常検知など 各種方法論を実ビジネスに適用 2012年9月9日日曜日
  • 5. 活動例: 勉強会の主催・執筆 Tokyo.R主催 パッケージ本執筆しました! 2012年9月9日日曜日
  • 6. 活動例: 動画レコメンド 閲覧されている動画の情報を用いておすすめ動画を表示する 2012年9月9日日曜日
  • 7. 活動例: 市場予測 Web上の情報から市場予測 2012年9月9日日曜日
  • 8. 活動例: 異常検知 Anomaly detection 複数時系列から異常な振る舞いを検知する C A 時系列のモデリング 複数時系列の異常検知 B 時系列A 時系列A 異常な振る舞い 時系列B 時系列C 時系列B 時系列C 異常な振る舞いの時系列を検出 例1:トラフィック異常検知 例2:CM効果のノイズ除去 トラフィックA ケースA CM効果 トラフィックB ケースB トラフィックC 調査 ケースC 異常な振る舞いをしている 異常な振る舞いをしているケースを トラフィックの原因を調査する 除外して、CMの効果を算出する 85 2012年9月9日日曜日
  • 9. 活動例: 時系列解析と影響分析 TV Commercial Effects 時系列的な振る舞いの特徴から各KPIへのCMの影響度を算出 イベン CM時系列 ト 新規 登録 CM ARPP U ARPU 各KPIの時系列 その他 外部 継続率 要因 ケース 87 2012年9月9日日曜日
  • 10. AGENDA ■ 自己紹介 ■ Data Fusionとは ■ よく使われるデータ融合手法 ◆ Matching ◆ 潜在変数モデリング ◆ 回帰モデル ■ Data Fusionの仕組み ■ セミパラメトリックモデルによる融合 ◆ ディリクレ過程混合モデル ■ 参考資料 2012年9月9日日曜日
  • 11. Data Fusionとは 87 2012年9月9日日曜日
  • 12. Data Fusionとは 異なる複数のデータを 単一のデータに統合することで 87 2012年9月9日日曜日
  • 13. Data Fusionとは 異なる複数のデータを 単一のデータに統合することで 個別のデータからは得られない 複合的な情報を抽出し 87 2012年9月9日日曜日
  • 14. Data Fusionとは 異なる複数のデータを 単一のデータに統合することで 個別のデータからは得られない 複合的な情報を抽出し 予測や意思決定を支援する方法論 87 2012年9月9日日曜日
  • 15. Data Fusionとは 異なる複数のデータを単一のデータに統合し 個別のデータからは得られない、複合的な情報を抽出する データA データB データAとデータBの相関関係 データBで特定の値だったユーザのデータAの値の予測・補完 87 2012年9月9日日曜日
  • 16. Data Fusionの活用シーン 広告接触のデータと購買履歴のデータ 異なる対象者によるデータである事が多い 購買履歴データ 広告接触データ 2012年9月9日日曜日
  • 17. Data Fusionの活用シーン 広告接触データでの購買有無 購買データでの広告接触の有無 これらを予測・補完できれば、重要な示唆が得られる 購買履歴データ 広告接触データ ある広告を見たユーザーのうち、ある商品はどれだけ購入されたか どのような広告媒体にどのような情報を載せれば、より購入されるか ・・・ 87 2012年9月9日日曜日
  • 18. AGENDA ■ 自己紹介 ■ Data Fusionとは ■ よく使われるデータ融合手法 ◆ Matching ◆ 潜在変数モデリング ◆ 回帰モデル ■ Data Fusionの仕組み ■ セミパラメトリックモデルによる融合 ◆ ディリクレ過程混合モデル ■ 参考資料 2012年9月9日日曜日
  • 19. 類似度からのアプローチ 広告媒体への接触やある特性を有する商品の購入は ユーザーの属性に偏りが存在する 広告A 商品A 広告B 商品B 属性が似ている 属性は似てない 2012年9月9日日曜日
  • 20. 類似度からのアプローチ 属性が似ているユーザーは 接触する広告媒体や購入する商品が似ている 広告A 商品A 広告B 商品B 属性が似ている 属性は似てない 87 2012年9月9日日曜日
  • 21. Matching法 購買履歴データと広告接触データで 属性が似ている人でペアを作り、同一ユーザーと見なす 購買履歴データ 広告接触データ 商品A 広告A 買った 見た 商品A 広告A 買った 見た 2012年9月9日日曜日
  • 22. Rでの実行方法 MatchingパッケージのMatch関数でペアを抽出し 擬似的なシングルソースデータを作成する 割当変数 共変量 データAのindex データBのindex 87 2012年9月9日日曜日
  • 23. Matchingの問題点 87 2012年9月9日日曜日
  • 24. Matchingの問題点 測定誤差などによりバイアスが生じてしまい 推定精度があまり高くない 87 2012年9月9日日曜日
  • 25. Matchingの問題点 測定誤差などによりバイアスが生じてしまい 推定精度があまり高くない マッチングに利用しない対象者のデータが 無駄になるため、非常に非効率 87 2012年9月9日日曜日
  • 26. AGENDA ■ 自己紹介 ■ Data Fusionとは ■ よく使われるデータ融合手法 ◆ Matching ◆ 潜在変数モデリング ◆ 回帰モデル ■ Data Fusionの仕組み ■ セミパラメトリックモデルによる融合 ◆ ディリクレ過程混合モデル ■ 参考資料 2012年9月9日日曜日
  • 27. 因子分析モデル 購買有無・広告接触有無・属性 3つの変数の背後に共通の因子を仮定して予測を行う 共通因子 共通因子 購買有無 共変量 広告有無 購買有無 共変量 広告有無 共通因子 購買有無 共変量 広告有無 87 2012年9月9日日曜日
  • 28. 潜在クラスモデル 消費者市場のセグメンテーションと同じ概念 各潜在クラス内では広告接触や購入する商品が似ている 商品Aが2/3 広告Aが2/3 商品Bが1/3 購買履歴データ 広告接触データ 広告Bが1/3 潜在クラスA 潜在クラスA 商品A 広告A 商品B 潜在クラスA 広告A 商品A 広告B 2012年9月9日日曜日
  • 29. AGENDA ■ 自己紹介 ■ Data Fusionとは ■ よく使われるデータ融合手法 ◆ Matching ◆ 潜在変数モデリング ◆ 回帰モデル ■ Data Fusionの仕組み ■ セミパラメトリックモデルによる融合 ◆ ディリクレ過程混合モデル ■ 参考資料 2012年9月9日日曜日
  • 30. 回帰モデルによる融合 属性データを用いて直接購買の有無をモデリングする 2値変数の場合ロジスティック回帰が使われる 87 2012年9月9日日曜日
  • 31. Rでの実行方法 一般化線形モデルの関数glmを使って ロジスティック回帰分析を実行して予測する 87 2012年9月9日日曜日
  • 32. Rでの実行例: 使うデータ データセットlalondeを2分割してマルチソースデータを作成 NSW受講者の78年賃金有りの割合を予測する 87 2012年9月9日日曜日
  • 33. Rでの実行例: Data Fusionによる予測 Matchingとロジスティック回帰による Data Fusionの関数を定義 87 2012年9月9日日曜日
  • 34. Rでの実行例: Data Fusionによる予測 Matchingとロジスティック回帰の2つの手法で予測する サンプリングして100回実行 87 2012年9月9日日曜日
  • 35. Rによる実行結果 どちらも手法も値が希薄化が起きている バラツキは回帰モデルの方が小さい NSW受講者の78年賃金有りの比率の推定結果 87 2012年9月9日日曜日
  • 36. AGENDA ■ 自己紹介 ■ Data Fusionとは ■ よく使われるデータ融合手法 ◆ Matching ◆ 潜在変数モデリング ◆ 回帰モデル ■ Data Fusionの仕組み ■ セミパラメトリックモデルによる融合 ◆ ディリクレ過程混合モデル ■ 参考資料 2012年9月9日日曜日
  • 37. 欠測データとしてのData Fusion 購買履歴データと広告接触データは 他方のデータが欠測しているシングルソースデータ 欠測データとしてのData Fusion 購買履歴データ 市場調査データ 購買履歴 購買履歴データ  欠測  広告接触 欠測  広告接触データ  共変量 共通で得られている属性データ  2012年9月9日日曜日
  • 38. 欠測しているデータの予測分布 広告接触データで欠測している購買データの 予測分布を考える 87 2012年9月9日日曜日
  • 39. Data Fusionの前提条件① : ランダムな欠測 商品の購入と広告接触データ割当は依存していない 欠測はランダムに発生すると仮定出来る 購買と広告接触データへの割当は 依存していないので除外出来る 87 2012年9月9日日曜日
  • 40. Data Fusionの前提条件① : ランダムな欠測 商品の購入と広告接触データ割当は依存していない 欠測はランダムに発生すると仮定出来る 購買と広告接触データへの割当は 依存していないので除外出来る 87 2012年9月9日日曜日
  • 41. Data Fusionの前提条件① : ランダムな欠測 商品の購入と広告接触データ割当は依存していない 欠測はランダムに発生すると仮定出来る 購買と広告接触データへの割当は 依存していないので除外出来る 87 2012年9月9日日曜日
  • 42. Data Fusionの前提条件① : ランダムな欠測 商品の購入と広告接触データ割当は依存していない 欠測はランダムに発生すると仮定出来る 購買と広告接触データへの割当は 依存していないので除外出来る 87 2012年9月9日日曜日
  • 43. 欠測しているデータの予測分布 ある属性を条件付けた時の 購買有無と広告接触の同時分布が分かれば ある広告に接触した人がどれくらい購買しているかが分かる 87 2012年9月9日日曜日
  • 44. Data Fusionの前提条件② : 条件付き独立性 属性が似ていれば広告接触も似ていると仮定すると 属性を条件づけた購買履歴は広告に依存しない 87 2012年9月9日日曜日
  • 45. Data Fusionの前提条件② : 条件付き独立性 属性が似ていれば広告接触も似ていると仮定すると 属性を条件づけた購買履歴は広告に依存しない 87 2012年9月9日日曜日
  • 46. Data Fusionの前提条件② : 条件付き独立性 属性が似ていれば広告接触も似ていると仮定すると 属性を条件づけた購買履歴は広告に依存しない 87 2012年9月9日日曜日
  • 47. Data Fusionの前提条件が成り立つためには 条件付き独立性の仮定が成り立つためには 属性による購買有無の予測力が十分高い必要がある 87 2012年9月9日日曜日
  • 48. AGENDA ■ 自己紹介 ■ Data Fusionとは ■ よく使われるデータ融合手法 ◆ Matching ◆ 潜在変数モデリング ◆ 回帰モデル ■ Data Fusionの仕組み ■ セミパラメトリックモデルによる融合 ◆ ディリクレ過程混合モデル ■ 参考資料 2012年9月9日日曜日
  • 49. 混合モデルで説明力を上げる 通常の回帰モデルでは説明力が低い 混合モデルを利用することで説明力を上げる 混合回帰モデルのイメージ 図: http://chasen.org/~daiti-m/paper/ibis2008-npbayes-tutorial.pdf 87 2012年9月9日日曜日
  • 50. ディリクレ過程混合モデル 混合モデルにおいて要素数を事前に決めるのは難しい ディリクレ過程混合モデルは、要素数をデータから決定する 混合回帰モデルとディリクレ過程混合モデル 図: http://chasen.org/~daiti-m/paper/ibis2008-npbayes-tutorial.pdf 87 2012年9月9日日曜日
  • 51. AGENDA ■ 自己紹介 ■ Data Fusionとは ■ よく使われるデータ融合手法 ◆ Matching ◆ 潜在変数モデリング ◆ 回帰モデル ■ Data Fusionの仕組み ■ セミパラメトリックモデルによる融合 ◆ ディリクレ過程混合モデル ■ 参考資料 2012年9月9日日曜日
  • 52. 参考資料 ■調査観察データの統計科学 http://www.amazon.co.jp/dp/4000069721 ■data fusion についてのメモ - BOD http://d.hatena.ne.jp/dichika/20110907/1315359207 ■A Direct Approach to Data Fusion http://www.chicagobooth.edu/research/workshops/marketing/archive/ WorkshopPapers/Rossi.pdf ■IBIS 2008 企画セッション 「ノンパラメトリックベイズ」 http://chasen.org/ daiti-m/paper/ibis2008-npbayes-tutorial.pdf 2012年9月9日日曜日
  • 53. AGENDA ■ 自己紹介 ■ Data Fusionとは ■ よく使われるデータ融合手法 ◆ Matching ◆ 潜在変数モデリング ◆ 回帰モデル ■ Data Fusionの仕組み ■ セミパラメトリックモデルによる融合 ◆ ディリクレ過程混合モデル ■ 参考資料 2012年9月9日日曜日
  • 54. 次回以降の 発表者を募集しています! 導入セッション・初心者セッションも 絶賛募集中です! 87 2012年9月9日日曜日