SlideShare a Scribd company logo
1 of 41
TokyoR 初心者セッション




                Rでピボットテーブル


                    @yokkuns 里 洋平
                  yohei0511@gmail.com
                2013.01.26 第28回Tokyo.R


2013年1月26日土曜日
AGENDA

    ■ 自己紹介

    ■ ピボットテーブルって何?

    ■ Rでピボットテーブル

    ■ RStudioでHTMLレポート

    ■ デモ
2013年1月26日土曜日
AGENDA

    ■ 自己紹介

    ■ ピボットテーブルって何?

    ■ Rでピボットテーブル

    ■ RStudioでHTMLレポート

    ■ デモ
2013年1月26日土曜日
自己紹介

  ◆ 里 洋平(@yokkuns)


 ◆ 元Webエンジニアのデータサイエンティスト
      ・今は主にマーケティング周りを見てる



 ◆ 統計解析やデータマイニングをビジネスに適用
      ・時系列解析とか異常検知とか最適化とか

      ・いろんなモデルの構築


2013年1月26日土曜日
活動例: 勉強会の主催・執筆


                   Tokyo.R主催




                パッケージ本執筆しました!




2013年1月26日土曜日
活動例: 動画レコメンド

                閲覧されている動画の情報を用いておすすめ動画を表示する




2013年1月26日土曜日
活動例: 市場予測

                Web上の情報から市場予測




2013年1月26日土曜日
活動例: 異常検知
                              Anomaly detection

                    複数時系列から異常な振る舞いを検知する

                                                                            C
                                                                            A
        時系列のモデリング               複数時系列の異常検知                                  B

      時系列A                             時系列A

                                                                        異常な振る舞い
      時系列B


      時系列C                      時系列B          時系列C

                                 異常な振る舞いの時系列を検出




                例1:トラフィック異常検知                   例2:CM効果のノイズ除去

                    トラフィックA                          ケースA
                                                              CM効果
                    トラフィックB                          ケースB

                    トラフィックC      調査                  ケースC

                     異常な振る舞いをしている                    異常な振る舞いをしているケースを
                     トラフィックの原因を調査する                  除外して、CMの効果を算出する
                                                                                  85
2013年1月26日土曜日
活動例: 時系列解析と影響分析
                        TV Commercial Effects

                時系列的な振る舞いの特徴から各KPIへのCMの影響度を算出
                                                   イベン
                CM時系列                               ト

                                          新規
                                          登録


                              CM                   ARPP
                                                    U




                                          ARPU

            各KPIの時系列
                                                          その他
                                                           外部
                                   継続率
                                                           要因




                                                 ケース




                                                            87

2013年1月26日土曜日
新たな勉強会




          TokyoApache.Pig
          https://groups.google.com/group/tokyo_apache_pig




2013年1月26日土曜日
AGENDA

    ■ 自己紹介

    ■ ピボットテーブルって何?

    ■ Rでピボットテーブル

    ■ RStudioでHTMLレポート

    ■ デモ
2013年1月26日土曜日
Excelの最大の魅力:ピボットテーブル
      Excelには、ピボットテーブルという超強力な集計ツールがある
      マウスでポチポチっとやるだけで、簡単にクロス集計とか出来る




 Excel(エクセル)実用編:家計簿の作成(ピボットテーブルを使う)
 http://www.eurus.dti.ne.jp/yoneyama/Excel/jituyou/kake-pib.htm

2013年1月26日土曜日
Excelの最大の魅力:ピボットテーブル
      Excelには、ピボットテーブルという超強力な集計ツールがある
      マウスでポチポチっとやるだけで、簡単にクロス集計とか出来る




 Excel(エクセル)実用編:家計簿の作成(ピボットテーブルを使う)
 http://www.eurus.dti.ne.jp/yoneyama/Excel/jituyou/kake-pib.htm

2013年1月26日土曜日
Excelの最大の魅力:ピボットテーブル
      Excelには、ピボットテーブルという超強力な集計ツールがある
      マウスでポチポチっとやるだけで、簡単にクロス集計とか出来る




 Excel(エクセル)実用編:家計簿の作成(ピボットテーブルを使う)
 http://www.eurus.dti.ne.jp/yoneyama/Excel/jituyou/kake-pib.htm

2013年1月26日土曜日
ピボットテーブルの課題




2013年1月26日土曜日
ピボットテーブルの課題



        簡単だけど手作業になるので再現性が担保出来ない




2013年1月26日土曜日
ピボットテーブルの課題



        簡単だけど手作業になるので再現性が担保出来ない



  いろんな軸で切ったグラフとかを一気に見たい時とか面倒




2013年1月26日土曜日
ピボットテーブルの課題



        簡単だけど手作業になるので再現性が担保出来ない



  いろんな軸で切ったグラフとかを一気に見たい時とか面倒



                定常的に実行する事になったりすると面倒




2013年1月26日土曜日
RとRStudioで解決




  reshape2パッケージでピボットと同様に整形や集計が出来る


    HTML出力出来るので一気にグラフ見れるし、再現性も担保


                さらにRを使った統計解析を実行出来る




2013年1月26日土曜日
AGENDA

    ■ 自己紹介

    ■ ピボットテーブルって何?

    ■ Rでピボットテーブル

    ■ RStudioでHTMLレポート

    ■ デモ
2013年1月26日土曜日
参考資料
                @a_bicky さんによる素晴らしい資料があるので
                          こちらもご確認下さい




                  http://www.slideshare.net/abicky/r-10128090

2013年1月26日土曜日
Rでピボットテーブル: reshape2パッケージ

                ピボットテーブルと同じように整形や集約処理が出来る




                              melt
                                     A   variable   value
                                     1      B       100
        A          B     C
        1         100   300          1      C       300
        2         200   400   cast
                                     2      B       200

                                     2      C       400



2013年1月26日土曜日
reshape2パッケージ

     dcast関数とmelt関数の2つを用いてピボットテーブルを実現する


 dcast(data, formula, fun.aggregate = NULL, ..., margins = NULL,
   subset = NULL, fill = NULL, drop = TRUE, value.var = guess_value(data))


    fourmula: 整形の形式 行となる変数 列となる変数
    value.var: 集計対象となる変数




 melt(data, id.vars, measure.vars,variable.name = "variable", ...,
   na.rm = FALSE,value.name = "value")


    id.vars: idになるカラム名
    measure.vars: グループ変数になるカラム名




2013年1月26日土曜日
Rでピボットテーブル: データの集計

                行となる変数と列となる変数を指定して集約処理を行う




                   行~列 の形式で集約し         独自の関数を
                    その合計を算出           指定する事も出来る




2013年1月26日土曜日
Rでピボットテーブル: データの整形

     横に並んでいるデータをカラム名をグループ変数として縦長に整形




                  melt




2013年1月26日土曜日
AGENDA

    ■ 自己紹介

    ■ ピボットテーブルって何?

    ■ Rでピボットテーブル

    ■ RStudioでHTMLレポート

    ■ デモ
2013年1月26日土曜日
参考資料
                @wdkz さんによる素晴らしい資料があるので
                       こちらもご確認下さい




                http://www.slideshare.net/wdkz/rstudio-13866958

2013年1月26日土曜日
RStudioの導入: インストール
                       Rの総合開発環境(IDE)
                補完機能だけでなくレポート出力なども手軽に出来る




2013年1月26日土曜日
RStudioの導入: インストール
                http://www.rstudio.com/ からDownload
                       Desktop版とServer版がある




2013年1月26日土曜日
RStudioの導入: 画面構成
                        4分割の画面構成
                (エディタ・コンソール・workspace・その他)




2013年1月26日土曜日
RStudioの導入: エディタ画面
                Ctrl+Enter(MacはCommand+Enter)で実行
                         範囲を指定しての実行も可能




2013年1月26日土曜日
RStudioの導入: workspace
                現在定義されている変数や関数が表示され、
                   クリックすると中身が見れる




2013年1月26日土曜日
RStudioの導入: コンソール・その他
                コンソールは通常のコンソールと同じ
           その他にはファイル一覧やplot時にはグラフが表示される




2013年1月26日土曜日
RStudioの導入: Markdownでの記述
                    R Markdown形式で開発する事で
                データの解析手順と結果を1つのHTMLで出力出来る




2013年1月26日土曜日
RStudioの導入: Markdownでの記述
                 Markdownとは、シンプルな記法による記述で
                構造的に妥当なHTMLに変換するマークアップ言語




2013年1月26日土曜日
RStudioの導入: Markdownでの記述

                Markdownの記述例




2013年1月26日土曜日
RStudioの導入: HTMLレポート出力
                  knitHTMLを押すだけでHTMLに変換
                ローカル、またはサーバに保存する事が出来る




2013年1月26日土曜日
AGENDA

    ■ 自己紹介

    ■ ピボットテーブルって何?

    ■ Rでピボットテーブル

    ■ RStudioでHTMLレポート

    ■ デモ
2013年1月26日土曜日
デモ

2013年1月26日土曜日
AGENDA

    ■ 自己紹介

    ■ ピボットテーブルって何?

    ■ Rでピボットテーブル

    ■ RStudioでHTMLレポート

    ■ デモ
2013年1月26日土曜日
ご清聴ありがとうございました




2013年1月26日土曜日

More Related Content

What's hot

「速」を落とさないコードレビュー
「速」を落とさないコードレビュー「速」を落とさないコードレビュー
「速」を落とさないコードレビューTakafumi ONAKA
 
研究法(Claimとは)
研究法(Claimとは)研究法(Claimとは)
研究法(Claimとは)Jun Rekimoto
 
詳説データベース輪読会: 分散合意その2
詳説データベース輪読会: 分散合意その2詳説データベース輪読会: 分散合意その2
詳説データベース輪読会: 分散合意その2Sho Nakazono
 
傾向スコア:その概念とRによる実装
傾向スコア:その概念とRによる実装傾向スコア:その概念とRによる実装
傾向スコア:その概念とRによる実装takehikoihayashi
 
できる!並列・並行プログラミング
できる!並列・並行プログラミングできる!並列・並行プログラミング
できる!並列・並行プログラミングPreferred Networks
 
DDDとクリーンアーキテクチャでサーバーアプリケーションを作っている話
DDDとクリーンアーキテクチャでサーバーアプリケーションを作っている話DDDとクリーンアーキテクチャでサーバーアプリケーションを作っている話
DDDとクリーンアーキテクチャでサーバーアプリケーションを作っている話JustSystems Corporation
 
Linuxのsemaphoreとmutexを見る 
Linuxのsemaphoreとmutexを見る Linuxのsemaphoreとmutexを見る 
Linuxのsemaphoreとmutexを見る wata2ki
 
R Markdownによるドキュメント生成と バージョン管理入門
R Markdownによるドキュメント生成と バージョン管理入門R Markdownによるドキュメント生成と バージョン管理入門
R Markdownによるドキュメント生成と バージョン管理入門nocchi_airport
 
R を起動するその前に
R を起動するその前にR を起動するその前に
R を起動するその前にKosei ABE
 
マルチコアとネットワークスタックの高速化技法
マルチコアとネットワークスタックの高速化技法マルチコアとネットワークスタックの高速化技法
マルチコアとネットワークスタックの高速化技法Takuya ASADA
 
査読の仕組みと論文投稿上の対策
査読の仕組みと論文投稿上の対策査読の仕組みと論文投稿上の対策
査読の仕組みと論文投稿上の対策Takayuki Itoh
 
Rにおける大規模データ解析(第10回TokyoWebMining)
Rにおける大規模データ解析(第10回TokyoWebMining)Rにおける大規模データ解析(第10回TokyoWebMining)
Rにおける大規模データ解析(第10回TokyoWebMining)Shintaro Fukushima
 
その Pod 突然落ちても大丈夫ですか!?(OCHaCafe5 #5 実験!カオスエンジニアリング 発表資料)
その Pod 突然落ちても大丈夫ですか!?(OCHaCafe5 #5 実験!カオスエンジニアリング 発表資料)その Pod 突然落ちても大丈夫ですか!?(OCHaCafe5 #5 実験!カオスエンジニアリング 発表資料)
その Pod 突然落ちても大丈夫ですか!?(OCHaCafe5 #5 実験!カオスエンジニアリング 発表資料)NTT DATA Technology & Innovation
 
Yahoo! JAPANのプライベートRDBクラウドとマルチライター型 MySQL #dbts2017 #dbtsOSS
Yahoo! JAPANのプライベートRDBクラウドとマルチライター型 MySQL #dbts2017 #dbtsOSSYahoo! JAPANのプライベートRDBクラウドとマルチライター型 MySQL #dbts2017 #dbtsOSS
Yahoo! JAPANのプライベートRDBクラウドとマルチライター型 MySQL #dbts2017 #dbtsOSSYahoo!デベロッパーネットワーク
 
比例ハザードモデルはとってもtricky!
比例ハザードモデルはとってもtricky!比例ハザードモデルはとってもtricky!
比例ハザードモデルはとってもtricky!takehikoihayashi
 
生存時間分析の書き方
生存時間分析の書き方生存時間分析の書き方
生存時間分析の書き方Yasuyuki Okumura
 
~knitr+pandocではじめる~『R MarkdownでReproducible Research』
~knitr+pandocではじめる~『R MarkdownでReproducible Research』~knitr+pandocではじめる~『R MarkdownでReproducible Research』
~knitr+pandocではじめる~『R MarkdownでReproducible Research』Nagi Teramo
 

What's hot (20)

「速」を落とさないコードレビュー
「速」を落とさないコードレビュー「速」を落とさないコードレビュー
「速」を落とさないコードレビュー
 
研究法(Claimとは)
研究法(Claimとは)研究法(Claimとは)
研究法(Claimとは)
 
詳説データベース輪読会: 分散合意その2
詳説データベース輪読会: 分散合意その2詳説データベース輪読会: 分散合意その2
詳説データベース輪読会: 分散合意その2
 
傾向スコア:その概念とRによる実装
傾向スコア:その概念とRによる実装傾向スコア:その概念とRによる実装
傾向スコア:その概念とRによる実装
 
できる!並列・並行プログラミング
できる!並列・並行プログラミングできる!並列・並行プログラミング
できる!並列・並行プログラミング
 
DDDとクリーンアーキテクチャでサーバーアプリケーションを作っている話
DDDとクリーンアーキテクチャでサーバーアプリケーションを作っている話DDDとクリーンアーキテクチャでサーバーアプリケーションを作っている話
DDDとクリーンアーキテクチャでサーバーアプリケーションを作っている話
 
Linuxのsemaphoreとmutexを見る 
Linuxのsemaphoreとmutexを見る Linuxのsemaphoreとmutexを見る 
Linuxのsemaphoreとmutexを見る 
 
R Markdownによるドキュメント生成と バージョン管理入門
R Markdownによるドキュメント生成と バージョン管理入門R Markdownによるドキュメント生成と バージョン管理入門
R Markdownによるドキュメント生成と バージョン管理入門
 
R を起動するその前に
R を起動するその前にR を起動するその前に
R を起動するその前に
 
マルチコアとネットワークスタックの高速化技法
マルチコアとネットワークスタックの高速化技法マルチコアとネットワークスタックの高速化技法
マルチコアとネットワークスタックの高速化技法
 
査読の仕組みと論文投稿上の対策
査読の仕組みと論文投稿上の対策査読の仕組みと論文投稿上の対策
査読の仕組みと論文投稿上の対策
 
Rにおける大規模データ解析(第10回TokyoWebMining)
Rにおける大規模データ解析(第10回TokyoWebMining)Rにおける大規模データ解析(第10回TokyoWebMining)
Rにおける大規模データ解析(第10回TokyoWebMining)
 
その Pod 突然落ちても大丈夫ですか!?(OCHaCafe5 #5 実験!カオスエンジニアリング 発表資料)
その Pod 突然落ちても大丈夫ですか!?(OCHaCafe5 #5 実験!カオスエンジニアリング 発表資料)その Pod 突然落ちても大丈夫ですか!?(OCHaCafe5 #5 実験!カオスエンジニアリング 発表資料)
その Pod 突然落ちても大丈夫ですか!?(OCHaCafe5 #5 実験!カオスエンジニアリング 発表資料)
 
Yahoo! JAPANのプライベートRDBクラウドとマルチライター型 MySQL #dbts2017 #dbtsOSS
Yahoo! JAPANのプライベートRDBクラウドとマルチライター型 MySQL #dbts2017 #dbtsOSSYahoo! JAPANのプライベートRDBクラウドとマルチライター型 MySQL #dbts2017 #dbtsOSS
Yahoo! JAPANのプライベートRDBクラウドとマルチライター型 MySQL #dbts2017 #dbtsOSS
 
比例ハザードモデルはとってもtricky!
比例ハザードモデルはとってもtricky!比例ハザードモデルはとってもtricky!
比例ハザードモデルはとってもtricky!
 
生存時間分析の書き方
生存時間分析の書き方生存時間分析の書き方
生存時間分析の書き方
 
Hive on Tezのベストプラクティス
Hive on TezのベストプラクティスHive on Tezのベストプラクティス
Hive on Tezのベストプラクティス
 
論文の書き方入門 2017
論文の書き方入門 2017論文の書き方入門 2017
論文の書き方入門 2017
 
~knitr+pandocではじめる~『R MarkdownでReproducible Research』
~knitr+pandocではじめる~『R MarkdownでReproducible Research』~knitr+pandocではじめる~『R MarkdownでReproducible Research』
~knitr+pandocではじめる~『R MarkdownでReproducible Research』
 
Raft
RaftRaft
Raft
 

Similar to Rでピボットテーブル

Rでレポートメール
RでレポートメールRでレポートメール
RでレポートメールYohei Sato
 
Rで階層ベイズモデル
Rで階層ベイズモデルRで階層ベイズモデル
Rで階層ベイズモデルYohei Sato
 
傾向スコア解析とUplift Modelling
傾向スコア解析とUplift Modelling傾向スコア解析とUplift Modelling
傾向スコア解析とUplift ModellingYohei Sato
 
Uplift Modelling 入門(1)
Uplift Modelling 入門(1)Uplift Modelling 入門(1)
Uplift Modelling 入門(1)Yohei Sato
 
Tokyowebmining19 data fusion
Tokyowebmining19 data fusionTokyowebmining19 data fusion
Tokyowebmining19 data fusionYohei Sato
 
異常行動検出入門(改)
異常行動検出入門(改)異常行動検出入門(改)
異常行動検出入門(改)Yohei Sato
 
Complex network ws_percolation
Complex network ws_percolationComplex network ws_percolation
Complex network ws_percolationYohei Sato
 
Tokyor22 selection bias
Tokyor22 selection biasTokyor22 selection bias
Tokyor22 selection biasYohei Sato
 
Tokyor24 yokkuns
Tokyor24 yokkunsTokyor24 yokkuns
Tokyor24 yokkunsYohei Sato
 
時系列解析の使い方 - TokyoWebMining #17
時系列解析の使い方 - TokyoWebMining #17時系列解析の使い方 - TokyoWebMining #17
時系列解析の使い方 - TokyoWebMining #17horihorio
 
1時間で分かるSTA (Software Test Automation) #stac2014
1時間で分かるSTA (Software Test Automation) #stac20141時間で分かるSTA (Software Test Automation) #stac2014
1時間で分かるSTA (Software Test Automation) #stac2014Kazuhiro Suzuki
 
WI2研究会(公開用) “データ分析でよく使う前処理の整理と対処”
WI2研究会(公開用) “データ分析でよく使う前処理の整理と対処” WI2研究会(公開用) “データ分析でよく使う前処理の整理と対処”
WI2研究会(公開用) “データ分析でよく使う前処理の整理と対処” Hajime Sasaki
 
エンジニア必見!Sreへの第一歩
エンジニア必見!Sreへの第一歩エンジニア必見!Sreへの第一歩
エンジニア必見!Sreへの第一歩Takuya Tezuka
 
Bind Peek をもっと使おうぜ!(柴田 歩) - JPOUG Advent Calendar 2014(Day 5) -
Bind Peek をもっと使おうぜ!(柴田 歩) - JPOUG Advent Calendar 2014(Day 5) -Bind Peek をもっと使おうぜ!(柴田 歩) - JPOUG Advent Calendar 2014(Day 5) -
Bind Peek をもっと使おうぜ!(柴田 歩) - JPOUG Advent Calendar 2014(Day 5) -歩 柴田
 
異業種でのテスト自動化の実際
異業種でのテスト自動化の実際異業種でのテスト自動化の実際
異業種でのテスト自動化の実際Satsuki Urayama
 
ビジネス活用事例で学ぶデータサイエンス入門 #2
ビジネス活用事例で学ぶデータサイエンス入門 #2ビジネス活用事例で学ぶデータサイエンス入門 #2
ビジネス活用事例で学ぶデータサイエンス入門 #2you shimajiro
 
固定化か?最新化か?オプティマイザ統計の運用をもう一度考える。 -JPOUG Tech Talk Night #6-
固定化か?最新化か?オプティマイザ統計の運用をもう一度考える。 -JPOUG Tech Talk Night #6-固定化か?最新化か?オプティマイザ統計の運用をもう一度考える。 -JPOUG Tech Talk Night #6-
固定化か?最新化か?オプティマイザ統計の運用をもう一度考える。 -JPOUG Tech Talk Night #6-歩 柴田
 
SQLチューニング勉強会資料
SQLチューニング勉強会資料SQLチューニング勉強会資料
SQLチューニング勉強会資料Shinnosuke Akita
 
エンタープライズシステムにおけるテスト ~STE研究交流会 参加者の視点から ~
エンタープライズシステムにおけるテスト ~STE研究交流会 参加者の視点から ~エンタープライズシステムにおけるテスト ~STE研究交流会 参加者の視点から ~
エンタープライズシステムにおけるテスト ~STE研究交流会 参加者の視点から ~Kazuhiro Suzuki
 

Similar to Rでピボットテーブル (20)

Rでレポートメール
RでレポートメールRでレポートメール
Rでレポートメール
 
Rで階層ベイズモデル
Rで階層ベイズモデルRで階層ベイズモデル
Rで階層ベイズモデル
 
傾向スコア解析とUplift Modelling
傾向スコア解析とUplift Modelling傾向スコア解析とUplift Modelling
傾向スコア解析とUplift Modelling
 
Uplift Modelling 入門(1)
Uplift Modelling 入門(1)Uplift Modelling 入門(1)
Uplift Modelling 入門(1)
 
Tokyowebmining19 data fusion
Tokyowebmining19 data fusionTokyowebmining19 data fusion
Tokyowebmining19 data fusion
 
異常行動検出入門(改)
異常行動検出入門(改)異常行動検出入門(改)
異常行動検出入門(改)
 
Complex network ws_percolation
Complex network ws_percolationComplex network ws_percolation
Complex network ws_percolation
 
Tokyor22 selection bias
Tokyor22 selection biasTokyor22 selection bias
Tokyor22 selection bias
 
Tokyor24 yokkuns
Tokyor24 yokkunsTokyor24 yokkuns
Tokyor24 yokkuns
 
JasstTokyo2017
JasstTokyo2017JasstTokyo2017
JasstTokyo2017
 
時系列解析の使い方 - TokyoWebMining #17
時系列解析の使い方 - TokyoWebMining #17時系列解析の使い方 - TokyoWebMining #17
時系列解析の使い方 - TokyoWebMining #17
 
1時間で分かるSTA (Software Test Automation) #stac2014
1時間で分かるSTA (Software Test Automation) #stac20141時間で分かるSTA (Software Test Automation) #stac2014
1時間で分かるSTA (Software Test Automation) #stac2014
 
WI2研究会(公開用) “データ分析でよく使う前処理の整理と対処”
WI2研究会(公開用) “データ分析でよく使う前処理の整理と対処” WI2研究会(公開用) “データ分析でよく使う前処理の整理と対処”
WI2研究会(公開用) “データ分析でよく使う前処理の整理と対処”
 
エンジニア必見!Sreへの第一歩
エンジニア必見!Sreへの第一歩エンジニア必見!Sreへの第一歩
エンジニア必見!Sreへの第一歩
 
Bind Peek をもっと使おうぜ!(柴田 歩) - JPOUG Advent Calendar 2014(Day 5) -
Bind Peek をもっと使おうぜ!(柴田 歩) - JPOUG Advent Calendar 2014(Day 5) -Bind Peek をもっと使おうぜ!(柴田 歩) - JPOUG Advent Calendar 2014(Day 5) -
Bind Peek をもっと使おうぜ!(柴田 歩) - JPOUG Advent Calendar 2014(Day 5) -
 
異業種でのテスト自動化の実際
異業種でのテスト自動化の実際異業種でのテスト自動化の実際
異業種でのテスト自動化の実際
 
ビジネス活用事例で学ぶデータサイエンス入門 #2
ビジネス活用事例で学ぶデータサイエンス入門 #2ビジネス活用事例で学ぶデータサイエンス入門 #2
ビジネス活用事例で学ぶデータサイエンス入門 #2
 
固定化か?最新化か?オプティマイザ統計の運用をもう一度考える。 -JPOUG Tech Talk Night #6-
固定化か?最新化か?オプティマイザ統計の運用をもう一度考える。 -JPOUG Tech Talk Night #6-固定化か?最新化か?オプティマイザ統計の運用をもう一度考える。 -JPOUG Tech Talk Night #6-
固定化か?最新化か?オプティマイザ統計の運用をもう一度考える。 -JPOUG Tech Talk Night #6-
 
SQLチューニング勉強会資料
SQLチューニング勉強会資料SQLチューニング勉強会資料
SQLチューニング勉強会資料
 
エンタープライズシステムにおけるテスト ~STE研究交流会 参加者の視点から ~
エンタープライズシステムにおけるテスト ~STE研究交流会 参加者の視点から ~エンタープライズシステムにおけるテスト ~STE研究交流会 参加者の視点から ~
エンタープライズシステムにおけるテスト ~STE研究交流会 参加者の視点から ~
 

More from Yohei Sato

Tokyor60 r data_science_part1
Tokyor60 r data_science_part1Tokyor60 r data_science_part1
Tokyor60 r data_science_part1Yohei Sato
 
Tokyor60 opening
Tokyor60 openingTokyor60 opening
Tokyor60 openingYohei Sato
 
Tokyor45 カーネル多変量解析第2章 カーネル多変量解析の仕組み
Tokyor45 カーネル多変量解析第2章 カーネル多変量解析の仕組みTokyor45 カーネル多変量解析第2章 カーネル多変量解析の仕組み
Tokyor45 カーネル多変量解析第2章 カーネル多変量解析の仕組みYohei Sato
 
Tokyor42_r_datamining_18
Tokyor42_r_datamining_18Tokyor42_r_datamining_18
Tokyor42_r_datamining_18Yohei Sato
 
Tokyor42 ggplot2
Tokyor42 ggplot2Tokyor42 ggplot2
Tokyor42 ggplot2Yohei Sato
 
Tokyor39 yokkuns
Tokyor39 yokkunsTokyor39 yokkuns
Tokyor39 yokkunsYohei Sato
 
EasyHtmlReportの紹介
EasyHtmlReportの紹介EasyHtmlReportの紹介
EasyHtmlReportの紹介Yohei Sato
 
20131206 japan r
20131206 japan r20131206 japan r
20131206 japan rYohei Sato
 
Tokyor35 人工データの発生
Tokyor35 人工データの発生Tokyor35 人工データの発生
Tokyor35 人工データの発生Yohei Sato
 
ドリコムの分析環境とデータサイエンス活用事例
ドリコムの分析環境とデータサイエンス活用事例ドリコムの分析環境とデータサイエンス活用事例
ドリコムの分析環境とデータサイエンス活用事例Yohei Sato
 
R言語で学ぶマーケティング分析 競争ポジショニング戦略
R言語で学ぶマーケティング分析 競争ポジショニング戦略R言語で学ぶマーケティング分析 競争ポジショニング戦略
R言語で学ぶマーケティング分析 競争ポジショニング戦略Yohei Sato
 
第3回Japan rパネルディスカッション
第3回Japan rパネルディスカッション第3回Japan rパネルディスカッション
第3回Japan rパネルディスカッションYohei Sato
 
Tokyor26 data fusion
Tokyor26 data fusionTokyor26 data fusion
Tokyor26 data fusionYohei Sato
 
エンジニアサポート新年会2012 データマイニングcross 第1部
エンジニアサポート新年会2012 データマイニングcross 第1部エンジニアサポート新年会2012 データマイニングcross 第1部
エンジニアサポート新年会2012 データマイニングcross 第1部Yohei Sato
 
Japan r2 lt_yokkuns
Japan r2 lt_yokkunsJapan r2 lt_yokkuns
Japan r2 lt_yokkunsYohei Sato
 
Japan r2 tokyor
Japan r2 tokyorJapan r2 tokyor
Japan r2 tokyorYohei Sato
 
Japan r2 opening
Japan r2 openingJapan r2 opening
Japan r2 openingYohei Sato
 
Rで学ぶ 傾向スコア解析入門 - 無作為割り当てが出来ない時の因果効果推定 -
Rで学ぶ 傾向スコア解析入門 - 無作為割り当てが出来ない時の因果効果推定 -Rで学ぶ 傾向スコア解析入門 - 無作為割り当てが出来ない時の因果効果推定 -
Rで学ぶ 傾向スコア解析入門 - 無作為割り当てが出来ない時の因果効果推定 -Yohei Sato
 
異常行動検出入門 – 行動データ時系列のデータマイニング –
異常行動検出入門 – 行動データ時系列のデータマイニング –異常行動検出入門 – 行動データ時系列のデータマイニング –
異常行動検出入門 – 行動データ時系列のデータマイニング –Yohei Sato
 
Tokyo r15 異常検知入門
Tokyo r15 異常検知入門Tokyo r15 異常検知入門
Tokyo r15 異常検知入門Yohei Sato
 

More from Yohei Sato (20)

Tokyor60 r data_science_part1
Tokyor60 r data_science_part1Tokyor60 r data_science_part1
Tokyor60 r data_science_part1
 
Tokyor60 opening
Tokyor60 openingTokyor60 opening
Tokyor60 opening
 
Tokyor45 カーネル多変量解析第2章 カーネル多変量解析の仕組み
Tokyor45 カーネル多変量解析第2章 カーネル多変量解析の仕組みTokyor45 カーネル多変量解析第2章 カーネル多変量解析の仕組み
Tokyor45 カーネル多変量解析第2章 カーネル多変量解析の仕組み
 
Tokyor42_r_datamining_18
Tokyor42_r_datamining_18Tokyor42_r_datamining_18
Tokyor42_r_datamining_18
 
Tokyor42 ggplot2
Tokyor42 ggplot2Tokyor42 ggplot2
Tokyor42 ggplot2
 
Tokyor39 yokkuns
Tokyor39 yokkunsTokyor39 yokkuns
Tokyor39 yokkuns
 
EasyHtmlReportの紹介
EasyHtmlReportの紹介EasyHtmlReportの紹介
EasyHtmlReportの紹介
 
20131206 japan r
20131206 japan r20131206 japan r
20131206 japan r
 
Tokyor35 人工データの発生
Tokyor35 人工データの発生Tokyor35 人工データの発生
Tokyor35 人工データの発生
 
ドリコムの分析環境とデータサイエンス活用事例
ドリコムの分析環境とデータサイエンス活用事例ドリコムの分析環境とデータサイエンス活用事例
ドリコムの分析環境とデータサイエンス活用事例
 
R言語で学ぶマーケティング分析 競争ポジショニング戦略
R言語で学ぶマーケティング分析 競争ポジショニング戦略R言語で学ぶマーケティング分析 競争ポジショニング戦略
R言語で学ぶマーケティング分析 競争ポジショニング戦略
 
第3回Japan rパネルディスカッション
第3回Japan rパネルディスカッション第3回Japan rパネルディスカッション
第3回Japan rパネルディスカッション
 
Tokyor26 data fusion
Tokyor26 data fusionTokyor26 data fusion
Tokyor26 data fusion
 
エンジニアサポート新年会2012 データマイニングcross 第1部
エンジニアサポート新年会2012 データマイニングcross 第1部エンジニアサポート新年会2012 データマイニングcross 第1部
エンジニアサポート新年会2012 データマイニングcross 第1部
 
Japan r2 lt_yokkuns
Japan r2 lt_yokkunsJapan r2 lt_yokkuns
Japan r2 lt_yokkuns
 
Japan r2 tokyor
Japan r2 tokyorJapan r2 tokyor
Japan r2 tokyor
 
Japan r2 opening
Japan r2 openingJapan r2 opening
Japan r2 opening
 
Rで学ぶ 傾向スコア解析入門 - 無作為割り当てが出来ない時の因果効果推定 -
Rで学ぶ 傾向スコア解析入門 - 無作為割り当てが出来ない時の因果効果推定 -Rで学ぶ 傾向スコア解析入門 - 無作為割り当てが出来ない時の因果効果推定 -
Rで学ぶ 傾向スコア解析入門 - 無作為割り当てが出来ない時の因果効果推定 -
 
異常行動検出入門 – 行動データ時系列のデータマイニング –
異常行動検出入門 – 行動データ時系列のデータマイニング –異常行動検出入門 – 行動データ時系列のデータマイニング –
異常行動検出入門 – 行動データ時系列のデータマイニング –
 
Tokyo r15 異常検知入門
Tokyo r15 異常検知入門Tokyo r15 異常検知入門
Tokyo r15 異常検知入門
 

Rでピボットテーブル

  • 1. TokyoR 初心者セッション Rでピボットテーブル @yokkuns 里 洋平 yohei0511@gmail.com 2013.01.26 第28回Tokyo.R 2013年1月26日土曜日
  • 2. AGENDA ■ 自己紹介 ■ ピボットテーブルって何? ■ Rでピボットテーブル ■ RStudioでHTMLレポート ■ デモ 2013年1月26日土曜日
  • 3. AGENDA ■ 自己紹介 ■ ピボットテーブルって何? ■ Rでピボットテーブル ■ RStudioでHTMLレポート ■ デモ 2013年1月26日土曜日
  • 4. 自己紹介 ◆ 里 洋平(@yokkuns) ◆ 元Webエンジニアのデータサイエンティスト ・今は主にマーケティング周りを見てる ◆ 統計解析やデータマイニングをビジネスに適用 ・時系列解析とか異常検知とか最適化とか ・いろんなモデルの構築 2013年1月26日土曜日
  • 5. 活動例: 勉強会の主催・執筆 Tokyo.R主催 パッケージ本執筆しました! 2013年1月26日土曜日
  • 6. 活動例: 動画レコメンド 閲覧されている動画の情報を用いておすすめ動画を表示する 2013年1月26日土曜日
  • 7. 活動例: 市場予測 Web上の情報から市場予測 2013年1月26日土曜日
  • 8. 活動例: 異常検知 Anomaly detection 複数時系列から異常な振る舞いを検知する C A 時系列のモデリング 複数時系列の異常検知 B 時系列A 時系列A 異常な振る舞い 時系列B 時系列C 時系列B 時系列C 異常な振る舞いの時系列を検出 例1:トラフィック異常検知 例2:CM効果のノイズ除去 トラフィックA ケースA CM効果 トラフィックB ケースB トラフィックC 調査 ケースC 異常な振る舞いをしている 異常な振る舞いをしているケースを トラフィックの原因を調査する 除外して、CMの効果を算出する 85 2013年1月26日土曜日
  • 9. 活動例: 時系列解析と影響分析 TV Commercial Effects 時系列的な振る舞いの特徴から各KPIへのCMの影響度を算出 イベン CM時系列 ト 新規 登録 CM ARPP U ARPU 各KPIの時系列 その他 外部 継続率 要因 ケース 87 2013年1月26日土曜日
  • 10. 新たな勉強会 TokyoApache.Pig https://groups.google.com/group/tokyo_apache_pig 2013年1月26日土曜日
  • 11. AGENDA ■ 自己紹介 ■ ピボットテーブルって何? ■ Rでピボットテーブル ■ RStudioでHTMLレポート ■ デモ 2013年1月26日土曜日
  • 12. Excelの最大の魅力:ピボットテーブル Excelには、ピボットテーブルという超強力な集計ツールがある マウスでポチポチっとやるだけで、簡単にクロス集計とか出来る Excel(エクセル)実用編:家計簿の作成(ピボットテーブルを使う) http://www.eurus.dti.ne.jp/yoneyama/Excel/jituyou/kake-pib.htm 2013年1月26日土曜日
  • 13. Excelの最大の魅力:ピボットテーブル Excelには、ピボットテーブルという超強力な集計ツールがある マウスでポチポチっとやるだけで、簡単にクロス集計とか出来る Excel(エクセル)実用編:家計簿の作成(ピボットテーブルを使う) http://www.eurus.dti.ne.jp/yoneyama/Excel/jituyou/kake-pib.htm 2013年1月26日土曜日
  • 14. Excelの最大の魅力:ピボットテーブル Excelには、ピボットテーブルという超強力な集計ツールがある マウスでポチポチっとやるだけで、簡単にクロス集計とか出来る Excel(エクセル)実用編:家計簿の作成(ピボットテーブルを使う) http://www.eurus.dti.ne.jp/yoneyama/Excel/jituyou/kake-pib.htm 2013年1月26日土曜日
  • 16. ピボットテーブルの課題 簡単だけど手作業になるので再現性が担保出来ない 2013年1月26日土曜日
  • 17. ピボットテーブルの課題 簡単だけど手作業になるので再現性が担保出来ない いろんな軸で切ったグラフとかを一気に見たい時とか面倒 2013年1月26日土曜日
  • 18. ピボットテーブルの課題 簡単だけど手作業になるので再現性が担保出来ない いろんな軸で切ったグラフとかを一気に見たい時とか面倒 定常的に実行する事になったりすると面倒 2013年1月26日土曜日
  • 19. RとRStudioで解決 reshape2パッケージでピボットと同様に整形や集計が出来る HTML出力出来るので一気にグラフ見れるし、再現性も担保 さらにRを使った統計解析を実行出来る 2013年1月26日土曜日
  • 20. AGENDA ■ 自己紹介 ■ ピボットテーブルって何? ■ Rでピボットテーブル ■ RStudioでHTMLレポート ■ デモ 2013年1月26日土曜日
  • 21. 参考資料 @a_bicky さんによる素晴らしい資料があるので こちらもご確認下さい http://www.slideshare.net/abicky/r-10128090 2013年1月26日土曜日
  • 22. Rでピボットテーブル: reshape2パッケージ ピボットテーブルと同じように整形や集約処理が出来る melt A variable value 1 B 100 A B C 1 100 300 1 C 300 2 200 400 cast 2 B 200 2 C 400 2013年1月26日土曜日
  • 23. reshape2パッケージ dcast関数とmelt関数の2つを用いてピボットテーブルを実現する dcast(data, formula, fun.aggregate = NULL, ..., margins = NULL, subset = NULL, fill = NULL, drop = TRUE, value.var = guess_value(data)) fourmula: 整形の形式 行となる変数 列となる変数 value.var: 集計対象となる変数 melt(data, id.vars, measure.vars,variable.name = "variable", ..., na.rm = FALSE,value.name = "value") id.vars: idになるカラム名 measure.vars: グループ変数になるカラム名 2013年1月26日土曜日
  • 24. Rでピボットテーブル: データの集計 行となる変数と列となる変数を指定して集約処理を行う 行~列 の形式で集約し 独自の関数を その合計を算出 指定する事も出来る 2013年1月26日土曜日
  • 25. Rでピボットテーブル: データの整形 横に並んでいるデータをカラム名をグループ変数として縦長に整形 melt 2013年1月26日土曜日
  • 26. AGENDA ■ 自己紹介 ■ ピボットテーブルって何? ■ Rでピボットテーブル ■ RStudioでHTMLレポート ■ デモ 2013年1月26日土曜日
  • 27. 参考資料 @wdkz さんによる素晴らしい資料があるので こちらもご確認下さい http://www.slideshare.net/wdkz/rstudio-13866958 2013年1月26日土曜日
  • 28. RStudioの導入: インストール Rの総合開発環境(IDE) 補完機能だけでなくレポート出力なども手軽に出来る 2013年1月26日土曜日
  • 29. RStudioの導入: インストール http://www.rstudio.com/ からDownload Desktop版とServer版がある 2013年1月26日土曜日
  • 30. RStudioの導入: 画面構成 4分割の画面構成 (エディタ・コンソール・workspace・その他) 2013年1月26日土曜日
  • 31. RStudioの導入: エディタ画面 Ctrl+Enter(MacはCommand+Enter)で実行 範囲を指定しての実行も可能 2013年1月26日土曜日
  • 32. RStudioの導入: workspace 現在定義されている変数や関数が表示され、 クリックすると中身が見れる 2013年1月26日土曜日
  • 33. RStudioの導入: コンソール・その他 コンソールは通常のコンソールと同じ その他にはファイル一覧やplot時にはグラフが表示される 2013年1月26日土曜日
  • 34. RStudioの導入: Markdownでの記述 R Markdown形式で開発する事で データの解析手順と結果を1つのHTMLで出力出来る 2013年1月26日土曜日
  • 35. RStudioの導入: Markdownでの記述 Markdownとは、シンプルな記法による記述で 構造的に妥当なHTMLに変換するマークアップ言語 2013年1月26日土曜日
  • 36. RStudioの導入: Markdownでの記述 Markdownの記述例 2013年1月26日土曜日
  • 37. RStudioの導入: HTMLレポート出力 knitHTMLを押すだけでHTMLに変換 ローカル、またはサーバに保存する事が出来る 2013年1月26日土曜日
  • 38. AGENDA ■ 自己紹介 ■ ピボットテーブルって何? ■ Rでピボットテーブル ■ RStudioでHTMLレポート ■ デモ 2013年1月26日土曜日
  • 40. AGENDA ■ 自己紹介 ■ ピボットテーブルって何? ■ Rでピボットテーブル ■ RStudioでHTMLレポート ■ デモ 2013年1月26日土曜日