データサイエンティスト必見！M-1グランプリ

2014/8/30
第42回R勉強会@東京(#TokyoR)

出場者1: R (R_baseと表記)
パッケージを使わずに
勝負してやるぜ！
人からはピュアだね
って言われます。

出場者2: R (R_ｐｋｇと表記)
最強パッケージと名高い
“dplyr”と”data.table”
を使って勝負だ！
連続の必殺技！ %>%
高速！ fread()

出場者3: PostgreSQL
データベースの力を
見せつけてやる！
伝統のSQL文！

出場者4: NYSOL（「にそる」と読みます）
日本で誕生した
オープンソースです。
Mコマンドは、%>%ではなく
UNIXのpipeを使います

出演料と時間の都合により
以上の４出場者が参加します

ルールはシンプル！
CSVデータ
前処理処理後の
CSVデータ
所要時間が最も短い出場者が勝者！
所要時間：
各CSVデータにいくつかの前処理
を行い、処理後
のCSVデータを保存するまでにかかる時間の合計

前処理1: 列選択（selColと表記）
A B C D
列選択
（B,C）
B C

前処理2: 行選択（selRowと表記）
A B C D
あ
い
う
あ
A B C D
あ
あ
行選択
（B=あ）

前処理3: 列計算（aggregatingと表記）
A B C D
8 2
5 1
3 1
列計算
(E=B-C)
A B C D E
8 2 6
5 1 4
3 1 2

前処理4: 並び替え（sortingと表記）
A B C D
あ2
い1
う1
あ1
並び替え
（B,C）
A B C D
あ1
あ2
い1
う1

前処理5: 複合（mixと表記）
A B C D
あ2
い1
う1
あ1
複合
（前処理1〜4）
B C E
あ1 2
あ2 6

オープン＆生データ
まず、同じ形式の複数
データを一つに結合。
（データ件数は1億以上）
http://stat-computing.org/dataexpo/2009/

結合先からランダム抽出（CSVデータは6つ）
データ件数容量
1 千件約100 KB
2 一万件約1 MB
3 十万件約10 MB
4 百万件約100 MB
5 一千万件約1GB
6 一億件約10GB
列数（カラム）はすべて29個（違いはデータ件数）

テスト環境
OS: OSX Version 10.9.4 (MacBook Pro)
CPU: 2.4 GHz Intel Core i7 (4 Cores)
Memory: 16GB （1600MHz DDR3）
Storage: SSD
Software:
R version 3.0.3
PostgreSQL version 9.3.4
NYSOL version 1.1

会場の皆さんに
お聞きします

勝者と予想される番号の
お手もとのスイッチオン！
１：R （パッケージなし）
２：R （パッケージあり）
３：PostgreSQL
４：NYSOL

勝者と予想される番号の
お手もとのスイッチオン！
１：R （パッケージなし）
２：R （パッケージあり）
３：PostgreSQL
４：NYSOL
結果
・・・０%
・・・45%
・・・5%
・・・50%

データ件数容量
1 千件約100 KB
2 一万件約1 MB
3 十万件約10 MB
4 百万件約100 MB
5 一千万件約1GB
6 一億件約10GB

0.5秒
R_base R_pkg PostgreSQL NYSOL

列選択行選択列計算並び替え複合
0.5秒

1秒

5秒
1秒

45秒
5秒

5分
1分

1時間
30分
10分
Rは一部の前処理が
メモリエラーで計測不可

まとめと考察
NYSOLは合計30個（6データ、5前処理）のテストにおいてす
べて最速であった。
PostgreSQLはNYSOLに次いで高速であったものの、今回は
インデックス機能を使用していないため、さらなるパフォーマン
スの改善余地が残っている。
R_baseとR_pkgを比較すると、データが10MB以上になれば
R_pkgの所要時間が改善され、特に1GBでの複合(Mix)は早
い。データが10MBより小さければR_baseの方が早くなる傾
向が見られた。
Rにもスクリプトの記載方法、パッケージ選択などによるパ
フォーマンス改善余地が残っている。（magrittr?pipeR?）

次回のM-1グランプリ
本家のM-1（漫才）は復活が決定しました
（2015年夏）
M-1（前処理）はどなたか次回開催をご検
討ください（今回のプログラムは公開します）
どちらの開催もお楽しみに♪

列選択
（B,C）
R_base
data <- read.csv("input.csv", header = TRUE, stringsAsFactors = FALSE )
write.csv(data[ , c("B","C")], ”output.csv", row.names = FALSE )
R_pkg
library(data.table)
library(dplyr)
data <- fread("input.csv", header = TRUE, stringsAsFactors = FALSE, showProgress = FALSE )
write.table(select(data, B,C), "output.csv", sep=",", row.names = FALSE )
PostgreSQL
set search_path=schema_name;
COPY table_name FROM 'input.csv' WITH CSV HEADER NULL AS 'NA';
COPY (select B,C from table_name) TO 'output.csv' WITH CSV HEADER NULL AS 'NA';
truncate table table_name;
NYSOL
mcut f=B,C i=input.csv o=output.csv
※入力ファイルのパスなど一部を省略して記載しています。

行選択
（B=あ）
R_base
write.csv(data[ data$B == 'あ' , ], "output.csv", row.names = FALSE )
R_pkg
library(data.table)
library(dplyr)
setkey(data, B)
write.table(filter(data, B == " あ" ), "output.csv", sep=",", row.names = FALSE )
PostgreSQL
COPY (select * from table_name where B=‘あ’) TO 'output.csv' WITH CSV HEADER NULL AS 'NA';
NYSOL
mselstr f=B v=あi=input.csv o=output.csv

列計算
(E=B-C)
R_base
write.csv(transform(data, E = B - C), "output.csv", row.names = FALSE )
R_pkg
library(data.table)
library(dplyr)
write.table(mutate(data, E = B- C) , "output.csv", sep=",", row.names = FALSE )
PostgreSQL
COPY (select *,B-C as E from table_name) TO 'output.csv' WITH CSV HEADER NULL AS 'NA';
NYSOL
mcal c=‘${B}-${C}' a=E i=input.csv o=output.csv

並び替え
（B,C）
R_base
write.csv( data[order(data$B,data$C), ], "output.csv", row.names = FALSE )
R_pkg
library(data.table)
library(dplyr)
write.table(arrange(data,B,C), "output.csv", sep=",", row.names = FALSE )
PostgreSQL
COPY (select * from table_name order by B,C) TO 'output.csv' WITH CSV HEADER NULL AS 'NA';
NYSOL
msortf f=B,C i=input.csv o=output.csv

複合
（1〜4）
R_base
data <- read.csv("input.csv, header = TRUE, stringsAsFactors = FALSE )
data.trn <- transform(data[data$B == 'あ'' , c("B","C")], E = B - C)
write.csv(data.trn[order(data.trn$B,data.trn$C),], "output.csv", row.names = FALSE )
R_pkg
library(data.table)
library(dplyr)
data.mixed =
data %>%
select(B,C) %>%
filter(B == "あ" ) %>%
mutate(E = B - C) %>%
arrange(B,C)
write.table(data.mixed, "output.csv", sep=",", row.names = FALSE )

複合
（1〜4）
PostgreSQL
COPY (select B,C , B-C as E from table_name where B="あ" order by B,C) TO 'output.csv' WITH CSV
HEADER NULL AS 'NA';
NYSOL
mcut f=B,C i=input.csv |
mselstr f=B v=あ|
mcal c=‘${B}-${C}' a=E |
msortf f=B,C o=output.csv

千件（約100KB）
一万件（約1MB）
十万件（約10MB）
所要時間：単位（秒）

百万件（約100MB）
一千万件（約1GB）
一億件（約10GB）
所要時間：単位（秒）

データサイエンティスト必見！M-1グランプリ

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Viewers also liked

Viewers also liked (20)

Similar to データサイエンティスト必見！M-1グランプリ

Similar to データサイエンティスト必見！M-1グランプリ (20)

More from Satoshi Kitajima

More from Satoshi Kitajima (8)

データサイエンティスト必見！M-1グランプリ

Editor's Notes