Submit Search
Upload
ビッグデータとioDriveの夕べ:ドリコムのデータ分析環境のお話
•
Download as PPTX, PDF
•
28 likes
•
5,035 views
Tokoroten Nakayama
Follow
俺は分散を捨てるぞジョジョー http://atnd.org/events/34146
Read less
Read more
Technology
Report
Share
Report
Share
1 of 21
Download now
Recommended
ソーシャルゲームにレコメンドエンジンを導入した話
ソーシャルゲームにレコメンドエンジンを導入した話
Tokoroten Nakayama
Rubyの会社でPythonistaが3ヶ月生き延びた話
Rubyの会社でPythonistaが3ヶ月生き延びた話
Tokoroten Nakayama
introduction of WalB
introduction of WalB
MITSUNARI Shigeo
商用DBからPostgreSQLへ まず知っておいて欲しいまとめ
商用DBからPostgreSQLへ まず知っておいて欲しいまとめ
Kosuke Kida
WalBの紹介
WalBの紹介
Takashi Hoshino
超簡単!? Punycode 変換 ~国際化・日本語ドメイン~
超簡単!? Punycode 変換 ~国際化・日本語ドメイン~
@ otsuka752
[Postgre sql9.4新機能]レプリケーション・スロットの活用
[Postgre sql9.4新機能]レプリケーション・スロットの活用
Kosuke Kida
MongoDB3.2の紹介
MongoDB3.2の紹介
Tetsutaro Watanabe
Recommended
ソーシャルゲームにレコメンドエンジンを導入した話
ソーシャルゲームにレコメンドエンジンを導入した話
Tokoroten Nakayama
Rubyの会社でPythonistaが3ヶ月生き延びた話
Rubyの会社でPythonistaが3ヶ月生き延びた話
Tokoroten Nakayama
introduction of WalB
introduction of WalB
MITSUNARI Shigeo
商用DBからPostgreSQLへ まず知っておいて欲しいまとめ
商用DBからPostgreSQLへ まず知っておいて欲しいまとめ
Kosuke Kida
WalBの紹介
WalBの紹介
Takashi Hoshino
超簡単!? Punycode 変換 ~国際化・日本語ドメイン~
超簡単!? Punycode 変換 ~国際化・日本語ドメイン~
@ otsuka752
[Postgre sql9.4新機能]レプリケーション・スロットの活用
[Postgre sql9.4新機能]レプリケーション・スロットの活用
Kosuke Kida
MongoDB3.2の紹介
MongoDB3.2の紹介
Tetsutaro Watanabe
ビッグデータ活用とサーバー基盤
ビッグデータ活用とサーバー基盤
日本ヒューレット・パッカード株式会社
PGXのレスポンスとリソース消費
PGXのレスポンスとリソース消費
Tatsumi Akinori
20170312 r言語環境構築&dplyr ハンズオン
20170312 r言語環境構築&dplyr ハンズオン
Nobuaki Oshiro
Hadoop/AI基盤における考慮点、PoCの進め方、基盤構成例
Hadoop/AI基盤における考慮点、PoCの進め方、基盤構成例
日本ヒューレット・パッカード株式会社
MapReduce/YARNの仕組みを知る
MapReduce/YARNの仕組みを知る
日本ヒューレット・パッカード株式会社
AI・HPC・ビッグデータで利用される分散ファイルシステムを知る
AI・HPC・ビッグデータで利用される分散ファイルシステムを知る
日本ヒューレット・パッカード株式会社
Hadoop基盤を知る
Hadoop基盤を知る
日本ヒューレット・パッカード株式会社
Db tech showcase2015 how to replicate between clusters
Db tech showcase2015 how to replicate between clusters
Hiroaki Kubota
HDFS vs. MapR Filesystem
HDFS vs. MapR Filesystem
日本ヒューレット・パッカード株式会社
Osc2011 Do
Osc2011 Do
Kazuhisa Hara
Embulkを活用したログ管理システム
Embulkを活用したログ管理システム
Akihiro Ikezoe
コンテナーによるIT基盤変革 - IT infrastructure transformation -
コンテナーによるIT基盤変革 - IT infrastructure transformation -
日本ヒューレット・パッカード株式会社
Apache Hadoopを改めて知る
Apache Hadoopを改めて知る
日本ヒューレット・パッカード株式会社
MongoDBを用いたソーシャルアプリのログ解析 〜解析基盤構築からフロントUIまで、MongoDBを最大限に活用する〜
MongoDBを用いたソーシャルアプリのログ解析 〜解析基盤構築からフロントUIまで、MongoDBを最大限に活用する〜
Takahiro Inoue
日本語:Mongo dbに於けるシャーディングについて
日本語:Mongo dbに於けるシャーディングについて
ippei_suzuki
20161127 doradora09 japanr2016_lt
20161127 doradora09 japanr2016_lt
Nobuaki Oshiro
Hadoop, NoSQL, GlusterFSの概要
Hadoop, NoSQL, GlusterFSの概要
日本ヒューレット・パッカード株式会社
噛み砕いてKafka Streams #kafkajp
噛み砕いてKafka Streams #kafkajp
Yahoo!デベロッパーネットワーク
10分で分かるLinuxブロックレイヤ
10分で分かるLinuxブロックレイヤ
Takashi Hoshino
遊休リソースを用いた相同性検索処理の並列化とその評価
遊休リソースを用いた相同性検索処理の並列化とその評価
Satoshi Nagayasu
データ分析グループの組織編制とその課題 マーケティングにおけるKPI設計の失敗例 ABテストの活用と、機械学習の導入 #CWT2016
データ分析グループの組織編制とその課題 マーケティングにおけるKPI設計の失敗例 ABテストの活用と、機械学習の導入 #CWT2016
Tokoroten Nakayama
スマホマーケットの概要と、マーケティングの失敗例と改善 (アナリティクス アソシエーション 特別セミナー)
スマホマーケットの概要と、マーケティングの失敗例と改善 (アナリティクス アソシエーション 特別セミナー)
Tokoroten Nakayama
More Related Content
What's hot
ビッグデータ活用とサーバー基盤
ビッグデータ活用とサーバー基盤
日本ヒューレット・パッカード株式会社
PGXのレスポンスとリソース消費
PGXのレスポンスとリソース消費
Tatsumi Akinori
20170312 r言語環境構築&dplyr ハンズオン
20170312 r言語環境構築&dplyr ハンズオン
Nobuaki Oshiro
Hadoop/AI基盤における考慮点、PoCの進め方、基盤構成例
Hadoop/AI基盤における考慮点、PoCの進め方、基盤構成例
日本ヒューレット・パッカード株式会社
MapReduce/YARNの仕組みを知る
MapReduce/YARNの仕組みを知る
日本ヒューレット・パッカード株式会社
AI・HPC・ビッグデータで利用される分散ファイルシステムを知る
AI・HPC・ビッグデータで利用される分散ファイルシステムを知る
日本ヒューレット・パッカード株式会社
Hadoop基盤を知る
Hadoop基盤を知る
日本ヒューレット・パッカード株式会社
Db tech showcase2015 how to replicate between clusters
Db tech showcase2015 how to replicate between clusters
Hiroaki Kubota
HDFS vs. MapR Filesystem
HDFS vs. MapR Filesystem
日本ヒューレット・パッカード株式会社
Osc2011 Do
Osc2011 Do
Kazuhisa Hara
Embulkを活用したログ管理システム
Embulkを活用したログ管理システム
Akihiro Ikezoe
コンテナーによるIT基盤変革 - IT infrastructure transformation -
コンテナーによるIT基盤変革 - IT infrastructure transformation -
日本ヒューレット・パッカード株式会社
Apache Hadoopを改めて知る
Apache Hadoopを改めて知る
日本ヒューレット・パッカード株式会社
MongoDBを用いたソーシャルアプリのログ解析 〜解析基盤構築からフロントUIまで、MongoDBを最大限に活用する〜
MongoDBを用いたソーシャルアプリのログ解析 〜解析基盤構築からフロントUIまで、MongoDBを最大限に活用する〜
Takahiro Inoue
日本語:Mongo dbに於けるシャーディングについて
日本語:Mongo dbに於けるシャーディングについて
ippei_suzuki
20161127 doradora09 japanr2016_lt
20161127 doradora09 japanr2016_lt
Nobuaki Oshiro
Hadoop, NoSQL, GlusterFSの概要
Hadoop, NoSQL, GlusterFSの概要
日本ヒューレット・パッカード株式会社
噛み砕いてKafka Streams #kafkajp
噛み砕いてKafka Streams #kafkajp
Yahoo!デベロッパーネットワーク
10分で分かるLinuxブロックレイヤ
10分で分かるLinuxブロックレイヤ
Takashi Hoshino
遊休リソースを用いた相同性検索処理の並列化とその評価
遊休リソースを用いた相同性検索処理の並列化とその評価
Satoshi Nagayasu
What's hot
(20)
ビッグデータ活用とサーバー基盤
ビッグデータ活用とサーバー基盤
PGXのレスポンスとリソース消費
PGXのレスポンスとリソース消費
20170312 r言語環境構築&dplyr ハンズオン
20170312 r言語環境構築&dplyr ハンズオン
Hadoop/AI基盤における考慮点、PoCの進め方、基盤構成例
Hadoop/AI基盤における考慮点、PoCの進め方、基盤構成例
MapReduce/YARNの仕組みを知る
MapReduce/YARNの仕組みを知る
AI・HPC・ビッグデータで利用される分散ファイルシステムを知る
AI・HPC・ビッグデータで利用される分散ファイルシステムを知る
Hadoop基盤を知る
Hadoop基盤を知る
Db tech showcase2015 how to replicate between clusters
Db tech showcase2015 how to replicate between clusters
HDFS vs. MapR Filesystem
HDFS vs. MapR Filesystem
Osc2011 Do
Osc2011 Do
Embulkを活用したログ管理システム
Embulkを活用したログ管理システム
コンテナーによるIT基盤変革 - IT infrastructure transformation -
コンテナーによるIT基盤変革 - IT infrastructure transformation -
Apache Hadoopを改めて知る
Apache Hadoopを改めて知る
MongoDBを用いたソーシャルアプリのログ解析 〜解析基盤構築からフロントUIまで、MongoDBを最大限に活用する〜
MongoDBを用いたソーシャルアプリのログ解析 〜解析基盤構築からフロントUIまで、MongoDBを最大限に活用する〜
日本語:Mongo dbに於けるシャーディングについて
日本語:Mongo dbに於けるシャーディングについて
20161127 doradora09 japanr2016_lt
20161127 doradora09 japanr2016_lt
Hadoop, NoSQL, GlusterFSの概要
Hadoop, NoSQL, GlusterFSの概要
噛み砕いてKafka Streams #kafkajp
噛み砕いてKafka Streams #kafkajp
10分で分かるLinuxブロックレイヤ
10分で分かるLinuxブロックレイヤ
遊休リソースを用いた相同性検索処理の並列化とその評価
遊休リソースを用いた相同性検索処理の並列化とその評価
Viewers also liked
データ分析グループの組織編制とその課題 マーケティングにおけるKPI設計の失敗例 ABテストの活用と、機械学習の導入 #CWT2016
データ分析グループの組織編制とその課題 マーケティングにおけるKPI設計の失敗例 ABテストの活用と、機械学習の導入 #CWT2016
Tokoroten Nakayama
スマホマーケットの概要と、マーケティングの失敗例と改善 (アナリティクス アソシエーション 特別セミナー)
スマホマーケットの概要と、マーケティングの失敗例と改善 (アナリティクス アソシエーション 特別セミナー)
Tokoroten Nakayama
BattleField3に見る自己表現としてのゲームプレイ
BattleField3に見る自己表現としてのゲームプレイ
Tokoroten Nakayama
失敗から学ぶデータ分析グループのチームマネジメント変遷
失敗から学ぶデータ分析グループのチームマネジメント変遷
Tokoroten Nakayama
失敗から学ぶデータ分析グループのチームマネジメント変遷 (デブサミ2016) #devsumi
失敗から学ぶデータ分析グループのチームマネジメント変遷 (デブサミ2016) #devsumi
Tokoroten Nakayama
情報処理とは何か あとbigdataとか
情報処理とは何か あとbigdataとか
Tokoroten Nakayama
機械学習ビジネス研究会(未踏研究会)
機械学習ビジネス研究会(未踏研究会)
Tokoroten Nakayama
ヒューレットパッカード社の社員の離職リスク予測 第一回機械学習ビジネス研究会 #ml_business
ヒューレットパッカード社の社員の離職リスク予測 第一回機械学習ビジネス研究会 #ml_business
Tokoroten Nakayama
DAUを評価指標から捨てた会社の話 #tokyowebmining
DAUを評価指標から捨てた会社の話 #tokyowebmining
Tokoroten Nakayama
特徴ベクトル変換器を作った話 #dogenzakalt
特徴ベクトル変換器を作った話 #dogenzakalt
Tokoroten Nakayama
特徴ベクトル変換器を作った話
特徴ベクトル変換器を作った話
Tokoroten Nakayama
プロダクション環境でオンラインで機械学習を動かすにあたってツライ話 #MLCT
プロダクション環境でオンラインで機械学習を動かすにあたってツライ話 #MLCT
Tokoroten Nakayama
jubatusのECサイトへの適応 #jubatus_hackathon
jubatusのECサイトへの適応 #jubatus_hackathon
Tokoroten Nakayama
レベルを上げて物理で殴れ、Fuzzing入門 #pyfes
レベルを上げて物理で殴れ、Fuzzing入門 #pyfes
Tokoroten Nakayama
Muroto for ps vita
Muroto for ps vita
Tokoroten Nakayama
たのしいうぇっぶくろーら #pyfes
たのしいうぇっぶくろーら #pyfes
Tokoroten Nakayama
Argosの紹介 #x86study
Argosの紹介 #x86study
Tokoroten Nakayama
ゲーム事業×データ分析 ドリコムにおける組織と仕事の組み立て方
ゲーム事業×データ分析 ドリコムにおける組織と仕事の組み立て方
Hisahiko Shiraishi
20130727 ソシャゲkpi分析 tokyowebmining28_izawa_up
20130727 ソシャゲkpi分析 tokyowebmining28_izawa_up
正志 井澤
決定版:サービスの盛り上がり具合をユーザの数(DAU)から読み解く方法
決定版:サービスの盛り上がり具合をユーザの数(DAU)から読み解く方法
Daisuke Nogami
Viewers also liked
(20)
データ分析グループの組織編制とその課題 マーケティングにおけるKPI設計の失敗例 ABテストの活用と、機械学習の導入 #CWT2016
データ分析グループの組織編制とその課題 マーケティングにおけるKPI設計の失敗例 ABテストの活用と、機械学習の導入 #CWT2016
スマホマーケットの概要と、マーケティングの失敗例と改善 (アナリティクス アソシエーション 特別セミナー)
スマホマーケットの概要と、マーケティングの失敗例と改善 (アナリティクス アソシエーション 特別セミナー)
BattleField3に見る自己表現としてのゲームプレイ
BattleField3に見る自己表現としてのゲームプレイ
失敗から学ぶデータ分析グループのチームマネジメント変遷
失敗から学ぶデータ分析グループのチームマネジメント変遷
失敗から学ぶデータ分析グループのチームマネジメント変遷 (デブサミ2016) #devsumi
失敗から学ぶデータ分析グループのチームマネジメント変遷 (デブサミ2016) #devsumi
情報処理とは何か あとbigdataとか
情報処理とは何か あとbigdataとか
機械学習ビジネス研究会(未踏研究会)
機械学習ビジネス研究会(未踏研究会)
ヒューレットパッカード社の社員の離職リスク予測 第一回機械学習ビジネス研究会 #ml_business
ヒューレットパッカード社の社員の離職リスク予測 第一回機械学習ビジネス研究会 #ml_business
DAUを評価指標から捨てた会社の話 #tokyowebmining
DAUを評価指標から捨てた会社の話 #tokyowebmining
特徴ベクトル変換器を作った話 #dogenzakalt
特徴ベクトル変換器を作った話 #dogenzakalt
特徴ベクトル変換器を作った話
特徴ベクトル変換器を作った話
プロダクション環境でオンラインで機械学習を動かすにあたってツライ話 #MLCT
プロダクション環境でオンラインで機械学習を動かすにあたってツライ話 #MLCT
jubatusのECサイトへの適応 #jubatus_hackathon
jubatusのECサイトへの適応 #jubatus_hackathon
レベルを上げて物理で殴れ、Fuzzing入門 #pyfes
レベルを上げて物理で殴れ、Fuzzing入門 #pyfes
Muroto for ps vita
Muroto for ps vita
たのしいうぇっぶくろーら #pyfes
たのしいうぇっぶくろーら #pyfes
Argosの紹介 #x86study
Argosの紹介 #x86study
ゲーム事業×データ分析 ドリコムにおける組織と仕事の組み立て方
ゲーム事業×データ分析 ドリコムにおける組織と仕事の組み立て方
20130727 ソシャゲkpi分析 tokyowebmining28_izawa_up
20130727 ソシャゲkpi分析 tokyowebmining28_izawa_up
決定版:サービスの盛り上がり具合をユーザの数(DAU)から読み解く方法
決定版:サービスの盛り上がり具合をユーザの数(DAU)から読み解く方法
Similar to ビッグデータとioDriveの夕べ:ドリコムのデータ分析環境のお話
EmbulkとDigdagとデータ分析基盤と
EmbulkとDigdagとデータ分析基盤と
Toru Takahashi
EmbulkとDigdagとデータ分析基盤と
EmbulkとDigdagとデータ分析基盤と
Toru Takahashi
動画共有ツール
動画共有ツール
tamtam180
Prestoで実現するインタラクティブクエリ - dbtech showcase 2014 Tokyo
Prestoで実現するインタラクティブクエリ - dbtech showcase 2014 Tokyo
Treasure Data, Inc.
[db tech showcase Tokyo 2014] D33: Prestoで実現するインタラクティブクエリ by トレジャーデータ株式会社 斉藤太郎
[db tech showcase Tokyo 2014] D33: Prestoで実現するインタラクティブクエリ by トレジャーデータ株式会社 斉藤太郎
Insight Technology, Inc.
osoljp201105_ZFSjiman_nslope
osoljp201105_ZFSjiman_nslope
Noriyasu Sakaue
qpstudy 2014.04 ハードウェア設計の勘所
qpstudy 2014.04 ハードウェア設計の勘所
Takeshi HASEGAWA
ゆるふわLinux-HA 〜PostgreSQL編〜
ゆるふわLinux-HA 〜PostgreSQL編〜
Taro Matsuzawa
Hadoop事始め
Hadoop事始め
You&I
Cloudera大阪セミナー 20130219
Cloudera大阪セミナー 20130219
Cloudera Japan
WALをバックアップとレプリケーションに使う方法
WALをバックアップとレプリケーションに使う方法
Takashi Hoshino
Scalable Cooperative File Caching with RDMA-Based Directory Management
Scalable Cooperative File Caching with RDMA-Based Directory Management
Junya Arai
ヤフーを支えるフラッシュストレージ
ヤフーを支えるフラッシュストレージ
Yahoo!デベロッパーネットワーク
マイニング探検会#10
マイニング探検会#10
Yoji Kiyota
Impala + Kudu を用いたデータウェアハウス構築の勘所 (仮)
Impala + Kudu を用いたデータウェアハウス構築の勘所 (仮)
Cloudera Japan
今注目のSpark SQL、知っておきたいその性能とは 20151209 OSC Enterprise
今注目のSpark SQL、知っておきたいその性能とは 20151209 OSC Enterprise
YusukeKuramata
PDF版 世界中のゲーム分析をしてきたPlayFabが大進化!一緒に裏側の最新データ探索の仕組みを覗いてみよう Db tech showcase2020
PDF版 世界中のゲーム分析をしてきたPlayFabが大進化!一緒に裏側の最新データ探索の仕組みを覗いてみよう Db tech showcase2020
Daisuke Masubuchi
OSSとクラウドによるコンピューティングモデルの変化
OSSとクラウドによるコンピューティングモデルの変化
Nobuyori Takahashi
Dragon: A Distributed Object Storage at Yahoo! JAPAN (WebDB Forum 2017)
Dragon: A Distributed Object Storage at Yahoo! JAPAN (WebDB Forum 2017)
Yahoo!デベロッパーネットワーク
Gmo media.inc 第9回西日本ossの普及を考える会
Gmo media.inc 第9回西日本ossの普及を考える会
Dai Utsui
Similar to ビッグデータとioDriveの夕べ:ドリコムのデータ分析環境のお話
(20)
EmbulkとDigdagとデータ分析基盤と
EmbulkとDigdagとデータ分析基盤と
EmbulkとDigdagとデータ分析基盤と
EmbulkとDigdagとデータ分析基盤と
動画共有ツール
動画共有ツール
Prestoで実現するインタラクティブクエリ - dbtech showcase 2014 Tokyo
Prestoで実現するインタラクティブクエリ - dbtech showcase 2014 Tokyo
[db tech showcase Tokyo 2014] D33: Prestoで実現するインタラクティブクエリ by トレジャーデータ株式会社 斉藤太郎
[db tech showcase Tokyo 2014] D33: Prestoで実現するインタラクティブクエリ by トレジャーデータ株式会社 斉藤太郎
osoljp201105_ZFSjiman_nslope
osoljp201105_ZFSjiman_nslope
qpstudy 2014.04 ハードウェア設計の勘所
qpstudy 2014.04 ハードウェア設計の勘所
ゆるふわLinux-HA 〜PostgreSQL編〜
ゆるふわLinux-HA 〜PostgreSQL編〜
Hadoop事始め
Hadoop事始め
Cloudera大阪セミナー 20130219
Cloudera大阪セミナー 20130219
WALをバックアップとレプリケーションに使う方法
WALをバックアップとレプリケーションに使う方法
Scalable Cooperative File Caching with RDMA-Based Directory Management
Scalable Cooperative File Caching with RDMA-Based Directory Management
ヤフーを支えるフラッシュストレージ
ヤフーを支えるフラッシュストレージ
マイニング探検会#10
マイニング探検会#10
Impala + Kudu を用いたデータウェアハウス構築の勘所 (仮)
Impala + Kudu を用いたデータウェアハウス構築の勘所 (仮)
今注目のSpark SQL、知っておきたいその性能とは 20151209 OSC Enterprise
今注目のSpark SQL、知っておきたいその性能とは 20151209 OSC Enterprise
PDF版 世界中のゲーム分析をしてきたPlayFabが大進化!一緒に裏側の最新データ探索の仕組みを覗いてみよう Db tech showcase2020
PDF版 世界中のゲーム分析をしてきたPlayFabが大進化!一緒に裏側の最新データ探索の仕組みを覗いてみよう Db tech showcase2020
OSSとクラウドによるコンピューティングモデルの変化
OSSとクラウドによるコンピューティングモデルの変化
Dragon: A Distributed Object Storage at Yahoo! JAPAN (WebDB Forum 2017)
Dragon: A Distributed Object Storage at Yahoo! JAPAN (WebDB Forum 2017)
Gmo media.inc 第9回西日本ossの普及を考える会
Gmo media.inc 第9回西日本ossの普及を考える会
More from Tokoroten Nakayama
ラボラトリーオートメーションのためのソフトウェア思想教育(非プログラマ―が知っておくべきプログラミングの本質)
ラボラトリーオートメーションのためのソフトウェア思想教育(非プログラマ―が知っておくべきプログラミングの本質)
Tokoroten Nakayama
事業の進展とデータマネジメント体制の進歩(+プレトタイプの話)
事業の進展とデータマネジメント体制の進歩(+プレトタイプの話)
Tokoroten Nakayama
ビジネスパーソンのためのDX入門講座エッセンス版
ビジネスパーソンのためのDX入門講座エッセンス版
Tokoroten Nakayama
DXとかDevOpsとかのなんかいい感じのやつ 富士通TechLive
DXとかDevOpsとかのなんかいい感じのやつ 富士通TechLive
Tokoroten Nakayama
チャットコミュニケーションの問題と心理的安全性の課題 #EOF2019
チャットコミュニケーションの問題と心理的安全性の課題 #EOF2019
Tokoroten Nakayama
心理的安全性の構造 デブサミ2019夏 structure of psychological safety
心理的安全性の構造 デブサミ2019夏 structure of psychological safety
Tokoroten Nakayama
心理的安全性と、Veinの紹介 Psychological safety and introduction of Vein
心理的安全性と、Veinの紹介 Psychological safety and introduction of Vein
Tokoroten Nakayama
なぜコンピュータを学ばなければならないのか 21世紀の君主論
なぜコンピュータを学ばなければならないのか 21世紀の君主論
Tokoroten Nakayama
データマイニングの話詰め合わせ
データマイニングの話詰め合わせ
Tokoroten Nakayama
データサイエンティスト養成読本の解説+書き忘れたこと
データサイエンティスト養成読本の解説+書き忘れたこと
Tokoroten Nakayama
機械学習の精度と売上の関係
機械学習の精度と売上の関係
Tokoroten Nakayama
難易度ボラタリティグラフという分析手法
難易度ボラタリティグラフという分析手法
Tokoroten Nakayama
インターネット上の情報発信手段の変遷 情報発信の簡易化
インターネット上の情報発信手段の変遷 情報発信の簡易化
Tokoroten Nakayama
More from Tokoroten Nakayama
(13)
ラボラトリーオートメーションのためのソフトウェア思想教育(非プログラマ―が知っておくべきプログラミングの本質)
ラボラトリーオートメーションのためのソフトウェア思想教育(非プログラマ―が知っておくべきプログラミングの本質)
事業の進展とデータマネジメント体制の進歩(+プレトタイプの話)
事業の進展とデータマネジメント体制の進歩(+プレトタイプの話)
ビジネスパーソンのためのDX入門講座エッセンス版
ビジネスパーソンのためのDX入門講座エッセンス版
DXとかDevOpsとかのなんかいい感じのやつ 富士通TechLive
DXとかDevOpsとかのなんかいい感じのやつ 富士通TechLive
チャットコミュニケーションの問題と心理的安全性の課題 #EOF2019
チャットコミュニケーションの問題と心理的安全性の課題 #EOF2019
心理的安全性の構造 デブサミ2019夏 structure of psychological safety
心理的安全性の構造 デブサミ2019夏 structure of psychological safety
心理的安全性と、Veinの紹介 Psychological safety and introduction of Vein
心理的安全性と、Veinの紹介 Psychological safety and introduction of Vein
なぜコンピュータを学ばなければならないのか 21世紀の君主論
なぜコンピュータを学ばなければならないのか 21世紀の君主論
データマイニングの話詰め合わせ
データマイニングの話詰め合わせ
データサイエンティスト養成読本の解説+書き忘れたこと
データサイエンティスト養成読本の解説+書き忘れたこと
機械学習の精度と売上の関係
機械学習の精度と売上の関係
難易度ボラタリティグラフという分析手法
難易度ボラタリティグラフという分析手法
インターネット上の情報発信手段の変遷 情報発信の簡易化
インターネット上の情報発信手段の変遷 情報発信の簡易化
Recently uploaded
SOPを理解する 2024/04/19 の勉強会で発表されたものです
SOPを理解する 2024/04/19 の勉強会で発表されたものです
iPride Co., Ltd.
論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A survey
Toru Tamaki
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
Ryo Sasaki
TSAL operation mechanism and circuit diagram.pdf
TSAL operation mechanism and circuit diagram.pdf
taisei2219
スマートフォンを用いた新生児あやし動作の教示システム
スマートフォンを用いた新生児あやし動作の教示システム
sugiuralab
論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNet
Toru Tamaki
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
Toru Tamaki
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Yuma Ohgami
Postman LT Fukuoka_Quick Prototype_By Daniel
Postman LT Fukuoka_Quick Prototype_By Daniel
danielhu54
Recently uploaded
(9)
SOPを理解する 2024/04/19 の勉強会で発表されたものです
SOPを理解する 2024/04/19 の勉強会で発表されたものです
論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A survey
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
TSAL operation mechanism and circuit diagram.pdf
TSAL operation mechanism and circuit diagram.pdf
スマートフォンを用いた新生児あやし動作の教示システム
スマートフォンを用いた新生児あやし動作の教示システム
論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Postman LT Fukuoka_Quick Prototype_By Daniel
Postman LT Fukuoka_Quick Prototype_By Daniel
ビッグデータとioDriveの夕べ:ドリコムのデータ分析環境のお話
1.
ドリコムのデータ分析環境のお 話
ところてん @tokoroten
2.
合わせて読みたい • 第2回 ioDrive+MySQL勉強会
@外道父 ioDriveの世界 へようこそ – http://www.slideshare.net/GedowFather/welcome-to- iodrive-world • ActiveRecord Turntable – ドリコム内製のDBの水平分割ミドルウェア – http://www.slideshare.net/drecom/activerecordturntab le • ソーシャルゲームにレコメンドエンジンを導入した話 – http://www.slideshare.net/TokorotenNakayama/ss- 15111004
3.
自己紹介 • ところてん@Drecom –
データ分析グループ – 高機能雑用 • R&D&火消し&データ分析&企画 • 最近、インフラ業務が外れた – 定額働きたい放題プラン、意識の高い社 畜 – Pythonista – awkかわいいよawk – Rubyは読めるけど書けない • 注)DrecomはRailsの会社です 3
4.
ドリコムのデータ分析の概要 • 言語 –
Hadoop、hive、sh、R、SPSS、Knime、Python • 環境 – 分析用の専用サーバ*2(1.2TBのFIO搭載) – データ収集、分析用Hadoopクラスタ • Impalaを本番投入準備中 • 仕事 – ゲームのバランスチェック、KPI設計、継続率、 収益予測、テキストマイニング、広告効果計測 4
5.
ドリコムのデータ分析の構成例
Webサーバ 数十台 ActiveRecord Turntable ユーザIDごとに水平分割 M-DB1 M-DB2 M-DB3 M-DB4 M-DB5 マスター5台 (FIO搭載) S-DB1S S-DB2 S-DB3 S-DB4 S-DB5 スレーブ5台 (FIO搭載) Fluentd 定期的にDBのダンプを取得 Fuse-HDFS FIOを搭載した分析用サーバ ログサーバ (HDFS) 1.2TBのFIO、16コア、メモリ 32GB HDFSから必要なログを収集
6.
データ分析の人的問題 • 全部を満たすのは難しい –統計分析能力(必須)
–ゲームそのものに対する理解 –データ抽出、前処理能力 –機械学習、マイニング –可視化 –並列処理、分散処理(hadoop) 6
7.
分析のトレードオフ • おれは分散をやめるぞジョ
ジョーー!! 画像省略
8.
ソーシャルゲームのデータ特性 • データ量はたかが知れてる –
アクセスログ、一日数十GB – DBのダンプ、数百GB • ゲームの仕様変更が頻繁 – あまりに古い物を参照しても仕方ない – 三ヶ月前のログは比較しづらい • 短期間の莫大な量のデータを解析する必 要 • 分散に向かない解析が必要なことも
9.
hadoopのデータ特性、思想 • Hadoopは無限のストレージに無限の計算リ
ソースを利用して価値を生み出すシステム • データは経年劣化しないことが前提 – 遺伝子情報 – ウェブページのスナップショット – etc… • ソーシャルゲームのデータ特性とは相性が 悪い – ソーシャルゲームのデータは経年劣化する – 二週間に一度、大規模なアップデート
10.
分析のトレードオフ • Hadoopで分散より、スクリプト言語 –
分散処理のデバッグの時間が惜しい • PDCAは三日程度 • 一日リリースが遅れるとXXXX万円の機会損失 – ゲームごとにスキーマが異なる – スキーマは更新で頻繁に変わる – 小さい処理ではHadoopのオーバーヘッドが 重たい – KnimeやSPSSなどの高度なツールが使える – FIOが早い、FIOが早い、FIOが早い
11.
データ分析のワークフロー • サービスのSlaveにクエリを投げて、
DBのスナップショットをFIO上に取得 • fuse-hdfsでマウントされたHDFSにログ データを問い合わせ – 何度もアクセスして負荷が激しい場合はFIO上 に再配置 • スクリプト言語でゴリゴリ処理 • 結果をRやExcelで可視化
12.
データ分析の運用フロー • 分析チームが分析用サーバでデータ
分析 • 定常化する必要がある場合は、イン フラ部に依頼、 – Hiveバッチ化、hadoopバッチ化 – スクリプトを渡して運用を依頼 • 分析用サーバはよく落ちる(無茶をするの で) – 分析のための中間データの出力を依頼
13.
Bigdataはどこで生まれるのか? • データが生まれるのは運用の現場 研究
開発 運用 ログデータ • 分析者がログデータを手に入れるには現 場との信頼関係が必須 – 大企業では信頼関係が構築しづらい
14.
自主規制
15.
分析のための組織構造 •
基本的に社員はすべてのデータが見 れる – 組織が近いので、やり取りが迅速 – 分析者はアプリ開発者の真横に座る ソーシャルゲーム事業部 戦国フ ユーザ ビック ソード× データ 陰陽師 ロン 基盤部 サポー リマン ソード 分析 ティア ト アプリケーションごとの開発・運用ライ
16.
ソーシャルゲームにおけるPDCA • ログデータと開発が近いとPDCAが回
る 基盤部 Research Plan 開発ライン 開発ライ Action Do 開発ライ ン ン Check データ分析
17.
FIOってホントに早いの?実験 • 実験環境、分析用PC –
Hiveクエリ – Fuse-hdfs – FIO – SASドライブ(3台のストライピング) – 開発用ノートPC • 対象データ – あるアプリの一日分のアクセスログ • gz圧縮 1.3GB 生データ 5.6GB
18.
ユニークユーザカウント • コマンド –
time zcat *.gz | awk -F"t" '{print $3}' | sort -u | wc – l – hive : select count(distinct userid)~ group by userid • 結果 – Hive 72秒 – Fuse-hdfs 89秒 – FIO 70秒 (解凍済みだと46秒) – SASドライブ 71秒(解凍済みだと46秒) – 開発用ノートPC 140秒
19.
zcatでファイルを舐めるだけ • コマンド –
time zcat *.gz > /dev/null • 結果 – Fuse-hdfs 76秒 – FIO 57秒 (解凍済みだと1.55秒) – SASドライブ 57秒(解凍済みだと1.54 秒) – 開発用ノートPC 解凍済みで98秒
20.
原因はCPU • 結果 –
FIO≒SAS(3台ストライピング)>hive >fuse-hdfs>>>ローカル • CPUが足を引っ張る – 処理時間の大半はgzの展開 • 並列化すると真価を発揮する – データ分析のために過去のDB状態をバック アップからリストア – 8DBの同時復元を行っても速度変わらず
21.
まとめ • ドリコムのデータ分析チームは分散してない –
ソーシャルゲームのデータ特性 – PDCAサイクルが短い – FIOが早い • 安定したらインフラ部に依頼 – Hive、hadoopによる中間データの定常出力依頼 – スクリプトの引渡し、運用依頼、hadoopへの移植依 頼 • FIOの実験 – FIOの性能を活かしきるにはCPUがボトルネック – 分析のためにDBの8並列リストアとかやってる
Download now