SlideShare a Scribd company logo
1 of 64
Download to read offline
基幹業務もHadoop(EMR)で!!
BigData-JAWS 勉強会#4
2016/12/12
Future Architect Inc,
Keigo Suda
のその後
いかに本番利⽤に堪えられるようになったかの軌跡
ü どういった課題があったか
ü どのように対応したか
実際に開発が終わったその後の話
* 2012年新卒⼊社(今年5年⽬ orz)
* Technology Innovation Group スペシャリスト
* 最近の専⾨ -> ビッグデータ領域(インフラ〜アプリ)
* 最近はもっぱらKafkaとストリーム処理エンジンの諸々
須⽥桂伍 (すだ けいご)
宣伝
l 最近やっているIoTためのプラットフォーム構築の話
l Apache Kafka on AWS
もくじ
l EMRとローソン
l 性能テストとチューニング
l まとめ
http://www.slideshare.net/keigosuda/hadoop-hadoop-hive
設計~開発時の話
https://future-architect.github.io/articles/20161005/
開発後の話
EMRとローソン
店舗発注業務のセンター化
発注時に利⽤するマスタ作成をセンタ集約
ü 店舗毎に⾏われていたマスタデータ作成処理を集約
ü 店舗からはAPI経由でマスタデータを参照
これに表⽰される
各種データを作成
店舗発注業務の裏側
ローソン全業務で利⽤されるマスタデータを
⽇次バッチで最新化
1
最新化された全業務マスタデータの更新差分を
各店舗へファイル連携
店舗へ更新分データのファイル連携
2
本部センター ファイル
連携基盤
ストアコンピュータ
データ反映
発注端末
商品を発注
しますね
更新データ
全業務マスタデータ
⽇次バッチ処理
最新化
1 2 3 4
全業務マスタデータの最新化処理
連携されたファイルデータを各店舗にある
ストコン内のDBへ反映する。
3
最新化されたマスタデータをもとに発注業務を実施
発注時の商品データ参照4
更新分データのDB反映処理
店舗発注業務の裏側
ローソン全業務で利⽤されるマスタデータを
⽇次バッチで最新化
1
最新化された全業務マスタデータの更新差分を
各店舗へファイル連携
店舗へ更新分データのファイル連携
2
本部センター ファイル
連携基盤
ストアコンピュータ
データ反映
発注端末
商品を発注
しますね
更新データ
全業務マスタデータ
⽇次バッチ処理
最新化
1 2 3 4
全業務マスタデータの最新化処理
連携されたファイルデータを各店舗にある
ストコン内のDBへ反映する。
3
最新化されたマスタデータをもとに発注業務を実施
発注時の商品データ参照4
更新分データのDB反映処理
これまでは処理負荷を
各店舗に分散していたイメージ
店舗DB
発注業務 データ参照 加⼯処理
加⼯処理取込処理
取込処理
発注
端末
発注
端末
発注
端末
発注
端末
発注
端末
発注
端末
発注
端末
API
API API
API
API
API
API
全店舗分の発注業務に利⽤する
マスタデータをバッチ処理(⽇次)で作成
全業務マスタDBから店舗毎に必要な
マスタデータの更新差分をファイルで連携
これまで店舗毎に配信されていた
全店舗分の更新差分ファイルを連携
受信⽤DB 公開⽤DB
1. 全業務マスタDBから各店舗へ更新差分ファイルを配信
2. 店舗毎にDBへ差分反映後、発注利⽤マスタデータを作成
3. 作成されたマスタデータは発注業務時に発注端末から参照
1. 全業務マスタDBから全店舗分の更新差分ファイルを配信
2. 受信⽤DBへ差分反映後、全店舗分の発注利⽤マスタデータを作成
3. 作成されたマスタデータはREST APIで公開し、発注端末より参照
データ参照
発注業務
Before After
機能のセンター集約
しかしその壁も⾼い・・・
店舗数増加への考慮 ピーク時の処理多重度
限られたバッチウィンドウ膨⼤なレコード件数
12,000
16
20%
80%
全店舗分の処理ピークが重なる
17
発注商品マスタ
〜10億レコード
PLUマスタ
〜7億レコード
商品マスタ
〜5億
約80マスタテーブル(数⼗億レコード)
EMRでまとめて処理しよう!
エコシステム含めた多様な処理オプション
スケールアウト&スケールアップの戦略が柔軟
* クラスタ台数、EC2インスタンスタイプ、タスクグループと様々な組み合わせが可能
* EMR(というかHadoop)を取り囲むエコシステム群による機能補完
EC2だし,いざとなればなんとかなるでしょ(⼩並感)
* いざとなればSSHで⼊ってごにょごにょできるし・・・
アーキテクチャ全体概要
共有マスタ本部
システム
フ
ァ
イ
ル
連
携
基
盤
API参照DB加⼯処理クラスタ×2
常時起動、ピーク時起動
受信マスタDB
Ⅰ.取込処理 Ⅱ.加⼯処理 Ⅲ.参照処理
参照API
マスタ反映ファイル連携 データ加⼯ APIデータ反映 APIデータ参照
データを返す
過去データ蓄積⽤バケット
MySQL
DOT/POT
センター機能
店 舗
DOT
POT
データ取得
ファイル取込
サーバ
MySQL
MySQL
CDNキャッシュ
動画・添付 画像
CDN
アップロード
SQLバッチ(HiveQL)
参照APIで取得したURL情報を元に画像ファイルなどをGET
ここまでがカンファレンス時までの話
(完)
性能テスト/チューニング
性能テスト実施環境
共有マスタ本部
システム
フ
ァ
イ
ル
連
携
基
盤
API参照DB加⼯処理クラスタ×2
常時起動、ピーク時起動
受信マスタDB
Ⅱ.加⼯処理 Ⅲ.参照処理
参照API
データ加⼯ APIデータ反映 APIデータ参照
データを返す
過去データ蓄積⽤バケット
MySQL
DOT/POT
センター機能(擬似)
ファイル取込
サーバ
MySQL
MySQL
CDNキャッシュ
動画・添付 画像
CDN
アップロード
SQLバッチ(HiveQL)
JMeter
性能テスト環境
Ⅰ.取込処理
マスタ反映ファイル連携
ファイル連携基盤にて性能テスト環
境へのファイルを配信してもらい本番
と同じ流量かつデータ量を再現
性能テスト実施環境
共有マスタ本部
システム
フ
ァ
イ
ル
連
携
基
盤
API参照DB加⼯処理クラスタ×2
常時起動、ピーク時起動
受信マスタDB
Ⅱ.加⼯処理 Ⅲ.参照処理
参照API
データ加⼯ APIデータ反映 APIデータ参照
データを返す
過去データ蓄積⽤バケット
MySQL
DOT/POT
センター機能(擬似)
ファイル取込
サーバ
MySQL
MySQL
CDNキャッシュ
動画・添付 画像
CDN
アップロード
SQLバッチ(HiveQL)
JMeter
性能テスト環境
Ⅰ.取込処理
マスタ反映ファイル連携
ファイル連携基盤にて性能テスト環
境へのファイルを配信してもらい本番
と同じ流量かつデータ量を再現
やっぱり本番負荷は並じゃなかった
思っていた以上にジョブ投⼊多重度が⾼かった問題
ちまたのベストプラクティスがはまらない問題
*ググって出てくるチューニング例は当てはまらないことが多かった orz
* 実環境では当初想定よりもかなりの処理が多重で実⾏される結果に
RDSがふん詰まる問題
* スループットが思った以上に出ない&EMRからボトルネックが移動してきた
数値でみる処理状況
投⼊ジョブ数(瞬間⾵速) -> 250~/分間
トータル12,000ジョブ/1バッチ処理
数値でみる処理状況
同時稼働ジョブ数 -> 100~600ジョブ
特 徴
l とにかくジョブの同時投⼊数、稼働数が多い
l 1マスタ作成処理につき平均20ワーク作成ほど * 80マスタテーブル * 店舗数分
l ⼀つ⼀つのクエリは結構重たい
l ⾮正規化処理が中⼼のため⼤量読み取り&⼤量書き出し
処理時間の推移でみるチューニング過程
90分 25分
∞ 90分
まずは1/80マスタを全店舗分
80マスタを全店舗分
チューニング対応⼀覧
l 以下は主にEMR関連で、細々としたアプリケーションのチューニングなども別途対応
処理時間の推移でみるチューニング過程
90分 25分
∞ 90分
まずは1/80マスタを全店舗分
80マスタを全店舗分
主にHiveのクエリやパラメータチューニング
クエリチューニング
l パーティション利⽤の廃⽌
l パーティション後のファイルサイズが⼩さくなりがちで、結果IO効率が悪くなっていった
l パーティション作成処理のオーバーヘッドの積み重ねが処理時間のウェイトを占めるようになっていた
l ワークテーブル数の削減(可読性をさげない程度に)
l 複数ワークテーブルを集約して⼀つのクエリにする
l 1クエリでさばく処理量を増やすことでIO効率をあげていく(UNION ALLなど)
クエリをまとめていく例
パラメータチューニング
l 処理エンジンの変更
l 処理エンジンをTezに変更することでオンメモリで処理を⾏い、ディスクIOを減らす
l Reducer数の変更
l 最後のファイル書き込みがボトルネックとなる処理が多かったため、起動Reducer数を増やして対応
l MapJoinの積極的活⽤
l MapJoinをどんどん誘導していく
l ファイルフォーマットの選択と圧縮⽅式の選択
l 処理に適したファイルフォーマット選択とディスクIO負荷を軽減するための適切な圧縮⽅式選択
処理エンジンの変更
l Tezに変更することで処理をオンメモリに切り替え
l MRは多少乱暴に書いても動き切ってくれる安⼼感はあったけど・・・
http://docs.hortonworks.com/HDPDocuments/HDP2/HDP-2.4.3/bk_performance_tuning/content/hive_perf_best_pract_use_tez.html
処理エンジンの変更
処理エンジンの変更
l オンメモリ処理への切り替えに伴いコアノードのインスタンスタイプを変更
l d2.4xlarge -> r3.8xlarge
l 同時ジョブ数の増加で最後のHDFSへの書き出しの遅さが⽬⽴つように
l 起動Reducer数を増やすことで対応(愚直に計測・・・)
Reducer数の変更/コンテナサイズの調整
l 以下の可変要素を調整しながらベターなパラメータをひたすら探る
l コンテナサイズ * 起動Reducer数 * 同時投⼊ジョブ数
Reducer数の変更/コンテナサイズの調整
l 調整パラメータ⼀覧
-- Reducer関連
SET hive.tez.auto.reducer.parallelism=true;
SET hive.exec.reducers.bytes.per.reducer=64000000;
-- YARN Container関連
SET hive.tez.container.size=4096;
SET hive.tez.java.opts=-Xmx3200m;
SET hive.tez.cpu.vcores=1;
SET hive.prewarm.enabled=true;
SET hive.prewarm.numcontainers=30;
(参考)コンテナにおけるメモリ利⽤内訳
l コンテナのメモリ利⽤内訳はベストプラクティスに従って設定
l https://community.hortonworks.com/articles/14309/demystify-tez-
tuning-step-by-step.html
l ヒープサイズはやや⼤きめにとっている
MapJoinへの積極的誘導
l 最初は各クエリの各ワークをレビューしながらヒント句で固定
l 発狂 アヒャヒャヒャ(゚∀゚≡゚∀゚)ヒャヒャヒャ
l そもそもクエリ内のロジックやら処理データ量やら変わったらどうするのこれ・・・
l もうAutoにまかせちゃう
l MapJoinだとまずいものだけをMap Joinさせない
l がむしゃらにMapJoinさせようとするとHashテーブルがメモリに乗り切らずOOM
-- Map Join関連
SET hive.auto.convert.join=true;
SET hive.auto.convert.join.noconditionaltask.size=1300000000;
ファイルフォーマットの選択/圧縮⽅式の選択
l (中間テーブルの)ファイルフォーマット選択にあたっての要件としては以下
l どうせ終わったら消すだけのワークなので早く終わればそれでよし!
l スキーマ情報はクエリの中でDDL発⾏していたのでファイルフォーマットでカバーする必要なし
l カラムナ型のファイルフォーマッットも試したものの処理特性もありぱっとせず
l ⾮正規化に近い処理をひたすら繰り返すため、カラムナフォーマットの利点をいかしきれず
-- ファイルフォーマット関連&圧縮関連
SET hive.default.fileformat=sequencefile;
SET mapred.output.compression.type=BLOCK;
SET hive.exec.orc.default.compress=SNAPPY;
SET hive.exec.compress.intermediate=true;
SET hive.exec.compress.output=true;
SET mapred.output.compression.codec=org.apache.hadoop.io.compress.SnappyCodec;
MySQL MySQL
TEXTFILE SEAQUENCEFILE+Snappy TEXTFILE
・・・・
加⼯元テーブル ワークテーブル 加⼯後テーブル
Hive
HDFS
ファイルフォーマットの選択/圧縮⽅式の選択
受信マスタDB API参照⽤DBEMR
Sqoopエクスポート時の対応フォー
マットの制約のため
Sqoopインポート時のHive連携オ
プションにより⾃動でスキーマ作成
ファイルフォーマット 圧縮アルゴリズム 圧縮タイプ 処理時間
TEXT SNAPPY - 24:41:00
SEAQUENCE
SNAPPY BLOCK 24:10:00
SNAPPY RECORD 27:22:00
ORC SNAPPY
ファイルレベル 27:17:00
ビルトイン 27:00:00
(参考)ファイルフォーマットの選択/圧縮⽅式の選択
ここまでで単位のマスタ作成は⽬標時間をきる
90分 25分
∞ 90分
まずは1/80マスタを全店舗分
80マスタを全店舗分
次は本番同等の多重度でやってみて
90分 25分
∞ 90分
まずは1/80マスタを全店舗分
80マスタを全店舗分
主にYARNにおけるチューニング
やっぱり本番負荷は並じゃなかった
思っていた以上にジョブ投⼊多重度が⾼かった問題
ちまたのベストプラクティスがはまらない問題
* ググって出てくるチューニング例は当てはまらないことが多かった orz
* 実環境では当初想定よりもかなりの処理が多重で実⾏される結果に
RDSのご機嫌問題
*スループットが思った以上に出ない&EMRからボトルネックが移動してきた
本当に⼤変だったのはリソースコントロール
l なだれ込むジョブにそもそもクラスタが耐えられず orz
l ジョブがペンディングの嵐
l カーネルのプロセス数上限に達してそもそもジョブ動かない
リソースコントロールのための対応
l コンテナ配布の最適化
l スケジューラの調整
クラスタリソース(コンテナ)
割当 割当 割当
リソース割当待ち状態の
滞留ジョブを発⽣させない
同時稼働ジョブ数を増やすために、
効率的なリソース配分を実施させる
そのうえで、各マスタ作成処理の
最適化を実施する
コンテナ配布の最適化
l 利⽤できるコンテナ数をとにかく増やす
l YARNアプリケーションごとにコンテナ数を調整(節約)
l 前述したMapJoinなども考慮して、全体の性能が落ちずかつ複数処理がまわるようなコンテナサ
イズをさぐる
l Sqoopによるインポート/エクスポート処理は起動Map数が指定できるため、起動に
必要なサイズにまでぎりぎり減らす
⽣々しい軌跡
l コンテナのメモリサイズを調整しながらギリギリのラインをさぐる
l 結果的に512MB/コンテナあれば同じ処理時間を保ちながら処理ができた
l これより⼩さくなると、そもそもOOMで動かなくなる
スケジューラの調整
l スケジューラをFair Schedulerに変更
l とにかく終わったものからどんどんRDSに流してしまいたかったため、ペンディングをなくしたかった
l とはいえ、ジョブに応じてコンテナの配分は調整したかったので、そこはキュー設計で頑張る
キュー設定によるリソース割り当て優先度の調整
キュー設定
root
├ peak(業務優先度⾼&リソース要求⾼)
└ shohin
└ hatchu_shohin
└ ichiran_sansho_yo_shohin
└ plu
├ others(業務優先度低&リソース要求低)
└ sqoop(Sqoop処理⽤)
└ import
└ export
前 提
l YARNスケジューラとして「Fair Scheduler」を利⽤する。
l Fair Schedulerにより、マスタ作成処理に重みづけを⾏い、クラスタのリソースを綿密にコントロールすることを⽬的とする。
※Capacity Schedulerはキュー内ではリソースを均等分配できずペンディング状態の処理が発⽣してしまう可能性があるため。
キュー設定によるリソース割り当て優先度の調整
業務優先度⾼ & リソース要求⼤ Sqoop処理⽤途(必要最低限のみ)業務優先度中低 & リソース要求⼩
さらにその中で配分
▼発注⽤途マスタ作成開始
▼全体商品マスタ作成開始
▼PLU⽤マスタ作成開始
▼商品⼀覧参照⽤マスタ作成開始
4:0023:40
▼発注⽤途マスタ作成開始
▼全体商品マスタ作成開始
▼PLU⽤マスタ作成開始
▼商品⼀覧参照⽤マスタ作成開始
リラン枠
(1.5時間)
通
常
時
開
始
遅
延
時
必要リソース量の最⼤値⾒積り箇所
リソース配分の決定までの道のり
そして90分にまでようやっと短縮!!
90分 25分
∞ 90分
まずは1/80マスタを全店舗分
80マスタを全店舗分
おまけ
やっぱり本番負荷は並じゃなかった
思っていた以上にジョブ投⼊多重度が⾼かった問題
ちまたのベストプラクティスがはまらない問題
*ググって出てくるチューニング例は当てはまらないことが多かった orz
*実環境では当初想定よりもかなりの処理が多重で実⾏される結果に
RDSのご機嫌問題
*スループットが思った以上に出ない&EMRからボトルネックが移動してきた
EMRと同じぐらい⼤変だったRDSチューニング
l 最初は最初はほんとにSqoopによるエクスポートが終わらなかった・・・
l Sqoopエクスポートの多重度があがるとRDS(MySQL)のIOがつまる・・・
l しまいにはセッションきられる
l 以下を中⼼にチューニングし、なんとか流し切れるまでに
l エクスポート対象のテーブルを事前にPKでソート
l なるべくディスクへの書き込みによるIOを遅延させる
l innodb_buffer_pool_size
l innodb_max_dirty_pages_pct
l 書き込み周りのスレッド数を微調整
l innodb_write_io_threads
l innodb_thread_concurrency
試しにAurora(MySQL)に変更したみたら
l あんなに頑張った結果がノンチューニングで抜かれる(しかも台数も半分で・・・)
l 多重度が上がるほど性能が安定&エクスポートするテーブルサイズによらず安定
l マルチAZにしても⾮同期だから性能劣化なし
l ⼤量データのエクスポート先としても結構有能
(参考)エクスポート並列数による処理時間結果
0:00:00
0:00:20
0:00:40
0:01:00
0:01:20
0:01:40
0:02:00
0:02:20
1テーブルあたりの処理時間
同時テーブルエクスポート数
Aurora 8xrlage
Aurora 4xlarge
MySQL 4xlarge
No RDS AZ構成 パラ [table]map数 処理時間 処理時間/table
参考処理時間
(MySQL)
参考処理時間/
table(MySQL)
7 r3.4xlarge なし 9 1 0:15:26 0:01:43 0:12:35 0:01:24
8 r3.4xlarge なし 18 1 0:25:50 0:01:26 0:32:00 0:01:47
13 r3.4xlarge あり 36 1 0:56:18 0:01:34 1:18:46 0:02:11
16 r3.8xlarge なし 9 1 0:12:30 0:01:23
17 r3.8xlarge なし 18 1 0:22:22 0:01:15
18 r3.8xlarge なし 36 1 0:46:10 0:01:17
21 r3.8xlarge なし 72 1 1:37:21 0:01:21
RDS(JM)
(参考)Multi AZによる処理時間
101% 104%
123%
140%
0%
20%
40%
60%
80%
100%
120%
140%
160%
9パラ1map 18パラ1map
AZなしの場合を100%とした場合の
処理時間の伸び率
Aurora
MySQL
No RDS AZ構成 パラ [table]map数 処理時間 処理時間/table
参考処理時間
(MySQL)
参考処理時間/
table
7 r3.4xlarge なし 9 1 0:15:26 0:01:43 0:12:35 0:01:24
8 r3.4xlarge なし 18 1 0:25:50 0:01:26 0:32:00 0:01:47
11 r3.4xlarge あり 9 1 0:15:36 0:01:44 0:15:26 0:01:43
12 r3.4xlarge あり 18 1 0:26:45 0:01:29 0:44:49 0:02:29
まとめ
まとめ:教訓
l とにかくワークは⼩さく保つ!!(迫真)
l プランの可読性が全然違う
l ちまたのチューニング情報はとっかかりとして有効
l ワークロードが異なれば傾向も変わる
l リソース配分部分は結構盲点
l 情報も少なく⼀番業務要件できまる部分なのでちゃんと特性を知った上で設計する
l Auroraって万能ですね!
l 重たいデータのオフロードもいけるじゃん
ありがとうございました!!

More Related Content

What's hot

初めてのSpark streaming 〜kafka+sparkstreamingの紹介〜
初めてのSpark streaming 〜kafka+sparkstreamingの紹介〜初めてのSpark streaming 〜kafka+sparkstreamingの紹介〜
初めてのSpark streaming 〜kafka+sparkstreamingの紹介〜Tanaka Yuichi
 
Pythonで入門するApache Spark at PyCon2016
Pythonで入門するApache Spark at PyCon2016Pythonで入門するApache Spark at PyCon2016
Pythonで入門するApache Spark at PyCon2016Tatsuya Atsumi
 
データ活用をもっともっと円滑に! ~データ処理・分析基盤編を少しだけ~
データ活用をもっともっと円滑に!~データ処理・分析基盤編を少しだけ~データ活用をもっともっと円滑に!~データ処理・分析基盤編を少しだけ~
データ活用をもっともっと円滑に! ~データ処理・分析基盤編を少しだけ~NTT DATA OSS Professional Services
 
Sparkのクエリ処理系と周辺の話題
Sparkのクエリ処理系と周辺の話題Sparkのクエリ処理系と周辺の話題
Sparkのクエリ処理系と周辺の話題Takeshi Yamamuro
 
Hadoop Conference Japan_2016 セッション「顧客事例から学んだ、 エンタープライズでの "マジな"Hadoop導入の勘所」
Hadoop Conference Japan_2016 セッション「顧客事例から学んだ、 エンタープライズでの "マジな"Hadoop導入の勘所」Hadoop Conference Japan_2016 セッション「顧客事例から学んだ、 エンタープライズでの "マジな"Hadoop導入の勘所」
Hadoop Conference Japan_2016 セッション「顧客事例から学んだ、 エンタープライズでの "マジな"Hadoop導入の勘所」オラクルエンジニア通信
 
Hadoopエコシステムの最新動向とNTTデータの取り組み (OSC 2016 Tokyo/Spring 講演資料)
Hadoopエコシステムの最新動向とNTTデータの取り組み (OSC 2016 Tokyo/Spring 講演資料)Hadoopエコシステムの最新動向とNTTデータの取り組み (OSC 2016 Tokyo/Spring 講演資料)
Hadoopエコシステムの最新動向とNTTデータの取り組み (OSC 2016 Tokyo/Spring 講演資料)NTT DATA OSS Professional Services
 
Bluemixを使ったTwitter分析
Bluemixを使ったTwitter分析Bluemixを使ったTwitter分析
Bluemixを使ったTwitter分析Tanaka Yuichi
 
Spark勉強会_ibm_20151014-公開版
Spark勉強会_ibm_20151014-公開版Spark勉強会_ibm_20151014-公開版
Spark勉強会_ibm_20151014-公開版Atsushi Tsuchiya
 
Sparkコミュニティに飛び込もう!(Spark Meetup Tokyo 2015 講演資料、NTTデータ 猿田 浩輔)
Sparkコミュニティに飛び込もう!(Spark Meetup Tokyo 2015 講演資料、NTTデータ 猿田 浩輔)Sparkコミュニティに飛び込もう!(Spark Meetup Tokyo 2015 講演資料、NTTデータ 猿田 浩輔)
Sparkコミュニティに飛び込もう!(Spark Meetup Tokyo 2015 講演資料、NTTデータ 猿田 浩輔)NTT DATA OSS Professional Services
 
Pysparkで始めるデータ分析
Pysparkで始めるデータ分析Pysparkで始めるデータ分析
Pysparkで始めるデータ分析Tanaka Yuichi
 
ビッグデータ関連Oss動向調査とニーズ分析
ビッグデータ関連Oss動向調査とニーズ分析ビッグデータ関連Oss動向調査とニーズ分析
ビッグデータ関連Oss動向調査とニーズ分析Yukio Yoshida
 
Apache Sparkに手を出してヤケドしないための基本 ~「Apache Spark入門より」~ (デブサミ 2016 講演資料)
Apache Sparkに手を出してヤケドしないための基本 ~「Apache Spark入門より」~ (デブサミ 2016 講演資料)Apache Sparkに手を出してヤケドしないための基本 ~「Apache Spark入門より」~ (デブサミ 2016 講演資料)
Apache Sparkに手を出してヤケドしないための基本 ~「Apache Spark入門より」~ (デブサミ 2016 講演資料)NTT DATA OSS Professional Services
 
ちょっと理解に自信がないな という皆さまに贈るHadoop/Sparkのキホン (IBM Datapalooza Tokyo 2016講演資料)
ちょっと理解に自信がないなという皆さまに贈るHadoop/Sparkのキホン (IBM Datapalooza Tokyo 2016講演資料)ちょっと理解に自信がないなという皆さまに贈るHadoop/Sparkのキホン (IBM Datapalooza Tokyo 2016講演資料)
ちょっと理解に自信がないな という皆さまに贈るHadoop/Sparkのキホン (IBM Datapalooza Tokyo 2016講演資料)hamaken
 
Ansibleで構成管理始める人のモチベーションをあげたい! (Cloudera World Tokyo 2014LT講演資料)
Ansibleで構成管理始める人のモチベーションをあげたい! (Cloudera World Tokyo 2014LT講演資料)Ansibleで構成管理始める人のモチベーションをあげたい! (Cloudera World Tokyo 2014LT講演資料)
Ansibleで構成管理始める人のモチベーションをあげたい! (Cloudera World Tokyo 2014LT講演資料)NTT DATA OSS Professional Services
 
Apache Sparkを使った感情極性分析
Apache Sparkを使った感情極性分析Apache Sparkを使った感情極性分析
Apache Sparkを使った感情極性分析Tanaka Yuichi
 

What's hot (20)

初めてのSpark streaming 〜kafka+sparkstreamingの紹介〜
初めてのSpark streaming 〜kafka+sparkstreamingの紹介〜初めてのSpark streaming 〜kafka+sparkstreamingの紹介〜
初めてのSpark streaming 〜kafka+sparkstreamingの紹介〜
 
Yahoo! JAPANでのHadoop利用について
Yahoo! JAPANでのHadoop利用についてYahoo! JAPANでのHadoop利用について
Yahoo! JAPANでのHadoop利用について
 
Jjug ccc
Jjug cccJjug ccc
Jjug ccc
 
Apache Sparkの紹介
Apache Sparkの紹介Apache Sparkの紹介
Apache Sparkの紹介
 
Pythonで入門するApache Spark at PyCon2016
Pythonで入門するApache Spark at PyCon2016Pythonで入門するApache Spark at PyCon2016
Pythonで入門するApache Spark at PyCon2016
 
データ活用をもっともっと円滑に! ~データ処理・分析基盤編を少しだけ~
データ活用をもっともっと円滑に!~データ処理・分析基盤編を少しだけ~データ活用をもっともっと円滑に!~データ処理・分析基盤編を少しだけ~
データ活用をもっともっと円滑に! ~データ処理・分析基盤編を少しだけ~
 
Sparkのクエリ処理系と周辺の話題
Sparkのクエリ処理系と周辺の話題Sparkのクエリ処理系と周辺の話題
Sparkのクエリ処理系と周辺の話題
 
Hadoop Conference Japan_2016 セッション「顧客事例から学んだ、 エンタープライズでの "マジな"Hadoop導入の勘所」
Hadoop Conference Japan_2016 セッション「顧客事例から学んだ、 エンタープライズでの "マジな"Hadoop導入の勘所」Hadoop Conference Japan_2016 セッション「顧客事例から学んだ、 エンタープライズでの "マジな"Hadoop導入の勘所」
Hadoop Conference Japan_2016 セッション「顧客事例から学んだ、 エンタープライズでの "マジな"Hadoop導入の勘所」
 
Hadoopエコシステムの最新動向とNTTデータの取り組み (OSC 2016 Tokyo/Spring 講演資料)
Hadoopエコシステムの最新動向とNTTデータの取り組み (OSC 2016 Tokyo/Spring 講演資料)Hadoopエコシステムの最新動向とNTTデータの取り組み (OSC 2016 Tokyo/Spring 講演資料)
Hadoopエコシステムの最新動向とNTTデータの取り組み (OSC 2016 Tokyo/Spring 講演資料)
 
はやわかりHadoop
はやわかりHadoopはやわかりHadoop
はやわかりHadoop
 
Bluemixを使ったTwitter分析
Bluemixを使ったTwitter分析Bluemixを使ったTwitter分析
Bluemixを使ったTwitter分析
 
Spark勉強会_ibm_20151014-公開版
Spark勉強会_ibm_20151014-公開版Spark勉強会_ibm_20151014-公開版
Spark勉強会_ibm_20151014-公開版
 
Sparkコミュニティに飛び込もう!(Spark Meetup Tokyo 2015 講演資料、NTTデータ 猿田 浩輔)
Sparkコミュニティに飛び込もう!(Spark Meetup Tokyo 2015 講演資料、NTTデータ 猿田 浩輔)Sparkコミュニティに飛び込もう!(Spark Meetup Tokyo 2015 講演資料、NTTデータ 猿田 浩輔)
Sparkコミュニティに飛び込もう!(Spark Meetup Tokyo 2015 講演資料、NTTデータ 猿田 浩輔)
 
Pysparkで始めるデータ分析
Pysparkで始めるデータ分析Pysparkで始めるデータ分析
Pysparkで始めるデータ分析
 
ビッグデータ関連Oss動向調査とニーズ分析
ビッグデータ関連Oss動向調査とニーズ分析ビッグデータ関連Oss動向調査とニーズ分析
ビッグデータ関連Oss動向調査とニーズ分析
 
Apache Sparkに手を出してヤケドしないための基本 ~「Apache Spark入門より」~ (デブサミ 2016 講演資料)
Apache Sparkに手を出してヤケドしないための基本 ~「Apache Spark入門より」~ (デブサミ 2016 講演資料)Apache Sparkに手を出してヤケドしないための基本 ~「Apache Spark入門より」~ (デブサミ 2016 講演資料)
Apache Sparkに手を出してヤケドしないための基本 ~「Apache Spark入門より」~ (デブサミ 2016 講演資料)
 
ちょっと理解に自信がないな という皆さまに贈るHadoop/Sparkのキホン (IBM Datapalooza Tokyo 2016講演資料)
ちょっと理解に自信がないなという皆さまに贈るHadoop/Sparkのキホン (IBM Datapalooza Tokyo 2016講演資料)ちょっと理解に自信がないなという皆さまに贈るHadoop/Sparkのキホン (IBM Datapalooza Tokyo 2016講演資料)
ちょっと理解に自信がないな という皆さまに贈るHadoop/Sparkのキホン (IBM Datapalooza Tokyo 2016講演資料)
 
Ansibleで構成管理始める人のモチベーションをあげたい! (Cloudera World Tokyo 2014LT講演資料)
Ansibleで構成管理始める人のモチベーションをあげたい! (Cloudera World Tokyo 2014LT講演資料)Ansibleで構成管理始める人のモチベーションをあげたい! (Cloudera World Tokyo 2014LT講演資料)
Ansibleで構成管理始める人のモチベーションをあげたい! (Cloudera World Tokyo 2014LT講演資料)
 
Hadoop ecosystem NTTDATA osc15tk
Hadoop ecosystem NTTDATA osc15tkHadoop ecosystem NTTDATA osc15tk
Hadoop ecosystem NTTDATA osc15tk
 
Apache Sparkを使った感情極性分析
Apache Sparkを使った感情極性分析Apache Sparkを使った感情極性分析
Apache Sparkを使った感情極性分析
 

Similar to 基幹業務もHadoop(EMR)で!!のその後

20161027 hadoop summit Generating Recommendations at Amazon Scale with Apach...
20161027 hadoop summit  Generating Recommendations at Amazon Scale with Apach...20161027 hadoop summit  Generating Recommendations at Amazon Scale with Apach...
20161027 hadoop summit Generating Recommendations at Amazon Scale with Apach...Amazon Web Services Japan
 
2014-10-27 #ssmjp 腹を割って話そう (運用xセキュリティ)
2014-10-27 #ssmjp 腹を割って話そう (運用xセキュリティ)2014-10-27 #ssmjp 腹を割って話そう (運用xセキュリティ)
2014-10-27 #ssmjp 腹を割って話そう (運用xセキュリティ)Operation Lab, LLC.
 
sitTokyo2022_Dev_05_Kawanabe.pptx
sitTokyo2022_Dev_05_Kawanabe.pptxsitTokyo2022_Dev_05_Kawanabe.pptx
sitTokyo2022_Dev_05_Kawanabe.pptxssuser5bff5a
 
ビッグデータ&データマネジメント展
ビッグデータ&データマネジメント展ビッグデータ&データマネジメント展
ビッグデータ&データマネジメント展Recruit Technologies
 
コンソールゲームを世界展開してみた - JAWS DAYS 2015
コンソールゲームを世界展開してみた - JAWS DAYS 2015コンソールゲームを世界展開してみた - JAWS DAYS 2015
コンソールゲームを世界展開してみた - JAWS DAYS 2015Ryo Nakamaru
 
おすすめインフラ! for スタートアップ
おすすめインフラ! for スタートアップおすすめインフラ! for スタートアップ
おすすめインフラ! for スタートアップKoichiro Sumi
 
今、おさえておきたい DevOps
今、おさえておきたい DevOps 今、おさえておきたい DevOps
今、おさえておきたい DevOps 智治 長沢
 
20120303 _JAWS-UG_SUMMIT2012_エキスパートセッションEMR編
20120303 _JAWS-UG_SUMMIT2012_エキスパートセッションEMR編20120303 _JAWS-UG_SUMMIT2012_エキスパートセッションEMR編
20120303 _JAWS-UG_SUMMIT2012_エキスパートセッションEMR編Kotaro Tsukui
 
ATN No.1 Hadoop vs Amazon EMR
ATN No.1 Hadoop vs Amazon EMRATN No.1 Hadoop vs Amazon EMR
ATN No.1 Hadoop vs Amazon EMRAdvancedTechNight
 
Zマイスターとの新たな価値探求 Rational
Zマイスターとの新たな価値探求 RationalZマイスターとの新たな価値探求 Rational
Zマイスターとの新たな価値探求 RationalIBMソリューション
 
Zマイスターとの新たな価値探求 z/OS
Zマイスターとの新たな価値探求 z/OSZマイスターとの新たな価値探求 z/OS
Zマイスターとの新たな価値探求 z/OSIBMソリューション
 
マーケティングテクノロジー勉強会
マーケティングテクノロジー勉強会マーケティングテクノロジー勉強会
マーケティングテクノロジー勉強会伊藤 孝
 
アドテク×Scala×パフォーマンスチューニング
アドテク×Scala×パフォーマンスチューニングアドテク×Scala×パフォーマンスチューニング
アドテク×Scala×パフォーマンスチューニングYosuke Mizutani
 
分散処理基盤Apache Hadoop入門とHadoopエコシステムの最新技術動向 (オープンソースカンファレンス 2015 Tokyo/Spring 講...
分散処理基盤Apache Hadoop入門とHadoopエコシステムの最新技術動向 (オープンソースカンファレンス 2015 Tokyo/Spring 講...分散処理基盤Apache Hadoop入門とHadoopエコシステムの最新技術動向 (オープンソースカンファレンス 2015 Tokyo/Spring 講...
分散処理基盤Apache Hadoop入門とHadoopエコシステムの最新技術動向 (オープンソースカンファレンス 2015 Tokyo/Spring 講...NTT DATA OSS Professional Services
 
Dataworks Summit SJ QueryEngine - Hadoop Source Code Reading #23 #hadoopreading
Dataworks Summit SJ QueryEngine - Hadoop Source Code Reading #23 #hadoopreadingDataworks Summit SJ QueryEngine - Hadoop Source Code Reading #23 #hadoopreading
Dataworks Summit SJ QueryEngine - Hadoop Source Code Reading #23 #hadoopreadingYahoo!デベロッパーネットワーク
 
鹿駆動勉強会 青江発表資料
鹿駆動勉強会 青江発表資料鹿駆動勉強会 青江発表資料
鹿駆動勉強会 青江発表資料Takashi Aoe
 
connpass特徴と開発の流れ
connpass特徴と開発の流れconnpass特徴と開発の流れ
connpass特徴と開発の流れIkeda Yosuke
 

Similar to 基幹業務もHadoop(EMR)で!!のその後 (20)

20161027 hadoop summit Generating Recommendations at Amazon Scale with Apach...
20161027 hadoop summit  Generating Recommendations at Amazon Scale with Apach...20161027 hadoop summit  Generating Recommendations at Amazon Scale with Apach...
20161027 hadoop summit Generating Recommendations at Amazon Scale with Apach...
 
NTT DATA と PostgreSQL が挑んだ総力戦
NTT DATA と PostgreSQL が挑んだ総力戦NTT DATA と PostgreSQL が挑んだ総力戦
NTT DATA と PostgreSQL が挑んだ総力戦
 
2014-10-27 #ssmjp 腹を割って話そう (運用xセキュリティ)
2014-10-27 #ssmjp 腹を割って話そう (運用xセキュリティ)2014-10-27 #ssmjp 腹を割って話そう (運用xセキュリティ)
2014-10-27 #ssmjp 腹を割って話そう (運用xセキュリティ)
 
sitTokyo2022_Dev_05_Kawanabe.pptx
sitTokyo2022_Dev_05_Kawanabe.pptxsitTokyo2022_Dev_05_Kawanabe.pptx
sitTokyo2022_Dev_05_Kawanabe.pptx
 
ビッグデータ&データマネジメント展
ビッグデータ&データマネジメント展ビッグデータ&データマネジメント展
ビッグデータ&データマネジメント展
 
コンソールゲームを世界展開してみた - JAWS DAYS 2015
コンソールゲームを世界展開してみた - JAWS DAYS 2015コンソールゲームを世界展開してみた - JAWS DAYS 2015
コンソールゲームを世界展開してみた - JAWS DAYS 2015
 
おすすめインフラ! for スタートアップ
おすすめインフラ! for スタートアップおすすめインフラ! for スタートアップ
おすすめインフラ! for スタートアップ
 
今、おさえておきたい DevOps
今、おさえておきたい DevOps 今、おさえておきたい DevOps
今、おさえておきたい DevOps
 
20120303 _JAWS-UG_SUMMIT2012_エキスパートセッションEMR編
20120303 _JAWS-UG_SUMMIT2012_エキスパートセッションEMR編20120303 _JAWS-UG_SUMMIT2012_エキスパートセッションEMR編
20120303 _JAWS-UG_SUMMIT2012_エキスパートセッションEMR編
 
SAIS/SIGMOD参加報告 in SAIS/DWS2018報告会@Yahoo! JAPAN
SAIS/SIGMOD参加報告 in SAIS/DWS2018報告会@Yahoo! JAPANSAIS/SIGMOD参加報告 in SAIS/DWS2018報告会@Yahoo! JAPAN
SAIS/SIGMOD参加報告 in SAIS/DWS2018報告会@Yahoo! JAPAN
 
ATN No.1 Hadoop vs Amazon EMR
ATN No.1 Hadoop vs Amazon EMRATN No.1 Hadoop vs Amazon EMR
ATN No.1 Hadoop vs Amazon EMR
 
Zマイスターとの新たな価値探求 Rational
Zマイスターとの新たな価値探求 RationalZマイスターとの新たな価値探求 Rational
Zマイスターとの新たな価値探求 Rational
 
Zマイスターとの新たな価値探求 z/OS
Zマイスターとの新たな価値探求 z/OSZマイスターとの新たな価値探求 z/OS
Zマイスターとの新たな価値探求 z/OS
 
マーケティングテクノロジー勉強会
マーケティングテクノロジー勉強会マーケティングテクノロジー勉強会
マーケティングテクノロジー勉強会
 
アドテク×Scala×パフォーマンスチューニング
アドテク×Scala×パフォーマンスチューニングアドテク×Scala×パフォーマンスチューニング
アドテク×Scala×パフォーマンスチューニング
 
Spark MLlibではじめるスケーラブルな機械学習
Spark MLlibではじめるスケーラブルな機械学習Spark MLlibではじめるスケーラブルな機械学習
Spark MLlibではじめるスケーラブルな機械学習
 
分散処理基盤Apache Hadoop入門とHadoopエコシステムの最新技術動向 (オープンソースカンファレンス 2015 Tokyo/Spring 講...
分散処理基盤Apache Hadoop入門とHadoopエコシステムの最新技術動向 (オープンソースカンファレンス 2015 Tokyo/Spring 講...分散処理基盤Apache Hadoop入門とHadoopエコシステムの最新技術動向 (オープンソースカンファレンス 2015 Tokyo/Spring 講...
分散処理基盤Apache Hadoop入門とHadoopエコシステムの最新技術動向 (オープンソースカンファレンス 2015 Tokyo/Spring 講...
 
Dataworks Summit SJ QueryEngine - Hadoop Source Code Reading #23 #hadoopreading
Dataworks Summit SJ QueryEngine - Hadoop Source Code Reading #23 #hadoopreadingDataworks Summit SJ QueryEngine - Hadoop Source Code Reading #23 #hadoopreading
Dataworks Summit SJ QueryEngine - Hadoop Source Code Reading #23 #hadoopreading
 
鹿駆動勉強会 青江発表資料
鹿駆動勉強会 青江発表資料鹿駆動勉強会 青江発表資料
鹿駆動勉強会 青江発表資料
 
connpass特徴と開発の流れ
connpass特徴と開発の流れconnpass特徴と開発の流れ
connpass特徴と開発の流れ
 

More from Keigo Suda

20171105 go con2017_lt
20171105 go con2017_lt20171105 go con2017_lt
20171105 go con2017_ltKeigo Suda
 
ストリーム処理勉強会 大規模mqttを支える技術
ストリーム処理勉強会 大規模mqttを支える技術ストリーム処理勉強会 大規模mqttを支える技術
ストリーム処理勉強会 大規模mqttを支える技術Keigo Suda
 
スマートファクトリーを支えるIoTインフラをつくった話
スマートファクトリーを支えるIoTインフラをつくった話スマートファクトリーを支えるIoTインフラをつくった話
スマートファクトリーを支えるIoTインフラをつくった話Keigo Suda
 
Kafka logをオブジェクトストレージに連携する方法まとめ
Kafka logをオブジェクトストレージに連携する方法まとめKafka logをオブジェクトストレージに連携する方法まとめ
Kafka logをオブジェクトストレージに連携する方法まとめKeigo Suda
 
Apache Kafka & Kafka Connectを に使ったデータ連携パターン(改めETLの実装)
Apache Kafka & Kafka Connectを に使ったデータ連携パターン(改めETLの実装)Apache Kafka & Kafka Connectを に使ったデータ連携パターン(改めETLの実装)
Apache Kafka & Kafka Connectを に使ったデータ連携パターン(改めETLの実装)Keigo Suda
 
Awsでつくるapache kafkaといろんな悩み
Awsでつくるapache kafkaといろんな悩みAwsでつくるapache kafkaといろんな悩み
Awsでつくるapache kafkaといろんな悩みKeigo Suda
 
Lt 私の○○遍歴教えるね これまで愛したキーボードたち
Lt 私の○○遍歴教えるね これまで愛したキーボードたちLt 私の○○遍歴教えるね これまで愛したキーボードたち
Lt 私の○○遍歴教えるね これまで愛したキーボードたちKeigo Suda
 

More from Keigo Suda (7)

20171105 go con2017_lt
20171105 go con2017_lt20171105 go con2017_lt
20171105 go con2017_lt
 
ストリーム処理勉強会 大規模mqttを支える技術
ストリーム処理勉強会 大規模mqttを支える技術ストリーム処理勉強会 大規模mqttを支える技術
ストリーム処理勉強会 大規模mqttを支える技術
 
スマートファクトリーを支えるIoTインフラをつくった話
スマートファクトリーを支えるIoTインフラをつくった話スマートファクトリーを支えるIoTインフラをつくった話
スマートファクトリーを支えるIoTインフラをつくった話
 
Kafka logをオブジェクトストレージに連携する方法まとめ
Kafka logをオブジェクトストレージに連携する方法まとめKafka logをオブジェクトストレージに連携する方法まとめ
Kafka logをオブジェクトストレージに連携する方法まとめ
 
Apache Kafka & Kafka Connectを に使ったデータ連携パターン(改めETLの実装)
Apache Kafka & Kafka Connectを に使ったデータ連携パターン(改めETLの実装)Apache Kafka & Kafka Connectを に使ったデータ連携パターン(改めETLの実装)
Apache Kafka & Kafka Connectを に使ったデータ連携パターン(改めETLの実装)
 
Awsでつくるapache kafkaといろんな悩み
Awsでつくるapache kafkaといろんな悩みAwsでつくるapache kafkaといろんな悩み
Awsでつくるapache kafkaといろんな悩み
 
Lt 私の○○遍歴教えるね これまで愛したキーボードたち
Lt 私の○○遍歴教えるね これまで愛したキーボードたちLt 私の○○遍歴教えるね これまで愛したキーボードたち
Lt 私の○○遍歴教えるね これまで愛したキーボードたち
 

基幹業務もHadoop(EMR)で!!のその後