More Related Content What's hot Hadoop最新情報 - YARN, Omni, Drill, Impala, Shark, Vertica - MapR CTO Meetup 2014... Hadoop最新情報 - YARN, Omni, Drill, Impala, Shark, Vertica - MapR CTO Meetup 2014... MapR Technologies Japan
Similar to AWS Elastic MapReduce詳細 -ほぼ週刊AWSマイスターシリーズ第10回- Similar to AWS Elastic MapReduce詳細 -ほぼ週刊AWSマイスターシリーズ第10回- (20) More from SORACOM, INC (20) AWS Elastic MapReduce詳細 -ほぼ週刊AWSマイスターシリーズ第10回-3. Webセミナー
ほぼ週刊AWSマイスターシリーズ(全11回?)
11/16 第08回 RDS
11/22 第09回 Elastic Beanstalk
11/30 第10回 EMR
12/07 第11回 SES
12/15 第12回 S系全部載せ!SQS/SimpleDB/SNS
申し込みサイト
http://aws.amazon.com/jp/event_schedule/
9. プレゼント
寒い年末年始も安心
超限定
本日のプレゼントは・・・
AWS特製(社員も
もってない)あったか
ウインドブレーカー
を差し上げます!
12. Apache Hadoopとは?
Big Dataを扱うために:
– スケーラブルな分散ストレージ
–
Hadoop は上記を満たすオープンソース製品
– HDFS(Hadoop Distributed File System)
– 巨大なデータを扱えるバッチ
システム。
– コモディティサーバに特化。
– MapReduce
– る
19. (map ‘( ))
( )
(reduce ‘( ))
21. チャンクに分解
Map
Map
(<a, > , <o, > , <p, > , …)
Map
(<a’, >, <o’, >, <p’, >, …)
(Shuffle )
Reduce
Reduce
(<a’, >, …)
22. RDBMSとHadoopの違い
RDBMS Hadoop
事前定義したスキーマ スキーマなし
1台で稼働する事が前提 分散・協調して動く前提
SQLによるアクセス SQLでない複数言語サポート
リニアにスケールしない リニアにスケールする
小規模データ 大規模データ
構造化データ 半構造化データ
26. Amazon Elastic MapReduceとは(2)
Big Data
解析をトライアンドエラー出来る
ユーザ動向にあわせ、アドホックに解析可能
• 収集→保存→解析→アクションの
サイクルをもっと早く!
AWSの他サービスとのインテグレーション
S3との連携機能
JavaやRubyなどのSDK
27. 図で表すと・・・
OS
ラックへ 電源とNW
HWの購入 インス
設置 を設定
トール
Hadoop Hadoop
Hadoop
基本設定 インス クラスタ
稼働確認
トール 構築
28. 図で表すと・・・
EMRであれば・・・
Hadoop
OS
ラックへ 電源とNW
Hadoop
HWの購入 インス
設置 を設定
何ノードで
トール
あげるか、 Hadoop 稼働確認
Hadoop
指定する
Hadoop
基本設定 インス クラスタ
稼働確認
トール 構築
30. EMRの全体アーキテクチャ
Amazon S3
巨大なデータセットや、
膨大なログをアップロード
データ Input
ソース Amazon S3
Data
Output
Amazon Elastic Data
Master Task
MapReduce
Instance Instance
Group Group
Code/ Amazon SimpleDB
Master
ecude Rpa M
Script
ドーコ ksaT
Node
s
ecivreS edoN
L Q e vi H
ni t a L gi P
g ni d a c s a C ksaT
edoN
メタデータ
のーロフブョジの数複 L Q e vi H
ni t a L gi P アドホック
Core クエリ
Instance
Group
BI
Apps
eroC
edoN SFD H C B DJ
CBDO
eroC
edoN SFD H
EMR Hadoop Cluster
34. •
• AWS マネージメントコンソール
• コマンドライン
• REST API
38. EMR機能: 稼働中ジョブフローの拡張
: ジョブフローの高速化
ジョブの再起動なしに、ジョブにかけるコストとパフォーマン
Job Flow
Job Flow
Job Flow
4ノード 9ノードへ 25ノード
起動 拡張 へ
残り時間
残り時間
14 Hours
7 Hours
残り時間
3 Hours
39. EMR機能: 稼働中ジョブフローの拡張/伸縮
: 柔軟なデータウェアハウスクラスタ
( vs )
コスト
データウェアハウス
( )
データウェアハウス データウェアハウス
(通常時) (通常時)
25ノード 9ノードへ
9ノード
へ 戻す
起動
拡張
増減できるのはタスクノード
コアノードは増加のみ
42. EMR機能: Spotインスタンスの活用
Spotインスタンス=
: ジョブのランニングコストを抑えたい
オンデマンドのm2.xlarge 4ノードで開始
5ノード追加
スポットなしのコスト
Job Flow
4 instances *14 hrs * $0.50 =
Job Flow
$28
4ノードで Spot
スポットありのコスト
起動 5ノード
追加
4 instances *7 hrs * $0.50 =
$13 +
残り時間 5 instances * 7 hrs * $0.25 =
残り時間 $8.75
14時間 Total = $21.75
7時間
時間の削減効果: 50%
コスト削減効果: ~22%
43. EMR+Spotの使いどころ
ユースケース Master Core Instance Task Instance
Instance Group Group
Group
長時間稼働のジョ オンデマンド オンデマンド Spot
ブフローの高速化
低コストで実行し Spot Spot Spot
たいジョブ
クリティカルデー オンデマンド オンデマンド Spot
タを扱うジョブ
アプリケーション Spot Spot Spot
のテスト
44. EMR
データマイニング/BI
ログ解析、クリックストリーム分析、近似分析
データウェアハウスアプリケーション
バイオインフォマティクス(遺伝子解析)
(モンテカルロ計算等)
Webインデックス構築
47. Q.オンプレミスHadoopの方が早い
vs 仮想化
確か
大事な点はEMRのもたらす柔軟性・拡張性
EMR=スケーラブルなインフラ(EC2/S3/SimpleDB)
+スケーラブルなフレームワーク(Hadoop)
オンプレミス=固定化したインフラ+スケーラブル
なフレームワーク(Hadoop)
Hadoopの性質上、スケールアウトが非常に有効
伸縮自在にHadoopを使えるメリット
50. Q.AWSもリソースが足りなくなるのでは?
アマゾン ドット コムが2000 27.6億
ドルの企業であった時に必要なキャパシティと
同等のものをAWSは毎日追加しています。
様々なユースケースを含めてリソース調達
100%に→規模の経済
オンデマンド、リザーブド、そしてSpotでの
EMRでも多くのお客様から台数緩和申請
20台を超える場合の緩和申請
• http://aws.amazon.com/jp/contact-us/ec2-request/
51. (ニア)
データ生
構造化データ
成・保存、
リアルタイム
並列分析 インデクシ
半構造化データ 分析
データ保存
処理 ング、アグ
リゲーショ
ン
データベース層
S3 Hadoop HBase
EMR SimpleDB
Cassandra
MongoDB
RDBMS
52. - EMR -
Cluster Spot 拡張 Elastic
Hadoop EMR Compute インス Batch
HPC タンス 縮退 Processing
Hadoop オンデマンドで Each VM = コスト削減 クラスタの スケーラブ
デファクト 使える 2 Xeon “Spot 状況に応じて ルな大規模
分散 スケーラブルな “Nehalem” price” 拡張または
Quad-core 縮退できる
フレーム インフラ 基盤
ワーク 10G Ethernet
2 GPGPUs