More Related Content
Similar to ソリューションセッション#3 ビッグデータの3つのVと4つのプロセスを支えるAWS活用法 (20)
More from Amazon Web Services Japan (20)
ソリューションセッション#3 ビッグデータの3つのVと4つのプロセスを支えるAWS活用法
- 16. ビッグデータの成長速度
そもそもコンシューマが
扱うデバイスの大容量化
2012年で2.7ゼタバイト
のデータ(PBの上)
そのほとんどが構造化さ
れていないデータ
- 17. ビッグデータを支えるAmazon S3
リージョン
S3
データを 1 サーバ
自動複製
S3 S3
データは3つ以上のデータセンターに自動複製
設計上のデータ耐久性は 99.999999999%
容量は無制限で従量課金。初期費用ゼロ。
約11円/GBスタート
Webサイトホスティングも可能に
- 25. Varietyへの対応(2)
DynamoDB テーブル: リレーショナルDB:
発注データ 顧客マスターデータ
S3上の サードパーティ製品で
クリックログデータ 抽出したソーシャルメディア
のデータ
リレーショナルDB:
ターゲット情報の抽出
- 26. Varietyへの対応(3)
S3に週次レポートを抽出
s3://weekly-trend-data/
CSV形式
S3に月次レポートを抽出
s3://weekly-trend-data/
CSV形式
- 29. AWSを使うとシンプルに実現可能
Glacier S3 分析クラスタ
EC2 Dynamo RDS
DB Amazon EMR EC2+BI
データ収集 データ保存 データ解析 結果の共有
ビジュアライズ
1 2 3 4
- 30. データサイズ・構造との
AWSサービス対応
データ構造
構造化 非構造化
大きい
S3 Glacier
EMR
データ Dynamo DB
サイズ データサイズ、構造によらず、
AWSクラウドでは幅広くカバーできる
RDS
小さい
- 44. アンデルセンサービス様での効果
実行時間が大幅短縮→何度も試行可能に
• 4時間→20分
Clusterの起動 データの転送 原価計算
データの受信 Clusterの停止
バッチ処理時間 2 2 12 3 2
0 5 10 15 20 25
- 51. S3
レガシーデータ
Data Center
DWH
RDBMS
オンプレミスデータセンター
からのレガシーデータもS3
へアップロード
Netflix Data Center
- 52. DWH
RDBMS
NoSQLデータベース上の
顧客データもS3へエクス
ポート
- 55. Netflix様でのデータ解析
Prod Cluster
EMRクラスタ
S3 (EMR)
EMR HDFS
EMRを活用して、
データはすべてS3から提供
- 57. Netflix様でのデータ解析
アドホック
分析
リコメンデーション
パーソナライゼーション
S3 EMRクラスタ
Prod Cluster
(EMR)
EMR
EMRで生成したデータは
様々な用途で利用
- 60. Netflix本番クラスタ構成
Prod Cluster
本番クラスタ
(EMR)
S3
EMR
アドホック
Query Cluster
分析用
(EMR)
EMR
- 61. 各分析毎にクラスタを構築できる
Prod Cluster
本番クラスタ
(EMR )
S3
EMR
各分析毎にクラスタ
Query Cluster
(を柔軟に構築
EMR )
EMR
EMR
EMR
EMR
- 63. スペルミスの 検索ワードの リコメン
自動修正 自動補完 デーション
- 64. どこでAWSクラウドが動いているか?
必要なデータ
スペルミスの自動修正 月間のユーザ毎の履歴 一般的な間違いの
データ
Westen
Wistin
Westan
Whestin
- 72. 標準的なアーキテクチャ
データの データの
保存 共有
SQSや ログを蓄積 分析結果
他ミドルウェア
Amazon S3
データの収集
データの
Web/APサーバ
分析
ELB ワーカー Hadoopクラスタ
Amazon EC2 EMR
- 73. BIツールとの連携アーキテクチャ
アナリスト
EMR
S3
Karmasphere Analyst
BIツールでGUIで利用 VPN経由
外部の広告データなどを
エクスポート
Oracle RDS
エンジニア
SQLでそのまま利用
- 74. データ中心アーキテクチャ
データを中心にコンピュート処理は
S3 データ可視化
データ集約・変換
柔軟に状況に応じて、処理の仕方・ レポーティング
量を変動させる
=クラウドがベストフィット
ビッグデータ処理部分は
・いつでも実施可能
パーソナライゼーション
・いつでもリサイズ可能
高速バッチ処理 リコメンデーション
・いつでも複製可能
・揮発・長期どちらも可能
- 77. 技術編まとめ
3つのV(Volume, Velocity, Variety)
• Volume:S3のスケーラビリティ
• Velocity:EC2+AutoScaling
• Variety:S3、RDS、DynamoDB
4つのプロセス(収集、保存、分析、共有)
• AWSでは4プロセスを全方位カバー
• S3、EC2、EMR、RDS等、柔軟に選択可能
ビッグデータ処理のアーキテクチャが、
確立しつつある