SlideShare a Scribd company logo
1 of 48
Download to read offline
© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.
Effective Data Lakes
ユースケースとデザインパターン
アマゾン ウェブ サービス ジャパン
ビッグデータアーキテクト
関⼭ 宜孝
Twitter ハッシュタグ #AWSInnovate
© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.
⾃⼰紹介
関⼭ 宜孝
Big Data Architect
AWS Glue and Lake Formation
• 約 5年間 AWS サポートにて技術⽀援を担当
• 2019.8 からプロダクトチームにジョイン
• AWS でデータレイクを構築するための
アーティファクトの実装や
アーキテクティングの⽀援を担当
© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.
本セッションの狙い
AWS 上にデータレイクを構築するための
デザインパターンについて
ユースケースをもとに学ぶ
© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.
アジェンダ
• データレイクが必要な理由
• データレイクのコンセプト
• よくある質問とチャレンジ
• データレイクデザインパターン
• データレイクセキュリティ
© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.
© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.
データ
5年毎
我々が考える以上に
データは増えている
15
年間
使⽤期間
データプラットフォームに
求められるもの
1,000
倍
拡張性
>10倍
成⻑率
© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.
データにアクセスす
る⼈々も増えている
分析対象のデータに
対する要件も増えて
いる
データ
サイエンティスト
分析
ビジネスユーザー
アプリケーション
セキュア リアルタイム
柔軟性 拡張性
© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.
A data lake is a centralized repository that allows
you to store all your structured and unstructured
data at any scale
データレイクは、規模にかかわらず
すべての構造化データと⾮構造化データを保存できる
⼀元化されたリポジトリです
© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.
なぜデータレイクが必要か
データレイクが提供するもの:
構造化、半構造化、⾮構造化データの取り扱い
ペタバイト、エクサバイトにわたる拡張性
様々な分析および機械学習ツールとの連携
データの移動を伴わずにデータを処理
低コストなデータの保存と分析
OLTP ERP CRM LOB
データウェアハウス
ビジネスイン
テリジェンス
データレイク
100110000100101011100
101010111001010100001
011111011010
0011110010110010110
0100011000010
デバイス Web センサーソーシャ
ル
カタログ
機械
学習
データウェア
ハウスクエリ
ビッグデー
タ処理
インタラク
ティブ
リアルタイム
© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.
AWS Glue
Amazon Kinesis
Data Analytics
Amazon
QuickSight
Amazon
EMR
AWS におけるデータレイク
データ⼊⼒
分析・機械学習
中央ストレージ
AWS Glue
Amazon
Elasticsearch
Service
AWS Lake
Formation
AWS Snowball AWS DMS AWS DataSync
Amazon Kinesis
Data Streams
Amazon Kinesis
Data Firehose
Amazon
Redshift
Amazon
Athena
Amazon
SageMaker
Amazon
Forecast
Amazon S3
AWS Deep
Learning AMIs
AWS IAM AWS KMS AWS Lake
Formation
Amazon
CloudWatch
AWS
CloudTrail
カタログ 管理
セキュリティ
© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.
データレイクのコア
データレイク
コンピュート
レイヤー
データ &
メタデータ
AWS Glue
Data Catalog
Amazon
Redshift
Spectrum
AWS Lake
Formation
AWS Glue
ETL Job
Amazon
EMR
Amazon
Athena
Amazon
S3
© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.
データレイクに必要な要素
• すべてのデータをひとつの場所に
• 構造化/半構造化/⾮構造化/⽣データに対応
• ⾼速なデータ⼊⼒と活⽤に対応
• スキーマ・オン・リード
• 低コストストレージ向けに設計
• ストレージとコンピュートを分離
• データの保護とセキュリティ
© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.
© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.
Tier 2
S3 データレイク
(分析)
Tier 1
S3 データレイク
(⽣データ)
複数層データレイクとデータウェアハウス
データウェア
ハウス
© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.
⽣データの信頼できる唯⼀の情報源
(SSOT: Single source of truth)
最⼩限のデータ変換
定期的に S3 IA や S3 Glacier に移動Amazon S3
Tier 1 データレイク︓⽣データ
© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.
カラムナフォーマット(Parquet/ORC)を使⽤
パーティションにあわせて配置
時系列でより⼤きなパーティションに集約
分析に最適化Amazon S3
Tier 2 データレイク︓分析
© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.
構造化されたスキーマによる⾼速な処理
ダッシュボードとレポートの提供
きめ細かいアクセス制御
内部/外部テーブルの JOIN に対応
S3 データレイクへのライフサイクルバック
Amazon
Redshift
データウェアハウス
© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.
© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.
よくある質問
• データレイクへのストリーミング⼊⼒はできますか︖
• データレイクは分析⽤データベースレプリカをリプレイス可能ですか︖
• データレイクの中のデータの更新や削除はどのようにできますか︖
• データレイクの中のデータをどのように構成すればよいですか︖
© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.
よくある質問
• データレイクのデータをもとに機械学習のトレーニングをするには︖
• データレイクの中でデータ保護ルールを施⾏するには︖
• どのような認証・認可の選択肢がありますか︖
© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.
© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.
ログ/クリックストリーム/IoT センサーデータの分析
アプリケーション S3 データレイク
Kinesis Data
Firehose
Amazon
Athena
Amazon
Redshift
潜在的な問題︓
1. ⾮常に多数の⼩さいファイル
2. 必ずしも分析に最適化されていない
Amazon
EMR
Amazon
SageMaker
© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.
ログ/クリックストリーム/IoT センサーデータの分析
Tier 2
S3 データレイク
(分析)
Kinesis Data
Firehose
Tier 1
S3 データレイク
(⽣データ)
AWS Glue
ETL Job
解決策︓
Hourly で Parquet/ORC
に変換しコンパクション
アプリケーション
Amazon
Athena
Amazon
Redshift
Amazon
EMR
Amazon
SageMaker
© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.
データベースレプリカのリプレイス
S3 データレイクAWS DMS
潜在的な問題︓
UPDATE/DELETE が新規のレコードを⽣成する
データベース
Amazon
Athena
Amazon
Redshift
Amazon
EMR
Amazon
SageMaker
© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.
Tier 2
S3 データレイク
(分析)
Tier 1
S3 データレイク
(⽣データ)
解決策︓
データベースの最新のレコードの
ビューを表現するVIEW を作成する
データベースレプリカのリプレイス
AWS DMS
潜在的な問題:
VIEW のレコードのグルーピングの
計算コストが⾼い
データベース
AWS Glue
ETL Job
Amazon
Athena
Amazon
Redshift
Amazon
EMR
Amazon
SageMaker
© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.
Tier 2
データレイク
(分析)
Tier 1
データレイク
(⽣データ)
解決策︓
データベースの当時の
レコードのビューを表現する
⽇次のスナップショットを作成する
データベースレプリカのリプレイス
AWS DMSデータベース
AWS Glue
ETL Job
スナップ
ショット
(分析)
AWS Glue
ETL Job
Amazon
Athena
Amazon
Redshift
Amazon
EMR
Amazon
SageMaker
© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.
機械学習︓バッチトレーニングパイプライン
Tier 2
S3 データレイク
(分析)
Tier 1
S3 データレイク
(⽣データ)
AWS Glue
ETL Job
SageMaker
バッチトレーニング
S3 モデル
アーティファクト
SageMaker
Endpoints
AWS Glue
ETL Job
AWS Glue
ETL Job
Data
Preparation
Training
Step
Model
Deployment
© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.
機械学習︓ストリーミングデータの予測
Tier 2
S3 データレイク
(分析)
Kinesis Data
Firehose
Amazon
Athena
Presto/Spark
on EMR
Amazon
Redshift
Tier 1
S3 データレイク
(⽣データ)
AWS Glue
ETL Job
アプリケーション
SageMaker
Endpoints
Lambda
潜在的な問題:
Tier 1 の⽣データにおけるデータ
変換は最⼩限にとどめたい
© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.
機械学習︓ストリーミングデータの予測
Tier 2
S3 データレイク
(分析)
Kinesis Data
Firehose
Amazon
Athena
Presto/Spark
on EMR
Amazon
Redshift
Tier 1
S3 データレイク
(⽣データ)
AWS Glue
ETL Job
アプリケーション
SageMaker
Endpoints
© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.
ゲーム系の分析/ML ユースケース
Tier 2
S3 データレイク
(分析)
Tier 1
S3 データレイク
(⽣データ)
AWS Glue
ETL Job
Amazon
Athena
Amazon
Redshift
Amazon
SageMaker
Kinesis Data
Firehose
ゲームA
ゲームZ
Kinesis Data
Firehose
ゲームタイトルのログデータを集約することで
全タイトルを横断した分析が可能に
Amazon
QuickSight
© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.
データレイク設計の原則
• データ⼊⼒のロケーションと頻度
• データ⼊⼒のデータソースのロケーションを決定
• データの⼊⼒頻度と⽅式を決定
• データパーティショニング
• よく使⽤されるフィルターをもとに、データのパーティションキーを決定
• パーティションプルーニングが有効化され、クエリパフォーマンスが向上
• ファイルサイズ
• 最適なファイルサイズを選択
• 推奨︓パーティションごとに 256MB〜1GB の Parquet/ORC ファイルを配置
© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.
データレイク設計の原則
• コンパクション
• スケジュールベースでデータを推奨ファイルサイズにコンパクション
• 例︓Houly のファイルが⼩さい場合、⽇次で Daily パーティションに集約
• 変わりやすいデータ (Mutable data) を扱うユースケース
• Redshift や HBase を使⽤し、データが静的になったあとで S3 にオフロード
• パーティションごとに差分ファイルを⽣成し、AWS Glue や Spark on EMR で
スケジュールベースでコンパクション
© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.
パーティションカラムの選び⽅
• 最適なファイルサイズを⽬指す (256 MB〜1GB)
• 典型的なクエリのスキャン範囲を特定する (3か⽉、1年、5年など)
• クエリフィルターを把握し、GROUP BY カラムとパーティションカラ
ムを合わせる
© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.
パーティションカラムの選び⽅︓例
4.3M partitions
© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.
パーティションカラムの選び⽅︓例
device/ hour
• バケッティング︓デバイス、50 バケット
50
480 MB
24 GB
5*365
= 1825 partitions
© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.
データレイクの最適化
• バケット化データ
• より⾼いパフォーマンスを実現するために、各パーティションにおいて⾼い
カーディナリティをもつキーでデータをバケット化
• Presto/Athena や Hive, Spark にて、対象キーのフィルタの性能向上に有効
df.write.bucketBy(numBuckets,”col1”).parquet(…)
© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.
データレイクの最適化
• データの順番
• より⾼いパフォーマンスを実現するために、各パーティションにおいてセカン
ダリキーでソートする
• 各エンジンが要求されたデータを取得する際にファイルの⼀部をスキップする
ため、性能向上に有効
df.repartition(100).sortWithinPartitions([‘order_id’]
,ascending=True).parquet(…)
© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.
データレイクの最適化
• ブルームフィルタ
• 空間効率の⾼い確率的なデータ構造
• 要素が集合のメンバーであるかどうかをチェックするのに使⽤される
CREATE TABLE
STORED AS ORC
TBLPROPERTIES('orc.bloom.filter.columns’=‘ORDER_ID')
© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.
© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.
セキュリティとガバナンスの検討課題
• 認証
• データとメタデータの認可
• 保管時/転送時のデータの暗号化
• 監査と監視
• ⼀元管理
© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.
データストレージのセキュリティ
• 複数チーム環境におけるデータへのアクセスコントロール
• Coarse Grained Authorization (CGA): 粗い粒度の認可
• Fine Grained Authorization (FGA): 細かい粒度の認可
• リソースのセキュア化とアクセスの分離
• S3 バケット/オブジェクト
• EMR クラスタ
• Redshift クラスタ
• データアセットの暗号化
© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.
メタデータのセキュリティ
• 中央データカタログの作成と管理
• 複数チーム環境におけるメタデータへのアクセスコントロール
• メタデータの暗号化
© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.
• S3 上のデータの準備をより簡単に
• Blueprint を使って既存データを登録したり、新規データを簡単にロード可能
• 複数のサービスにわたるデータアクセスをセキュアに
• SQL スタイルのパーミッションでシンプルに管理可能
• Glue, Athena, Redshift Spectrum, Spark on EMR (ベータ) に対応
AWS Lake Formation セキュアなデータレイクを数⽇で構築
クイックに
データレイクを構築
アクセスを
セキュアに管理
共有と
コラボレーション
© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.
Lake Formation のパーミッション
• データアクセスを GRANT/REVOKE の
SQL スタイルでコントロール
• バケットやオブジェクトではなく、
テーブルやカラムのパーミッションを設定
• 特定のユーザーに付与されたパーミッショ
ンを簡単に確認
© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.
Lake Formation のセキュリティモデル
Amazon S3
データレイクストレージ
Data
Catalog
アクセス
コントロール
Lake Formation
2. ユーザーがいずれかの
サービスからアクセス
3. 各サービスが
ユーザークレデンシャルを
Lake Formation に送信
4. Lake Formation が
データアクセスを許可した
⼀時クレデンシャルを返却
1. Lake Formation でユーザー
のパーミッションを設定
Admin
Amazon
EMR
Amazon
Redshift
Amazon
Athena
AWS Glue
User
© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.
© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.
本セッションのまとめ
• データレイクを構築する上でのコンセプトとチャレンジ
• データレイクのユースケースとデザインパターン
• データレイクセキュリティの検討課題と AWS Lake Formation
Thank you!
© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.

More Related Content

What's hot

20200826 AWS Black Belt Online Seminar AWS CloudFormation
20200826 AWS Black Belt Online Seminar AWS CloudFormation 20200826 AWS Black Belt Online Seminar AWS CloudFormation
20200826 AWS Black Belt Online Seminar AWS CloudFormation Amazon Web Services Japan
 
20190806 AWS Black Belt Online Seminar AWS Glue
20190806 AWS Black Belt Online Seminar AWS Glue20190806 AWS Black Belt Online Seminar AWS Glue
20190806 AWS Black Belt Online Seminar AWS GlueAmazon Web Services Japan
 
AWS Black Belt Online Seminar 2017 Auto Scaling
AWS Black Belt Online Seminar 2017 Auto ScalingAWS Black Belt Online Seminar 2017 Auto Scaling
AWS Black Belt Online Seminar 2017 Auto ScalingAmazon Web Services Japan
 
20200812 AWS Black Belt Online Seminar Amazon Macie
20200812 AWS Black Belt Online Seminar Amazon Macie20200812 AWS Black Belt Online Seminar Amazon Macie
20200812 AWS Black Belt Online Seminar Amazon MacieAmazon Web Services Japan
 
AWS Black Belt Online Seminar 2017 Amazon ElastiCache
AWS Black Belt Online Seminar 2017 Amazon ElastiCacheAWS Black Belt Online Seminar 2017 Amazon ElastiCache
AWS Black Belt Online Seminar 2017 Amazon ElastiCacheAmazon Web Services Japan
 
AWS Black Belt Online Seminar 2017 Amazon DynamoDB
AWS Black Belt Online Seminar 2017 Amazon DynamoDB AWS Black Belt Online Seminar 2017 Amazon DynamoDB
AWS Black Belt Online Seminar 2017 Amazon DynamoDB Amazon Web Services Japan
 
20191002 AWS Black Belt Online Seminar Amazon EC2 Auto Scaling and AWS Auto S...
20191002 AWS Black Belt Online Seminar Amazon EC2 Auto Scaling and AWS Auto S...20191002 AWS Black Belt Online Seminar Amazon EC2 Auto Scaling and AWS Auto S...
20191002 AWS Black Belt Online Seminar Amazon EC2 Auto Scaling and AWS Auto S...Amazon Web Services Japan
 
20200623 AWS Black Belt Online Seminar Amazon Elasticsearch Service
20200623 AWS Black Belt Online Seminar Amazon Elasticsearch Service20200623 AWS Black Belt Online Seminar Amazon Elasticsearch Service
20200623 AWS Black Belt Online Seminar Amazon Elasticsearch ServiceAmazon Web Services Japan
 
20210330 AWS Black Belt Online Seminar AWS Glue -Glue Studioを使ったデータ変換のベストプラクティス-
20210330 AWS Black Belt Online Seminar AWS Glue -Glue Studioを使ったデータ変換のベストプラクティス-20210330 AWS Black Belt Online Seminar AWS Glue -Glue Studioを使ったデータ変換のベストプラクティス-
20210330 AWS Black Belt Online Seminar AWS Glue -Glue Studioを使ったデータ変換のベストプラクティス-Amazon Web Services Japan
 
20190320 AWS Black Belt Online Seminar Amazon EBS
20190320 AWS Black Belt Online Seminar Amazon EBS20190320 AWS Black Belt Online Seminar Amazon EBS
20190320 AWS Black Belt Online Seminar Amazon EBSAmazon Web Services Japan
 
20191120 AWS Black Belt Online Seminar Amazon Managed Streaming for Apache Ka...
20191120 AWS Black Belt Online Seminar Amazon Managed Streaming for Apache Ka...20191120 AWS Black Belt Online Seminar Amazon Managed Streaming for Apache Ka...
20191120 AWS Black Belt Online Seminar Amazon Managed Streaming for Apache Ka...Amazon Web Services Japan
 
20190206 AWS Black Belt Online Seminar Amazon SageMaker Basic Session
20190206 AWS Black Belt Online Seminar Amazon SageMaker Basic Session20190206 AWS Black Belt Online Seminar Amazon SageMaker Basic Session
20190206 AWS Black Belt Online Seminar Amazon SageMaker Basic SessionAmazon Web Services Japan
 
20190326 AWS Black Belt Online Seminar Amazon CloudWatch
20190326 AWS Black Belt Online Seminar Amazon CloudWatch20190326 AWS Black Belt Online Seminar Amazon CloudWatch
20190326 AWS Black Belt Online Seminar Amazon CloudWatchAmazon Web Services Japan
 
20191016 AWS Black Belt Online Seminar Amazon Route 53 Resolver
20191016 AWS Black Belt Online Seminar Amazon Route 53 Resolver20191016 AWS Black Belt Online Seminar Amazon Route 53 Resolver
20191016 AWS Black Belt Online Seminar Amazon Route 53 ResolverAmazon Web Services Japan
 
20190828 AWS Black Belt Online Seminar Amazon Aurora with PostgreSQL Compatib...
20190828 AWS Black Belt Online Seminar Amazon Aurora with PostgreSQL Compatib...20190828 AWS Black Belt Online Seminar Amazon Aurora with PostgreSQL Compatib...
20190828 AWS Black Belt Online Seminar Amazon Aurora with PostgreSQL Compatib...Amazon Web Services Japan
 
202106 AWS Black Belt Online Seminar 小売現場のデータを素早くビジネス に活用するAWSデータ基盤
202106 AWS Black Belt Online Seminar 小売現場のデータを素早くビジネス に活用するAWSデータ基盤202106 AWS Black Belt Online Seminar 小売現場のデータを素早くビジネス に活用するAWSデータ基盤
202106 AWS Black Belt Online Seminar 小売現場のデータを素早くビジネス に活用するAWSデータ基盤Amazon Web Services Japan
 
AWS Black Belt Online Seminar AWS Key Management Service (KMS)
AWS Black Belt Online Seminar AWS Key Management Service (KMS) AWS Black Belt Online Seminar AWS Key Management Service (KMS)
AWS Black Belt Online Seminar AWS Key Management Service (KMS) Amazon Web Services Japan
 
20200128 AWS Black Belt Online Seminar Amazon Forecast
20200128 AWS Black Belt Online Seminar Amazon Forecast20200128 AWS Black Belt Online Seminar Amazon Forecast
20200128 AWS Black Belt Online Seminar Amazon ForecastAmazon Web Services Japan
 
20180221 AWS Black Belt Online Seminar AWS Lambda@Edge
20180221 AWS Black Belt Online Seminar AWS Lambda@Edge20180221 AWS Black Belt Online Seminar AWS Lambda@Edge
20180221 AWS Black Belt Online Seminar AWS Lambda@EdgeAmazon Web Services Japan
 

What's hot (20)

20200826 AWS Black Belt Online Seminar AWS CloudFormation
20200826 AWS Black Belt Online Seminar AWS CloudFormation 20200826 AWS Black Belt Online Seminar AWS CloudFormation
20200826 AWS Black Belt Online Seminar AWS CloudFormation
 
20190806 AWS Black Belt Online Seminar AWS Glue
20190806 AWS Black Belt Online Seminar AWS Glue20190806 AWS Black Belt Online Seminar AWS Glue
20190806 AWS Black Belt Online Seminar AWS Glue
 
AWS Black Belt Online Seminar 2017 Auto Scaling
AWS Black Belt Online Seminar 2017 Auto ScalingAWS Black Belt Online Seminar 2017 Auto Scaling
AWS Black Belt Online Seminar 2017 Auto Scaling
 
20200812 AWS Black Belt Online Seminar Amazon Macie
20200812 AWS Black Belt Online Seminar Amazon Macie20200812 AWS Black Belt Online Seminar Amazon Macie
20200812 AWS Black Belt Online Seminar Amazon Macie
 
AWS Black Belt Online Seminar 2017 Amazon ElastiCache
AWS Black Belt Online Seminar 2017 Amazon ElastiCacheAWS Black Belt Online Seminar 2017 Amazon ElastiCache
AWS Black Belt Online Seminar 2017 Amazon ElastiCache
 
AWS Black Belt Online Seminar 2017 Amazon DynamoDB
AWS Black Belt Online Seminar 2017 Amazon DynamoDB AWS Black Belt Online Seminar 2017 Amazon DynamoDB
AWS Black Belt Online Seminar 2017 Amazon DynamoDB
 
20191002 AWS Black Belt Online Seminar Amazon EC2 Auto Scaling and AWS Auto S...
20191002 AWS Black Belt Online Seminar Amazon EC2 Auto Scaling and AWS Auto S...20191002 AWS Black Belt Online Seminar Amazon EC2 Auto Scaling and AWS Auto S...
20191002 AWS Black Belt Online Seminar Amazon EC2 Auto Scaling and AWS Auto S...
 
20200623 AWS Black Belt Online Seminar Amazon Elasticsearch Service
20200623 AWS Black Belt Online Seminar Amazon Elasticsearch Service20200623 AWS Black Belt Online Seminar Amazon Elasticsearch Service
20200623 AWS Black Belt Online Seminar Amazon Elasticsearch Service
 
20210330 AWS Black Belt Online Seminar AWS Glue -Glue Studioを使ったデータ変換のベストプラクティス-
20210330 AWS Black Belt Online Seminar AWS Glue -Glue Studioを使ったデータ変換のベストプラクティス-20210330 AWS Black Belt Online Seminar AWS Glue -Glue Studioを使ったデータ変換のベストプラクティス-
20210330 AWS Black Belt Online Seminar AWS Glue -Glue Studioを使ったデータ変換のベストプラクティス-
 
20190320 AWS Black Belt Online Seminar Amazon EBS
20190320 AWS Black Belt Online Seminar Amazon EBS20190320 AWS Black Belt Online Seminar Amazon EBS
20190320 AWS Black Belt Online Seminar Amazon EBS
 
20191120 AWS Black Belt Online Seminar Amazon Managed Streaming for Apache Ka...
20191120 AWS Black Belt Online Seminar Amazon Managed Streaming for Apache Ka...20191120 AWS Black Belt Online Seminar Amazon Managed Streaming for Apache Ka...
20191120 AWS Black Belt Online Seminar Amazon Managed Streaming for Apache Ka...
 
20190206 AWS Black Belt Online Seminar Amazon SageMaker Basic Session
20190206 AWS Black Belt Online Seminar Amazon SageMaker Basic Session20190206 AWS Black Belt Online Seminar Amazon SageMaker Basic Session
20190206 AWS Black Belt Online Seminar Amazon SageMaker Basic Session
 
20190326 AWS Black Belt Online Seminar Amazon CloudWatch
20190326 AWS Black Belt Online Seminar Amazon CloudWatch20190326 AWS Black Belt Online Seminar Amazon CloudWatch
20190326 AWS Black Belt Online Seminar Amazon CloudWatch
 
20191016 AWS Black Belt Online Seminar Amazon Route 53 Resolver
20191016 AWS Black Belt Online Seminar Amazon Route 53 Resolver20191016 AWS Black Belt Online Seminar Amazon Route 53 Resolver
20191016 AWS Black Belt Online Seminar Amazon Route 53 Resolver
 
20190828 AWS Black Belt Online Seminar Amazon Aurora with PostgreSQL Compatib...
20190828 AWS Black Belt Online Seminar Amazon Aurora with PostgreSQL Compatib...20190828 AWS Black Belt Online Seminar Amazon Aurora with PostgreSQL Compatib...
20190828 AWS Black Belt Online Seminar Amazon Aurora with PostgreSQL Compatib...
 
202106 AWS Black Belt Online Seminar 小売現場のデータを素早くビジネス に活用するAWSデータ基盤
202106 AWS Black Belt Online Seminar 小売現場のデータを素早くビジネス に活用するAWSデータ基盤202106 AWS Black Belt Online Seminar 小売現場のデータを素早くビジネス に活用するAWSデータ基盤
202106 AWS Black Belt Online Seminar 小売現場のデータを素早くビジネス に活用するAWSデータ基盤
 
AWS Organizations
AWS OrganizationsAWS Organizations
AWS Organizations
 
AWS Black Belt Online Seminar AWS Key Management Service (KMS)
AWS Black Belt Online Seminar AWS Key Management Service (KMS) AWS Black Belt Online Seminar AWS Key Management Service (KMS)
AWS Black Belt Online Seminar AWS Key Management Service (KMS)
 
20200128 AWS Black Belt Online Seminar Amazon Forecast
20200128 AWS Black Belt Online Seminar Amazon Forecast20200128 AWS Black Belt Online Seminar Amazon Forecast
20200128 AWS Black Belt Online Seminar Amazon Forecast
 
20180221 AWS Black Belt Online Seminar AWS Lambda@Edge
20180221 AWS Black Belt Online Seminar AWS Lambda@Edge20180221 AWS Black Belt Online Seminar AWS Lambda@Edge
20180221 AWS Black Belt Online Seminar AWS Lambda@Edge
 

Similar to Effective Data Lakes - ユースケースとデザインパターン

[CTO Night & Day 2019] AWS で構築するデータレイク基盤と amazon.com での導入事例 #ctonight
[CTO Night & Day 2019] AWS で構築するデータレイク基盤と amazon.com での導入事例 #ctonight[CTO Night & Day 2019] AWS で構築するデータレイク基盤と amazon.com での導入事例 #ctonight
[CTO Night & Day 2019] AWS で構築するデータレイク基盤と amazon.com での導入事例 #ctonightAmazon Web Services Japan
 
20190122 AWS Black Belt Online Seminar Amazon Redshift Update
20190122 AWS Black Belt Online Seminar Amazon Redshift Update20190122 AWS Black Belt Online Seminar Amazon Redshift Update
20190122 AWS Black Belt Online Seminar Amazon Redshift UpdateAmazon Web Services Japan
 
20180619 AWS Black Belt Online Seminar データレイク入門: AWSで様々な規模のデータレイクを分析する効率的な方法
20180619 AWS Black Belt Online Seminar データレイク入門: AWSで様々な規模のデータレイクを分析する効率的な方法20180619 AWS Black Belt Online Seminar データレイク入門: AWSで様々な規模のデータレイクを分析する効率的な方法
20180619 AWS Black Belt Online Seminar データレイク入門: AWSで様々な規模のデータレイクを分析する効率的な方法Amazon Web Services Japan
 
20180425 AWS Black Belt Online Seminar Amazon Relational Database Service (Am...
20180425 AWS Black Belt Online Seminar Amazon Relational Database Service (Am...20180425 AWS Black Belt Online Seminar Amazon Relational Database Service (Am...
20180425 AWS Black Belt Online Seminar Amazon Relational Database Service (Am...Amazon Web Services Japan
 
Amazon Game Tech Night #22 AWSで実現するデータレイクとアナリティクス
Amazon Game Tech Night #22 AWSで実現するデータレイクとアナリティクスAmazon Game Tech Night #22 AWSで実現するデータレイクとアナリティクス
Amazon Game Tech Night #22 AWSで実現するデータレイクとアナリティクスAmazon Web Services Japan
 
20180220 AWS Black Belt Online Seminar - Amazon Container Services
20180220 AWS Black Belt Online Seminar - Amazon Container Services20180220 AWS Black Belt Online Seminar - Amazon Container Services
20180220 AWS Black Belt Online Seminar - Amazon Container ServicesAmazon Web Services Japan
 
Amazon Kinesis Familyを活用したストリームデータ処理
Amazon Kinesis Familyを活用したストリームデータ処理Amazon Kinesis Familyを活用したストリームデータ処理
Amazon Kinesis Familyを活用したストリームデータ処理Amazon Web Services Japan
 
20200617 AWS Black Belt Online Seminar Amazon Athena
20200617 AWS Black Belt Online Seminar Amazon Athena20200617 AWS Black Belt Online Seminar Amazon Athena
20200617 AWS Black Belt Online Seminar Amazon AthenaAmazon Web Services Japan
 
Modernizing Big Data Workload Using Amazon EMR & AWS Glue
Modernizing Big Data Workload Using Amazon EMR & AWS GlueModernizing Big Data Workload Using Amazon EMR & AWS Glue
Modernizing Big Data Workload Using Amazon EMR & AWS GlueNoritaka Sekiyama
 
Best Practices for Running PostgreSQL on AWS
Best Practices for Running PostgreSQL on AWSBest Practices for Running PostgreSQL on AWS
Best Practices for Running PostgreSQL on AWSAmazon Web Services Japan
 
[PGConf.ASIA 2018]Deep Dive on Amazon Aurora with PostgreSQL Compatibility
[PGConf.ASIA 2018]Deep Dive on Amazon Aurora with PostgreSQL Compatibility[PGConf.ASIA 2018]Deep Dive on Amazon Aurora with PostgreSQL Compatibility
[PGConf.ASIA 2018]Deep Dive on Amazon Aurora with PostgreSQL CompatibilityAmazon Web Services Japan
 
AWS IoT SiteWise のご紹介 (AWS IoT Deep Dive #5)
AWS IoT SiteWise のご紹介 (AWS IoT Deep Dive #5)AWS IoT SiteWise のご紹介 (AWS IoT Deep Dive #5)
AWS IoT SiteWise のご紹介 (AWS IoT Deep Dive #5)Amazon Web Services Japan
 
サーバーワークス re:invent_2016~新サービス・アップデート紹介~
サーバーワークス re:invent_2016~新サービス・アップデート紹介~サーバーワークス re:invent_2016~新サービス・アップデート紹介~
サーバーワークス re:invent_2016~新サービス・アップデート紹介~Serverworks Co.,Ltd.
 
AWS Black Belt Techシリーズ AWS Data Pipeline
AWS Black Belt Techシリーズ  AWS Data PipelineAWS Black Belt Techシリーズ  AWS Data Pipeline
AWS Black Belt Techシリーズ AWS Data PipelineAmazon Web Services Japan
 
20210127 AWS Black Belt Online Seminar Amazon Redshift 運用管理
20210127 AWS Black Belt Online Seminar Amazon Redshift 運用管理20210127 AWS Black Belt Online Seminar Amazon Redshift 運用管理
20210127 AWS Black Belt Online Seminar Amazon Redshift 運用管理Amazon Web Services Japan
 
20180508 AWS Black Belt Online Seminar AWS Greengrassで実現するエッジコンピューティング
20180508 AWS Black Belt Online Seminar AWS Greengrassで実現するエッジコンピューティング20180508 AWS Black Belt Online Seminar AWS Greengrassで実現するエッジコンピューティング
20180508 AWS Black Belt Online Seminar AWS Greengrassで実現するエッジコンピューティングAmazon Web Services Japan
 
20190226 AWS Black Belt Online Seminar Amazon WorkSpaces
20190226 AWS Black Belt Online Seminar Amazon WorkSpaces20190226 AWS Black Belt Online Seminar Amazon WorkSpaces
20190226 AWS Black Belt Online Seminar Amazon WorkSpacesAmazon Web Services Japan
 

Similar to Effective Data Lakes - ユースケースとデザインパターン (20)

[CTO Night & Day 2019] AWS で構築するデータレイク基盤と amazon.com での導入事例 #ctonight
[CTO Night & Day 2019] AWS で構築するデータレイク基盤と amazon.com での導入事例 #ctonight[CTO Night & Day 2019] AWS で構築するデータレイク基盤と amazon.com での導入事例 #ctonight
[CTO Night & Day 2019] AWS で構築するデータレイク基盤と amazon.com での導入事例 #ctonight
 
Serverless analytics on aws
Serverless analytics on awsServerless analytics on aws
Serverless analytics on aws
 
20190122 AWS Black Belt Online Seminar Amazon Redshift Update
20190122 AWS Black Belt Online Seminar Amazon Redshift Update20190122 AWS Black Belt Online Seminar Amazon Redshift Update
20190122 AWS Black Belt Online Seminar Amazon Redshift Update
 
20180619 AWS Black Belt Online Seminar データレイク入門: AWSで様々な規模のデータレイクを分析する効率的な方法
20180619 AWS Black Belt Online Seminar データレイク入門: AWSで様々な規模のデータレイクを分析する効率的な方法20180619 AWS Black Belt Online Seminar データレイク入門: AWSで様々な規模のデータレイクを分析する効率的な方法
20180619 AWS Black Belt Online Seminar データレイク入門: AWSで様々な規模のデータレイクを分析する効率的な方法
 
20180425 AWS Black Belt Online Seminar Amazon Relational Database Service (Am...
20180425 AWS Black Belt Online Seminar Amazon Relational Database Service (Am...20180425 AWS Black Belt Online Seminar Amazon Relational Database Service (Am...
20180425 AWS Black Belt Online Seminar Amazon Relational Database Service (Am...
 
Amazon Game Tech Night #22 AWSで実現するデータレイクとアナリティクス
Amazon Game Tech Night #22 AWSで実現するデータレイクとアナリティクスAmazon Game Tech Night #22 AWSで実現するデータレイクとアナリティクス
Amazon Game Tech Night #22 AWSで実現するデータレイクとアナリティクス
 
20180220 AWS Black Belt Online Seminar - Amazon Container Services
20180220 AWS Black Belt Online Seminar - Amazon Container Services20180220 AWS Black Belt Online Seminar - Amazon Container Services
20180220 AWS Black Belt Online Seminar - Amazon Container Services
 
Amazon Kinesis Familyを活用したストリームデータ処理
Amazon Kinesis Familyを活用したストリームデータ処理Amazon Kinesis Familyを活用したストリームデータ処理
Amazon Kinesis Familyを活用したストリームデータ処理
 
20200617 AWS Black Belt Online Seminar Amazon Athena
20200617 AWS Black Belt Online Seminar Amazon Athena20200617 AWS Black Belt Online Seminar Amazon Athena
20200617 AWS Black Belt Online Seminar Amazon Athena
 
AWS Black Belt - AWS Glue
AWS Black Belt - AWS GlueAWS Black Belt - AWS Glue
AWS Black Belt - AWS Glue
 
Modernizing Big Data Workload Using Amazon EMR & AWS Glue
Modernizing Big Data Workload Using Amazon EMR & AWS GlueModernizing Big Data Workload Using Amazon EMR & AWS Glue
Modernizing Big Data Workload Using Amazon EMR & AWS Glue
 
Best Practices for Running PostgreSQL on AWS
Best Practices for Running PostgreSQL on AWSBest Practices for Running PostgreSQL on AWS
Best Practices for Running PostgreSQL on AWS
 
[PGConf.ASIA 2018]Deep Dive on Amazon Aurora with PostgreSQL Compatibility
[PGConf.ASIA 2018]Deep Dive on Amazon Aurora with PostgreSQL Compatibility[PGConf.ASIA 2018]Deep Dive on Amazon Aurora with PostgreSQL Compatibility
[PGConf.ASIA 2018]Deep Dive on Amazon Aurora with PostgreSQL Compatibility
 
AWS IoT SiteWise のご紹介 (AWS IoT Deep Dive #5)
AWS IoT SiteWise のご紹介 (AWS IoT Deep Dive #5)AWS IoT SiteWise のご紹介 (AWS IoT Deep Dive #5)
AWS IoT SiteWise のご紹介 (AWS IoT Deep Dive #5)
 
Data Lake Security on AWS
Data Lake Security on AWSData Lake Security on AWS
Data Lake Security on AWS
 
サーバーワークス re:invent_2016~新サービス・アップデート紹介~
サーバーワークス re:invent_2016~新サービス・アップデート紹介~サーバーワークス re:invent_2016~新サービス・アップデート紹介~
サーバーワークス re:invent_2016~新サービス・アップデート紹介~
 
AWS Black Belt Techシリーズ AWS Data Pipeline
AWS Black Belt Techシリーズ  AWS Data PipelineAWS Black Belt Techシリーズ  AWS Data Pipeline
AWS Black Belt Techシリーズ AWS Data Pipeline
 
20210127 AWS Black Belt Online Seminar Amazon Redshift 運用管理
20210127 AWS Black Belt Online Seminar Amazon Redshift 運用管理20210127 AWS Black Belt Online Seminar Amazon Redshift 運用管理
20210127 AWS Black Belt Online Seminar Amazon Redshift 運用管理
 
20180508 AWS Black Belt Online Seminar AWS Greengrassで実現するエッジコンピューティング
20180508 AWS Black Belt Online Seminar AWS Greengrassで実現するエッジコンピューティング20180508 AWS Black Belt Online Seminar AWS Greengrassで実現するエッジコンピューティング
20180508 AWS Black Belt Online Seminar AWS Greengrassで実現するエッジコンピューティング
 
20190226 AWS Black Belt Online Seminar Amazon WorkSpaces
20190226 AWS Black Belt Online Seminar Amazon WorkSpaces20190226 AWS Black Belt Online Seminar Amazon WorkSpaces
20190226 AWS Black Belt Online Seminar Amazon WorkSpaces
 

More from Noritaka Sekiyama

5分ではじめるApache Spark on AWS
5分ではじめるApache Spark on AWS5分ではじめるApache Spark on AWS
5分ではじめるApache Spark on AWSNoritaka Sekiyama
 
VPC Reachability Analyzer 使って人生が変わった話
VPC Reachability Analyzer 使って人生が変わった話VPC Reachability Analyzer 使って人生が変わった話
VPC Reachability Analyzer 使って人生が変わった話Noritaka Sekiyama
 
AWS で Presto を徹底的に使いこなすワザ
AWS で Presto を徹底的に使いこなすワザAWS で Presto を徹底的に使いこなすワザ
AWS で Presto を徹底的に使いこなすワザNoritaka Sekiyama
 
Sparkにプルリク投げてみた
Sparkにプルリク投げてみたSparkにプルリク投げてみた
Sparkにプルリク投げてみたNoritaka Sekiyama
 
S3 整合性モデルと Hadoop/Spark の話
S3 整合性モデルと Hadoop/Spark の話S3 整合性モデルと Hadoop/Spark の話
S3 整合性モデルと Hadoop/Spark の話Noritaka Sekiyama
 
Amazon S3 Best Practice and Tuning for Hadoop/Spark in the Cloud
Amazon S3 Best Practice and Tuning for Hadoop/Spark in the CloudAmazon S3 Best Practice and Tuning for Hadoop/Spark in the Cloud
Amazon S3 Best Practice and Tuning for Hadoop/Spark in the CloudNoritaka Sekiyama
 
Introduction to New CloudWatch Agent
Introduction to New CloudWatch AgentIntroduction to New CloudWatch Agent
Introduction to New CloudWatch AgentNoritaka Sekiyama
 
Security Operations and Automation on AWS
Security Operations and Automation on AWSSecurity Operations and Automation on AWS
Security Operations and Automation on AWSNoritaka Sekiyama
 
Hadoop/Spark で Amazon S3 を徹底的に使いこなすワザ (Hadoop / Spark Conference Japan 2019)
Hadoop/Spark で Amazon S3 を徹底的に使いこなすワザ (Hadoop / Spark Conference Japan 2019)Hadoop/Spark で Amazon S3 を徹底的に使いこなすワザ (Hadoop / Spark Conference Japan 2019)
Hadoop/Spark で Amazon S3 を徹底的に使いこなすワザ (Hadoop / Spark Conference Japan 2019)Noritaka Sekiyama
 
運用視点でのAWSサポート利用Tips
運用視点でのAWSサポート利用Tips運用視点でのAWSサポート利用Tips
運用視点でのAWSサポート利用TipsNoritaka Sekiyama
 
基礎から学ぶ? EC2マルチキャスト
基礎から学ぶ? EC2マルチキャスト基礎から学ぶ? EC2マルチキャスト
基礎から学ぶ? EC2マルチキャストNoritaka Sekiyama
 
Floodlightってぶっちゃけどうなの?
Floodlightってぶっちゃけどうなの?Floodlightってぶっちゃけどうなの?
Floodlightってぶっちゃけどうなの?Noritaka Sekiyama
 

More from Noritaka Sekiyama (13)

5分ではじめるApache Spark on AWS
5分ではじめるApache Spark on AWS5分ではじめるApache Spark on AWS
5分ではじめるApache Spark on AWS
 
VPC Reachability Analyzer 使って人生が変わった話
VPC Reachability Analyzer 使って人生が変わった話VPC Reachability Analyzer 使って人生が変わった話
VPC Reachability Analyzer 使って人生が変わった話
 
AWS で Presto を徹底的に使いこなすワザ
AWS で Presto を徹底的に使いこなすワザAWS で Presto を徹底的に使いこなすワザ
AWS で Presto を徹底的に使いこなすワザ
 
Sparkにプルリク投げてみた
Sparkにプルリク投げてみたSparkにプルリク投げてみた
Sparkにプルリク投げてみた
 
Running Apache Spark on AWS
Running Apache Spark on AWSRunning Apache Spark on AWS
Running Apache Spark on AWS
 
S3 整合性モデルと Hadoop/Spark の話
S3 整合性モデルと Hadoop/Spark の話S3 整合性モデルと Hadoop/Spark の話
S3 整合性モデルと Hadoop/Spark の話
 
Amazon S3 Best Practice and Tuning for Hadoop/Spark in the Cloud
Amazon S3 Best Practice and Tuning for Hadoop/Spark in the CloudAmazon S3 Best Practice and Tuning for Hadoop/Spark in the Cloud
Amazon S3 Best Practice and Tuning for Hadoop/Spark in the Cloud
 
Introduction to New CloudWatch Agent
Introduction to New CloudWatch AgentIntroduction to New CloudWatch Agent
Introduction to New CloudWatch Agent
 
Security Operations and Automation on AWS
Security Operations and Automation on AWSSecurity Operations and Automation on AWS
Security Operations and Automation on AWS
 
Hadoop/Spark で Amazon S3 を徹底的に使いこなすワザ (Hadoop / Spark Conference Japan 2019)
Hadoop/Spark で Amazon S3 を徹底的に使いこなすワザ (Hadoop / Spark Conference Japan 2019)Hadoop/Spark で Amazon S3 を徹底的に使いこなすワザ (Hadoop / Spark Conference Japan 2019)
Hadoop/Spark で Amazon S3 を徹底的に使いこなすワザ (Hadoop / Spark Conference Japan 2019)
 
運用視点でのAWSサポート利用Tips
運用視点でのAWSサポート利用Tips運用視点でのAWSサポート利用Tips
運用視点でのAWSサポート利用Tips
 
基礎から学ぶ? EC2マルチキャスト
基礎から学ぶ? EC2マルチキャスト基礎から学ぶ? EC2マルチキャスト
基礎から学ぶ? EC2マルチキャスト
 
Floodlightってぶっちゃけどうなの?
Floodlightってぶっちゃけどうなの?Floodlightってぶっちゃけどうなの?
Floodlightってぶっちゃけどうなの?
 

Effective Data Lakes - ユースケースとデザインパターン

  • 1. © 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved. Effective Data Lakes ユースケースとデザインパターン アマゾン ウェブ サービス ジャパン ビッグデータアーキテクト 関⼭ 宜孝 Twitter ハッシュタグ #AWSInnovate
  • 2. © 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved. ⾃⼰紹介 関⼭ 宜孝 Big Data Architect AWS Glue and Lake Formation • 約 5年間 AWS サポートにて技術⽀援を担当 • 2019.8 からプロダクトチームにジョイン • AWS でデータレイクを構築するための アーティファクトの実装や アーキテクティングの⽀援を担当
  • 3. © 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved. 本セッションの狙い AWS 上にデータレイクを構築するための デザインパターンについて ユースケースをもとに学ぶ
  • 4. © 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved. アジェンダ • データレイクが必要な理由 • データレイクのコンセプト • よくある質問とチャレンジ • データレイクデザインパターン • データレイクセキュリティ
  • 5. © 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.
  • 6. © 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved. データ 5年毎 我々が考える以上に データは増えている 15 年間 使⽤期間 データプラットフォームに 求められるもの 1,000 倍 拡張性 >10倍 成⻑率
  • 7. © 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved. データにアクセスす る⼈々も増えている 分析対象のデータに 対する要件も増えて いる データ サイエンティスト 分析 ビジネスユーザー アプリケーション セキュア リアルタイム 柔軟性 拡張性
  • 8. © 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved. A data lake is a centralized repository that allows you to store all your structured and unstructured data at any scale データレイクは、規模にかかわらず すべての構造化データと⾮構造化データを保存できる ⼀元化されたリポジトリです
  • 9. © 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved. なぜデータレイクが必要か データレイクが提供するもの: 構造化、半構造化、⾮構造化データの取り扱い ペタバイト、エクサバイトにわたる拡張性 様々な分析および機械学習ツールとの連携 データの移動を伴わずにデータを処理 低コストなデータの保存と分析 OLTP ERP CRM LOB データウェアハウス ビジネスイン テリジェンス データレイク 100110000100101011100 101010111001010100001 011111011010 0011110010110010110 0100011000010 デバイス Web センサーソーシャ ル カタログ 機械 学習 データウェア ハウスクエリ ビッグデー タ処理 インタラク ティブ リアルタイム
  • 10. © 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved. AWS Glue Amazon Kinesis Data Analytics Amazon QuickSight Amazon EMR AWS におけるデータレイク データ⼊⼒ 分析・機械学習 中央ストレージ AWS Glue Amazon Elasticsearch Service AWS Lake Formation AWS Snowball AWS DMS AWS DataSync Amazon Kinesis Data Streams Amazon Kinesis Data Firehose Amazon Redshift Amazon Athena Amazon SageMaker Amazon Forecast Amazon S3 AWS Deep Learning AMIs AWS IAM AWS KMS AWS Lake Formation Amazon CloudWatch AWS CloudTrail カタログ 管理 セキュリティ
  • 11. © 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved. データレイクのコア データレイク コンピュート レイヤー データ & メタデータ AWS Glue Data Catalog Amazon Redshift Spectrum AWS Lake Formation AWS Glue ETL Job Amazon EMR Amazon Athena Amazon S3
  • 12. © 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved. データレイクに必要な要素 • すべてのデータをひとつの場所に • 構造化/半構造化/⾮構造化/⽣データに対応 • ⾼速なデータ⼊⼒と活⽤に対応 • スキーマ・オン・リード • 低コストストレージ向けに設計 • ストレージとコンピュートを分離 • データの保護とセキュリティ
  • 13. © 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.
  • 14. © 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved. Tier 2 S3 データレイク (分析) Tier 1 S3 データレイク (⽣データ) 複数層データレイクとデータウェアハウス データウェア ハウス
  • 15. © 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved. ⽣データの信頼できる唯⼀の情報源 (SSOT: Single source of truth) 最⼩限のデータ変換 定期的に S3 IA や S3 Glacier に移動Amazon S3 Tier 1 データレイク︓⽣データ
  • 16. © 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved. カラムナフォーマット(Parquet/ORC)を使⽤ パーティションにあわせて配置 時系列でより⼤きなパーティションに集約 分析に最適化Amazon S3 Tier 2 データレイク︓分析
  • 17. © 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved. 構造化されたスキーマによる⾼速な処理 ダッシュボードとレポートの提供 きめ細かいアクセス制御 内部/外部テーブルの JOIN に対応 S3 データレイクへのライフサイクルバック Amazon Redshift データウェアハウス
  • 18. © 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.
  • 19. © 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved. よくある質問 • データレイクへのストリーミング⼊⼒はできますか︖ • データレイクは分析⽤データベースレプリカをリプレイス可能ですか︖ • データレイクの中のデータの更新や削除はどのようにできますか︖ • データレイクの中のデータをどのように構成すればよいですか︖
  • 20. © 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved. よくある質問 • データレイクのデータをもとに機械学習のトレーニングをするには︖ • データレイクの中でデータ保護ルールを施⾏するには︖ • どのような認証・認可の選択肢がありますか︖
  • 21. © 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.
  • 22. © 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved. ログ/クリックストリーム/IoT センサーデータの分析 アプリケーション S3 データレイク Kinesis Data Firehose Amazon Athena Amazon Redshift 潜在的な問題︓ 1. ⾮常に多数の⼩さいファイル 2. 必ずしも分析に最適化されていない Amazon EMR Amazon SageMaker
  • 23. © 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved. ログ/クリックストリーム/IoT センサーデータの分析 Tier 2 S3 データレイク (分析) Kinesis Data Firehose Tier 1 S3 データレイク (⽣データ) AWS Glue ETL Job 解決策︓ Hourly で Parquet/ORC に変換しコンパクション アプリケーション Amazon Athena Amazon Redshift Amazon EMR Amazon SageMaker
  • 24. © 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved. データベースレプリカのリプレイス S3 データレイクAWS DMS 潜在的な問題︓ UPDATE/DELETE が新規のレコードを⽣成する データベース Amazon Athena Amazon Redshift Amazon EMR Amazon SageMaker
  • 25. © 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved. Tier 2 S3 データレイク (分析) Tier 1 S3 データレイク (⽣データ) 解決策︓ データベースの最新のレコードの ビューを表現するVIEW を作成する データベースレプリカのリプレイス AWS DMS 潜在的な問題: VIEW のレコードのグルーピングの 計算コストが⾼い データベース AWS Glue ETL Job Amazon Athena Amazon Redshift Amazon EMR Amazon SageMaker
  • 26. © 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved. Tier 2 データレイク (分析) Tier 1 データレイク (⽣データ) 解決策︓ データベースの当時の レコードのビューを表現する ⽇次のスナップショットを作成する データベースレプリカのリプレイス AWS DMSデータベース AWS Glue ETL Job スナップ ショット (分析) AWS Glue ETL Job Amazon Athena Amazon Redshift Amazon EMR Amazon SageMaker
  • 27. © 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved. 機械学習︓バッチトレーニングパイプライン Tier 2 S3 データレイク (分析) Tier 1 S3 データレイク (⽣データ) AWS Glue ETL Job SageMaker バッチトレーニング S3 モデル アーティファクト SageMaker Endpoints AWS Glue ETL Job AWS Glue ETL Job Data Preparation Training Step Model Deployment
  • 28. © 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved. 機械学習︓ストリーミングデータの予測 Tier 2 S3 データレイク (分析) Kinesis Data Firehose Amazon Athena Presto/Spark on EMR Amazon Redshift Tier 1 S3 データレイク (⽣データ) AWS Glue ETL Job アプリケーション SageMaker Endpoints Lambda 潜在的な問題: Tier 1 の⽣データにおけるデータ 変換は最⼩限にとどめたい
  • 29. © 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved. 機械学習︓ストリーミングデータの予測 Tier 2 S3 データレイク (分析) Kinesis Data Firehose Amazon Athena Presto/Spark on EMR Amazon Redshift Tier 1 S3 データレイク (⽣データ) AWS Glue ETL Job アプリケーション SageMaker Endpoints
  • 30. © 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved. ゲーム系の分析/ML ユースケース Tier 2 S3 データレイク (分析) Tier 1 S3 データレイク (⽣データ) AWS Glue ETL Job Amazon Athena Amazon Redshift Amazon SageMaker Kinesis Data Firehose ゲームA ゲームZ Kinesis Data Firehose ゲームタイトルのログデータを集約することで 全タイトルを横断した分析が可能に Amazon QuickSight
  • 31. © 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved. データレイク設計の原則 • データ⼊⼒のロケーションと頻度 • データ⼊⼒のデータソースのロケーションを決定 • データの⼊⼒頻度と⽅式を決定 • データパーティショニング • よく使⽤されるフィルターをもとに、データのパーティションキーを決定 • パーティションプルーニングが有効化され、クエリパフォーマンスが向上 • ファイルサイズ • 最適なファイルサイズを選択 • 推奨︓パーティションごとに 256MB〜1GB の Parquet/ORC ファイルを配置
  • 32. © 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved. データレイク設計の原則 • コンパクション • スケジュールベースでデータを推奨ファイルサイズにコンパクション • 例︓Houly のファイルが⼩さい場合、⽇次で Daily パーティションに集約 • 変わりやすいデータ (Mutable data) を扱うユースケース • Redshift や HBase を使⽤し、データが静的になったあとで S3 にオフロード • パーティションごとに差分ファイルを⽣成し、AWS Glue や Spark on EMR で スケジュールベースでコンパクション
  • 33. © 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved. パーティションカラムの選び⽅ • 最適なファイルサイズを⽬指す (256 MB〜1GB) • 典型的なクエリのスキャン範囲を特定する (3か⽉、1年、5年など) • クエリフィルターを把握し、GROUP BY カラムとパーティションカラ ムを合わせる
  • 34. © 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved. パーティションカラムの選び⽅︓例 4.3M partitions
  • 35. © 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved. パーティションカラムの選び⽅︓例 device/ hour • バケッティング︓デバイス、50 バケット 50 480 MB 24 GB 5*365 = 1825 partitions
  • 36. © 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved. データレイクの最適化 • バケット化データ • より⾼いパフォーマンスを実現するために、各パーティションにおいて⾼い カーディナリティをもつキーでデータをバケット化 • Presto/Athena や Hive, Spark にて、対象キーのフィルタの性能向上に有効 df.write.bucketBy(numBuckets,”col1”).parquet(…)
  • 37. © 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved. データレイクの最適化 • データの順番 • より⾼いパフォーマンスを実現するために、各パーティションにおいてセカン ダリキーでソートする • 各エンジンが要求されたデータを取得する際にファイルの⼀部をスキップする ため、性能向上に有効 df.repartition(100).sortWithinPartitions([‘order_id’] ,ascending=True).parquet(…)
  • 38. © 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved. データレイクの最適化 • ブルームフィルタ • 空間効率の⾼い確率的なデータ構造 • 要素が集合のメンバーであるかどうかをチェックするのに使⽤される CREATE TABLE STORED AS ORC TBLPROPERTIES('orc.bloom.filter.columns’=‘ORDER_ID')
  • 39. © 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.
  • 40. © 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved. セキュリティとガバナンスの検討課題 • 認証 • データとメタデータの認可 • 保管時/転送時のデータの暗号化 • 監査と監視 • ⼀元管理
  • 41. © 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved. データストレージのセキュリティ • 複数チーム環境におけるデータへのアクセスコントロール • Coarse Grained Authorization (CGA): 粗い粒度の認可 • Fine Grained Authorization (FGA): 細かい粒度の認可 • リソースのセキュア化とアクセスの分離 • S3 バケット/オブジェクト • EMR クラスタ • Redshift クラスタ • データアセットの暗号化
  • 42. © 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved. メタデータのセキュリティ • 中央データカタログの作成と管理 • 複数チーム環境におけるメタデータへのアクセスコントロール • メタデータの暗号化
  • 43. © 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved. • S3 上のデータの準備をより簡単に • Blueprint を使って既存データを登録したり、新規データを簡単にロード可能 • 複数のサービスにわたるデータアクセスをセキュアに • SQL スタイルのパーミッションでシンプルに管理可能 • Glue, Athena, Redshift Spectrum, Spark on EMR (ベータ) に対応 AWS Lake Formation セキュアなデータレイクを数⽇で構築 クイックに データレイクを構築 アクセスを セキュアに管理 共有と コラボレーション
  • 44. © 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved. Lake Formation のパーミッション • データアクセスを GRANT/REVOKE の SQL スタイルでコントロール • バケットやオブジェクトではなく、 テーブルやカラムのパーミッションを設定 • 特定のユーザーに付与されたパーミッショ ンを簡単に確認
  • 45. © 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved. Lake Formation のセキュリティモデル Amazon S3 データレイクストレージ Data Catalog アクセス コントロール Lake Formation 2. ユーザーがいずれかの サービスからアクセス 3. 各サービスが ユーザークレデンシャルを Lake Formation に送信 4. Lake Formation が データアクセスを許可した ⼀時クレデンシャルを返却 1. Lake Formation でユーザー のパーミッションを設定 Admin Amazon EMR Amazon Redshift Amazon Athena AWS Glue User
  • 46. © 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.
  • 47. © 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved. 本セッションのまとめ • データレイクを構築する上でのコンセプトとチャレンジ • データレイクのユースケースとデザインパターン • データレイクセキュリティの検討課題と AWS Lake Formation
  • 48. Thank you! © 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.