Submit Search
Upload
20210330 AWS Black Belt Online Seminar AWS Glue -Glue Studioを使ったデータ変換のベストプラクティス-
•
0 likes
•
3,310 views
Amazon Web Services Japan
Follow
AWS公式オンラインセミナー: https://amzn.to/JPWebinar 過去資料: https://amzn.to/JPArchive
Read less
Read more
Technology
Report
Share
Report
Share
1 of 122
Recommended
20190806 AWS Black Belt Online Seminar AWS Glue
20190806 AWS Black Belt Online Seminar AWS Glue
Amazon Web Services Japan
20190326 AWS Black Belt Online Seminar Amazon CloudWatch
20190326 AWS Black Belt Online Seminar Amazon CloudWatch
Amazon Web Services Japan
20200826 AWS Black Belt Online Seminar AWS CloudFormation
20200826 AWS Black Belt Online Seminar AWS CloudFormation
Amazon Web Services Japan
20190220 AWS Black Belt Online Seminar Amazon S3 / Glacier
20190220 AWS Black Belt Online Seminar Amazon S3 / Glacier
Amazon Web Services Japan
20210126 AWS Black Belt Online Seminar AWS CodeDeploy
20210126 AWS Black Belt Online Seminar AWS CodeDeploy
Amazon Web Services Japan
20200422 AWS Black Belt Online Seminar Amazon Elastic Container Service (Amaz...
20200422 AWS Black Belt Online Seminar Amazon Elastic Container Service (Amaz...
Amazon Web Services Japan
AWS Black Belt Online Seminar 2017 Amazon DynamoDB
AWS Black Belt Online Seminar 2017 Amazon DynamoDB
Amazon Web Services Japan
20180425 AWS Black Belt Online Seminar Amazon Relational Database Service (Am...
20180425 AWS Black Belt Online Seminar Amazon Relational Database Service (Am...
Amazon Web Services Japan
Recommended
20190806 AWS Black Belt Online Seminar AWS Glue
20190806 AWS Black Belt Online Seminar AWS Glue
Amazon Web Services Japan
20190326 AWS Black Belt Online Seminar Amazon CloudWatch
20190326 AWS Black Belt Online Seminar Amazon CloudWatch
Amazon Web Services Japan
20200826 AWS Black Belt Online Seminar AWS CloudFormation
20200826 AWS Black Belt Online Seminar AWS CloudFormation
Amazon Web Services Japan
20190220 AWS Black Belt Online Seminar Amazon S3 / Glacier
20190220 AWS Black Belt Online Seminar Amazon S3 / Glacier
Amazon Web Services Japan
20210126 AWS Black Belt Online Seminar AWS CodeDeploy
20210126 AWS Black Belt Online Seminar AWS CodeDeploy
Amazon Web Services Japan
20200422 AWS Black Belt Online Seminar Amazon Elastic Container Service (Amaz...
20200422 AWS Black Belt Online Seminar Amazon Elastic Container Service (Amaz...
Amazon Web Services Japan
AWS Black Belt Online Seminar 2017 Amazon DynamoDB
AWS Black Belt Online Seminar 2017 Amazon DynamoDB
Amazon Web Services Japan
20180425 AWS Black Belt Online Seminar Amazon Relational Database Service (Am...
20180425 AWS Black Belt Online Seminar Amazon Relational Database Service (Am...
Amazon Web Services Japan
20200617 AWS Black Belt Online Seminar Amazon Athena
20200617 AWS Black Belt Online Seminar Amazon Athena
Amazon Web Services Japan
20190129 AWS Black Belt Online Seminar AWS Identity and Access Management (AW...
20190129 AWS Black Belt Online Seminar AWS Identity and Access Management (AW...
Amazon Web Services Japan
AWS Black Belt Online Seminar 2017 Amazon ElastiCache
AWS Black Belt Online Seminar 2017 Amazon ElastiCache
Amazon Web Services Japan
20200722 AWS Black Belt Online Seminar AWSアカウント シングルサインオンの設計と運用
20200722 AWS Black Belt Online Seminar AWSアカウント シングルサインオンの設計と運用
Amazon Web Services Japan
20200218 AWS Black Belt Online Seminar Next Generation Redshift
20200218 AWS Black Belt Online Seminar Next Generation Redshift
Amazon Web Services Japan
20191002 AWS Black Belt Online Seminar Amazon EC2 Auto Scaling and AWS Auto S...
20191002 AWS Black Belt Online Seminar Amazon EC2 Auto Scaling and AWS Auto S...
Amazon Web Services Japan
20191001 AWS Black Belt Online Seminar AWS Lake Formation
20191001 AWS Black Belt Online Seminar AWS Lake Formation
Amazon Web Services Japan
20190122 AWS Black Belt Online Seminar Amazon Redshift Update
20190122 AWS Black Belt Online Seminar Amazon Redshift Update
Amazon Web Services Japan
20190206 AWS Black Belt Online Seminar Amazon SageMaker Basic Session
20190206 AWS Black Belt Online Seminar Amazon SageMaker Basic Session
Amazon Web Services Japan
20190320 AWS Black Belt Online Seminar Amazon EBS
20190320 AWS Black Belt Online Seminar Amazon EBS
Amazon Web Services Japan
20191023 AWS Black Belt Online Seminar Amazon EMR
20191023 AWS Black Belt Online Seminar Amazon EMR
Amazon Web Services Japan
AWS Black Belt Online Seminar 2017 AWS Storage Gateway
AWS Black Belt Online Seminar 2017 AWS Storage Gateway
Amazon Web Services Japan
20190821 AWS Black Belt Online Seminar AWS AppSync
20190821 AWS Black Belt Online Seminar AWS AppSync
Amazon Web Services Japan
20200212 AWS Black Belt Online Seminar AWS Systems Manager
20200212 AWS Black Belt Online Seminar AWS Systems Manager
Amazon Web Services Japan
20190514 AWS Black Belt Online Seminar Amazon API Gateway
20190514 AWS Black Belt Online Seminar Amazon API Gateway
Amazon Web Services Japan
20200623 AWS Black Belt Online Seminar Amazon Elasticsearch Service
20200623 AWS Black Belt Online Seminar Amazon Elasticsearch Service
Amazon Web Services Japan
AWS Black Belt Online Seminar - Amazon Lightsail
AWS Black Belt Online Seminar - Amazon Lightsail
Amazon Web Services Japan
20191029 AWS Black Belt Online Seminar Elastic Load Balancing (ELB)
20191029 AWS Black Belt Online Seminar Elastic Load Balancing (ELB)
Amazon Web Services Japan
20201028 AWS Black Belt Online Seminar Amazon CloudFront deep dive
20201028 AWS Black Belt Online Seminar Amazon CloudFront deep dive
Amazon Web Services Japan
20200811 AWS Black Belt Online Seminar CloudEndure
20200811 AWS Black Belt Online Seminar CloudEndure
Amazon Web Services Japan
20210216 AWS Black Belt Online Seminar AWS Database Migration Service
20210216 AWS Black Belt Online Seminar AWS Database Migration Service
Amazon Web Services Japan
AWS と Denodo で実現するデータ活用基盤 - データ民主化を加速するクラウド活用のポイント
AWS と Denodo で実現するデータ活用基盤 - データ民主化を加速するクラウド活用のポイント
Denodo
More Related Content
What's hot
20200617 AWS Black Belt Online Seminar Amazon Athena
20200617 AWS Black Belt Online Seminar Amazon Athena
Amazon Web Services Japan
20190129 AWS Black Belt Online Seminar AWS Identity and Access Management (AW...
20190129 AWS Black Belt Online Seminar AWS Identity and Access Management (AW...
Amazon Web Services Japan
AWS Black Belt Online Seminar 2017 Amazon ElastiCache
AWS Black Belt Online Seminar 2017 Amazon ElastiCache
Amazon Web Services Japan
20200722 AWS Black Belt Online Seminar AWSアカウント シングルサインオンの設計と運用
20200722 AWS Black Belt Online Seminar AWSアカウント シングルサインオンの設計と運用
Amazon Web Services Japan
20200218 AWS Black Belt Online Seminar Next Generation Redshift
20200218 AWS Black Belt Online Seminar Next Generation Redshift
Amazon Web Services Japan
20191002 AWS Black Belt Online Seminar Amazon EC2 Auto Scaling and AWS Auto S...
20191002 AWS Black Belt Online Seminar Amazon EC2 Auto Scaling and AWS Auto S...
Amazon Web Services Japan
20191001 AWS Black Belt Online Seminar AWS Lake Formation
20191001 AWS Black Belt Online Seminar AWS Lake Formation
Amazon Web Services Japan
20190122 AWS Black Belt Online Seminar Amazon Redshift Update
20190122 AWS Black Belt Online Seminar Amazon Redshift Update
Amazon Web Services Japan
20190206 AWS Black Belt Online Seminar Amazon SageMaker Basic Session
20190206 AWS Black Belt Online Seminar Amazon SageMaker Basic Session
Amazon Web Services Japan
20190320 AWS Black Belt Online Seminar Amazon EBS
20190320 AWS Black Belt Online Seminar Amazon EBS
Amazon Web Services Japan
20191023 AWS Black Belt Online Seminar Amazon EMR
20191023 AWS Black Belt Online Seminar Amazon EMR
Amazon Web Services Japan
AWS Black Belt Online Seminar 2017 AWS Storage Gateway
AWS Black Belt Online Seminar 2017 AWS Storage Gateway
Amazon Web Services Japan
20190821 AWS Black Belt Online Seminar AWS AppSync
20190821 AWS Black Belt Online Seminar AWS AppSync
Amazon Web Services Japan
20200212 AWS Black Belt Online Seminar AWS Systems Manager
20200212 AWS Black Belt Online Seminar AWS Systems Manager
Amazon Web Services Japan
20190514 AWS Black Belt Online Seminar Amazon API Gateway
20190514 AWS Black Belt Online Seminar Amazon API Gateway
Amazon Web Services Japan
20200623 AWS Black Belt Online Seminar Amazon Elasticsearch Service
20200623 AWS Black Belt Online Seminar Amazon Elasticsearch Service
Amazon Web Services Japan
AWS Black Belt Online Seminar - Amazon Lightsail
AWS Black Belt Online Seminar - Amazon Lightsail
Amazon Web Services Japan
20191029 AWS Black Belt Online Seminar Elastic Load Balancing (ELB)
20191029 AWS Black Belt Online Seminar Elastic Load Balancing (ELB)
Amazon Web Services Japan
20201028 AWS Black Belt Online Seminar Amazon CloudFront deep dive
20201028 AWS Black Belt Online Seminar Amazon CloudFront deep dive
Amazon Web Services Japan
20200811 AWS Black Belt Online Seminar CloudEndure
20200811 AWS Black Belt Online Seminar CloudEndure
Amazon Web Services Japan
What's hot
(20)
20200617 AWS Black Belt Online Seminar Amazon Athena
20200617 AWS Black Belt Online Seminar Amazon Athena
20190129 AWS Black Belt Online Seminar AWS Identity and Access Management (AW...
20190129 AWS Black Belt Online Seminar AWS Identity and Access Management (AW...
AWS Black Belt Online Seminar 2017 Amazon ElastiCache
AWS Black Belt Online Seminar 2017 Amazon ElastiCache
20200722 AWS Black Belt Online Seminar AWSアカウント シングルサインオンの設計と運用
20200722 AWS Black Belt Online Seminar AWSアカウント シングルサインオンの設計と運用
20200218 AWS Black Belt Online Seminar Next Generation Redshift
20200218 AWS Black Belt Online Seminar Next Generation Redshift
20191002 AWS Black Belt Online Seminar Amazon EC2 Auto Scaling and AWS Auto S...
20191002 AWS Black Belt Online Seminar Amazon EC2 Auto Scaling and AWS Auto S...
20191001 AWS Black Belt Online Seminar AWS Lake Formation
20191001 AWS Black Belt Online Seminar AWS Lake Formation
20190122 AWS Black Belt Online Seminar Amazon Redshift Update
20190122 AWS Black Belt Online Seminar Amazon Redshift Update
20190206 AWS Black Belt Online Seminar Amazon SageMaker Basic Session
20190206 AWS Black Belt Online Seminar Amazon SageMaker Basic Session
20190320 AWS Black Belt Online Seminar Amazon EBS
20190320 AWS Black Belt Online Seminar Amazon EBS
20191023 AWS Black Belt Online Seminar Amazon EMR
20191023 AWS Black Belt Online Seminar Amazon EMR
AWS Black Belt Online Seminar 2017 AWS Storage Gateway
AWS Black Belt Online Seminar 2017 AWS Storage Gateway
20190821 AWS Black Belt Online Seminar AWS AppSync
20190821 AWS Black Belt Online Seminar AWS AppSync
20200212 AWS Black Belt Online Seminar AWS Systems Manager
20200212 AWS Black Belt Online Seminar AWS Systems Manager
20190514 AWS Black Belt Online Seminar Amazon API Gateway
20190514 AWS Black Belt Online Seminar Amazon API Gateway
20200623 AWS Black Belt Online Seminar Amazon Elasticsearch Service
20200623 AWS Black Belt Online Seminar Amazon Elasticsearch Service
AWS Black Belt Online Seminar - Amazon Lightsail
AWS Black Belt Online Seminar - Amazon Lightsail
20191029 AWS Black Belt Online Seminar Elastic Load Balancing (ELB)
20191029 AWS Black Belt Online Seminar Elastic Load Balancing (ELB)
20201028 AWS Black Belt Online Seminar Amazon CloudFront deep dive
20201028 AWS Black Belt Online Seminar Amazon CloudFront deep dive
20200811 AWS Black Belt Online Seminar CloudEndure
20200811 AWS Black Belt Online Seminar CloudEndure
Similar to 20210330 AWS Black Belt Online Seminar AWS Glue -Glue Studioを使ったデータ変換のベストプラクティス-
20210216 AWS Black Belt Online Seminar AWS Database Migration Service
20210216 AWS Black Belt Online Seminar AWS Database Migration Service
Amazon Web Services Japan
AWS と Denodo で実現するデータ活用基盤 - データ民主化を加速するクラウド活用のポイント
AWS と Denodo で実現するデータ活用基盤 - データ民主化を加速するクラウド活用のポイント
Denodo
データ活用を加速するAWS分析サービスのご紹介
データ活用を加速するAWS分析サービスのご紹介
Amazon Web Services Japan
[JAWS Days 2020] AWS Well-Architected フレームワークのご紹介
[JAWS Days 2020] AWS Well-Architected フレームワークのご紹介
Takanori Ohba
[CTO Night & Day 2019] AWS で構築するデータレイク基盤と amazon.com での導入事例 #ctonight
[CTO Night & Day 2019] AWS で構築するデータレイク基盤と amazon.com での導入事例 #ctonight
Amazon Web Services Japan
5分ではじめるApache Spark on AWS
5分ではじめるApache Spark on AWS
Noritaka Sekiyama
Modernizing Big Data Workload Using Amazon EMR & AWS Glue
Modernizing Big Data Workload Using Amazon EMR & AWS Glue
Noritaka Sekiyama
AWS Black Belt - AWS Glue
AWS Black Belt - AWS Glue
Amazon Web Services Japan
202202 AWS Black Belt Online Seminar AWS SaaS Boost で始めるSaaS開発⼊⾨
202202 AWS Black Belt Online Seminar AWS SaaS Boost で始めるSaaS開発⼊⾨
Amazon Web Services Japan
AWS Well-Architected Security とベストプラクティス
AWS Well-Architected Security とベストプラクティス
Amazon Web Services Japan
Data Lake Security on AWS
Data Lake Security on AWS
Amazon Web Services Japan
Kinesis + Elasticsearchでつくるさいきょうのログ分析基盤
Kinesis + Elasticsearchでつくるさいきょうのログ分析基盤
Amazon Web Services Japan
Best Practices for Running PostgreSQL on AWS
Best Practices for Running PostgreSQL on AWS
Amazon Web Services Japan
[20210519 Security-JAWS] AWS エッジサービス入門ハンズオンの紹介と AWS WAF のアップデートについて
[20210519 Security-JAWS] AWS エッジサービス入門ハンズオンの紹介と AWS WAF のアップデートについて
Amazon Web Services Japan
20190226 AWS Black Belt Online Seminar Amazon WorkSpaces
20190226 AWS Black Belt Online Seminar Amazon WorkSpaces
Amazon Web Services Japan
AWS Wavelengthと大阪リージョンのご紹介20210414
AWS Wavelengthと大阪リージョンのご紹介20210414
Amazon Web Services Japan
20190410 AWS Black Belt Online Seminar Amazon Elastic Container Service for K...
20190410 AWS Black Belt Online Seminar Amazon Elastic Container Service for K...
Amazon Web Services Japan
クラウドを積極活用したサービスの開発のために
クラウドを積極活用したサービスの開発のために
Yuichiro Saito
Effective Data Lakes - ユースケースとデザインパターン
Effective Data Lakes - ユースケースとデザインパターン
Noritaka Sekiyama
20211109 bleaの使い方(基本編)
20211109 bleaの使い方(基本編)
Amazon Web Services Japan
Similar to 20210330 AWS Black Belt Online Seminar AWS Glue -Glue Studioを使ったデータ変換のベストプラクティス-
(20)
20210216 AWS Black Belt Online Seminar AWS Database Migration Service
20210216 AWS Black Belt Online Seminar AWS Database Migration Service
AWS と Denodo で実現するデータ活用基盤 - データ民主化を加速するクラウド活用のポイント
AWS と Denodo で実現するデータ活用基盤 - データ民主化を加速するクラウド活用のポイント
データ活用を加速するAWS分析サービスのご紹介
データ活用を加速するAWS分析サービスのご紹介
[JAWS Days 2020] AWS Well-Architected フレームワークのご紹介
[JAWS Days 2020] AWS Well-Architected フレームワークのご紹介
[CTO Night & Day 2019] AWS で構築するデータレイク基盤と amazon.com での導入事例 #ctonight
[CTO Night & Day 2019] AWS で構築するデータレイク基盤と amazon.com での導入事例 #ctonight
5分ではじめるApache Spark on AWS
5分ではじめるApache Spark on AWS
Modernizing Big Data Workload Using Amazon EMR & AWS Glue
Modernizing Big Data Workload Using Amazon EMR & AWS Glue
AWS Black Belt - AWS Glue
AWS Black Belt - AWS Glue
202202 AWS Black Belt Online Seminar AWS SaaS Boost で始めるSaaS開発⼊⾨
202202 AWS Black Belt Online Seminar AWS SaaS Boost で始めるSaaS開発⼊⾨
AWS Well-Architected Security とベストプラクティス
AWS Well-Architected Security とベストプラクティス
Data Lake Security on AWS
Data Lake Security on AWS
Kinesis + Elasticsearchでつくるさいきょうのログ分析基盤
Kinesis + Elasticsearchでつくるさいきょうのログ分析基盤
Best Practices for Running PostgreSQL on AWS
Best Practices for Running PostgreSQL on AWS
[20210519 Security-JAWS] AWS エッジサービス入門ハンズオンの紹介と AWS WAF のアップデートについて
[20210519 Security-JAWS] AWS エッジサービス入門ハンズオンの紹介と AWS WAF のアップデートについて
20190226 AWS Black Belt Online Seminar Amazon WorkSpaces
20190226 AWS Black Belt Online Seminar Amazon WorkSpaces
AWS Wavelengthと大阪リージョンのご紹介20210414
AWS Wavelengthと大阪リージョンのご紹介20210414
20190410 AWS Black Belt Online Seminar Amazon Elastic Container Service for K...
20190410 AWS Black Belt Online Seminar Amazon Elastic Container Service for K...
クラウドを積極活用したサービスの開発のために
クラウドを積極活用したサービスの開発のために
Effective Data Lakes - ユースケースとデザインパターン
Effective Data Lakes - ユースケースとデザインパターン
20211109 bleaの使い方(基本編)
20211109 bleaの使い方(基本編)
More from Amazon Web Services Japan
202205 AWS Black Belt Online Seminar Amazon VPC IP Address Manager (IPAM)
202205 AWS Black Belt Online Seminar Amazon VPC IP Address Manager (IPAM)
Amazon Web Services Japan
202205 AWS Black Belt Online Seminar Amazon FSx for OpenZFS
202205 AWS Black Belt Online Seminar Amazon FSx for OpenZFS
Amazon Web Services Japan
202204 AWS Black Belt Online Seminar AWS IoT Device Defender
202204 AWS Black Belt Online Seminar AWS IoT Device Defender
Amazon Web Services Japan
Infrastructure as Code (IaC) 談義 2022
Infrastructure as Code (IaC) 談義 2022
Amazon Web Services Japan
202204 AWS Black Belt Online Seminar Amazon Connect を活用したオンコール対応の実現
202204 AWS Black Belt Online Seminar Amazon Connect を活用したオンコール対応の実現
Amazon Web Services Japan
202204 AWS Black Belt Online Seminar Amazon Connect Salesforce連携(第1回 CTI Adap...
202204 AWS Black Belt Online Seminar Amazon Connect Salesforce連携(第1回 CTI Adap...
Amazon Web Services Japan
Amazon Game Tech Night #25 ゲーム業界向け機械学習最新状況アップデート
Amazon Game Tech Night #25 ゲーム業界向け機械学習最新状況アップデート
Amazon Web Services Japan
20220409 AWS BLEA 開発にあたって検討したこと
20220409 AWS BLEA 開発にあたって検討したこと
Amazon Web Services Japan
202202 AWS Black Belt Online Seminar AWS Managed Rules for AWS WAF の活用
202202 AWS Black Belt Online Seminar AWS Managed Rules for AWS WAF の活用
Amazon Web Services Japan
202203 AWS Black Belt Online Seminar Amazon Connect Tasks.pdf
202203 AWS Black Belt Online Seminar Amazon Connect Tasks.pdf
Amazon Web Services Japan
SaaS テナント毎のコストを把握するための「AWS Application Cost Profiler」のご紹介
SaaS テナント毎のコストを把握するための「AWS Application Cost Profiler」のご紹介
Amazon Web Services Japan
Amazon QuickSight の組み込み方法をちょっぴりDD
Amazon QuickSight の組み込み方法をちょっぴりDD
Amazon Web Services Japan
マルチテナント化で知っておきたいデータベースのこと
マルチテナント化で知っておきたいデータベースのこと
Amazon Web Services Japan
機密データとSaaSは共存しうるのか!?セキュリティー重視のユーザー層を取り込む為のネットワーク通信のアプローチ
機密データとSaaSは共存しうるのか!?セキュリティー重視のユーザー層を取り込む為のネットワーク通信のアプローチ
Amazon Web Services Japan
パッケージソフトウェアを簡単にSaaS化!?既存の資産を使ったSaaS化手法のご紹介
パッケージソフトウェアを簡単にSaaS化!?既存の資産を使ったSaaS化手法のご紹介
Amazon Web Services Japan
202202 AWS Black Belt Online Seminar Amazon Connect Customer Profiles
202202 AWS Black Belt Online Seminar Amazon Connect Customer Profiles
Amazon Web Services Japan
Amazon Game Tech Night #24 KPIダッシュボードを最速で用意するために
Amazon Game Tech Night #24 KPIダッシュボードを最速で用意するために
Amazon Web Services Japan
[20220126] JAWS-UG 2022初頭までに葬ったAWSアンチパターン大紹介
[20220126] JAWS-UG 2022初頭までに葬ったAWSアンチパターン大紹介
Amazon Web Services Japan
202111 AWS Black Belt Online Seminar AWSで構築するSmart Mirrorのご紹介
202111 AWS Black Belt Online Seminar AWSで構築するSmart Mirrorのご紹介
Amazon Web Services Japan
202201 AWS Black Belt Online Seminar Apache Spark Performnace Tuning for AWS ...
202201 AWS Black Belt Online Seminar Apache Spark Performnace Tuning for AWS ...
Amazon Web Services Japan
More from Amazon Web Services Japan
(20)
202205 AWS Black Belt Online Seminar Amazon VPC IP Address Manager (IPAM)
202205 AWS Black Belt Online Seminar Amazon VPC IP Address Manager (IPAM)
202205 AWS Black Belt Online Seminar Amazon FSx for OpenZFS
202205 AWS Black Belt Online Seminar Amazon FSx for OpenZFS
202204 AWS Black Belt Online Seminar AWS IoT Device Defender
202204 AWS Black Belt Online Seminar AWS IoT Device Defender
Infrastructure as Code (IaC) 談義 2022
Infrastructure as Code (IaC) 談義 2022
202204 AWS Black Belt Online Seminar Amazon Connect を活用したオンコール対応の実現
202204 AWS Black Belt Online Seminar Amazon Connect を活用したオンコール対応の実現
202204 AWS Black Belt Online Seminar Amazon Connect Salesforce連携(第1回 CTI Adap...
202204 AWS Black Belt Online Seminar Amazon Connect Salesforce連携(第1回 CTI Adap...
Amazon Game Tech Night #25 ゲーム業界向け機械学習最新状況アップデート
Amazon Game Tech Night #25 ゲーム業界向け機械学習最新状況アップデート
20220409 AWS BLEA 開発にあたって検討したこと
20220409 AWS BLEA 開発にあたって検討したこと
202202 AWS Black Belt Online Seminar AWS Managed Rules for AWS WAF の活用
202202 AWS Black Belt Online Seminar AWS Managed Rules for AWS WAF の活用
202203 AWS Black Belt Online Seminar Amazon Connect Tasks.pdf
202203 AWS Black Belt Online Seminar Amazon Connect Tasks.pdf
SaaS テナント毎のコストを把握するための「AWS Application Cost Profiler」のご紹介
SaaS テナント毎のコストを把握するための「AWS Application Cost Profiler」のご紹介
Amazon QuickSight の組み込み方法をちょっぴりDD
Amazon QuickSight の組み込み方法をちょっぴりDD
マルチテナント化で知っておきたいデータベースのこと
マルチテナント化で知っておきたいデータベースのこと
機密データとSaaSは共存しうるのか!?セキュリティー重視のユーザー層を取り込む為のネットワーク通信のアプローチ
機密データとSaaSは共存しうるのか!?セキュリティー重視のユーザー層を取り込む為のネットワーク通信のアプローチ
パッケージソフトウェアを簡単にSaaS化!?既存の資産を使ったSaaS化手法のご紹介
パッケージソフトウェアを簡単にSaaS化!?既存の資産を使ったSaaS化手法のご紹介
202202 AWS Black Belt Online Seminar Amazon Connect Customer Profiles
202202 AWS Black Belt Online Seminar Amazon Connect Customer Profiles
Amazon Game Tech Night #24 KPIダッシュボードを最速で用意するために
Amazon Game Tech Night #24 KPIダッシュボードを最速で用意するために
[20220126] JAWS-UG 2022初頭までに葬ったAWSアンチパターン大紹介
[20220126] JAWS-UG 2022初頭までに葬ったAWSアンチパターン大紹介
202111 AWS Black Belt Online Seminar AWSで構築するSmart Mirrorのご紹介
202111 AWS Black Belt Online Seminar AWSで構築するSmart Mirrorのご紹介
202201 AWS Black Belt Online Seminar Apache Spark Performnace Tuning for AWS ...
202201 AWS Black Belt Online Seminar Apache Spark Performnace Tuning for AWS ...
20210330 AWS Black Belt Online Seminar AWS Glue -Glue Studioを使ったデータ変換のベストプラクティス-
1.
© 2021, Amazon
Web Services, Inc. or its Affiliates. AWS 公式 Webinar https://amzn.to/JPWebinar 過去資料 https://amzn.to/JPArchive [AWS Black Belt Online Seminar] AWS Glue -Glue Studioを使ったデータ変換のベストプラクティス- Amazon Web Service Japan, K. K. Solutions Architect, Kazutaka Kubo 2021/03/30
2.
© 2021, Amazon
Web Services, Inc. or its Affiliates. AWS Black Belt Online Seminar とは 「サービス別」「ソリューション別」「業種別」のそれぞれのテーマに分かれて、アマゾ ン ウェブ サービス ジャパン株式会社が主催するオンラインセミナーシリーズです。 質問を投げることができます! • 書き込んだ質問は、主催者にしか見えません • 今後のロードマップに関するご質問は お答えできませんのでご了承下さい ① 吹き出しをクリック ② 質問を入力 ③ Sendをクリック Twitter ハッシュタグは以下をご利用ください #awsblackbelt
3.
© 2021, Amazon
Web Services, Inc. or its Affiliates. 内容についての注意点 • 本資料では2021 年 3 月 30 日現在のサービス内容および価格についてご説明しています。最新の情報はAWS公 式ウェブサイト(http://aws.amazon.com)にてご確認ください。 • 資料作成には十分注意しておりますが、資料内の価格とAWS公式ウェブサイト記載の価格に相違があった場合、 AWS公式ウェブサイトの価格を優先とさせていただきます。 • 価格は税抜表記となっています。日本居住者のお客様には別途消費税をご請求させていただきます。 • AWS does not offer binding price quotes. AWS pricing is publicly available and is subject to change in accordance with the AWS Customer Agreement available at http://aws.amazon.com/agreement/. Any pricing information included in this document is provided only as an estimate of usage charges for AWS services based on certain information that you have provided. Monthly charges will be based on your actual use of AWS services, and may vary from the estimates provided.
4.
© 2021, Amazon
Web Services, Inc. or its Affiliates. 自己紹介 久保 和隆 (Kazutaka Kubo) 所属:西日本担当ソリューションアーキテクト 西日本のお客様に対してAWSの技術支援 好きなサービス: AWS Glue
5.
© 2021, Amazon
Web Services, Inc. or its Affiliates. 本日の内容 1. AWS Glueの位置付け 2. Glue Studioの概要 3. ユースケースとGlue Studioでの実装 4. その他の主要アップデート 5. まとめ
6.
© 2021, Amazon
Web Services, Inc. or its Affiliates. AWS Glueの位置付け
7.
© 2021, Amazon
Web Services, Inc. or its Affiliates. データ分析の現状 ・多くの企業がデータレイクを構築し、有効活用を望んでいる。 Data Lake
8.
© 2021, Amazon
Web Services, Inc. or its Affiliates. データ活用を阻む要因 ・多くの企業でデータ活用が難航 様 々 な 目 的 の ユ ー ザ 日 々 増 加 す る デ ー タ 日 々 追 加 さ れ る デ ー タ ソ ー ス 日 々 追 加 さ れ る デ ー タ フ ォ ー マ ッ ト デ ー タ を 使 い た い 様 々 な ア プ リ ケ ー シ ョ ン
9.
© 2021, Amazon
Web Services, Inc. or its Affiliates. ・多くの企業でデータ活用が難航 様 々 な 目 的 の ユ ー ザ 日 々 増 加 す る デ ー タ 日 々 追 加 さ れ る デ ー タ ソ ー ス 日 々 追 加 さ れ る デ ー タ フ ォ ー マ ッ ト デ ー タ を 使 い た い 様 々 な ア プ リ ケ ー シ ョ ン 使いやすい形に整形する「前処理」が、データ活用には重要 データ活用を阻む要因
10.
© 2021, Amazon
Web Services, Inc. or its Affiliates. 前処理における課題 取扱データの増加 目的に合わせた カスタマイズが必要 基盤の管理負荷 • 5年前と比較して、 10倍以上のデータ量 • ごみデータの排除 • フォーマット変換 等々 • サーバーのライフサイクル管理 • 監視管理
11.
© 2021, Amazon
Web Services, Inc. or its Affiliates. AWS Glue サービス間でデータを簡単に移動できるようにするための、 サーバーレスデータ統合サービス
12.
© 2021, Amazon
Web Services, Inc. or its Affiliates. AWS Glue の特徴 シンプルで拡張性に優れたサーバ不要のデータ統合 大量データの迅速な統合 変換処理の自動化 サーバーレス データの準備を数ヶ月から数分に短縮 何千ものETLジョブを簡単に実行、管理可能 ジョブ実行で使われたリソースに対してのみ支払い
13.
© 2021, Amazon
Web Services, Inc. or its Affiliates. AWS Glue の構成要素と周辺サービス Extract, Transform, and Load(ETL)ジョブ AWS Glue Data Catalog Crawler Workflow Management AWS Glue Studio AWS Glue DataBrew AWS Glue Elastic Views
14.
© 2021, Amazon
Web Services, Inc. or its Affiliates. AWS Glue の構成要素と周辺サービス Extract, Transform, and Load(ETL)ジョブ AWS Glue Data Catalog Crawler Workflow Management AWS Glue Studio AWS Glue DataBrew New AWS Glue Elastic Views
15.
© 2021, Amazon
Web Services, Inc. or its Affiliates. AWS Glue Elastic Views AWS Glue の構成要素と周辺サービス Extract, Transform, and Load(ETL)ジョブ AWS Glue Data Catalog Crawler Workflow Management AWS Glue Studio AWS Glue DataBrew New フォーマット変換したり、データを結合したり、 様々な処理を行うJOBを作成・管理・実行することが可能
16.
© 2021, Amazon
Web Services, Inc. or its Affiliates. AWS Glue Elastic Views AWS Glue の構成要素と周辺サービス Extract, Transform, and Load(ETL)ジョブ AWS Glue Data Catalog Crawler Workflow Management AWS Glue Studio AWS Glue DataBrew New Apache Hiveメタストア互換のメタデータリポジトリ データソースにどういったデータが入っているのかをカタログ化して、保存しておくことが可能
17.
© 2021, Amazon
Web Services, Inc. or its Affiliates. AWS Glue Elastic Views AWS Glue の構成要素と周辺サービス Extract, Transform, and Load(ETL)ジョブ AWS Glue Data Catalog Crawler Workflow Management AWS Glue Studio AWS Glue DataBrew New Glueのデータカタログにメタデータを作成するプログラム 分類子の優先度に従って、スキーマ情報を自動で判断し、スキーマを形成
18.
© 2021, Amazon
Web Services, Inc. or its Affiliates. AWS Glue Elastic Views AWS Glue の構成要素と周辺サービス Extract, Transform, and Load(ETL)ジョブ AWS Glue Data Catalog Crawler Workflow Management AWS Glue Studio AWS Glue DataBrew New クローラー、トリガー、ジョブのDAGを生成するワークフロー機能 データソースのクロール/データカタログの生成 / JOBの実行、これら一連の処理を自動化
19.
© 2021, Amazon
Web Services, Inc. or its Affiliates. データレイク環境の構成要素 data lake storage Amazon Simple Storage Service (S3) Amazon RDS On-premises data Amazon Athena Amazon Redshift Amazon SageMaker データソース データレイク ターゲット Other S3
20.
© 2021, Amazon
Web Services, Inc. or its Affiliates. データレイク環境におけるAWS Glueの役割 data lake storage Amazon Simple Storage Service (S3) Amazon RDS On-premises data Amazon Athena Amazon Redshift Amazon SageMaker AWS Glue 各要素の間を取り持つのがGlueの役割 Other S3
21.
© 2021, Amazon
Web Services, Inc. or its Affiliates. ETLジョブ data lake storage Amazon Simple Storage Service (S3) Amazon RDS On-premises data Amazon Athena Amazon Redshift Amazon SageMaker AWS Glue データソースからデータレイクストレージへデータを出力 ETLジョブ Amazon RDS On-premises data Other S3
22.
© 2021, Amazon
Web Services, Inc. or its Affiliates. ETLジョブ data lake storage Amazon Simple Storage Service (S3) Amazon RDS On-premises data Amazon Athena Amazon Redshift Amazon SageMaker AWS Glue データソースからデータレイクストレージへデータを出力 ETLジョブ Amazon RDS On-premises data Other S3
23.
© 2021, Amazon
Web Services, Inc. or its Affiliates. データのクローリング data lake storage Amazon Simple Storage Service (S3) Amazon RDS Other S3 On-premises data Amazon Athena Amazon Redshift Amazon SageMaker AWS Glue データレイクをクローリングし、データカタログを出力 ETLジョブ Crawler
24.
© 2021, Amazon
Web Services, Inc. or its Affiliates. データのクローリング data lake storage Amazon Simple Storage Service (S3) Amazon RDS Other S3 On-premises data Amazon Athena Amazon Redshift Amazon SageMaker AWS Glue データレイクをクローリングし、データカタログを出力 ETLジョブ Crawler AWS glue data catalog
25.
© 2021, Amazon
Web Services, Inc. or its Affiliates. カタログを使用したデータ参照 data lake storage Amazon Simple Storage Service (S3) Amazon RDS Other S3 On-premises data Amazon Athena Amazon Redshift Amazon SageMaker AWS Glue データカタログを参照し、必要データをロード ETLジョブ Crawler AWS glue data catalog
26.
© 2021, Amazon
Web Services, Inc. or its Affiliates. カタログを使用したデータ参照 data lake storage Amazon Simple Storage Service (S3) Amazon RDS Other S3 On-premises data Amazon Athena Amazon Redshift Amazon SageMaker AWS Glue データカタログを参照し、必要データをロード ETLジョブ Crawler AWS glue data catalog Amazon Athena Amazon Redshift Amazon SageMaker
27.
© 2021, Amazon
Web Services, Inc. or its Affiliates. ワークフロー管理 data lake storage Amazon Simple Storage Service (S3) Amazon RDS Other S3 On-premises data Amazon Athena Amazon Redshift Amazon SageMaker AWS Glue ETLジョブ Crawler AWS glue data catalog 一連の処理をワークフロー化し、自動化可能 Workflow Management
28.
© 2021, Amazon
Web Services, Inc. or its Affiliates. AWS Glue Elastic Views AWS Glue の構成要素と周辺サービス(再掲) Extract, Transform, and Load(ETL)ジョブ AWS Glue Data Catalog Crawler Workflow Management AWS Glue Studio AWS Glue DataBrew New
29.
© 2021, Amazon
Web Services, Inc. or its Affiliates. AWS Glue の構成要素と周辺サービス(再掲) Extract, Transform, and Load(ETL)ジョブ AWS Glue Data Catalog Crawler Workflow Management AWS Glue Studio AWS Glue DataBrew New AWS Glue Elastic Views
30.
© 2021, Amazon
Web Services, Inc. or its Affiliates. AWS Glue Elastic Views AWS Glue の構成要素と周辺サービス(再掲) Extract, Transform, and Load(ETL)ジョブ AWS Glue Data Catalog Crawler Workflow Management AWS Glue Studio AWS Glue DataBrew New 本日のメイン
31.
© 2021, Amazon
Web Services, Inc. or its Affiliates. AWS Glue Studioの概要
32.
© 2021, Amazon
Web Services, Inc. or its Affiliates. 代表的なデータ利用者 ビジネスユーザー: データ分析についての専門的な知見を持ってはいないが、蓄積したデータを活用する。 組織で活動するあらゆる人が当てはまる。 ETLデベロッパー: 自分の開発・運用しているプロダクトのためにデータを活用する。 システム障害の原因追求、新機能がどう使われているかの分析するロール。 データアナリスト: データ分析自体が職務で、 マーケティング施策の効果を売り上げデータをもとに検証する。 データによる意思決定の支援を行うロール。 データサイエンティスト: より高度な手法を使い、複雑な意識決定の支援を実施する。 業務システムに組み込んで使用するための機械学習モデルの開発を行うロール。
33.
© 2021, Amazon
Web Services, Inc. or its Affiliates. 代表的なデータ利用者 ビジネスユーザー: データ分析についての専門的な知見を持ってはいないが、蓄積したデータを活用する。 組織で活動するあらゆる人が当てはまる。 ETLデベロッパー: 自分の開発・運用しているプロダクトのためにデータを活用する。 システム障害の原因追求、新機能がどう使われているかの分析するロール。 データアナリスト: データ分析自体が職務で、 マーケティング施策の効果を売り上げデータをもとに検証する。 データによる意思決定の支援を行うロール。 データサイエンティスト: より高度な手法を使い、複雑な意識決定の支援を実施する。 業務システムに組み込んで使用するための機械学習モデルの開発を行うロール。
34.
© 2021, Amazon
Web Services, Inc. or its Affiliates. 従来のAWS Glue でのJOB実装 コードベースのJOB作成インターフェース
35.
© 2021, Amazon
Web Services, Inc. or its Affiliates. AWS Glue Studio ETL ジョブの作成、実行、監視を容易にする視覚的なインターフェース ビジュアルオーサリング コードを書くことなくETLジョブを作成可能 サーバーレス ビッグデータ処理能力を利用可能 シンプルビュー 単一画面でジョブを管理可能 カスタマイズ可能 任意のコード(Python、Scala、Java)で ETL を高度化可能 https://aws.amazon.com/jp/blogs/big-data/making-etl-easier-with-aws-glue-studio/
36.
© 2021, Amazon
Web Services, Inc. or its Affiliates. シンプルビューの詳細 https://aws.amazon.com/jp/blogs/big-data/making-etl-easier-with-aws-glue-studio/
37.
© 2021, Amazon
Web Services, Inc. or its Affiliates. カスタマイズを可能にするノード https://aws.amazon.com/jp/blogs/big-data/making-etl-easier-with-aws-glue-studio/
38.
© 2021, Amazon
Web Services, Inc. or its Affiliates. 視覚的なJOBモニタリング
39.
© 2021, Amazon
Web Services, Inc. or its Affiliates. ユースケースとGlue Studioでの実装
40.
© 2021, Amazon
Web Services, Inc. or its Affiliates. ユースケース 1: ログストリーム/IoTセンサーデータの分析
41.
© 2021, Amazon
Web Services, Inc. or its Affiliates. ログストリーム / IoTセンサーデータ分析の課題 リアルタイムで発生するデータを分析するための データレイクのデザインパターン S3 ストレージ Kinesis Data Firehose Amazon Athena Amazon Redshift Amazon SageMaker アプリケーション
42.
© 2021, Amazon
Web Services, Inc. or its Affiliates. ログストリーム / IoTセンサーデータ分析の課題 リアルタイムで発生するデータを分析するための データレイクのデザインパターン S3 ストレージ Kinesis Data Firehose Amazon Athena Amazon Redshift Amazon SageMaker アプリケーション 問題点: 1. 期待したパフォーマンスを得られない 2. スキャン量増加によるコストの増加
43.
© 2021, Amazon
Web Services, Inc. or its Affiliates. ログストリーム / IoTセンサーデータ分析の課題 リアルタイムで発生するデータを分析するための データレイクのデザインパターン S3 ストレージ Kinesis Data Firehose Amazon Athena Amazon Redshift Amazon SageMaker アプリケーション 原因: 1. 分析に適したフォーマットになっていない 2. 非常に多数の小さいファイルで形成されている 3. 多数のソースからなるデータが混在している
44.
© 2021, Amazon
Web Services, Inc. or its Affiliates. 具体的なデータイメージ 細かい大量のファイルが定期的に出力 中身はJSON形式のテキストファイルかつ、様々なシステムからのアラートが混在 {"timestamp":"02/Mar/2021:12:00:29 +0000","alarmlevel":"WARNING","host":"prd-web","user":"SystemA","number":"1001","text":"This is WARNING"} {"timestamp":"02/Mar/2021:12:00:29 +0000","alarmlevel":"WARNING","host":"prd-db","user":"SystemD","number":"1001","text":"This is WARNING"} {"timestamp":"02/Mar/2021:12:00:29 +0000","alarmlevel":"WARNING","host":"prd-db","user":"SystemF","number":"1001","text":"This is WARNING"} {"timestamp":"02/Mar/2021:12:00:29 +0000","alarmlevel":"WARNING","host":"prd-ap","user":"SystemA","number":"1001","text":"This is WARNING"}
45.
© 2021, Amazon
Web Services, Inc. or its Affiliates. このデータに対して求められること 解決策: 1. フォーマットを列指向フォーマットに変換する 2. 大量ファイルをコンパクションする 3. 適切な単位でパーティショニングする 上記の変更を加えることで、より効率的な分析が可能
46.
© 2021, Amazon
Web Services, Inc. or its Affiliates. 列指向フォーマットとは カラム(列単位)でデータをまとめて保存するデータフォーマット 1 2 3 4 5 6 1 2 3 4 5 6 1 2 3 4 5 6 列指向 行指向 メリット2) I/O の効率があがる • 圧縮と同時に使うことで I/O 効率がさらに向上 • カラムごとに分けられてデータが並んでいる • 同じカラムは、似たような中身のデータが続くため、 圧縮効率がよくなる 1 2 3 4 5 6 1 2 3 4 5 6 a 列指向 行指向 メリット1) OLAP 系の分析クエリを効率的に実行できる • 多くの分析クエリは、一度のクエリで一部のカラムし か使用しない
47.
© 2021, Amazon
Web Services, Inc. or its Affiliates. コンパクションとは サイズの小さい複数ファイルを分析のしやすい単位に集約 1日分のログデータ 1日分のログデータ ファイル数が多い場合の問題点 • Hadoop系の分散エンジンでは、読み込む必要のある ブロックごとにタスクが生成される。その為、データ が少ないブロックへの処理ではオーバーヘッドが発生 しパフォーマンスが低下する。 コンパクション後のメリット • データ分析前にファイルをひとまとめにしておくこ とで、オーバーヘッドが減少し分析時のパフォーマ ンスが向上する。
48.
© 2021, Amazon
Web Services, Inc. or its Affiliates. パーティショニングとは 分析によく使う単位でファイルを分析して格納 Gluestudio-xxxx-20210330 / LogFile Gluestudio-xxxx-20210330 / System A / LogFile System B / LogFile / System C / LogFile / プレフィックスで分けることを、 パーティショニングと呼ぶ。 単なるフォルダ構造。 パーティショニングをしない場合の問題点 • 特定のシステムのログを検索したい場合、 全てのLogFileに対してスキャンが掛かる。 その為、読み込むデータ量が多くなり、 パフォーマンスに影響がある。 パーティショニング後のメリット • 検索条件にシステム名を含めることで、 特定のファイルにのみアクセスする。 不要データへのアクセスが減る為、 パフォーマンスが向上する。 システム名
49.
© 2021, Amazon
Web Services, Inc. or its Affiliates. ログストリーム / IoTセンサーデータ分析の解決策 S3 ストレージ Kinesis Data Firehose Amazon Athena Amazon Redshift Amazon SageMaker アプリケーション S3 ストレージ Glue Job 解決策: 1. フォーマットを 列指向フォーマット に変換する 2. 大量ファイルをコンパクションする 3. 適切な単位でパーティショニングする
50.
© 2021, Amazon
Web Services, Inc. or its Affiliates. AWS Glue Studioを使用したETL JOBの作成 • マネージメントコンソールより、 AWS Glue を選択 • AWS Glue コンソールの左ペインより、 AWS Glue Studioを選択 • 表示されたAWS Glue Studioの画面にて Create and manage Jobs を選択
51.
© 2021, Amazon
Web Services, Inc. or its Affiliates. JOBの作成 • Create job の項目にて、 Blank graphを選択しCreateボタンを押下 Source and target added to the graph 指定したデータソースとターゲットノードがあらかじめ作 成された状態から開始する。どちらを選んでも問題ない。
52.
© 2021, Amazon
Web Services, Inc. or its Affiliates. データソースの指定① • JobのEdit画面が表示 • 左上にJob名を入力 • 画面左下の“+”を押下し、ノードを表示
53.
© 2021, Amazon
Web Services, Inc. or its Affiliates. データソースの指定② • Node typeにS3を選択 選択可能なデータソースは、 Kinesis, Kafka, JDBC, Redshift 等々。 custom connectorを使用することで追加可能。
54.
© 2021, Amazon
Web Services, Inc. or its Affiliates. データソースの指定③ • Data Catalog tableを選択 • DatabaseとTableに、 Glue のクローラによって生成された データカタログを選択 S3 locationを選択し、 バケットを直接指定してもOK
55.
© 2021, Amazon
Web Services, Inc. or its Affiliates. データの整形① • S3 bucket ノードを選択した状態で、 画面左下の“+”を押下 • Node typeにApplyMappingを選択 ApplyMappingは、入力データのカラムの修 正・削除を行うためのノード。 他にもフィールドの分割や、ソースデータの結 合等、様々な変換ノードが用意されている。
56.
© 2021, Amazon
Web Services, Inc. or its Affiliates. データの整形② • Target key列に入力されている文字列を修正 • Drop列のボックスにチェック ここでは以下の2点を実施している。 1. user 列の名前をsystem列に変更している。 2. partition_0列を削除している。
57.
© 2021, Amazon
Web Services, Inc. or its Affiliates. データファイルのコンパクション① • ApplyMapping ノードを選択した状態で、 画面左下の“+”を押下 • Node typeにCustom transformを選択 Custom transformは、 コードを自由に記述することが可能なノード。 Python, Scala, Javaの、任意のコードを使用可能。
58.
© 2021, Amazon
Web Services, Inc. or its Affiliates. データファイルのコンパクション② selected = dfc.select(list(dfc.keys())[0]).toDF() reprep = selected.repartition(5) results = DynamicFrame.fromDF(reprep, glueContext, "results") return DynamicFrameCollection({"results": results}, glueContext) • コードブロックに下記記載の、Pythonコードを入力 このコードブロックは、DynamicFrameオブ ジェクトを受け取っている。受け取ったオブ ジェクトに対し任意の処理を記述可能。
59.
© 2021, Amazon
Web Services, Inc. or its Affiliates. DynamicFrameとは SparkSQL DataFrameと似たGlue特有の抽象化の概念 - SparkSQL DataFrameとの違いはETLに特化しているかどうか (DynamicFrameはスキーマの不一致を明示的にエンコードする”Schema on the Fly”を採用) - 複数の型の可能性を残して、後で決定できるようにする (Choice型) - DynamicFrameはデータ全体を表し、DynamicRecordはデータ1行を指す - DataFrameとDynamicFrame間でそれぞれ変換することができる(fromDF関数・toDF関数) - Pythonライブラリ PandasのDataFrameとは異なるので注意 Spark Core: RDDs Spark DataFrame Glue DynamicFrame SparkSQL AWS Glue ETL 実行環境 データ構造 アプリケーション データ構造イメージ アーキテクチャ:SparkおよびGlueライブラリ SparkSQL DataFrame DynamicFrame 構造テーブルに類似 半構造テーブルに類似
60.
© 2021, Amazon
Web Services, Inc. or its Affiliates. コードの内容 上記のコードは受け取ったDynamicFrameオブジェクトに以下の内容を実施している。 1. 受け取ったDynamicFrameオブジェクトを、toDF()関数を使用し、SparkSQL DataFrameに変換 2. DataFrameの分割数を変更し、5分割に変更 3. 変更後のDataFrameをfromDF()関数を使用し、DynamicFrameオブジェクトに変換 4. DynamicFrameオブジェクトをリターン
61.
© 2021, Amazon
Web Services, Inc. or its Affiliates. データファイルのコンパクション③ • Custom Transform ノードを選択した状態で、 画面左下の“+”を押下 (自動生成の場合この手順は不要) • Node typeにSelectFromCollectionを選択 SelectFromCollectionは、Custom Transform ノードで実行したコードからオブジェクトを受け 取るためのノード。 Custom Transformノードとセットで使用する。
62.
© 2021, Amazon
Web Services, Inc. or its Affiliates. フォーマット変換① • SelectFromCollection ノードを選択した状態で、 画面左下の“+”を押下 • Node typeにS3を選択 Node typeには、Data targetのS3とData source のS3があるので注意する。
63.
© 2021, Amazon
Web Services, Inc. or its Affiliates. フォーマット変換② • FormatをGlue Parquetを選択 • Compression TypeにSnappyを選択 Parquet とは Parquetは分析に適した列指向フォーマット Glue Parquet とは よりGlueに最適化されたParquetフォーマット 通常のParquetと変わりないが、出力ファイルのス キーマを動的に計算し、高速に”Parquet”ファイルに 書き込むことが可能
64.
© 2021, Amazon
Web Services, Inc. or its Affiliates. 出力先の指定 • S3 Target Loctionに出力先となる、 S3バケットを指定 • Data Catalog update optionsにて、 Do not update the Data Catelogを選択 Data Catalog update options について Do not change table definition: ジョブでDataCatalogの更新を行わない設定。 Update schema and add new partitions : スキーマの変更または新しいパーティションの追加時にジョブ でData Catalogを更新する設定。 Keep existing schema and add new partitions: 新しいパーティションを追加する目的にのみ、ジョブで DataCatalogを更新する設定。
65.
© 2021, Amazon
Web Services, Inc. or its Affiliates. パーティショニング • Partition keys にて、 パーティショニングに使用するカラムを選択 Partitionに使用するカラムは複数選択が可能。 複数選択することで階層構造でファイルが出力される。
66.
© 2021, Amazon
Web Services, Inc. or its Affiliates. JOBの詳細設定① • Job detailsタブを選択 • IAM Role に必要な権限を持ったロールを選択 • Glue version にて、Glue 2.0が 選択されていることを確認 必要な権限について ユースケース1で必要となる権限は以下。 • AWS Glue サービスのアクセス許可 • Amazon CloudWatch のアクセス許可 • データソースとデータターゲットへのアクセス許可 これらの権限が付与されたロールを選択する。
67.
© 2021, Amazon
Web Services, Inc. or its Affiliates. JOBの詳細設定② • Language にPython 3が選択されていることを確認 • Worker type にてG.1Xを選択 • Number of workersをデフォルトの10から2に変更 Worker typeの詳細については次のスライドをご参照
68.
© 2021, Amazon
Web Services, Inc. or its Affiliates. Worker Type ジョブ実行環境にメモリ大量使用ワークロード向けのWorker Typeを選択可能 - ジョブ実行時に割り当てる処理能力をDPU(Data Processing Unit)という 1DPU = 4vCPU、16GBメモリ - Glue Studioでは、G.1xとG.2Xが選択可能 Worker Type DPU数 /1Worker Executor数 /1Worker メモリ数 /1Executor 標準 1 2 5.5GB G.1X 1 1 12GB G.2X 2 1 24GB 参考URL:Spark Components(https://spark.apache.org/docs/latest/cluster-overview.html) Worker Type一覧 Worker Type構成イメージ 標準 Executor (Mem:5.5GB) Worker Executor (Mem:5.5GB) DPU G.1X Worker DPU G.2X Worker DPU DPU Executor (Mem:24GB) Executor (Mem:12GB)
69.
© 2021, Amazon
Web Services, Inc. or its Affiliates. JOBの詳細設定③ • Job bookmark にてDisableを選択 • Number of retriesをデフォルトの3から1に変更 Job bookmarkについて ジョブを実行した状態情報を保持することで、古いデータを再処理し ないようにする機能。デフォルトのDisableにすることでJobの実行の たびにデータセット全体に対して処理をすることが可能。
70.
© 2021, Amazon
Web Services, Inc. or its Affiliates. 結果のモニタリング • 画面右上のSaveを押下した後、 Runボタンを押下しJobを実行 • Runs タブを選択 • Run statusが、 Succeededになったことを確認 トラブル対応について 処理が中断した場合や正常終了しなかった場合、 Cloudwatchにログが出力されているのでそこで確 認が可能。
71.
© 2021, Amazon
Web Services, Inc. or its Affiliates. 実行結果 • 出力バケット直下にシステム名でプレフィックスが作成されていることを確認 • 各プレフィックス毎にParquet形式の5つのファイルが出力されていることを確認
72.
© 2021, Amazon
Web Services, Inc. or its Affiliates. ログストリーム / IoTセンサーデータ分析の解決策 S3 ストレージ Kinesis Data Firehose Amazon Athena Amazon Redshift Amazon SageMaker アプリケーション S3 ストレージ Glue Job 修正後のデータ: 1. データフォーマットがParquet形式 2. コンパクションによりファイル数が減少 3. システム単位でのパーティショニング
73.
© 2021, Amazon
Web Services, Inc. or its Affiliates. ユースケース 2: データベースレプリカへの処理をオフロード
74.
© 2021, Amazon
Web Services, Inc. or its Affiliates. RDSにあるデータを直接分析している場合の課題 分析用のデータベースレプリカにかかる負荷をデータレイクへオフロード Amazon SageMaker Amazon Relational Database Service (Amazon RDS) リードレプリカ アプリケーション Amazon QuickSight Other BI Tools
75.
© 2021, Amazon
Web Services, Inc. or its Affiliates. RDSにあるデータを直接分析している場合の課題 分析用のデータベースレプリカにかかる負荷をデータレイクへオフロード Amazon SageMaker Amazon Relational Database Service (Amazon RDS) リードレプリカ アプリケーション Amazon QuickSight Other BI Tools 問題点: 1. 期待したパフォーマンスが出ていない 2. パフォーマンスを出すためにレプリカのスペッ クをあげたことでコストが増加 3. リアルタイムで更新がかかるので、分析タイミ ングで結果に揺らぎが発生
76.
© 2021, Amazon
Web Services, Inc. or its Affiliates. RDSにあるデータを直接分析している場合の課題 分析用のデータベースレプリカにかかる負荷をデータレイクへオフロード Amazon SageMaker Amazon Relational Database Service (Amazon RDS) リードレプリカ アプリケーション Amazon QuickSight Other BI Tools 原因: 1. 分析に適したフォーマットになっていない 2. データベースに直接クエリを発行している 3. リアルタイムでデータの更新が行われる
77.
© 2021, Amazon
Web Services, Inc. or its Affiliates. RDSにあるデータを直接分析している場合の解決策 Amazon SageMaker Amazon Relational Database Service (Amazon RDS) アプリケーション Amazon QuickSight S3 ストレージ アプリケーション Amazon Relational Database Service (Amazon RDS) リードレプリカ Glue Job Other BI Tools 解決策: 1. フォーマットを 列指向フォーマット に変換する 2. 分析ツールからのアクセスをS3にオフロードする 3. JOB実行時の断面でデータを保持する
78.
© 2021, Amazon
Web Services, Inc. or its Affiliates. AWS Glue Studioを使用したETL JOBの作成 • マネージメントコンソールより、 AWS Glue を選択 • AWS Glue コンソールの左ペインより、 AWS Glue Studioを選択 • 表示されたAWS Glue Studioの画面にて Create and manage Jobs を選択
79.
© 2021, Amazon
Web Services, Inc. or its Affiliates. データソースの指定① • JobのEdit画面が表示 • 左上にJob名を入力 • 画面左下の“+”を押下し、ノードを表示
80.
© 2021, Amazon
Web Services, Inc. or its Affiliates. データソースの指定② • Node typeにJDBCを選択
81.
© 2021, Amazon
Web Services, Inc. or its Affiliates. データソースの指定③ DBとの接続情報について データカタログにはDBへの接続情報も含まれ ている。その為、データカタログを指定する ことでDBへのJDBC接続が可能となる。 • DatabaseとTableに、 Glue のクローラによって生成された データカタログを選択
82.
© 2021, Amazon
Web Services, Inc. or its Affiliates. 外部テーブルの結合①(追加機能のご紹介) • Node typeにJoinを選択 • Node parentsに結合したい、 別のデータソースを選択 結合処理は、JDBCとS3など異なるタイプ のデータソース間でも結合が可能。
83.
© 2021, Amazon
Web Services, Inc. or its Affiliates. 外部テーブルの結合②(追加機能のご紹介) • Join type にInner join を選択 • Join conditions に結合したいカラムを選択
84.
© 2021, Amazon
Web Services, Inc. or its Affiliates. ターゲットの選択 • Node typeにS3を選択 • その他の設定はユースケース1と同様の内容を実施
85.
© 2021, Amazon
Web Services, Inc. or its Affiliates. JOBの詳細設定 • Job details タブを選択し、 ユースケース1と同様の内容を設定 • Save ボタンを押下し、 RunボタンでJobを実行
86.
© 2021, Amazon
Web Services, Inc. or its Affiliates. 結果のモニタリング • Runs タブを選択 • Run statusが、 Succeededになったことを確認
87.
© 2021, Amazon
Web Services, Inc. or its Affiliates. 実行結果 • 出力バケットにファイルが作成されていることを確認
88.
© 2021, Amazon
Web Services, Inc. or its Affiliates. RDSにあるデータを直接分析している場合の解決策 Amazon SageMaker Amazon Relational Database Service (Amazon RDS) アプリケーション Amazon QuickSight S3 ストレージ アプリケーション Amazon Relational Database Service (Amazon RDS) リードレプリカ Glue Job Other BI Tools 修正後のデータ: 1. データフォーマットがParquet形式 2. JOB実行時の断面でデータ分析が可能 3. 分析ツールからのアクセスをS3にオフロード
89.
© 2021, Amazon
Web Services, Inc. or its Affiliates. ユースケース 3: 他クラウド/オンプレミス にあるデータの分析
90.
© 2021, Amazon
Web Services, Inc. or its Affiliates. 他クラウド/オンプレミス にあるデータを分析する場合の問題点 ネイティブでサポートされていないデータソースからのデータ移行 Amazon Athena Amazon Redshift Amazon SageMaker S3 ストレージ Other Cloud SaaS Services AWS Cloud Amazon CloudWatch
91.
© 2021, Amazon
Web Services, Inc. or its Affiliates. 他クラウド/オンプレミス にあるデータを分析する場合の問題点 ネイティブでサポートされていないデータソースからのデータ移行 Amazon Athena Amazon Redshift Amazon SageMaker S3 ストレージ Other Cloud SaaS Services AWS Cloud Amazon CloudWatch 問題点: データが格納されていないため クエリをかけることができない
92.
© 2021, Amazon
Web Services, Inc. or its Affiliates. AWS Glue Custom Connectors ネイティブにサポートされていないデータストアとの接続 https://aws.amazon.com/jp/about-aws/whats-new/2020/12/aws-glue-launches-aws-glue-custom-connectors/ 任意のデータソースからデータを転送可能 多くのコネクタを利用可能 AWS Marketplaceとの統合 SaaS アプリケーション等から Amazon S3にデータを転送 Salesforce、SAP、Snowflake、Google BigQuery 等とも連携 開発したカスタムコネクタを AWS Marketplace で共有可能 AWS Glue Other Cloud SaaS Services AWS Cloud Amazon CloudWatch
93.
© 2021, Amazon
Web Services, Inc. or its Affiliates. 他クラウド/オンプレミス にあるデータを分析する場合の解決策 Amazon Athena Amazon Redshift Amazon SageMaker S3 ストレージ 解決策: AWS Glue Custom Connectors を使用してデータをコピーする Glue Job Other Cloud SaaS Services AWS Cloud Amazon CloudWatch
94.
© 2021, Amazon
Web Services, Inc. or its Affiliates. AWS Glue Custom Connectors の使用 • AWS Glue Studioのホーム画面の左にある Marketplaceを選択
95.
© 2021, Amazon
Web Services, Inc. or its Affiliates. カスタムコネクターのサブスクライブ① • Topにある検索バーにCloudWatchと入力 • 検索結果に表示される以下を選択 Cloudwatch Logs connector for AWS Glue
96.
© 2021, Amazon
Web Services, Inc. or its Affiliates. カスタムコネクターのサブスクライブ② • カスタムコネクターの内容を確認し、 画面右上のContinue to Subscribe を選択
97.
© 2021, Amazon
Web Services, Inc. or its Affiliates. カスタムコネクターのサブスクライブ③ • ソフトウェアのバージョン等の選択後に、 出力されるUsage Instructionsを押下 • 出力されるポップアップにて、以下を選択 Activate the Glue connector in AWS Glue Studio • Custom connector の設定画面へ自動遷移
98.
© 2021, Amazon
Web Services, Inc. or its Affiliates. コネクターの作成 • Name欄に任意の名前を入力 • Connection access は今回は空欄 認証情報について 他クラウドやSaaSへの接続を行う際には認証情報はあら かじめ、AWS Secrets Managerに格納する必要がある。 今回は、CloudWatchへの接続のため入力不要。
99.
© 2021, Amazon
Web Services, Inc. or its Affiliates. データソースの指定① • Node type にAthenaCloudwatchLogsが、 追加されていることを確認
100.
© 2021, Amazon
Web Services, Inc. or its Affiliates. データソースの指定② • Connectionに先程作成したコネクターを選択 • CloudWatchを確認し取得対象となる LogStreamsとLogGroupsを確認 • Table nameにLogStreamsを入力し、 Schema nameにLogGroupsを入力 LogGroup内のすべてのLogStreamsで構成される 特別な「all_log_streams (すべてのログストリー ム)」などでもログを指定可能。 ※詳細は以下リンク先ご参照。 https://github.com/awslabs/aws-athena-query-federation/blob/master/athena-cloudwatch/README.md
101.
© 2021, Amazon
Web Services, Inc. or its Affiliates. ターゲットの指定 • Connection source ノードを選択した状態で、 画面左下の“+”を押下 • Node typeにS3を選択し、 ユースケース1と同様のターゲット設定を実施
102.
© 2021, Amazon
Web Services, Inc. or its Affiliates. JOBの詳細設定 • Job detailsタブを選択 • IAM Role に必要な権限を持ったロールを選択 • その他はユースケース1と同じよう設定 必要な権限について ユースケース3にて追加で必要となる権限は以下。 • AWSの管理ポリシーである AmazonEC2ContainerRegistryReadOnly権限 • glue:GetJobおよびglue:GetJobsアクセス許可 • 取得対象となるCloud Watch Logsへのアクセス権限 これらの権限をユースケース1のロールに追加で付与 した上でロールを選択する。
103.
© 2021, Amazon
Web Services, Inc. or its Affiliates. 結果のモニタリング • 画面右上のSaveを押下した後、 Runボタンを押下しJobを実行 • Runs タブを選択 • Run statusが、 Succeededになったことを確認
104.
© 2021, Amazon
Web Services, Inc. or its Affiliates. 他クラウド/オンプレミス にあるデータを分析する場合の解決策 Amazon Athena Amazon Redshift Amazon SageMaker S3 ストレージ Glue Job Other Cloud SaaS Services AWS Cloud Amazon CloudWatch 対応後のS3の状態: データソースと同等のデータが格納済
105.
© 2021, Amazon
Web Services, Inc. or its Affiliates. その他の主要アップデート
106.
© 2021, Amazon
Web Services, Inc. or its Affiliates. AWS Glue Elastic Views AWS Glue の構成要素と周辺サービス(再掲) Extract, Transform, and Load(ETL)ジョブ AWS Glue Data Catalog Crawler Workflow Management AWS Glue Studio AWS Glue DataBrew New
107.
© 2021, Amazon
Web Services, Inc. or its Affiliates. AWS Glue DataBrew 分析および機械学習のためのビジュアライズツール データ準備タスクの自動化 ノンコードでのデータ変換 サーバレス データ準備にかかる時間を最大80%短縮 250を超える既成の組込関数を選択して処理を実施 インフラを管理することなく、テラバイト規模のデータを変換
108.
© 2021, Amazon
Web Services, Inc. or its Affiliates. AWS Glue DataBrew の特徴 TB〜PBクラスのデータに対して、クレンジングと正規化を直接実行 データ品質の理解 データパターンを理解し異 常を検出するためにプロフ ァイリングを行い、データ の品質を評価 デ ー タ リ ネ ー ジ の 視 覚 化 さまざまなデータソース と変換手順を視覚化して トラッキング データのクリーン アップと正規化 250種類以上の変換処理 から選択して、データの 視覚化、クリーンアップ 、正規化を実施 自 動 化 保存された変換手順を新 しい入力データに適用
109.
© 2021, Amazon
Web Services, Inc. or its Affiliates. AWS Glue DataBrew と AWS Glue Studioの違い AWS Glue DataBrew AWS Glue Studio • GUI でデータを可視化しながら データ変換したい • Data Brew で利用可能な 250種 類以上の変換処理を活用したい • データアナリスト & データサイエンティスト向け • プログラムコードでデータ変換したい • GUI でデータ変換を記述しつつ、必要に応じ てカスタムコードを加えたい • カスタムコネクタでさまざまなデータソース と接続したい • ストリーミング処理を活用したい • E T L デ ベ ロ ッ パ ー 向 け
110.
© 2021, Amazon
Web Services, Inc. or its Affiliates. AWS Glue の構成要素と周辺サービス(再掲) Extract, Transform, and Load(ETL)ジョブ AWS Glue Data Catalog Crawler Workflow Management AWS Glue Studio AWS Glue DataBrew AWS Glue Elastic Views New
111.
© 2021, Amazon
Web Services, Inc. or its Affiliates. AWS Glue Elastic Views (Preview) 複数のデータソースにまたがるマテリアライズドビューを作成 Amazon DynamoDB Amazon Redshift Amazon Simple Storage Service (S3) Amazon Elasticsearch Service Target Database SQLを用いてターゲットDBを指定 データ変更に迅速に対応 サーバーレス ターゲットデータベースに対して自動的にデータを複製 データソースをモニタし、データの変更が発生したら迅速で反映 インフラ管理は不要。キャパシティを自動的に制御
112.
© 2021, Amazon
Web Services, Inc. or its Affiliates. プレビュー時にサポートされるsourceとtarget Source Target Amazon DynamoDB ✓ Amazon Elasticsearch Service ✓ Amazon S3 ✓ Amazon Redshift ✓
113.
© 2021, Amazon
Web Services, Inc. or its Affiliates. previewで利用可能なユースケース • DynamoDB内のデータの検索インデックスをElasticsearch内に作成 Amazon DynamoDB • DynamoDB内の業務データをDataLakeに統合 • DynamoDB内のデータをRedshiftで分析 Amazon DynamoDB Amazon DynamoDB Amazon Elasticsearch Service AWS Glue Elastic Views Amazon Simple Storage Service AWS Glue Elastic Views Amazon Redshift AWS Glue Elastic Views
114.
© 2021, Amazon
Web Services, Inc. or its Affiliates. AWS Glue の構成要素と周辺サービス(再掲) Extract, Transform, and Load(ETL)ジョブ AWS Glue Data Catalog Crawler Workflow Management AWS Glue Studio AWS Glue DataBrew AWS Elastic Views New
115.
© 2021, Amazon
Web Services, Inc. or its Affiliates. まとめ
116.
© 2021, Amazon
Web Services, Inc. or its Affiliates. まとめ 1. AWS Glueとは、 サービス間でデータを簡単に移動するための、サーバーレスデータ統合サービス 2. データの前処理が必要な場合、 AWS Glue Studioを使用することでグラフィカルにETLJobを作成可能 3. データがAWS以外に格納されている場合でも、 AWS Glue Custom Connectorsを使用することでデータの移動が可能
117.
© 2021, Amazon
Web Services, Inc. or its Affiliates. 参考情報 AWS Glue ホームページ https://aws.amazon.com/jp/glue/ AWS Glue 開発者ガイド(公式ドキュメント) https://aws.amazon.com/jp/documentation/glue/ AWS Glue custom connectors の設定例 https://aws.amazon.com/jp/blogs/big-data/migrating-data-from-google-bigquery-to-amazon- s3-using-aws-glue-custom-connectors/ AWS Glueの料金 https://aws.amazon.com/jp/glue/pricing/ AWS Glueのサービス制限 https://docs.aws.amazon.com/ja_jp/general/latest/gr/aws_service_limits.html#limits_glue
118.
© 2021, Amazon
Web Services, Inc. or its Affiliates. Q&A お答えできなかったご質問については AWS Japan Blog https://aws.amazon.com/jp/blogs/news/ に 後日掲載します。
119.
© 2021, Amazon
Web Services, Inc. or its Affiliates. AWS の日本語資料の場所「AWS 資料」で検索 https://amzn.to/JPArchive
120.
© 2021, Amazon
Web Services, Inc. or its Affiliates. で[検索] AWS イベント 毎週”W-A個別技術相談会”を実施中 • AWSのソリューションアーキテクト(SA)に 対策などを相談することも可能 • 申込みはイベント告知サイトから (https://aws.amazon.com/jp/about-aws/events/) AWS Well-Architected 個別技術相談会
121.
© 2021, Amazon
Web Services, Inc. or its Affiliates. 4月以降のBlack Belt Online Seminarについて ライブ配信によるBlack Belt Online Seminarは3月一杯で終了し、 今後はオンデマンドによる定期配信に変更いたします。 今後もコンテンツを拡充して行きますので、楽しみにお待ちください。 オンデマンドでの配信スケジュールは、AWS Blog, AWSニュースレ ターでお知らせいたします(5月17日週に再開を予定しています)
122.
© 2021, Amazon
Web Services, Inc. or its Affiliates. AWS 公式 Webinar https://amzn.to/JPWebinar 過去資料 https://amzn.to/JPArchive ご視聴ありがとうございました