SlideShare a Scribd company logo
1 of 122
© 2021, Amazon Web Services, Inc. or its Affiliates.
AWS 公式 Webinar
https://amzn.to/JPWebinar
過去資料
https://amzn.to/JPArchive
[AWS Black Belt Online Seminar]
AWS Glue
-Glue Studioを使ったデータ変換のベストプラクティス-
Amazon Web Service Japan, K. K.
Solutions Architect, Kazutaka Kubo
2021/03/30
© 2021, Amazon Web Services, Inc. or its Affiliates.
AWS Black Belt Online Seminar とは
「サービス別」「ソリューション別」「業種別」のそれぞれのテーマに分かれて、アマゾ
ン ウェブ サービス ジャパン株式会社が主催するオンラインセミナーシリーズです。
質問を投げることができます!
• 書き込んだ質問は、主催者にしか見えません
• 今後のロードマップに関するご質問は
お答えできませんのでご了承下さい
① 吹き出しをクリック
② 質問を入力
③ Sendをクリック
Twitter ハッシュタグは以下をご利用ください
#awsblackbelt
© 2021, Amazon Web Services, Inc. or its Affiliates.
内容についての注意点
• 本資料では2021 年 3 月 30 日現在のサービス内容および価格についてご説明しています。最新の情報はAWS公
式ウェブサイト(http://aws.amazon.com)にてご確認ください。
• 資料作成には十分注意しておりますが、資料内の価格とAWS公式ウェブサイト記載の価格に相違があった場合、
AWS公式ウェブサイトの価格を優先とさせていただきます。
• 価格は税抜表記となっています。日本居住者のお客様には別途消費税をご請求させていただきます。
• AWS does not offer binding price quotes. AWS pricing is publicly available and is subject to change in
accordance with the AWS Customer Agreement available at http://aws.amazon.com/agreement/. Any
pricing information included in this document is provided only as an estimate of usage charges for AWS
services based on certain information that you have provided. Monthly charges will be based on your
actual use of AWS services, and may vary from the estimates provided.
© 2021, Amazon Web Services, Inc. or its Affiliates.
自己紹介
久保 和隆 (Kazutaka Kubo)
所属:西日本担当ソリューションアーキテクト
西日本のお客様に対してAWSの技術支援
好きなサービス:
AWS Glue
© 2021, Amazon Web Services, Inc. or its Affiliates.
本日の内容
1. AWS Glueの位置付け
2. Glue Studioの概要
3. ユースケースとGlue Studioでの実装
4. その他の主要アップデート
5. まとめ
© 2021, Amazon Web Services, Inc. or its Affiliates.
AWS Glueの位置付け
© 2021, Amazon Web Services, Inc. or its Affiliates.
データ分析の現状
・多くの企業がデータレイクを構築し、有効活用を望んでいる。
Data Lake
© 2021, Amazon Web Services, Inc. or its Affiliates.
データ活用を阻む要因
・多くの企業でデータ活用が難航
様 々 な 目 的 の ユ ー ザ
日 々 増 加 す る デ ー タ 日 々 追 加 さ れ る
デ ー タ ソ ー ス
日 々 追 加 さ れ る
デ ー タ フ ォ ー マ ッ ト
デ ー タ を 使 い た い
様 々 な ア プ リ ケ ー シ ョ ン
© 2021, Amazon Web Services, Inc. or its Affiliates.
・多くの企業でデータ活用が難航
様 々 な 目 的 の ユ ー ザ
日 々 増 加 す る デ ー タ 日 々 追 加 さ れ る
デ ー タ ソ ー ス
日 々 追 加 さ れ る
デ ー タ フ ォ ー マ ッ ト
デ ー タ を 使 い た い
様 々 な ア プ リ ケ ー シ ョ ン
使いやすい形に整形する「前処理」が、データ活用には重要
データ活用を阻む要因
© 2021, Amazon Web Services, Inc. or its Affiliates.
前処理における課題
取扱データの増加
目的に合わせた
カスタマイズが必要
基盤の管理負荷
• 5年前と比較して、
10倍以上のデータ量
• ごみデータの排除
• フォーマット変換 等々
• サーバーのライフサイクル管理
• 監視管理
© 2021, Amazon Web Services, Inc. or its Affiliates.
AWS Glue
サービス間でデータを簡単に移動できるようにするための、
サーバーレスデータ統合サービス
© 2021, Amazon Web Services, Inc. or its Affiliates.
AWS Glue の特徴
シンプルで拡張性に優れたサーバ不要のデータ統合
大量データの迅速な統合
変換処理の自動化
サーバーレス
データの準備を数ヶ月から数分に短縮
何千ものETLジョブを簡単に実行、管理可能
ジョブ実行で使われたリソースに対してのみ支払い
© 2021, Amazon Web Services, Inc. or its Affiliates.
AWS Glue の構成要素と周辺サービス
Extract, Transform, and
Load(ETL)ジョブ
AWS Glue Data Catalog Crawler Workflow Management
AWS Glue Studio AWS Glue DataBrew AWS Glue Elastic Views
© 2021, Amazon Web Services, Inc. or its Affiliates.
AWS Glue の構成要素と周辺サービス
Extract, Transform, and
Load(ETL)ジョブ
AWS Glue Data Catalog Crawler Workflow Management
AWS Glue Studio AWS Glue DataBrew
New
AWS Glue Elastic Views
© 2021, Amazon Web Services, Inc. or its Affiliates.
AWS Glue Elastic Views
AWS Glue の構成要素と周辺サービス
Extract, Transform, and
Load(ETL)ジョブ
AWS Glue Data Catalog Crawler Workflow Management
AWS Glue Studio AWS Glue DataBrew
New
フォーマット変換したり、データを結合したり、
様々な処理を行うJOBを作成・管理・実行することが可能
© 2021, Amazon Web Services, Inc. or its Affiliates.
AWS Glue Elastic Views
AWS Glue の構成要素と周辺サービス
Extract, Transform, and
Load(ETL)ジョブ
AWS Glue Data Catalog Crawler Workflow Management
AWS Glue Studio AWS Glue DataBrew
New
Apache Hiveメタストア互換のメタデータリポジトリ
データソースにどういったデータが入っているのかをカタログ化して、保存しておくことが可能
© 2021, Amazon Web Services, Inc. or its Affiliates.
AWS Glue Elastic Views
AWS Glue の構成要素と周辺サービス
Extract, Transform, and
Load(ETL)ジョブ
AWS Glue Data Catalog Crawler Workflow Management
AWS Glue Studio AWS Glue DataBrew
New
Glueのデータカタログにメタデータを作成するプログラム
分類子の優先度に従って、スキーマ情報を自動で判断し、スキーマを形成
© 2021, Amazon Web Services, Inc. or its Affiliates.
AWS Glue Elastic Views
AWS Glue の構成要素と周辺サービス
Extract, Transform, and
Load(ETL)ジョブ
AWS Glue Data Catalog Crawler Workflow Management
AWS Glue Studio AWS Glue DataBrew
New
クローラー、トリガー、ジョブのDAGを生成するワークフロー機能
データソースのクロール/データカタログの生成 / JOBの実行、これら一連の処理を自動化
© 2021, Amazon Web Services, Inc. or its Affiliates.
データレイク環境の構成要素
data lake storage
Amazon Simple
Storage Service (S3)
Amazon RDS
On-premises data
Amazon Athena
Amazon Redshift
Amazon SageMaker
データソース データレイク ターゲット
Other S3
© 2021, Amazon Web Services, Inc. or its Affiliates.
データレイク環境におけるAWS Glueの役割
data lake storage
Amazon Simple
Storage Service (S3)
Amazon RDS
On-premises data
Amazon Athena
Amazon Redshift
Amazon SageMaker
AWS Glue
各要素の間を取り持つのがGlueの役割
Other S3
© 2021, Amazon Web Services, Inc. or its Affiliates.
ETLジョブ
data lake storage
Amazon Simple
Storage Service (S3)
Amazon RDS
On-premises data
Amazon Athena
Amazon Redshift
Amazon SageMaker
AWS Glue
データソースからデータレイクストレージへデータを出力
ETLジョブ
Amazon RDS
On-premises data
Other S3
© 2021, Amazon Web Services, Inc. or its Affiliates.
ETLジョブ
data lake storage
Amazon Simple
Storage Service (S3)
Amazon RDS
On-premises data
Amazon Athena
Amazon Redshift
Amazon SageMaker
AWS Glue
データソースからデータレイクストレージへデータを出力
ETLジョブ
Amazon RDS
On-premises data
Other S3
© 2021, Amazon Web Services, Inc. or its Affiliates.
データのクローリング
data lake storage
Amazon Simple
Storage Service (S3)
Amazon RDS
Other S3
On-premises data
Amazon Athena
Amazon Redshift
Amazon SageMaker
AWS Glue
データレイクをクローリングし、データカタログを出力
ETLジョブ
Crawler
© 2021, Amazon Web Services, Inc. or its Affiliates.
データのクローリング
data lake storage
Amazon Simple
Storage Service (S3)
Amazon RDS
Other S3
On-premises data
Amazon Athena
Amazon Redshift
Amazon SageMaker
AWS Glue
データレイクをクローリングし、データカタログを出力
ETLジョブ
Crawler AWS glue
data catalog
© 2021, Amazon Web Services, Inc. or its Affiliates.
カタログを使用したデータ参照
data lake storage
Amazon Simple
Storage Service (S3)
Amazon RDS
Other S3
On-premises data
Amazon Athena
Amazon Redshift
Amazon SageMaker
AWS Glue
データカタログを参照し、必要データをロード
ETLジョブ
Crawler AWS glue
data catalog
© 2021, Amazon Web Services, Inc. or its Affiliates.
カタログを使用したデータ参照
data lake storage
Amazon Simple
Storage Service (S3)
Amazon RDS
Other S3
On-premises data
Amazon Athena
Amazon Redshift
Amazon SageMaker
AWS Glue
データカタログを参照し、必要データをロード
ETLジョブ
Crawler AWS glue
data catalog Amazon Athena
Amazon Redshift
Amazon SageMaker
© 2021, Amazon Web Services, Inc. or its Affiliates.
ワークフロー管理
data lake storage
Amazon Simple
Storage Service (S3)
Amazon RDS
Other S3
On-premises data
Amazon Athena
Amazon Redshift
Amazon SageMaker
AWS Glue
ETLジョブ
Crawler AWS glue
data catalog
一連の処理をワークフロー化し、自動化可能
Workflow Management
© 2021, Amazon Web Services, Inc. or its Affiliates.
AWS Glue Elastic Views
AWS Glue の構成要素と周辺サービス(再掲)
Extract, Transform, and
Load(ETL)ジョブ
AWS Glue Data Catalog Crawler Workflow Management
AWS Glue Studio AWS Glue DataBrew
New
© 2021, Amazon Web Services, Inc. or its Affiliates.
AWS Glue の構成要素と周辺サービス(再掲)
Extract, Transform, and
Load(ETL)ジョブ
AWS Glue Data Catalog Crawler Workflow Management
AWS Glue Studio AWS Glue DataBrew
New
AWS Glue Elastic Views
© 2021, Amazon Web Services, Inc. or its Affiliates.
AWS Glue Elastic Views
AWS Glue の構成要素と周辺サービス(再掲)
Extract, Transform, and
Load(ETL)ジョブ
AWS Glue Data Catalog Crawler Workflow Management
AWS Glue Studio AWS Glue DataBrew
New
本日のメイン
© 2021, Amazon Web Services, Inc. or its Affiliates.
AWS Glue Studioの概要
© 2021, Amazon Web Services, Inc. or its Affiliates.
代表的なデータ利用者
ビジネスユーザー:
データ分析についての専門的な知見を持ってはいないが、蓄積したデータを活用する。
組織で活動するあらゆる人が当てはまる。
ETLデベロッパー:
自分の開発・運用しているプロダクトのためにデータを活用する。
システム障害の原因追求、新機能がどう使われているかの分析するロール。
データアナリスト:
データ分析自体が職務で、 マーケティング施策の効果を売り上げデータをもとに検証する。
データによる意思決定の支援を行うロール。
データサイエンティスト:
より高度な手法を使い、複雑な意識決定の支援を実施する。
業務システムに組み込んで使用するための機械学習モデルの開発を行うロール。
© 2021, Amazon Web Services, Inc. or its Affiliates.
代表的なデータ利用者
ビジネスユーザー:
データ分析についての専門的な知見を持ってはいないが、蓄積したデータを活用する。
組織で活動するあらゆる人が当てはまる。
ETLデベロッパー:
自分の開発・運用しているプロダクトのためにデータを活用する。
システム障害の原因追求、新機能がどう使われているかの分析するロール。
データアナリスト:
データ分析自体が職務で、 マーケティング施策の効果を売り上げデータをもとに検証する。
データによる意思決定の支援を行うロール。
データサイエンティスト:
より高度な手法を使い、複雑な意識決定の支援を実施する。
業務システムに組み込んで使用するための機械学習モデルの開発を行うロール。
© 2021, Amazon Web Services, Inc. or its Affiliates.
従来のAWS Glue でのJOB実装
コードベースのJOB作成インターフェース
© 2021, Amazon Web Services, Inc. or its Affiliates.
AWS Glue Studio
ETL ジョブの作成、実行、監視を容易にする視覚的なインターフェース
ビジュアルオーサリング
コードを書くことなくETLジョブを作成可能
サーバーレス
ビッグデータ処理能力を利用可能
シンプルビュー
単一画面でジョブを管理可能
カスタマイズ可能
任意のコード(Python、Scala、Java)で ETL を高度化可能
https://aws.amazon.com/jp/blogs/big-data/making-etl-easier-with-aws-glue-studio/
© 2021, Amazon Web Services, Inc. or its Affiliates.
シンプルビューの詳細
https://aws.amazon.com/jp/blogs/big-data/making-etl-easier-with-aws-glue-studio/
© 2021, Amazon Web Services, Inc. or its Affiliates.
カスタマイズを可能にするノード
https://aws.amazon.com/jp/blogs/big-data/making-etl-easier-with-aws-glue-studio/
© 2021, Amazon Web Services, Inc. or its Affiliates.
視覚的なJOBモニタリング
© 2021, Amazon Web Services, Inc. or its Affiliates.
ユースケースとGlue Studioでの実装
© 2021, Amazon Web Services, Inc. or its Affiliates.
ユースケース 1:
ログストリーム/IoTセンサーデータの分析
© 2021, Amazon Web Services, Inc. or its Affiliates.
ログストリーム / IoTセンサーデータ分析の課題
リアルタイムで発生するデータを分析するための
データレイクのデザインパターン
S3 ストレージ
Kinesis Data
Firehose
Amazon Athena
Amazon Redshift
Amazon SageMaker
アプリケーション
© 2021, Amazon Web Services, Inc. or its Affiliates.
ログストリーム / IoTセンサーデータ分析の課題
リアルタイムで発生するデータを分析するための
データレイクのデザインパターン
S3 ストレージ
Kinesis Data
Firehose
Amazon Athena
Amazon Redshift
Amazon SageMaker
アプリケーション 問題点:
1. 期待したパフォーマンスを得られない
2. スキャン量増加によるコストの増加
© 2021, Amazon Web Services, Inc. or its Affiliates.
ログストリーム / IoTセンサーデータ分析の課題
リアルタイムで発生するデータを分析するための
データレイクのデザインパターン
S3 ストレージ
Kinesis Data
Firehose
Amazon Athena
Amazon Redshift
Amazon SageMaker
アプリケーション
原因:
1. 分析に適したフォーマットになっていない
2. 非常に多数の小さいファイルで形成されている
3. 多数のソースからなるデータが混在している
© 2021, Amazon Web Services, Inc. or its Affiliates.
具体的なデータイメージ
細かい大量のファイルが定期的に出力
中身はJSON形式のテキストファイルかつ、様々なシステムからのアラートが混在
{"timestamp":"02/Mar/2021:12:00:29 +0000","alarmlevel":"WARNING","host":"prd-web","user":"SystemA","number":"1001","text":"This is WARNING"}
{"timestamp":"02/Mar/2021:12:00:29 +0000","alarmlevel":"WARNING","host":"prd-db","user":"SystemD","number":"1001","text":"This is WARNING"}
{"timestamp":"02/Mar/2021:12:00:29 +0000","alarmlevel":"WARNING","host":"prd-db","user":"SystemF","number":"1001","text":"This is WARNING"}
{"timestamp":"02/Mar/2021:12:00:29 +0000","alarmlevel":"WARNING","host":"prd-ap","user":"SystemA","number":"1001","text":"This is WARNING"}
© 2021, Amazon Web Services, Inc. or its Affiliates.
このデータに対して求められること
解決策:
1. フォーマットを列指向フォーマットに変換する
2. 大量ファイルをコンパクションする
3. 適切な単位でパーティショニングする
上記の変更を加えることで、より効率的な分析が可能
© 2021, Amazon Web Services, Inc. or its Affiliates.
列指向フォーマットとは
カラム(列単位)でデータをまとめて保存するデータフォーマット
1 2 3 4 5 6
1 2 3 4 5 6 1 2 3 4 5 6
列指向
行指向
メリット2) I/O の効率があがる
• 圧縮と同時に使うことで I/O 効率がさらに向上
• カラムごとに分けられてデータが並んでいる
• 同じカラムは、似たような中身のデータが続くため、
圧縮効率がよくなる
1 2 3 4 5 6
1 2 3 4 5 6
a
列指向
行指向
メリット1) OLAP 系の分析クエリを効率的に実行できる
• 多くの分析クエリは、一度のクエリで一部のカラムし
か使用しない
© 2021, Amazon Web Services, Inc. or its Affiliates.
コンパクションとは
サイズの小さい複数ファイルを分析のしやすい単位に集約
1日分のログデータ
1日分のログデータ
ファイル数が多い場合の問題点
• Hadoop系の分散エンジンでは、読み込む必要のある
ブロックごとにタスクが生成される。その為、データ
が少ないブロックへの処理ではオーバーヘッドが発生
しパフォーマンスが低下する。
コンパクション後のメリット
• データ分析前にファイルをひとまとめにしておくこ
とで、オーバーヘッドが減少し分析時のパフォーマ
ンスが向上する。
© 2021, Amazon Web Services, Inc. or its Affiliates.
パーティショニングとは
分析によく使う単位でファイルを分析して格納
Gluestudio-xxxx-20210330 / LogFile
Gluestudio-xxxx-20210330 / System
A
/ LogFile
System
B
/ LogFile
/
System
C
/ LogFile
/
プレフィックスで分けることを、
パーティショニングと呼ぶ。
単なるフォルダ構造。
パーティショニングをしない場合の問題点
• 特定のシステムのログを検索したい場合、
全てのLogFileに対してスキャンが掛かる。
その為、読み込むデータ量が多くなり、
パフォーマンスに影響がある。
パーティショニング後のメリット
• 検索条件にシステム名を含めることで、
特定のファイルにのみアクセスする。
不要データへのアクセスが減る為、
パフォーマンスが向上する。 システム名
© 2021, Amazon Web Services, Inc. or its Affiliates.
ログストリーム / IoTセンサーデータ分析の解決策
S3 ストレージ
Kinesis Data
Firehose
Amazon Athena
Amazon Redshift
Amazon SageMaker
アプリケーション
S3 ストレージ
Glue Job
解決策:
1. フォーマットを 列指向フォーマット に変換する
2. 大量ファイルをコンパクションする
3. 適切な単位でパーティショニングする
© 2021, Amazon Web Services, Inc. or its Affiliates.
AWS Glue Studioを使用したETL JOBの作成
• マネージメントコンソールより、
AWS Glue を選択
• AWS Glue コンソールの左ペインより、
AWS Glue Studioを選択
• 表示されたAWS Glue Studioの画面にて
Create and manage Jobs を選択
© 2021, Amazon Web Services, Inc. or its Affiliates.
JOBの作成
• Create job の項目にて、
Blank graphを選択しCreateボタンを押下
Source and target added to the graph
指定したデータソースとターゲットノードがあらかじめ作
成された状態から開始する。どちらを選んでも問題ない。
© 2021, Amazon Web Services, Inc. or its Affiliates.
データソースの指定①
• JobのEdit画面が表示
• 左上にJob名を入力
• 画面左下の“+”を押下し、ノードを表示
© 2021, Amazon Web Services, Inc. or its Affiliates.
データソースの指定②
• Node typeにS3を選択
選択可能なデータソースは、
Kinesis, Kafka, JDBC, Redshift 等々。
custom connectorを使用することで追加可能。
© 2021, Amazon Web Services, Inc. or its Affiliates.
データソースの指定③
• Data Catalog tableを選択
• DatabaseとTableに、
Glue のクローラによって生成された
データカタログを選択
S3 locationを選択し、
バケットを直接指定してもOK
© 2021, Amazon Web Services, Inc. or its Affiliates.
データの整形①
• S3 bucket ノードを選択した状態で、
画面左下の“+”を押下
• Node typeにApplyMappingを選択
ApplyMappingは、入力データのカラムの修
正・削除を行うためのノード。
他にもフィールドの分割や、ソースデータの結
合等、様々な変換ノードが用意されている。
© 2021, Amazon Web Services, Inc. or its Affiliates.
データの整形②
• Target key列に入力されている文字列を修正
• Drop列のボックスにチェック
ここでは以下の2点を実施している。
1. user 列の名前をsystem列に変更している。
2. partition_0列を削除している。
© 2021, Amazon Web Services, Inc. or its Affiliates.
データファイルのコンパクション①
• ApplyMapping ノードを選択した状態で、
画面左下の“+”を押下
• Node typeにCustom transformを選択
Custom transformは、
コードを自由に記述することが可能なノード。
Python, Scala, Javaの、任意のコードを使用可能。
© 2021, Amazon Web Services, Inc. or its Affiliates.
データファイルのコンパクション②
selected = dfc.select(list(dfc.keys())[0]).toDF()
reprep = selected.repartition(5)
results = DynamicFrame.fromDF(reprep, glueContext, "results")
return DynamicFrameCollection({"results": results}, glueContext)
• コードブロックに下記記載の、Pythonコードを入力
このコードブロックは、DynamicFrameオブ
ジェクトを受け取っている。受け取ったオブ
ジェクトに対し任意の処理を記述可能。
© 2021, Amazon Web Services, Inc. or its Affiliates.
DynamicFrameとは
SparkSQL DataFrameと似たGlue特有の抽象化の概念
- SparkSQL DataFrameとの違いはETLに特化しているかどうか
(DynamicFrameはスキーマの不一致を明示的にエンコードする”Schema on the Fly”を採用)
- 複数の型の可能性を残して、後で決定できるようにする (Choice型)
- DynamicFrameはデータ全体を表し、DynamicRecordはデータ1行を指す
- DataFrameとDynamicFrame間でそれぞれ変換することができる(fromDF関数・toDF関数)
- Pythonライブラリ PandasのDataFrameとは異なるので注意
Spark Core: RDDs
Spark DataFrame Glue DynamicFrame
SparkSQL AWS Glue ETL
実行環境
データ構造
アプリケーション
データ構造イメージ
アーキテクチャ:SparkおよびGlueライブラリ
SparkSQL DataFrame DynamicFrame
構造テーブルに類似 半構造テーブルに類似
© 2021, Amazon Web Services, Inc. or its Affiliates.
コードの内容
上記のコードは受け取ったDynamicFrameオブジェクトに以下の内容を実施している。
1. 受け取ったDynamicFrameオブジェクトを、toDF()関数を使用し、SparkSQL DataFrameに変換
2. DataFrameの分割数を変更し、5分割に変更
3. 変更後のDataFrameをfromDF()関数を使用し、DynamicFrameオブジェクトに変換
4. DynamicFrameオブジェクトをリターン
© 2021, Amazon Web Services, Inc. or its Affiliates.
データファイルのコンパクション③
• Custom Transform ノードを選択した状態で、
画面左下の“+”を押下
(自動生成の場合この手順は不要)
• Node typeにSelectFromCollectionを選択
SelectFromCollectionは、Custom Transform
ノードで実行したコードからオブジェクトを受け
取るためのノード。
Custom Transformノードとセットで使用する。
© 2021, Amazon Web Services, Inc. or its Affiliates.
フォーマット変換①
• SelectFromCollection ノードを選択した状態で、
画面左下の“+”を押下
• Node typeにS3を選択
Node typeには、Data targetのS3とData source
のS3があるので注意する。
© 2021, Amazon Web Services, Inc. or its Affiliates.
フォーマット変換②
• FormatをGlue Parquetを選択
• Compression TypeにSnappyを選択
Parquet とは
Parquetは分析に適した列指向フォーマット
Glue Parquet とは
よりGlueに最適化されたParquetフォーマット
通常のParquetと変わりないが、出力ファイルのス
キーマを動的に計算し、高速に”Parquet”ファイルに
書き込むことが可能
© 2021, Amazon Web Services, Inc. or its Affiliates.
出力先の指定
• S3 Target Loctionに出力先となる、
S3バケットを指定
• Data Catalog update optionsにて、
Do not update the Data Catelogを選択
Data Catalog update options について
Do not change table definition:
ジョブでDataCatalogの更新を行わない設定。
Update schema and add new partitions :
スキーマの変更または新しいパーティションの追加時にジョブ
でData Catalogを更新する設定。
Keep existing schema and add new partitions:
新しいパーティションを追加する目的にのみ、ジョブで
DataCatalogを更新する設定。
© 2021, Amazon Web Services, Inc. or its Affiliates.
パーティショニング
• Partition keys にて、
パーティショニングに使用するカラムを選択
Partitionに使用するカラムは複数選択が可能。
複数選択することで階層構造でファイルが出力される。
© 2021, Amazon Web Services, Inc. or its Affiliates.
JOBの詳細設定①
• Job detailsタブを選択
• IAM Role に必要な権限を持ったロールを選択
• Glue version にて、Glue 2.0が
選択されていることを確認
必要な権限について
ユースケース1で必要となる権限は以下。
• AWS Glue サービスのアクセス許可
• Amazon CloudWatch のアクセス許可
• データソースとデータターゲットへのアクセス許可
これらの権限が付与されたロールを選択する。
© 2021, Amazon Web Services, Inc. or its Affiliates.
JOBの詳細設定②
• Language にPython 3が選択されていることを確認
• Worker type にてG.1Xを選択
• Number of workersをデフォルトの10から2に変更
Worker typeの詳細については次のスライドをご参照
© 2021, Amazon Web Services, Inc. or its Affiliates.
Worker Type
ジョブ実行環境にメモリ大量使用ワークロード向けのWorker Typeを選択可能
- ジョブ実行時に割り当てる処理能力をDPU(Data Processing Unit)という
1DPU = 4vCPU、16GBメモリ
- Glue Studioでは、G.1xとG.2Xが選択可能
Worker
Type
DPU数
/1Worker
Executor数
/1Worker
メモリ数
/1Executor
標準 1 2 5.5GB
G.1X 1 1 12GB
G.2X 2 1 24GB
参考URL:Spark Components(https://spark.apache.org/docs/latest/cluster-overview.html)
Worker Type一覧 Worker Type構成イメージ
標準
Executor
(Mem:5.5GB)
Worker
Executor
(Mem:5.5GB)
DPU
G.1X
Worker
DPU
G.2X
Worker
DPU
DPU
Executor
(Mem:24GB)
Executor
(Mem:12GB)
© 2021, Amazon Web Services, Inc. or its Affiliates.
JOBの詳細設定③
• Job bookmark にてDisableを選択
• Number of retriesをデフォルトの3から1に変更
Job bookmarkについて
ジョブを実行した状態情報を保持することで、古いデータを再処理し
ないようにする機能。デフォルトのDisableにすることでJobの実行の
たびにデータセット全体に対して処理をすることが可能。
© 2021, Amazon Web Services, Inc. or its Affiliates.
結果のモニタリング
• 画面右上のSaveを押下した後、
Runボタンを押下しJobを実行
• Runs タブを選択
• Run statusが、
Succeededになったことを確認
トラブル対応について
処理が中断した場合や正常終了しなかった場合、
Cloudwatchにログが出力されているのでそこで確
認が可能。
© 2021, Amazon Web Services, Inc. or its Affiliates.
実行結果
• 出力バケット直下にシステム名でプレフィックスが作成されていることを確認
• 各プレフィックス毎にParquet形式の5つのファイルが出力されていることを確認
© 2021, Amazon Web Services, Inc. or its Affiliates.
ログストリーム / IoTセンサーデータ分析の解決策
S3 ストレージ
Kinesis Data
Firehose
Amazon Athena
Amazon Redshift
Amazon SageMaker
アプリケーション
S3 ストレージ
Glue Job
修正後のデータ:
1. データフォーマットがParquet形式
2. コンパクションによりファイル数が減少
3. システム単位でのパーティショニング
© 2021, Amazon Web Services, Inc. or its Affiliates.
ユースケース 2:
データベースレプリカへの処理をオフロード
© 2021, Amazon Web Services, Inc. or its Affiliates.
RDSにあるデータを直接分析している場合の課題
分析用のデータベースレプリカにかかる負荷をデータレイクへオフロード
Amazon SageMaker
Amazon Relational
Database Service (Amazon
RDS)
リードレプリカ
アプリケーション
Amazon QuickSight
Other BI Tools
© 2021, Amazon Web Services, Inc. or its Affiliates.
RDSにあるデータを直接分析している場合の課題
分析用のデータベースレプリカにかかる負荷をデータレイクへオフロード
Amazon SageMaker
Amazon Relational
Database Service (Amazon
RDS)
リードレプリカ
アプリケーション
Amazon QuickSight
Other BI Tools
問題点:
1. 期待したパフォーマンスが出ていない
2. パフォーマンスを出すためにレプリカのスペッ
クをあげたことでコストが増加
3. リアルタイムで更新がかかるので、分析タイミ
ングで結果に揺らぎが発生
© 2021, Amazon Web Services, Inc. or its Affiliates.
RDSにあるデータを直接分析している場合の課題
分析用のデータベースレプリカにかかる負荷をデータレイクへオフロード
Amazon SageMaker
Amazon Relational
Database Service (Amazon
RDS)
リードレプリカ
アプリケーション
Amazon QuickSight
Other BI Tools
原因:
1. 分析に適したフォーマットになっていない
2. データベースに直接クエリを発行している
3. リアルタイムでデータの更新が行われる
© 2021, Amazon Web Services, Inc. or its Affiliates.
RDSにあるデータを直接分析している場合の解決策
Amazon SageMaker
Amazon Relational
Database Service (Amazon
RDS)
アプリケーション
Amazon QuickSight
S3 ストレージ
アプリケーション
Amazon Relational
Database Service (Amazon
RDS)
リードレプリカ
Glue Job
Other BI Tools
解決策:
1. フォーマットを 列指向フォーマット に変換する
2. 分析ツールからのアクセスをS3にオフロードする
3. JOB実行時の断面でデータを保持する
© 2021, Amazon Web Services, Inc. or its Affiliates.
AWS Glue Studioを使用したETL JOBの作成
• マネージメントコンソールより、
AWS Glue を選択
• AWS Glue コンソールの左ペインより、
AWS Glue Studioを選択
• 表示されたAWS Glue Studioの画面にて
Create and manage Jobs を選択
© 2021, Amazon Web Services, Inc. or its Affiliates.
データソースの指定①
• JobのEdit画面が表示
• 左上にJob名を入力
• 画面左下の“+”を押下し、ノードを表示
© 2021, Amazon Web Services, Inc. or its Affiliates.
データソースの指定②
• Node typeにJDBCを選択
© 2021, Amazon Web Services, Inc. or its Affiliates.
データソースの指定③
DBとの接続情報について
データカタログにはDBへの接続情報も含まれ
ている。その為、データカタログを指定する
ことでDBへのJDBC接続が可能となる。
• DatabaseとTableに、
Glue のクローラによって生成された
データカタログを選択
© 2021, Amazon Web Services, Inc. or its Affiliates.
外部テーブルの結合①(追加機能のご紹介)
• Node typeにJoinを選択
• Node parentsに結合したい、
別のデータソースを選択
結合処理は、JDBCとS3など異なるタイプ
のデータソース間でも結合が可能。
© 2021, Amazon Web Services, Inc. or its Affiliates.
外部テーブルの結合②(追加機能のご紹介)
• Join type にInner join を選択
• Join conditions に結合したいカラムを選択
© 2021, Amazon Web Services, Inc. or its Affiliates.
ターゲットの選択
• Node typeにS3を選択
• その他の設定はユースケース1と同様の内容を実施
© 2021, Amazon Web Services, Inc. or its Affiliates.
JOBの詳細設定
• Job details タブを選択し、
ユースケース1と同様の内容を設定
• Save ボタンを押下し、
RunボタンでJobを実行
© 2021, Amazon Web Services, Inc. or its Affiliates.
結果のモニタリング
• Runs タブを選択
• Run statusが、
Succeededになったことを確認
© 2021, Amazon Web Services, Inc. or its Affiliates.
実行結果
• 出力バケットにファイルが作成されていることを確認
© 2021, Amazon Web Services, Inc. or its Affiliates.
RDSにあるデータを直接分析している場合の解決策
Amazon SageMaker
Amazon Relational
Database Service (Amazon
RDS)
アプリケーション
Amazon QuickSight
S3 ストレージ
アプリケーション
Amazon Relational
Database Service (Amazon
RDS)
リードレプリカ
Glue Job
Other BI Tools
修正後のデータ:
1. データフォーマットがParquet形式
2. JOB実行時の断面でデータ分析が可能
3. 分析ツールからのアクセスをS3にオフロード
© 2021, Amazon Web Services, Inc. or its Affiliates.
ユースケース 3:
他クラウド/オンプレミス にあるデータの分析
© 2021, Amazon Web Services, Inc. or its Affiliates.
他クラウド/オンプレミス にあるデータを分析する場合の問題点
ネイティブでサポートされていないデータソースからのデータ移行
Amazon Athena
Amazon Redshift
Amazon SageMaker
S3 ストレージ
Other Cloud
SaaS Services
AWS Cloud
Amazon CloudWatch
© 2021, Amazon Web Services, Inc. or its Affiliates.
他クラウド/オンプレミス にあるデータを分析する場合の問題点
ネイティブでサポートされていないデータソースからのデータ移行
Amazon Athena
Amazon Redshift
Amazon SageMaker
S3 ストレージ
Other Cloud
SaaS Services
AWS Cloud
Amazon CloudWatch
問題点:
データが格納されていないため
クエリをかけることができない
© 2021, Amazon Web Services, Inc. or its Affiliates.
AWS Glue Custom Connectors
ネイティブにサポートされていないデータストアとの接続
https://aws.amazon.com/jp/about-aws/whats-new/2020/12/aws-glue-launches-aws-glue-custom-connectors/
任意のデータソースからデータを転送可能
多くのコネクタを利用可能
AWS Marketplaceとの統合
SaaS アプリケーション等から Amazon S3にデータを転送
Salesforce、SAP、Snowflake、Google BigQuery 等とも連携
開発したカスタムコネクタを AWS Marketplace で共有可能
AWS Glue
Other Cloud
SaaS Services
AWS Cloud
Amazon CloudWatch
© 2021, Amazon Web Services, Inc. or its Affiliates.
他クラウド/オンプレミス にあるデータを分析する場合の解決策
Amazon Athena
Amazon Redshift
Amazon SageMaker
S3 ストレージ
解決策:
AWS Glue Custom Connectors
を使用してデータをコピーする
Glue Job
Other Cloud
SaaS Services
AWS Cloud
Amazon CloudWatch
© 2021, Amazon Web Services, Inc. or its Affiliates.
AWS Glue Custom Connectors の使用
• AWS Glue Studioのホーム画面の左にある
Marketplaceを選択
© 2021, Amazon Web Services, Inc. or its Affiliates.
カスタムコネクターのサブスクライブ①
• Topにある検索バーにCloudWatchと入力
• 検索結果に表示される以下を選択
Cloudwatch Logs connector for AWS Glue
© 2021, Amazon Web Services, Inc. or its Affiliates.
カスタムコネクターのサブスクライブ②
• カスタムコネクターの内容を確認し、
画面右上のContinue to Subscribe を選択
© 2021, Amazon Web Services, Inc. or its Affiliates.
カスタムコネクターのサブスクライブ③
• ソフトウェアのバージョン等の選択後に、
出力されるUsage Instructionsを押下
• 出力されるポップアップにて、以下を選択
Activate the Glue connector in AWS Glue Studio
• Custom connector の設定画面へ自動遷移
© 2021, Amazon Web Services, Inc. or its Affiliates.
コネクターの作成
• Name欄に任意の名前を入力
• Connection access は今回は空欄
認証情報について
他クラウドやSaaSへの接続を行う際には認証情報はあら
かじめ、AWS Secrets Managerに格納する必要がある。
今回は、CloudWatchへの接続のため入力不要。
© 2021, Amazon Web Services, Inc. or its Affiliates.
データソースの指定①
• Node type にAthenaCloudwatchLogsが、
追加されていることを確認
© 2021, Amazon Web Services, Inc. or its Affiliates.
データソースの指定②
• Connectionに先程作成したコネクターを選択
• CloudWatchを確認し取得対象となる
LogStreamsとLogGroupsを確認
• Table nameにLogStreamsを入力し、
Schema nameにLogGroupsを入力
LogGroup内のすべてのLogStreamsで構成される
特別な「all_log_streams (すべてのログストリー
ム)」などでもログを指定可能。
※詳細は以下リンク先ご参照。
https://github.com/awslabs/aws-athena-query-federation/blob/master/athena-cloudwatch/README.md
© 2021, Amazon Web Services, Inc. or its Affiliates.
ターゲットの指定
• Connection source ノードを選択した状態で、
画面左下の“+”を押下
• Node typeにS3を選択し、
ユースケース1と同様のターゲット設定を実施
© 2021, Amazon Web Services, Inc. or its Affiliates.
JOBの詳細設定
• Job detailsタブを選択
• IAM Role に必要な権限を持ったロールを選択
• その他はユースケース1と同じよう設定
必要な権限について
ユースケース3にて追加で必要となる権限は以下。
• AWSの管理ポリシーである
AmazonEC2ContainerRegistryReadOnly権限
• glue:GetJobおよびglue:GetJobsアクセス許可
• 取得対象となるCloud Watch Logsへのアクセス権限
これらの権限をユースケース1のロールに追加で付与
した上でロールを選択する。
© 2021, Amazon Web Services, Inc. or its Affiliates.
結果のモニタリング
• 画面右上のSaveを押下した後、
Runボタンを押下しJobを実行
• Runs タブを選択
• Run statusが、
Succeededになったことを確認
© 2021, Amazon Web Services, Inc. or its Affiliates.
他クラウド/オンプレミス にあるデータを分析する場合の解決策
Amazon Athena
Amazon Redshift
Amazon SageMaker
S3 ストレージ
Glue Job
Other Cloud
SaaS Services
AWS Cloud
Amazon CloudWatch
対応後のS3の状態:
データソースと同等のデータが格納済
© 2021, Amazon Web Services, Inc. or its Affiliates.
その他の主要アップデート
© 2021, Amazon Web Services, Inc. or its Affiliates.
AWS Glue Elastic Views
AWS Glue の構成要素と周辺サービス(再掲)
Extract, Transform, and
Load(ETL)ジョブ
AWS Glue Data Catalog Crawler Workflow Management
AWS Glue Studio AWS Glue DataBrew
New
© 2021, Amazon Web Services, Inc. or its Affiliates.
AWS Glue DataBrew
分析および機械学習のためのビジュアライズツール
データ準備タスクの自動化
ノンコードでのデータ変換
サーバレス
データ準備にかかる時間を最大80%短縮
250を超える既成の組込関数を選択して処理を実施
インフラを管理することなく、テラバイト規模のデータを変換
© 2021, Amazon Web Services, Inc. or its Affiliates.
AWS Glue DataBrew の特徴
TB〜PBクラスのデータに対して、クレンジングと正規化を直接実行
データ品質の理解
データパターンを理解し異
常を検出するためにプロフ
ァイリングを行い、データ
の品質を評価
デ ー タ リ ネ ー ジ の
視 覚 化
さまざまなデータソース
と変換手順を視覚化して
トラッキング
データのクリーン
アップと正規化
250種類以上の変換処理
から選択して、データの
視覚化、クリーンアップ
、正規化を実施
自 動 化
保存された変換手順を新
しい入力データに適用
© 2021, Amazon Web Services, Inc. or its Affiliates.
AWS Glue DataBrew と AWS Glue Studioの違い
AWS Glue DataBrew AWS Glue Studio
• GUI でデータを可視化しながら
データ変換したい
• Data Brew で利用可能な 250種
類以上の変換処理を活用したい
• データアナリスト &
データサイエンティスト向け
• プログラムコードでデータ変換したい
• GUI でデータ変換を記述しつつ、必要に応じ
てカスタムコードを加えたい
• カスタムコネクタでさまざまなデータソース
と接続したい
• ストリーミング処理を活用したい
• E T L デ ベ ロ ッ パ ー 向 け
© 2021, Amazon Web Services, Inc. or its Affiliates.
AWS Glue の構成要素と周辺サービス(再掲)
Extract, Transform, and
Load(ETL)ジョブ
AWS Glue Data Catalog Crawler Workflow Management
AWS Glue Studio AWS Glue DataBrew AWS Glue Elastic Views
New
© 2021, Amazon Web Services, Inc. or its Affiliates.
AWS Glue Elastic Views (Preview)
複数のデータソースにまたがるマテリアライズドビューを作成
Amazon DynamoDB Amazon Redshift
Amazon Simple
Storage Service (S3)
Amazon Elasticsearch
Service
Target
Database
SQLを用いてターゲットDBを指定
データ変更に迅速に対応
サーバーレス
ターゲットデータベースに対して自動的にデータを複製
データソースをモニタし、データの変更が発生したら迅速で反映
インフラ管理は不要。キャパシティを自動的に制御
© 2021, Amazon Web Services, Inc. or its Affiliates.
プレビュー時にサポートされるsourceとtarget
Source Target
Amazon DynamoDB ✓
Amazon Elasticsearch
Service
✓
Amazon S3 ✓
Amazon Redshift ✓
© 2021, Amazon Web Services, Inc. or its Affiliates.
previewで利用可能なユースケース
• DynamoDB内のデータの検索インデックスをElasticsearch内に作成
Amazon DynamoDB
• DynamoDB内の業務データをDataLakeに統合
• DynamoDB内のデータをRedshiftで分析
Amazon DynamoDB
Amazon DynamoDB
Amazon Elasticsearch
Service
AWS Glue Elastic Views
Amazon Simple Storage
Service
AWS Glue Elastic Views
Amazon Redshift
AWS Glue Elastic Views
© 2021, Amazon Web Services, Inc. or its Affiliates.
AWS Glue の構成要素と周辺サービス(再掲)
Extract, Transform, and
Load(ETL)ジョブ
AWS Glue Data Catalog Crawler Workflow Management
AWS Glue Studio AWS Glue DataBrew AWS Elastic Views
New
© 2021, Amazon Web Services, Inc. or its Affiliates.
まとめ
© 2021, Amazon Web Services, Inc. or its Affiliates.
まとめ
1. AWS Glueとは、
サービス間でデータを簡単に移動するための、サーバーレスデータ統合サービス
2. データの前処理が必要な場合、
AWS Glue Studioを使用することでグラフィカルにETLJobを作成可能
3. データがAWS以外に格納されている場合でも、
AWS Glue Custom Connectorsを使用することでデータの移動が可能
© 2021, Amazon Web Services, Inc. or its Affiliates.
参考情報
AWS Glue ホームページ
https://aws.amazon.com/jp/glue/
AWS Glue 開発者ガイド(公式ドキュメント)
https://aws.amazon.com/jp/documentation/glue/
AWS Glue custom connectors の設定例
https://aws.amazon.com/jp/blogs/big-data/migrating-data-from-google-bigquery-to-amazon-
s3-using-aws-glue-custom-connectors/
AWS Glueの料金
https://aws.amazon.com/jp/glue/pricing/
AWS Glueのサービス制限
https://docs.aws.amazon.com/ja_jp/general/latest/gr/aws_service_limits.html#limits_glue
© 2021, Amazon Web Services, Inc. or its Affiliates.
Q&A
お答えできなかったご質問については
AWS Japan Blog https://aws.amazon.com/jp/blogs/news/ に
後日掲載します。
© 2021, Amazon Web Services, Inc. or its Affiliates.
AWS の日本語資料の場所「AWS 資料」で検索
https://amzn.to/JPArchive
© 2021, Amazon Web Services, Inc. or its Affiliates.
で[検索]
AWS イベント
毎週”W-A個別技術相談会”を実施中
• AWSのソリューションアーキテクト(SA)に
対策などを相談することも可能
• 申込みはイベント告知サイトから
(https://aws.amazon.com/jp/about-aws/events/)
AWS Well-Architected 個別技術相談会
© 2021, Amazon Web Services, Inc. or its Affiliates.
4月以降のBlack Belt Online Seminarについて
ライブ配信によるBlack Belt Online Seminarは3月一杯で終了し、
今後はオンデマンドによる定期配信に変更いたします。
今後もコンテンツを拡充して行きますので、楽しみにお待ちください。
オンデマンドでの配信スケジュールは、AWS Blog, AWSニュースレ
ターでお知らせいたします(5月17日週に再開を予定しています)
© 2021, Amazon Web Services, Inc. or its Affiliates.
AWS 公式 Webinar
https://amzn.to/JPWebinar
過去資料
https://amzn.to/JPArchive
ご視聴ありがとうございました

More Related Content

What's hot

20200617 AWS Black Belt Online Seminar Amazon Athena
20200617 AWS Black Belt Online Seminar Amazon Athena20200617 AWS Black Belt Online Seminar Amazon Athena
20200617 AWS Black Belt Online Seminar Amazon AthenaAmazon Web Services Japan
 
20190129 AWS Black Belt Online Seminar AWS Identity and Access Management (AW...
20190129 AWS Black Belt Online Seminar AWS Identity and Access Management (AW...20190129 AWS Black Belt Online Seminar AWS Identity and Access Management (AW...
20190129 AWS Black Belt Online Seminar AWS Identity and Access Management (AW...Amazon Web Services Japan
 
AWS Black Belt Online Seminar 2017 Amazon ElastiCache
AWS Black Belt Online Seminar 2017 Amazon ElastiCacheAWS Black Belt Online Seminar 2017 Amazon ElastiCache
AWS Black Belt Online Seminar 2017 Amazon ElastiCacheAmazon Web Services Japan
 
20200722 AWS Black Belt Online Seminar AWSアカウント シングルサインオンの設計と運用
20200722 AWS Black Belt Online Seminar AWSアカウント シングルサインオンの設計と運用20200722 AWS Black Belt Online Seminar AWSアカウント シングルサインオンの設計と運用
20200722 AWS Black Belt Online Seminar AWSアカウント シングルサインオンの設計と運用Amazon Web Services Japan
 
20200218 AWS Black Belt Online Seminar Next Generation Redshift
20200218 AWS Black Belt Online Seminar Next Generation Redshift20200218 AWS Black Belt Online Seminar Next Generation Redshift
20200218 AWS Black Belt Online Seminar Next Generation RedshiftAmazon Web Services Japan
 
20191002 AWS Black Belt Online Seminar Amazon EC2 Auto Scaling and AWS Auto S...
20191002 AWS Black Belt Online Seminar Amazon EC2 Auto Scaling and AWS Auto S...20191002 AWS Black Belt Online Seminar Amazon EC2 Auto Scaling and AWS Auto S...
20191002 AWS Black Belt Online Seminar Amazon EC2 Auto Scaling and AWS Auto S...Amazon Web Services Japan
 
20191001 AWS Black Belt Online Seminar AWS Lake Formation
20191001 AWS Black Belt Online Seminar AWS Lake Formation 20191001 AWS Black Belt Online Seminar AWS Lake Formation
20191001 AWS Black Belt Online Seminar AWS Lake Formation Amazon Web Services Japan
 
20190122 AWS Black Belt Online Seminar Amazon Redshift Update
20190122 AWS Black Belt Online Seminar Amazon Redshift Update20190122 AWS Black Belt Online Seminar Amazon Redshift Update
20190122 AWS Black Belt Online Seminar Amazon Redshift UpdateAmazon Web Services Japan
 
20190206 AWS Black Belt Online Seminar Amazon SageMaker Basic Session
20190206 AWS Black Belt Online Seminar Amazon SageMaker Basic Session20190206 AWS Black Belt Online Seminar Amazon SageMaker Basic Session
20190206 AWS Black Belt Online Seminar Amazon SageMaker Basic SessionAmazon Web Services Japan
 
20190320 AWS Black Belt Online Seminar Amazon EBS
20190320 AWS Black Belt Online Seminar Amazon EBS20190320 AWS Black Belt Online Seminar Amazon EBS
20190320 AWS Black Belt Online Seminar Amazon EBSAmazon Web Services Japan
 
20191023 AWS Black Belt Online Seminar Amazon EMR
20191023 AWS Black Belt Online Seminar Amazon EMR20191023 AWS Black Belt Online Seminar Amazon EMR
20191023 AWS Black Belt Online Seminar Amazon EMRAmazon Web Services Japan
 
AWS Black Belt Online Seminar 2017 AWS Storage Gateway
AWS Black Belt Online Seminar 2017 AWS Storage GatewayAWS Black Belt Online Seminar 2017 AWS Storage Gateway
AWS Black Belt Online Seminar 2017 AWS Storage GatewayAmazon Web Services Japan
 
20190821 AWS Black Belt Online Seminar AWS AppSync
20190821 AWS Black Belt Online Seminar AWS AppSync20190821 AWS Black Belt Online Seminar AWS AppSync
20190821 AWS Black Belt Online Seminar AWS AppSyncAmazon Web Services Japan
 
20200212 AWS Black Belt Online Seminar AWS Systems Manager
20200212 AWS Black Belt Online Seminar AWS Systems Manager20200212 AWS Black Belt Online Seminar AWS Systems Manager
20200212 AWS Black Belt Online Seminar AWS Systems ManagerAmazon Web Services Japan
 
20190514 AWS Black Belt Online Seminar Amazon API Gateway
20190514 AWS Black Belt Online Seminar Amazon API Gateway 20190514 AWS Black Belt Online Seminar Amazon API Gateway
20190514 AWS Black Belt Online Seminar Amazon API Gateway Amazon Web Services Japan
 
20200623 AWS Black Belt Online Seminar Amazon Elasticsearch Service
20200623 AWS Black Belt Online Seminar Amazon Elasticsearch Service20200623 AWS Black Belt Online Seminar Amazon Elasticsearch Service
20200623 AWS Black Belt Online Seminar Amazon Elasticsearch ServiceAmazon Web Services Japan
 
AWS Black Belt Online Seminar - Amazon Lightsail
AWS Black Belt Online Seminar - Amazon Lightsail AWS Black Belt Online Seminar - Amazon Lightsail
AWS Black Belt Online Seminar - Amazon Lightsail Amazon Web Services Japan
 
20191029 AWS Black Belt Online Seminar Elastic Load Balancing (ELB)
20191029 AWS Black Belt Online Seminar Elastic Load Balancing (ELB)20191029 AWS Black Belt Online Seminar Elastic Load Balancing (ELB)
20191029 AWS Black Belt Online Seminar Elastic Load Balancing (ELB)Amazon Web Services Japan
 
20201028 AWS Black Belt Online Seminar Amazon CloudFront deep dive
20201028 AWS Black Belt Online Seminar Amazon CloudFront deep dive20201028 AWS Black Belt Online Seminar Amazon CloudFront deep dive
20201028 AWS Black Belt Online Seminar Amazon CloudFront deep diveAmazon Web Services Japan
 
20200811 AWS Black Belt Online Seminar CloudEndure
20200811 AWS Black Belt Online Seminar CloudEndure20200811 AWS Black Belt Online Seminar CloudEndure
20200811 AWS Black Belt Online Seminar CloudEndureAmazon Web Services Japan
 

What's hot (20)

20200617 AWS Black Belt Online Seminar Amazon Athena
20200617 AWS Black Belt Online Seminar Amazon Athena20200617 AWS Black Belt Online Seminar Amazon Athena
20200617 AWS Black Belt Online Seminar Amazon Athena
 
20190129 AWS Black Belt Online Seminar AWS Identity and Access Management (AW...
20190129 AWS Black Belt Online Seminar AWS Identity and Access Management (AW...20190129 AWS Black Belt Online Seminar AWS Identity and Access Management (AW...
20190129 AWS Black Belt Online Seminar AWS Identity and Access Management (AW...
 
AWS Black Belt Online Seminar 2017 Amazon ElastiCache
AWS Black Belt Online Seminar 2017 Amazon ElastiCacheAWS Black Belt Online Seminar 2017 Amazon ElastiCache
AWS Black Belt Online Seminar 2017 Amazon ElastiCache
 
20200722 AWS Black Belt Online Seminar AWSアカウント シングルサインオンの設計と運用
20200722 AWS Black Belt Online Seminar AWSアカウント シングルサインオンの設計と運用20200722 AWS Black Belt Online Seminar AWSアカウント シングルサインオンの設計と運用
20200722 AWS Black Belt Online Seminar AWSアカウント シングルサインオンの設計と運用
 
20200218 AWS Black Belt Online Seminar Next Generation Redshift
20200218 AWS Black Belt Online Seminar Next Generation Redshift20200218 AWS Black Belt Online Seminar Next Generation Redshift
20200218 AWS Black Belt Online Seminar Next Generation Redshift
 
20191002 AWS Black Belt Online Seminar Amazon EC2 Auto Scaling and AWS Auto S...
20191002 AWS Black Belt Online Seminar Amazon EC2 Auto Scaling and AWS Auto S...20191002 AWS Black Belt Online Seminar Amazon EC2 Auto Scaling and AWS Auto S...
20191002 AWS Black Belt Online Seminar Amazon EC2 Auto Scaling and AWS Auto S...
 
20191001 AWS Black Belt Online Seminar AWS Lake Formation
20191001 AWS Black Belt Online Seminar AWS Lake Formation 20191001 AWS Black Belt Online Seminar AWS Lake Formation
20191001 AWS Black Belt Online Seminar AWS Lake Formation
 
20190122 AWS Black Belt Online Seminar Amazon Redshift Update
20190122 AWS Black Belt Online Seminar Amazon Redshift Update20190122 AWS Black Belt Online Seminar Amazon Redshift Update
20190122 AWS Black Belt Online Seminar Amazon Redshift Update
 
20190206 AWS Black Belt Online Seminar Amazon SageMaker Basic Session
20190206 AWS Black Belt Online Seminar Amazon SageMaker Basic Session20190206 AWS Black Belt Online Seminar Amazon SageMaker Basic Session
20190206 AWS Black Belt Online Seminar Amazon SageMaker Basic Session
 
20190320 AWS Black Belt Online Seminar Amazon EBS
20190320 AWS Black Belt Online Seminar Amazon EBS20190320 AWS Black Belt Online Seminar Amazon EBS
20190320 AWS Black Belt Online Seminar Amazon EBS
 
20191023 AWS Black Belt Online Seminar Amazon EMR
20191023 AWS Black Belt Online Seminar Amazon EMR20191023 AWS Black Belt Online Seminar Amazon EMR
20191023 AWS Black Belt Online Seminar Amazon EMR
 
AWS Black Belt Online Seminar 2017 AWS Storage Gateway
AWS Black Belt Online Seminar 2017 AWS Storage GatewayAWS Black Belt Online Seminar 2017 AWS Storage Gateway
AWS Black Belt Online Seminar 2017 AWS Storage Gateway
 
20190821 AWS Black Belt Online Seminar AWS AppSync
20190821 AWS Black Belt Online Seminar AWS AppSync20190821 AWS Black Belt Online Seminar AWS AppSync
20190821 AWS Black Belt Online Seminar AWS AppSync
 
20200212 AWS Black Belt Online Seminar AWS Systems Manager
20200212 AWS Black Belt Online Seminar AWS Systems Manager20200212 AWS Black Belt Online Seminar AWS Systems Manager
20200212 AWS Black Belt Online Seminar AWS Systems Manager
 
20190514 AWS Black Belt Online Seminar Amazon API Gateway
20190514 AWS Black Belt Online Seminar Amazon API Gateway 20190514 AWS Black Belt Online Seminar Amazon API Gateway
20190514 AWS Black Belt Online Seminar Amazon API Gateway
 
20200623 AWS Black Belt Online Seminar Amazon Elasticsearch Service
20200623 AWS Black Belt Online Seminar Amazon Elasticsearch Service20200623 AWS Black Belt Online Seminar Amazon Elasticsearch Service
20200623 AWS Black Belt Online Seminar Amazon Elasticsearch Service
 
AWS Black Belt Online Seminar - Amazon Lightsail
AWS Black Belt Online Seminar - Amazon Lightsail AWS Black Belt Online Seminar - Amazon Lightsail
AWS Black Belt Online Seminar - Amazon Lightsail
 
20191029 AWS Black Belt Online Seminar Elastic Load Balancing (ELB)
20191029 AWS Black Belt Online Seminar Elastic Load Balancing (ELB)20191029 AWS Black Belt Online Seminar Elastic Load Balancing (ELB)
20191029 AWS Black Belt Online Seminar Elastic Load Balancing (ELB)
 
20201028 AWS Black Belt Online Seminar Amazon CloudFront deep dive
20201028 AWS Black Belt Online Seminar Amazon CloudFront deep dive20201028 AWS Black Belt Online Seminar Amazon CloudFront deep dive
20201028 AWS Black Belt Online Seminar Amazon CloudFront deep dive
 
20200811 AWS Black Belt Online Seminar CloudEndure
20200811 AWS Black Belt Online Seminar CloudEndure20200811 AWS Black Belt Online Seminar CloudEndure
20200811 AWS Black Belt Online Seminar CloudEndure
 

Similar to 20210330 AWS Black Belt Online Seminar AWS Glue -Glue Studioを使ったデータ変換のベストプラクティス-

20210216 AWS Black Belt Online Seminar AWS Database Migration Service
20210216 AWS Black Belt Online Seminar AWS Database Migration Service20210216 AWS Black Belt Online Seminar AWS Database Migration Service
20210216 AWS Black Belt Online Seminar AWS Database Migration ServiceAmazon Web Services Japan
 
AWS と Denodo で実現するデータ活用基盤 - データ民主化を加速するクラウド活用のポイント
AWS と Denodo で実現するデータ活用基盤 - データ民主化を加速するクラウド活用のポイントAWS と Denodo で実現するデータ活用基盤 - データ民主化を加速するクラウド活用のポイント
AWS と Denodo で実現するデータ活用基盤 - データ民主化を加速するクラウド活用のポイントDenodo
 
データ活用を加速するAWS分析サービスのご紹介
データ活用を加速するAWS分析サービスのご紹介データ活用を加速するAWS分析サービスのご紹介
データ活用を加速するAWS分析サービスのご紹介Amazon Web Services Japan
 
[JAWS Days 2020] AWS Well-Architected フレームワークのご紹介
[JAWS Days 2020] AWS Well-Architected フレームワークのご紹介[JAWS Days 2020] AWS Well-Architected フレームワークのご紹介
[JAWS Days 2020] AWS Well-Architected フレームワークのご紹介Takanori Ohba
 
[CTO Night & Day 2019] AWS で構築するデータレイク基盤と amazon.com での導入事例 #ctonight
[CTO Night & Day 2019] AWS で構築するデータレイク基盤と amazon.com での導入事例 #ctonight[CTO Night & Day 2019] AWS で構築するデータレイク基盤と amazon.com での導入事例 #ctonight
[CTO Night & Day 2019] AWS で構築するデータレイク基盤と amazon.com での導入事例 #ctonightAmazon Web Services Japan
 
5分ではじめるApache Spark on AWS
5分ではじめるApache Spark on AWS5分ではじめるApache Spark on AWS
5分ではじめるApache Spark on AWSNoritaka Sekiyama
 
Modernizing Big Data Workload Using Amazon EMR & AWS Glue
Modernizing Big Data Workload Using Amazon EMR & AWS GlueModernizing Big Data Workload Using Amazon EMR & AWS Glue
Modernizing Big Data Workload Using Amazon EMR & AWS GlueNoritaka Sekiyama
 
202202 AWS Black Belt Online Seminar AWS SaaS Boost で始めるSaaS開発⼊⾨
202202 AWS Black Belt Online Seminar AWS SaaS Boost で始めるSaaS開発⼊⾨202202 AWS Black Belt Online Seminar AWS SaaS Boost で始めるSaaS開発⼊⾨
202202 AWS Black Belt Online Seminar AWS SaaS Boost で始めるSaaS開発⼊⾨Amazon Web Services Japan
 
AWS Well-Architected Security とベストプラクティス
AWS Well-Architected Security とベストプラクティスAWS Well-Architected Security とベストプラクティス
AWS Well-Architected Security とベストプラクティスAmazon Web Services Japan
 
Kinesis + Elasticsearchでつくるさいきょうのログ分析基盤
Kinesis + Elasticsearchでつくるさいきょうのログ分析基盤Kinesis + Elasticsearchでつくるさいきょうのログ分析基盤
Kinesis + Elasticsearchでつくるさいきょうのログ分析基盤Amazon Web Services Japan
 
Best Practices for Running PostgreSQL on AWS
Best Practices for Running PostgreSQL on AWSBest Practices for Running PostgreSQL on AWS
Best Practices for Running PostgreSQL on AWSAmazon Web Services Japan
 
[20210519 Security-JAWS] AWS エッジサービス入門ハンズオンの紹介と AWS WAF のアップデートについて
[20210519 Security-JAWS] AWS エッジサービス入門ハンズオンの紹介と AWS WAF のアップデートについて[20210519 Security-JAWS] AWS エッジサービス入門ハンズオンの紹介と AWS WAF のアップデートについて
[20210519 Security-JAWS] AWS エッジサービス入門ハンズオンの紹介と AWS WAF のアップデートについてAmazon Web Services Japan
 
20190226 AWS Black Belt Online Seminar Amazon WorkSpaces
20190226 AWS Black Belt Online Seminar Amazon WorkSpaces20190226 AWS Black Belt Online Seminar Amazon WorkSpaces
20190226 AWS Black Belt Online Seminar Amazon WorkSpacesAmazon Web Services Japan
 
AWS Wavelengthと大阪リージョンのご紹介20210414
AWS Wavelengthと大阪リージョンのご紹介20210414AWS Wavelengthと大阪リージョンのご紹介20210414
AWS Wavelengthと大阪リージョンのご紹介20210414Amazon Web Services Japan
 
20190410 AWS Black Belt Online Seminar Amazon Elastic Container Service for K...
20190410 AWS Black Belt Online Seminar Amazon Elastic Container Service for K...20190410 AWS Black Belt Online Seminar Amazon Elastic Container Service for K...
20190410 AWS Black Belt Online Seminar Amazon Elastic Container Service for K...Amazon Web Services Japan
 
クラウドを積極活用した サービスの開発のために
クラウドを積極活用したサービスの開発のためにクラウドを積極活用したサービスの開発のために
クラウドを積極活用した サービスの開発のためにYuichiro Saito
 
Effective Data Lakes - ユースケースとデザインパターン
Effective Data Lakes - ユースケースとデザインパターンEffective Data Lakes - ユースケースとデザインパターン
Effective Data Lakes - ユースケースとデザインパターンNoritaka Sekiyama
 

Similar to 20210330 AWS Black Belt Online Seminar AWS Glue -Glue Studioを使ったデータ変換のベストプラクティス- (20)

20210216 AWS Black Belt Online Seminar AWS Database Migration Service
20210216 AWS Black Belt Online Seminar AWS Database Migration Service20210216 AWS Black Belt Online Seminar AWS Database Migration Service
20210216 AWS Black Belt Online Seminar AWS Database Migration Service
 
AWS と Denodo で実現するデータ活用基盤 - データ民主化を加速するクラウド活用のポイント
AWS と Denodo で実現するデータ活用基盤 - データ民主化を加速するクラウド活用のポイントAWS と Denodo で実現するデータ活用基盤 - データ民主化を加速するクラウド活用のポイント
AWS と Denodo で実現するデータ活用基盤 - データ民主化を加速するクラウド活用のポイント
 
データ活用を加速するAWS分析サービスのご紹介
データ活用を加速するAWS分析サービスのご紹介データ活用を加速するAWS分析サービスのご紹介
データ活用を加速するAWS分析サービスのご紹介
 
[JAWS Days 2020] AWS Well-Architected フレームワークのご紹介
[JAWS Days 2020] AWS Well-Architected フレームワークのご紹介[JAWS Days 2020] AWS Well-Architected フレームワークのご紹介
[JAWS Days 2020] AWS Well-Architected フレームワークのご紹介
 
[CTO Night & Day 2019] AWS で構築するデータレイク基盤と amazon.com での導入事例 #ctonight
[CTO Night & Day 2019] AWS で構築するデータレイク基盤と amazon.com での導入事例 #ctonight[CTO Night & Day 2019] AWS で構築するデータレイク基盤と amazon.com での導入事例 #ctonight
[CTO Night & Day 2019] AWS で構築するデータレイク基盤と amazon.com での導入事例 #ctonight
 
5分ではじめるApache Spark on AWS
5分ではじめるApache Spark on AWS5分ではじめるApache Spark on AWS
5分ではじめるApache Spark on AWS
 
Modernizing Big Data Workload Using Amazon EMR & AWS Glue
Modernizing Big Data Workload Using Amazon EMR & AWS GlueModernizing Big Data Workload Using Amazon EMR & AWS Glue
Modernizing Big Data Workload Using Amazon EMR & AWS Glue
 
AWS Black Belt - AWS Glue
AWS Black Belt - AWS GlueAWS Black Belt - AWS Glue
AWS Black Belt - AWS Glue
 
202202 AWS Black Belt Online Seminar AWS SaaS Boost で始めるSaaS開発⼊⾨
202202 AWS Black Belt Online Seminar AWS SaaS Boost で始めるSaaS開発⼊⾨202202 AWS Black Belt Online Seminar AWS SaaS Boost で始めるSaaS開発⼊⾨
202202 AWS Black Belt Online Seminar AWS SaaS Boost で始めるSaaS開発⼊⾨
 
AWS Well-Architected Security とベストプラクティス
AWS Well-Architected Security とベストプラクティスAWS Well-Architected Security とベストプラクティス
AWS Well-Architected Security とベストプラクティス
 
Data Lake Security on AWS
Data Lake Security on AWSData Lake Security on AWS
Data Lake Security on AWS
 
Kinesis + Elasticsearchでつくるさいきょうのログ分析基盤
Kinesis + Elasticsearchでつくるさいきょうのログ分析基盤Kinesis + Elasticsearchでつくるさいきょうのログ分析基盤
Kinesis + Elasticsearchでつくるさいきょうのログ分析基盤
 
Best Practices for Running PostgreSQL on AWS
Best Practices for Running PostgreSQL on AWSBest Practices for Running PostgreSQL on AWS
Best Practices for Running PostgreSQL on AWS
 
[20210519 Security-JAWS] AWS エッジサービス入門ハンズオンの紹介と AWS WAF のアップデートについて
[20210519 Security-JAWS] AWS エッジサービス入門ハンズオンの紹介と AWS WAF のアップデートについて[20210519 Security-JAWS] AWS エッジサービス入門ハンズオンの紹介と AWS WAF のアップデートについて
[20210519 Security-JAWS] AWS エッジサービス入門ハンズオンの紹介と AWS WAF のアップデートについて
 
20190226 AWS Black Belt Online Seminar Amazon WorkSpaces
20190226 AWS Black Belt Online Seminar Amazon WorkSpaces20190226 AWS Black Belt Online Seminar Amazon WorkSpaces
20190226 AWS Black Belt Online Seminar Amazon WorkSpaces
 
AWS Wavelengthと大阪リージョンのご紹介20210414
AWS Wavelengthと大阪リージョンのご紹介20210414AWS Wavelengthと大阪リージョンのご紹介20210414
AWS Wavelengthと大阪リージョンのご紹介20210414
 
20190410 AWS Black Belt Online Seminar Amazon Elastic Container Service for K...
20190410 AWS Black Belt Online Seminar Amazon Elastic Container Service for K...20190410 AWS Black Belt Online Seminar Amazon Elastic Container Service for K...
20190410 AWS Black Belt Online Seminar Amazon Elastic Container Service for K...
 
クラウドを積極活用した サービスの開発のために
クラウドを積極活用したサービスの開発のためにクラウドを積極活用したサービスの開発のために
クラウドを積極活用した サービスの開発のために
 
Effective Data Lakes - ユースケースとデザインパターン
Effective Data Lakes - ユースケースとデザインパターンEffective Data Lakes - ユースケースとデザインパターン
Effective Data Lakes - ユースケースとデザインパターン
 
20211109 bleaの使い方(基本編)
20211109 bleaの使い方(基本編)20211109 bleaの使い方(基本編)
20211109 bleaの使い方(基本編)
 

More from Amazon Web Services Japan

202205 AWS Black Belt Online Seminar Amazon VPC IP Address Manager (IPAM)
202205 AWS Black Belt Online Seminar Amazon VPC IP Address Manager (IPAM)202205 AWS Black Belt Online Seminar Amazon VPC IP Address Manager (IPAM)
202205 AWS Black Belt Online Seminar Amazon VPC IP Address Manager (IPAM)Amazon Web Services Japan
 
202205 AWS Black Belt Online Seminar Amazon FSx for OpenZFS
202205 AWS Black Belt Online Seminar Amazon FSx for OpenZFS202205 AWS Black Belt Online Seminar Amazon FSx for OpenZFS
202205 AWS Black Belt Online Seminar Amazon FSx for OpenZFSAmazon Web Services Japan
 
202204 AWS Black Belt Online Seminar AWS IoT Device Defender
202204 AWS Black Belt Online Seminar AWS IoT Device Defender202204 AWS Black Belt Online Seminar AWS IoT Device Defender
202204 AWS Black Belt Online Seminar AWS IoT Device DefenderAmazon Web Services Japan
 
202204 AWS Black Belt Online Seminar Amazon Connect を活用したオンコール対応の実現
202204 AWS Black Belt Online Seminar Amazon Connect を活用したオンコール対応の実現202204 AWS Black Belt Online Seminar Amazon Connect を活用したオンコール対応の実現
202204 AWS Black Belt Online Seminar Amazon Connect を活用したオンコール対応の実現Amazon Web Services Japan
 
202204 AWS Black Belt Online Seminar Amazon Connect Salesforce連携(第1回 CTI Adap...
202204 AWS Black Belt Online Seminar Amazon Connect Salesforce連携(第1回 CTI Adap...202204 AWS Black Belt Online Seminar Amazon Connect Salesforce連携(第1回 CTI Adap...
202204 AWS Black Belt Online Seminar Amazon Connect Salesforce連携(第1回 CTI Adap...Amazon Web Services Japan
 
Amazon Game Tech Night #25 ゲーム業界向け機械学習最新状況アップデート
Amazon Game Tech Night #25 ゲーム業界向け機械学習最新状況アップデートAmazon Game Tech Night #25 ゲーム業界向け機械学習最新状況アップデート
Amazon Game Tech Night #25 ゲーム業界向け機械学習最新状況アップデートAmazon Web Services Japan
 
20220409 AWS BLEA 開発にあたって検討したこと
20220409 AWS BLEA 開発にあたって検討したこと20220409 AWS BLEA 開発にあたって検討したこと
20220409 AWS BLEA 開発にあたって検討したことAmazon Web Services Japan
 
202202 AWS Black Belt Online Seminar AWS Managed Rules for AWS WAF の活用
202202 AWS Black Belt Online Seminar AWS Managed Rules for AWS WAF の活用202202 AWS Black Belt Online Seminar AWS Managed Rules for AWS WAF の活用
202202 AWS Black Belt Online Seminar AWS Managed Rules for AWS WAF の活用Amazon Web Services Japan
 
202203 AWS Black Belt Online Seminar Amazon Connect Tasks.pdf
202203 AWS Black Belt Online Seminar Amazon Connect Tasks.pdf202203 AWS Black Belt Online Seminar Amazon Connect Tasks.pdf
202203 AWS Black Belt Online Seminar Amazon Connect Tasks.pdfAmazon Web Services Japan
 
SaaS テナント毎のコストを把握するための「AWS Application Cost Profiler」のご紹介
SaaS テナント毎のコストを把握するための「AWS Application Cost Profiler」のご紹介SaaS テナント毎のコストを把握するための「AWS Application Cost Profiler」のご紹介
SaaS テナント毎のコストを把握するための「AWS Application Cost Profiler」のご紹介Amazon Web Services Japan
 
Amazon QuickSight の組み込み方法をちょっぴりDD
Amazon QuickSight の組み込み方法をちょっぴりDDAmazon QuickSight の組み込み方法をちょっぴりDD
Amazon QuickSight の組み込み方法をちょっぴりDDAmazon Web Services Japan
 
マルチテナント化で知っておきたいデータベースのこと
マルチテナント化で知っておきたいデータベースのことマルチテナント化で知っておきたいデータベースのこと
マルチテナント化で知っておきたいデータベースのことAmazon Web Services Japan
 
機密データとSaaSは共存しうるのか!?セキュリティー重視のユーザー層を取り込む為のネットワーク通信のアプローチ
機密データとSaaSは共存しうるのか!?セキュリティー重視のユーザー層を取り込む為のネットワーク通信のアプローチ機密データとSaaSは共存しうるのか!?セキュリティー重視のユーザー層を取り込む為のネットワーク通信のアプローチ
機密データとSaaSは共存しうるのか!?セキュリティー重視のユーザー層を取り込む為のネットワーク通信のアプローチAmazon Web Services Japan
 
パッケージソフトウェアを簡単にSaaS化!?既存の資産を使ったSaaS化手法のご紹介
パッケージソフトウェアを簡単にSaaS化!?既存の資産を使ったSaaS化手法のご紹介パッケージソフトウェアを簡単にSaaS化!?既存の資産を使ったSaaS化手法のご紹介
パッケージソフトウェアを簡単にSaaS化!?既存の資産を使ったSaaS化手法のご紹介Amazon Web Services Japan
 
202202 AWS Black Belt Online Seminar Amazon Connect Customer Profiles
202202 AWS Black Belt Online Seminar Amazon Connect Customer Profiles202202 AWS Black Belt Online Seminar Amazon Connect Customer Profiles
202202 AWS Black Belt Online Seminar Amazon Connect Customer ProfilesAmazon Web Services Japan
 
Amazon Game Tech Night #24 KPIダッシュボードを最速で用意するために
Amazon Game Tech Night #24 KPIダッシュボードを最速で用意するためにAmazon Game Tech Night #24 KPIダッシュボードを最速で用意するために
Amazon Game Tech Night #24 KPIダッシュボードを最速で用意するためにAmazon Web Services Japan
 
[20220126] JAWS-UG 2022初頭までに葬ったAWSアンチパターン大紹介
[20220126] JAWS-UG 2022初頭までに葬ったAWSアンチパターン大紹介[20220126] JAWS-UG 2022初頭までに葬ったAWSアンチパターン大紹介
[20220126] JAWS-UG 2022初頭までに葬ったAWSアンチパターン大紹介Amazon Web Services Japan
 
202111 AWS Black Belt Online Seminar AWSで構築するSmart Mirrorのご紹介
202111 AWS Black Belt Online Seminar AWSで構築するSmart Mirrorのご紹介202111 AWS Black Belt Online Seminar AWSで構築するSmart Mirrorのご紹介
202111 AWS Black Belt Online Seminar AWSで構築するSmart Mirrorのご紹介Amazon Web Services Japan
 
202201 AWS Black Belt Online Seminar Apache Spark Performnace Tuning for AWS ...
202201 AWS Black Belt Online Seminar Apache Spark Performnace Tuning for AWS ...202201 AWS Black Belt Online Seminar Apache Spark Performnace Tuning for AWS ...
202201 AWS Black Belt Online Seminar Apache Spark Performnace Tuning for AWS ...Amazon Web Services Japan
 

More from Amazon Web Services Japan (20)

202205 AWS Black Belt Online Seminar Amazon VPC IP Address Manager (IPAM)
202205 AWS Black Belt Online Seminar Amazon VPC IP Address Manager (IPAM)202205 AWS Black Belt Online Seminar Amazon VPC IP Address Manager (IPAM)
202205 AWS Black Belt Online Seminar Amazon VPC IP Address Manager (IPAM)
 
202205 AWS Black Belt Online Seminar Amazon FSx for OpenZFS
202205 AWS Black Belt Online Seminar Amazon FSx for OpenZFS202205 AWS Black Belt Online Seminar Amazon FSx for OpenZFS
202205 AWS Black Belt Online Seminar Amazon FSx for OpenZFS
 
202204 AWS Black Belt Online Seminar AWS IoT Device Defender
202204 AWS Black Belt Online Seminar AWS IoT Device Defender202204 AWS Black Belt Online Seminar AWS IoT Device Defender
202204 AWS Black Belt Online Seminar AWS IoT Device Defender
 
Infrastructure as Code (IaC) 談義 2022
Infrastructure as Code (IaC) 談義 2022Infrastructure as Code (IaC) 談義 2022
Infrastructure as Code (IaC) 談義 2022
 
202204 AWS Black Belt Online Seminar Amazon Connect を活用したオンコール対応の実現
202204 AWS Black Belt Online Seminar Amazon Connect を活用したオンコール対応の実現202204 AWS Black Belt Online Seminar Amazon Connect を活用したオンコール対応の実現
202204 AWS Black Belt Online Seminar Amazon Connect を活用したオンコール対応の実現
 
202204 AWS Black Belt Online Seminar Amazon Connect Salesforce連携(第1回 CTI Adap...
202204 AWS Black Belt Online Seminar Amazon Connect Salesforce連携(第1回 CTI Adap...202204 AWS Black Belt Online Seminar Amazon Connect Salesforce連携(第1回 CTI Adap...
202204 AWS Black Belt Online Seminar Amazon Connect Salesforce連携(第1回 CTI Adap...
 
Amazon Game Tech Night #25 ゲーム業界向け機械学習最新状況アップデート
Amazon Game Tech Night #25 ゲーム業界向け機械学習最新状況アップデートAmazon Game Tech Night #25 ゲーム業界向け機械学習最新状況アップデート
Amazon Game Tech Night #25 ゲーム業界向け機械学習最新状況アップデート
 
20220409 AWS BLEA 開発にあたって検討したこと
20220409 AWS BLEA 開発にあたって検討したこと20220409 AWS BLEA 開発にあたって検討したこと
20220409 AWS BLEA 開発にあたって検討したこと
 
202202 AWS Black Belt Online Seminar AWS Managed Rules for AWS WAF の活用
202202 AWS Black Belt Online Seminar AWS Managed Rules for AWS WAF の活用202202 AWS Black Belt Online Seminar AWS Managed Rules for AWS WAF の活用
202202 AWS Black Belt Online Seminar AWS Managed Rules for AWS WAF の活用
 
202203 AWS Black Belt Online Seminar Amazon Connect Tasks.pdf
202203 AWS Black Belt Online Seminar Amazon Connect Tasks.pdf202203 AWS Black Belt Online Seminar Amazon Connect Tasks.pdf
202203 AWS Black Belt Online Seminar Amazon Connect Tasks.pdf
 
SaaS テナント毎のコストを把握するための「AWS Application Cost Profiler」のご紹介
SaaS テナント毎のコストを把握するための「AWS Application Cost Profiler」のご紹介SaaS テナント毎のコストを把握するための「AWS Application Cost Profiler」のご紹介
SaaS テナント毎のコストを把握するための「AWS Application Cost Profiler」のご紹介
 
Amazon QuickSight の組み込み方法をちょっぴりDD
Amazon QuickSight の組み込み方法をちょっぴりDDAmazon QuickSight の組み込み方法をちょっぴりDD
Amazon QuickSight の組み込み方法をちょっぴりDD
 
マルチテナント化で知っておきたいデータベースのこと
マルチテナント化で知っておきたいデータベースのことマルチテナント化で知っておきたいデータベースのこと
マルチテナント化で知っておきたいデータベースのこと
 
機密データとSaaSは共存しうるのか!?セキュリティー重視のユーザー層を取り込む為のネットワーク通信のアプローチ
機密データとSaaSは共存しうるのか!?セキュリティー重視のユーザー層を取り込む為のネットワーク通信のアプローチ機密データとSaaSは共存しうるのか!?セキュリティー重視のユーザー層を取り込む為のネットワーク通信のアプローチ
機密データとSaaSは共存しうるのか!?セキュリティー重視のユーザー層を取り込む為のネットワーク通信のアプローチ
 
パッケージソフトウェアを簡単にSaaS化!?既存の資産を使ったSaaS化手法のご紹介
パッケージソフトウェアを簡単にSaaS化!?既存の資産を使ったSaaS化手法のご紹介パッケージソフトウェアを簡単にSaaS化!?既存の資産を使ったSaaS化手法のご紹介
パッケージソフトウェアを簡単にSaaS化!?既存の資産を使ったSaaS化手法のご紹介
 
202202 AWS Black Belt Online Seminar Amazon Connect Customer Profiles
202202 AWS Black Belt Online Seminar Amazon Connect Customer Profiles202202 AWS Black Belt Online Seminar Amazon Connect Customer Profiles
202202 AWS Black Belt Online Seminar Amazon Connect Customer Profiles
 
Amazon Game Tech Night #24 KPIダッシュボードを最速で用意するために
Amazon Game Tech Night #24 KPIダッシュボードを最速で用意するためにAmazon Game Tech Night #24 KPIダッシュボードを最速で用意するために
Amazon Game Tech Night #24 KPIダッシュボードを最速で用意するために
 
[20220126] JAWS-UG 2022初頭までに葬ったAWSアンチパターン大紹介
[20220126] JAWS-UG 2022初頭までに葬ったAWSアンチパターン大紹介[20220126] JAWS-UG 2022初頭までに葬ったAWSアンチパターン大紹介
[20220126] JAWS-UG 2022初頭までに葬ったAWSアンチパターン大紹介
 
202111 AWS Black Belt Online Seminar AWSで構築するSmart Mirrorのご紹介
202111 AWS Black Belt Online Seminar AWSで構築するSmart Mirrorのご紹介202111 AWS Black Belt Online Seminar AWSで構築するSmart Mirrorのご紹介
202111 AWS Black Belt Online Seminar AWSで構築するSmart Mirrorのご紹介
 
202201 AWS Black Belt Online Seminar Apache Spark Performnace Tuning for AWS ...
202201 AWS Black Belt Online Seminar Apache Spark Performnace Tuning for AWS ...202201 AWS Black Belt Online Seminar Apache Spark Performnace Tuning for AWS ...
202201 AWS Black Belt Online Seminar Apache Spark Performnace Tuning for AWS ...
 

20210330 AWS Black Belt Online Seminar AWS Glue -Glue Studioを使ったデータ変換のベストプラクティス-

  • 1. © 2021, Amazon Web Services, Inc. or its Affiliates. AWS 公式 Webinar https://amzn.to/JPWebinar 過去資料 https://amzn.to/JPArchive [AWS Black Belt Online Seminar] AWS Glue -Glue Studioを使ったデータ変換のベストプラクティス- Amazon Web Service Japan, K. K. Solutions Architect, Kazutaka Kubo 2021/03/30
  • 2. © 2021, Amazon Web Services, Inc. or its Affiliates. AWS Black Belt Online Seminar とは 「サービス別」「ソリューション別」「業種別」のそれぞれのテーマに分かれて、アマゾ ン ウェブ サービス ジャパン株式会社が主催するオンラインセミナーシリーズです。 質問を投げることができます! • 書き込んだ質問は、主催者にしか見えません • 今後のロードマップに関するご質問は お答えできませんのでご了承下さい ① 吹き出しをクリック ② 質問を入力 ③ Sendをクリック Twitter ハッシュタグは以下をご利用ください #awsblackbelt
  • 3. © 2021, Amazon Web Services, Inc. or its Affiliates. 内容についての注意点 • 本資料では2021 年 3 月 30 日現在のサービス内容および価格についてご説明しています。最新の情報はAWS公 式ウェブサイト(http://aws.amazon.com)にてご確認ください。 • 資料作成には十分注意しておりますが、資料内の価格とAWS公式ウェブサイト記載の価格に相違があった場合、 AWS公式ウェブサイトの価格を優先とさせていただきます。 • 価格は税抜表記となっています。日本居住者のお客様には別途消費税をご請求させていただきます。 • AWS does not offer binding price quotes. AWS pricing is publicly available and is subject to change in accordance with the AWS Customer Agreement available at http://aws.amazon.com/agreement/. Any pricing information included in this document is provided only as an estimate of usage charges for AWS services based on certain information that you have provided. Monthly charges will be based on your actual use of AWS services, and may vary from the estimates provided.
  • 4. © 2021, Amazon Web Services, Inc. or its Affiliates. 自己紹介 久保 和隆 (Kazutaka Kubo) 所属:西日本担当ソリューションアーキテクト 西日本のお客様に対してAWSの技術支援 好きなサービス: AWS Glue
  • 5. © 2021, Amazon Web Services, Inc. or its Affiliates. 本日の内容 1. AWS Glueの位置付け 2. Glue Studioの概要 3. ユースケースとGlue Studioでの実装 4. その他の主要アップデート 5. まとめ
  • 6. © 2021, Amazon Web Services, Inc. or its Affiliates. AWS Glueの位置付け
  • 7. © 2021, Amazon Web Services, Inc. or its Affiliates. データ分析の現状 ・多くの企業がデータレイクを構築し、有効活用を望んでいる。 Data Lake
  • 8. © 2021, Amazon Web Services, Inc. or its Affiliates. データ活用を阻む要因 ・多くの企業でデータ活用が難航 様 々 な 目 的 の ユ ー ザ 日 々 増 加 す る デ ー タ 日 々 追 加 さ れ る デ ー タ ソ ー ス 日 々 追 加 さ れ る デ ー タ フ ォ ー マ ッ ト デ ー タ を 使 い た い 様 々 な ア プ リ ケ ー シ ョ ン
  • 9. © 2021, Amazon Web Services, Inc. or its Affiliates. ・多くの企業でデータ活用が難航 様 々 な 目 的 の ユ ー ザ 日 々 増 加 す る デ ー タ 日 々 追 加 さ れ る デ ー タ ソ ー ス 日 々 追 加 さ れ る デ ー タ フ ォ ー マ ッ ト デ ー タ を 使 い た い 様 々 な ア プ リ ケ ー シ ョ ン 使いやすい形に整形する「前処理」が、データ活用には重要 データ活用を阻む要因
  • 10. © 2021, Amazon Web Services, Inc. or its Affiliates. 前処理における課題 取扱データの増加 目的に合わせた カスタマイズが必要 基盤の管理負荷 • 5年前と比較して、 10倍以上のデータ量 • ごみデータの排除 • フォーマット変換 等々 • サーバーのライフサイクル管理 • 監視管理
  • 11. © 2021, Amazon Web Services, Inc. or its Affiliates. AWS Glue サービス間でデータを簡単に移動できるようにするための、 サーバーレスデータ統合サービス
  • 12. © 2021, Amazon Web Services, Inc. or its Affiliates. AWS Glue の特徴 シンプルで拡張性に優れたサーバ不要のデータ統合 大量データの迅速な統合 変換処理の自動化 サーバーレス データの準備を数ヶ月から数分に短縮 何千ものETLジョブを簡単に実行、管理可能 ジョブ実行で使われたリソースに対してのみ支払い
  • 13. © 2021, Amazon Web Services, Inc. or its Affiliates. AWS Glue の構成要素と周辺サービス Extract, Transform, and Load(ETL)ジョブ AWS Glue Data Catalog Crawler Workflow Management AWS Glue Studio AWS Glue DataBrew AWS Glue Elastic Views
  • 14. © 2021, Amazon Web Services, Inc. or its Affiliates. AWS Glue の構成要素と周辺サービス Extract, Transform, and Load(ETL)ジョブ AWS Glue Data Catalog Crawler Workflow Management AWS Glue Studio AWS Glue DataBrew New AWS Glue Elastic Views
  • 15. © 2021, Amazon Web Services, Inc. or its Affiliates. AWS Glue Elastic Views AWS Glue の構成要素と周辺サービス Extract, Transform, and Load(ETL)ジョブ AWS Glue Data Catalog Crawler Workflow Management AWS Glue Studio AWS Glue DataBrew New フォーマット変換したり、データを結合したり、 様々な処理を行うJOBを作成・管理・実行することが可能
  • 16. © 2021, Amazon Web Services, Inc. or its Affiliates. AWS Glue Elastic Views AWS Glue の構成要素と周辺サービス Extract, Transform, and Load(ETL)ジョブ AWS Glue Data Catalog Crawler Workflow Management AWS Glue Studio AWS Glue DataBrew New Apache Hiveメタストア互換のメタデータリポジトリ データソースにどういったデータが入っているのかをカタログ化して、保存しておくことが可能
  • 17. © 2021, Amazon Web Services, Inc. or its Affiliates. AWS Glue Elastic Views AWS Glue の構成要素と周辺サービス Extract, Transform, and Load(ETL)ジョブ AWS Glue Data Catalog Crawler Workflow Management AWS Glue Studio AWS Glue DataBrew New Glueのデータカタログにメタデータを作成するプログラム 分類子の優先度に従って、スキーマ情報を自動で判断し、スキーマを形成
  • 18. © 2021, Amazon Web Services, Inc. or its Affiliates. AWS Glue Elastic Views AWS Glue の構成要素と周辺サービス Extract, Transform, and Load(ETL)ジョブ AWS Glue Data Catalog Crawler Workflow Management AWS Glue Studio AWS Glue DataBrew New クローラー、トリガー、ジョブのDAGを生成するワークフロー機能 データソースのクロール/データカタログの生成 / JOBの実行、これら一連の処理を自動化
  • 19. © 2021, Amazon Web Services, Inc. or its Affiliates. データレイク環境の構成要素 data lake storage Amazon Simple Storage Service (S3) Amazon RDS On-premises data Amazon Athena Amazon Redshift Amazon SageMaker データソース データレイク ターゲット Other S3
  • 20. © 2021, Amazon Web Services, Inc. or its Affiliates. データレイク環境におけるAWS Glueの役割 data lake storage Amazon Simple Storage Service (S3) Amazon RDS On-premises data Amazon Athena Amazon Redshift Amazon SageMaker AWS Glue 各要素の間を取り持つのがGlueの役割 Other S3
  • 21. © 2021, Amazon Web Services, Inc. or its Affiliates. ETLジョブ data lake storage Amazon Simple Storage Service (S3) Amazon RDS On-premises data Amazon Athena Amazon Redshift Amazon SageMaker AWS Glue データソースからデータレイクストレージへデータを出力 ETLジョブ Amazon RDS On-premises data Other S3
  • 22. © 2021, Amazon Web Services, Inc. or its Affiliates. ETLジョブ data lake storage Amazon Simple Storage Service (S3) Amazon RDS On-premises data Amazon Athena Amazon Redshift Amazon SageMaker AWS Glue データソースからデータレイクストレージへデータを出力 ETLジョブ Amazon RDS On-premises data Other S3
  • 23. © 2021, Amazon Web Services, Inc. or its Affiliates. データのクローリング data lake storage Amazon Simple Storage Service (S3) Amazon RDS Other S3 On-premises data Amazon Athena Amazon Redshift Amazon SageMaker AWS Glue データレイクをクローリングし、データカタログを出力 ETLジョブ Crawler
  • 24. © 2021, Amazon Web Services, Inc. or its Affiliates. データのクローリング data lake storage Amazon Simple Storage Service (S3) Amazon RDS Other S3 On-premises data Amazon Athena Amazon Redshift Amazon SageMaker AWS Glue データレイクをクローリングし、データカタログを出力 ETLジョブ Crawler AWS glue data catalog
  • 25. © 2021, Amazon Web Services, Inc. or its Affiliates. カタログを使用したデータ参照 data lake storage Amazon Simple Storage Service (S3) Amazon RDS Other S3 On-premises data Amazon Athena Amazon Redshift Amazon SageMaker AWS Glue データカタログを参照し、必要データをロード ETLジョブ Crawler AWS glue data catalog
  • 26. © 2021, Amazon Web Services, Inc. or its Affiliates. カタログを使用したデータ参照 data lake storage Amazon Simple Storage Service (S3) Amazon RDS Other S3 On-premises data Amazon Athena Amazon Redshift Amazon SageMaker AWS Glue データカタログを参照し、必要データをロード ETLジョブ Crawler AWS glue data catalog Amazon Athena Amazon Redshift Amazon SageMaker
  • 27. © 2021, Amazon Web Services, Inc. or its Affiliates. ワークフロー管理 data lake storage Amazon Simple Storage Service (S3) Amazon RDS Other S3 On-premises data Amazon Athena Amazon Redshift Amazon SageMaker AWS Glue ETLジョブ Crawler AWS glue data catalog 一連の処理をワークフロー化し、自動化可能 Workflow Management
  • 28. © 2021, Amazon Web Services, Inc. or its Affiliates. AWS Glue Elastic Views AWS Glue の構成要素と周辺サービス(再掲) Extract, Transform, and Load(ETL)ジョブ AWS Glue Data Catalog Crawler Workflow Management AWS Glue Studio AWS Glue DataBrew New
  • 29. © 2021, Amazon Web Services, Inc. or its Affiliates. AWS Glue の構成要素と周辺サービス(再掲) Extract, Transform, and Load(ETL)ジョブ AWS Glue Data Catalog Crawler Workflow Management AWS Glue Studio AWS Glue DataBrew New AWS Glue Elastic Views
  • 30. © 2021, Amazon Web Services, Inc. or its Affiliates. AWS Glue Elastic Views AWS Glue の構成要素と周辺サービス(再掲) Extract, Transform, and Load(ETL)ジョブ AWS Glue Data Catalog Crawler Workflow Management AWS Glue Studio AWS Glue DataBrew New 本日のメイン
  • 31. © 2021, Amazon Web Services, Inc. or its Affiliates. AWS Glue Studioの概要
  • 32. © 2021, Amazon Web Services, Inc. or its Affiliates. 代表的なデータ利用者 ビジネスユーザー: データ分析についての専門的な知見を持ってはいないが、蓄積したデータを活用する。 組織で活動するあらゆる人が当てはまる。 ETLデベロッパー: 自分の開発・運用しているプロダクトのためにデータを活用する。 システム障害の原因追求、新機能がどう使われているかの分析するロール。 データアナリスト: データ分析自体が職務で、 マーケティング施策の効果を売り上げデータをもとに検証する。 データによる意思決定の支援を行うロール。 データサイエンティスト: より高度な手法を使い、複雑な意識決定の支援を実施する。 業務システムに組み込んで使用するための機械学習モデルの開発を行うロール。
  • 33. © 2021, Amazon Web Services, Inc. or its Affiliates. 代表的なデータ利用者 ビジネスユーザー: データ分析についての専門的な知見を持ってはいないが、蓄積したデータを活用する。 組織で活動するあらゆる人が当てはまる。 ETLデベロッパー: 自分の開発・運用しているプロダクトのためにデータを活用する。 システム障害の原因追求、新機能がどう使われているかの分析するロール。 データアナリスト: データ分析自体が職務で、 マーケティング施策の効果を売り上げデータをもとに検証する。 データによる意思決定の支援を行うロール。 データサイエンティスト: より高度な手法を使い、複雑な意識決定の支援を実施する。 業務システムに組み込んで使用するための機械学習モデルの開発を行うロール。
  • 34. © 2021, Amazon Web Services, Inc. or its Affiliates. 従来のAWS Glue でのJOB実装 コードベースのJOB作成インターフェース
  • 35. © 2021, Amazon Web Services, Inc. or its Affiliates. AWS Glue Studio ETL ジョブの作成、実行、監視を容易にする視覚的なインターフェース ビジュアルオーサリング コードを書くことなくETLジョブを作成可能 サーバーレス ビッグデータ処理能力を利用可能 シンプルビュー 単一画面でジョブを管理可能 カスタマイズ可能 任意のコード(Python、Scala、Java)で ETL を高度化可能 https://aws.amazon.com/jp/blogs/big-data/making-etl-easier-with-aws-glue-studio/
  • 36. © 2021, Amazon Web Services, Inc. or its Affiliates. シンプルビューの詳細 https://aws.amazon.com/jp/blogs/big-data/making-etl-easier-with-aws-glue-studio/
  • 37. © 2021, Amazon Web Services, Inc. or its Affiliates. カスタマイズを可能にするノード https://aws.amazon.com/jp/blogs/big-data/making-etl-easier-with-aws-glue-studio/
  • 38. © 2021, Amazon Web Services, Inc. or its Affiliates. 視覚的なJOBモニタリング
  • 39. © 2021, Amazon Web Services, Inc. or its Affiliates. ユースケースとGlue Studioでの実装
  • 40. © 2021, Amazon Web Services, Inc. or its Affiliates. ユースケース 1: ログストリーム/IoTセンサーデータの分析
  • 41. © 2021, Amazon Web Services, Inc. or its Affiliates. ログストリーム / IoTセンサーデータ分析の課題 リアルタイムで発生するデータを分析するための データレイクのデザインパターン S3 ストレージ Kinesis Data Firehose Amazon Athena Amazon Redshift Amazon SageMaker アプリケーション
  • 42. © 2021, Amazon Web Services, Inc. or its Affiliates. ログストリーム / IoTセンサーデータ分析の課題 リアルタイムで発生するデータを分析するための データレイクのデザインパターン S3 ストレージ Kinesis Data Firehose Amazon Athena Amazon Redshift Amazon SageMaker アプリケーション 問題点: 1. 期待したパフォーマンスを得られない 2. スキャン量増加によるコストの増加
  • 43. © 2021, Amazon Web Services, Inc. or its Affiliates. ログストリーム / IoTセンサーデータ分析の課題 リアルタイムで発生するデータを分析するための データレイクのデザインパターン S3 ストレージ Kinesis Data Firehose Amazon Athena Amazon Redshift Amazon SageMaker アプリケーション 原因: 1. 分析に適したフォーマットになっていない 2. 非常に多数の小さいファイルで形成されている 3. 多数のソースからなるデータが混在している
  • 44. © 2021, Amazon Web Services, Inc. or its Affiliates. 具体的なデータイメージ 細かい大量のファイルが定期的に出力 中身はJSON形式のテキストファイルかつ、様々なシステムからのアラートが混在 {"timestamp":"02/Mar/2021:12:00:29 +0000","alarmlevel":"WARNING","host":"prd-web","user":"SystemA","number":"1001","text":"This is WARNING"} {"timestamp":"02/Mar/2021:12:00:29 +0000","alarmlevel":"WARNING","host":"prd-db","user":"SystemD","number":"1001","text":"This is WARNING"} {"timestamp":"02/Mar/2021:12:00:29 +0000","alarmlevel":"WARNING","host":"prd-db","user":"SystemF","number":"1001","text":"This is WARNING"} {"timestamp":"02/Mar/2021:12:00:29 +0000","alarmlevel":"WARNING","host":"prd-ap","user":"SystemA","number":"1001","text":"This is WARNING"}
  • 45. © 2021, Amazon Web Services, Inc. or its Affiliates. このデータに対して求められること 解決策: 1. フォーマットを列指向フォーマットに変換する 2. 大量ファイルをコンパクションする 3. 適切な単位でパーティショニングする 上記の変更を加えることで、より効率的な分析が可能
  • 46. © 2021, Amazon Web Services, Inc. or its Affiliates. 列指向フォーマットとは カラム(列単位)でデータをまとめて保存するデータフォーマット 1 2 3 4 5 6 1 2 3 4 5 6 1 2 3 4 5 6 列指向 行指向 メリット2) I/O の効率があがる • 圧縮と同時に使うことで I/O 効率がさらに向上 • カラムごとに分けられてデータが並んでいる • 同じカラムは、似たような中身のデータが続くため、 圧縮効率がよくなる 1 2 3 4 5 6 1 2 3 4 5 6 a 列指向 行指向 メリット1) OLAP 系の分析クエリを効率的に実行できる • 多くの分析クエリは、一度のクエリで一部のカラムし か使用しない
  • 47. © 2021, Amazon Web Services, Inc. or its Affiliates. コンパクションとは サイズの小さい複数ファイルを分析のしやすい単位に集約 1日分のログデータ 1日分のログデータ ファイル数が多い場合の問題点 • Hadoop系の分散エンジンでは、読み込む必要のある ブロックごとにタスクが生成される。その為、データ が少ないブロックへの処理ではオーバーヘッドが発生 しパフォーマンスが低下する。 コンパクション後のメリット • データ分析前にファイルをひとまとめにしておくこ とで、オーバーヘッドが減少し分析時のパフォーマ ンスが向上する。
  • 48. © 2021, Amazon Web Services, Inc. or its Affiliates. パーティショニングとは 分析によく使う単位でファイルを分析して格納 Gluestudio-xxxx-20210330 / LogFile Gluestudio-xxxx-20210330 / System A / LogFile System B / LogFile / System C / LogFile / プレフィックスで分けることを、 パーティショニングと呼ぶ。 単なるフォルダ構造。 パーティショニングをしない場合の問題点 • 特定のシステムのログを検索したい場合、 全てのLogFileに対してスキャンが掛かる。 その為、読み込むデータ量が多くなり、 パフォーマンスに影響がある。 パーティショニング後のメリット • 検索条件にシステム名を含めることで、 特定のファイルにのみアクセスする。 不要データへのアクセスが減る為、 パフォーマンスが向上する。 システム名
  • 49. © 2021, Amazon Web Services, Inc. or its Affiliates. ログストリーム / IoTセンサーデータ分析の解決策 S3 ストレージ Kinesis Data Firehose Amazon Athena Amazon Redshift Amazon SageMaker アプリケーション S3 ストレージ Glue Job 解決策: 1. フォーマットを 列指向フォーマット に変換する 2. 大量ファイルをコンパクションする 3. 適切な単位でパーティショニングする
  • 50. © 2021, Amazon Web Services, Inc. or its Affiliates. AWS Glue Studioを使用したETL JOBの作成 • マネージメントコンソールより、 AWS Glue を選択 • AWS Glue コンソールの左ペインより、 AWS Glue Studioを選択 • 表示されたAWS Glue Studioの画面にて Create and manage Jobs を選択
  • 51. © 2021, Amazon Web Services, Inc. or its Affiliates. JOBの作成 • Create job の項目にて、 Blank graphを選択しCreateボタンを押下 Source and target added to the graph 指定したデータソースとターゲットノードがあらかじめ作 成された状態から開始する。どちらを選んでも問題ない。
  • 52. © 2021, Amazon Web Services, Inc. or its Affiliates. データソースの指定① • JobのEdit画面が表示 • 左上にJob名を入力 • 画面左下の“+”を押下し、ノードを表示
  • 53. © 2021, Amazon Web Services, Inc. or its Affiliates. データソースの指定② • Node typeにS3を選択 選択可能なデータソースは、 Kinesis, Kafka, JDBC, Redshift 等々。 custom connectorを使用することで追加可能。
  • 54. © 2021, Amazon Web Services, Inc. or its Affiliates. データソースの指定③ • Data Catalog tableを選択 • DatabaseとTableに、 Glue のクローラによって生成された データカタログを選択 S3 locationを選択し、 バケットを直接指定してもOK
  • 55. © 2021, Amazon Web Services, Inc. or its Affiliates. データの整形① • S3 bucket ノードを選択した状態で、 画面左下の“+”を押下 • Node typeにApplyMappingを選択 ApplyMappingは、入力データのカラムの修 正・削除を行うためのノード。 他にもフィールドの分割や、ソースデータの結 合等、様々な変換ノードが用意されている。
  • 56. © 2021, Amazon Web Services, Inc. or its Affiliates. データの整形② • Target key列に入力されている文字列を修正 • Drop列のボックスにチェック ここでは以下の2点を実施している。 1. user 列の名前をsystem列に変更している。 2. partition_0列を削除している。
  • 57. © 2021, Amazon Web Services, Inc. or its Affiliates. データファイルのコンパクション① • ApplyMapping ノードを選択した状態で、 画面左下の“+”を押下 • Node typeにCustom transformを選択 Custom transformは、 コードを自由に記述することが可能なノード。 Python, Scala, Javaの、任意のコードを使用可能。
  • 58. © 2021, Amazon Web Services, Inc. or its Affiliates. データファイルのコンパクション② selected = dfc.select(list(dfc.keys())[0]).toDF() reprep = selected.repartition(5) results = DynamicFrame.fromDF(reprep, glueContext, "results") return DynamicFrameCollection({"results": results}, glueContext) • コードブロックに下記記載の、Pythonコードを入力 このコードブロックは、DynamicFrameオブ ジェクトを受け取っている。受け取ったオブ ジェクトに対し任意の処理を記述可能。
  • 59. © 2021, Amazon Web Services, Inc. or its Affiliates. DynamicFrameとは SparkSQL DataFrameと似たGlue特有の抽象化の概念 - SparkSQL DataFrameとの違いはETLに特化しているかどうか (DynamicFrameはスキーマの不一致を明示的にエンコードする”Schema on the Fly”を採用) - 複数の型の可能性を残して、後で決定できるようにする (Choice型) - DynamicFrameはデータ全体を表し、DynamicRecordはデータ1行を指す - DataFrameとDynamicFrame間でそれぞれ変換することができる(fromDF関数・toDF関数) - Pythonライブラリ PandasのDataFrameとは異なるので注意 Spark Core: RDDs Spark DataFrame Glue DynamicFrame SparkSQL AWS Glue ETL 実行環境 データ構造 アプリケーション データ構造イメージ アーキテクチャ:SparkおよびGlueライブラリ SparkSQL DataFrame DynamicFrame 構造テーブルに類似 半構造テーブルに類似
  • 60. © 2021, Amazon Web Services, Inc. or its Affiliates. コードの内容 上記のコードは受け取ったDynamicFrameオブジェクトに以下の内容を実施している。 1. 受け取ったDynamicFrameオブジェクトを、toDF()関数を使用し、SparkSQL DataFrameに変換 2. DataFrameの分割数を変更し、5分割に変更 3. 変更後のDataFrameをfromDF()関数を使用し、DynamicFrameオブジェクトに変換 4. DynamicFrameオブジェクトをリターン
  • 61. © 2021, Amazon Web Services, Inc. or its Affiliates. データファイルのコンパクション③ • Custom Transform ノードを選択した状態で、 画面左下の“+”を押下 (自動生成の場合この手順は不要) • Node typeにSelectFromCollectionを選択 SelectFromCollectionは、Custom Transform ノードで実行したコードからオブジェクトを受け 取るためのノード。 Custom Transformノードとセットで使用する。
  • 62. © 2021, Amazon Web Services, Inc. or its Affiliates. フォーマット変換① • SelectFromCollection ノードを選択した状態で、 画面左下の“+”を押下 • Node typeにS3を選択 Node typeには、Data targetのS3とData source のS3があるので注意する。
  • 63. © 2021, Amazon Web Services, Inc. or its Affiliates. フォーマット変換② • FormatをGlue Parquetを選択 • Compression TypeにSnappyを選択 Parquet とは Parquetは分析に適した列指向フォーマット Glue Parquet とは よりGlueに最適化されたParquetフォーマット 通常のParquetと変わりないが、出力ファイルのス キーマを動的に計算し、高速に”Parquet”ファイルに 書き込むことが可能
  • 64. © 2021, Amazon Web Services, Inc. or its Affiliates. 出力先の指定 • S3 Target Loctionに出力先となる、 S3バケットを指定 • Data Catalog update optionsにて、 Do not update the Data Catelogを選択 Data Catalog update options について Do not change table definition: ジョブでDataCatalogの更新を行わない設定。 Update schema and add new partitions : スキーマの変更または新しいパーティションの追加時にジョブ でData Catalogを更新する設定。 Keep existing schema and add new partitions: 新しいパーティションを追加する目的にのみ、ジョブで DataCatalogを更新する設定。
  • 65. © 2021, Amazon Web Services, Inc. or its Affiliates. パーティショニング • Partition keys にて、 パーティショニングに使用するカラムを選択 Partitionに使用するカラムは複数選択が可能。 複数選択することで階層構造でファイルが出力される。
  • 66. © 2021, Amazon Web Services, Inc. or its Affiliates. JOBの詳細設定① • Job detailsタブを選択 • IAM Role に必要な権限を持ったロールを選択 • Glue version にて、Glue 2.0が 選択されていることを確認 必要な権限について ユースケース1で必要となる権限は以下。 • AWS Glue サービスのアクセス許可 • Amazon CloudWatch のアクセス許可 • データソースとデータターゲットへのアクセス許可 これらの権限が付与されたロールを選択する。
  • 67. © 2021, Amazon Web Services, Inc. or its Affiliates. JOBの詳細設定② • Language にPython 3が選択されていることを確認 • Worker type にてG.1Xを選択 • Number of workersをデフォルトの10から2に変更 Worker typeの詳細については次のスライドをご参照
  • 68. © 2021, Amazon Web Services, Inc. or its Affiliates. Worker Type ジョブ実行環境にメモリ大量使用ワークロード向けのWorker Typeを選択可能 - ジョブ実行時に割り当てる処理能力をDPU(Data Processing Unit)という 1DPU = 4vCPU、16GBメモリ - Glue Studioでは、G.1xとG.2Xが選択可能 Worker Type DPU数 /1Worker Executor数 /1Worker メモリ数 /1Executor 標準 1 2 5.5GB G.1X 1 1 12GB G.2X 2 1 24GB 参考URL:Spark Components(https://spark.apache.org/docs/latest/cluster-overview.html) Worker Type一覧 Worker Type構成イメージ 標準 Executor (Mem:5.5GB) Worker Executor (Mem:5.5GB) DPU G.1X Worker DPU G.2X Worker DPU DPU Executor (Mem:24GB) Executor (Mem:12GB)
  • 69. © 2021, Amazon Web Services, Inc. or its Affiliates. JOBの詳細設定③ • Job bookmark にてDisableを選択 • Number of retriesをデフォルトの3から1に変更 Job bookmarkについて ジョブを実行した状態情報を保持することで、古いデータを再処理し ないようにする機能。デフォルトのDisableにすることでJobの実行の たびにデータセット全体に対して処理をすることが可能。
  • 70. © 2021, Amazon Web Services, Inc. or its Affiliates. 結果のモニタリング • 画面右上のSaveを押下した後、 Runボタンを押下しJobを実行 • Runs タブを選択 • Run statusが、 Succeededになったことを確認 トラブル対応について 処理が中断した場合や正常終了しなかった場合、 Cloudwatchにログが出力されているのでそこで確 認が可能。
  • 71. © 2021, Amazon Web Services, Inc. or its Affiliates. 実行結果 • 出力バケット直下にシステム名でプレフィックスが作成されていることを確認 • 各プレフィックス毎にParquet形式の5つのファイルが出力されていることを確認
  • 72. © 2021, Amazon Web Services, Inc. or its Affiliates. ログストリーム / IoTセンサーデータ分析の解決策 S3 ストレージ Kinesis Data Firehose Amazon Athena Amazon Redshift Amazon SageMaker アプリケーション S3 ストレージ Glue Job 修正後のデータ: 1. データフォーマットがParquet形式 2. コンパクションによりファイル数が減少 3. システム単位でのパーティショニング
  • 73. © 2021, Amazon Web Services, Inc. or its Affiliates. ユースケース 2: データベースレプリカへの処理をオフロード
  • 74. © 2021, Amazon Web Services, Inc. or its Affiliates. RDSにあるデータを直接分析している場合の課題 分析用のデータベースレプリカにかかる負荷をデータレイクへオフロード Amazon SageMaker Amazon Relational Database Service (Amazon RDS) リードレプリカ アプリケーション Amazon QuickSight Other BI Tools
  • 75. © 2021, Amazon Web Services, Inc. or its Affiliates. RDSにあるデータを直接分析している場合の課題 分析用のデータベースレプリカにかかる負荷をデータレイクへオフロード Amazon SageMaker Amazon Relational Database Service (Amazon RDS) リードレプリカ アプリケーション Amazon QuickSight Other BI Tools 問題点: 1. 期待したパフォーマンスが出ていない 2. パフォーマンスを出すためにレプリカのスペッ クをあげたことでコストが増加 3. リアルタイムで更新がかかるので、分析タイミ ングで結果に揺らぎが発生
  • 76. © 2021, Amazon Web Services, Inc. or its Affiliates. RDSにあるデータを直接分析している場合の課題 分析用のデータベースレプリカにかかる負荷をデータレイクへオフロード Amazon SageMaker Amazon Relational Database Service (Amazon RDS) リードレプリカ アプリケーション Amazon QuickSight Other BI Tools 原因: 1. 分析に適したフォーマットになっていない 2. データベースに直接クエリを発行している 3. リアルタイムでデータの更新が行われる
  • 77. © 2021, Amazon Web Services, Inc. or its Affiliates. RDSにあるデータを直接分析している場合の解決策 Amazon SageMaker Amazon Relational Database Service (Amazon RDS) アプリケーション Amazon QuickSight S3 ストレージ アプリケーション Amazon Relational Database Service (Amazon RDS) リードレプリカ Glue Job Other BI Tools 解決策: 1. フォーマットを 列指向フォーマット に変換する 2. 分析ツールからのアクセスをS3にオフロードする 3. JOB実行時の断面でデータを保持する
  • 78. © 2021, Amazon Web Services, Inc. or its Affiliates. AWS Glue Studioを使用したETL JOBの作成 • マネージメントコンソールより、 AWS Glue を選択 • AWS Glue コンソールの左ペインより、 AWS Glue Studioを選択 • 表示されたAWS Glue Studioの画面にて Create and manage Jobs を選択
  • 79. © 2021, Amazon Web Services, Inc. or its Affiliates. データソースの指定① • JobのEdit画面が表示 • 左上にJob名を入力 • 画面左下の“+”を押下し、ノードを表示
  • 80. © 2021, Amazon Web Services, Inc. or its Affiliates. データソースの指定② • Node typeにJDBCを選択
  • 81. © 2021, Amazon Web Services, Inc. or its Affiliates. データソースの指定③ DBとの接続情報について データカタログにはDBへの接続情報も含まれ ている。その為、データカタログを指定する ことでDBへのJDBC接続が可能となる。 • DatabaseとTableに、 Glue のクローラによって生成された データカタログを選択
  • 82. © 2021, Amazon Web Services, Inc. or its Affiliates. 外部テーブルの結合①(追加機能のご紹介) • Node typeにJoinを選択 • Node parentsに結合したい、 別のデータソースを選択 結合処理は、JDBCとS3など異なるタイプ のデータソース間でも結合が可能。
  • 83. © 2021, Amazon Web Services, Inc. or its Affiliates. 外部テーブルの結合②(追加機能のご紹介) • Join type にInner join を選択 • Join conditions に結合したいカラムを選択
  • 84. © 2021, Amazon Web Services, Inc. or its Affiliates. ターゲットの選択 • Node typeにS3を選択 • その他の設定はユースケース1と同様の内容を実施
  • 85. © 2021, Amazon Web Services, Inc. or its Affiliates. JOBの詳細設定 • Job details タブを選択し、 ユースケース1と同様の内容を設定 • Save ボタンを押下し、 RunボタンでJobを実行
  • 86. © 2021, Amazon Web Services, Inc. or its Affiliates. 結果のモニタリング • Runs タブを選択 • Run statusが、 Succeededになったことを確認
  • 87. © 2021, Amazon Web Services, Inc. or its Affiliates. 実行結果 • 出力バケットにファイルが作成されていることを確認
  • 88. © 2021, Amazon Web Services, Inc. or its Affiliates. RDSにあるデータを直接分析している場合の解決策 Amazon SageMaker Amazon Relational Database Service (Amazon RDS) アプリケーション Amazon QuickSight S3 ストレージ アプリケーション Amazon Relational Database Service (Amazon RDS) リードレプリカ Glue Job Other BI Tools 修正後のデータ: 1. データフォーマットがParquet形式 2. JOB実行時の断面でデータ分析が可能 3. 分析ツールからのアクセスをS3にオフロード
  • 89. © 2021, Amazon Web Services, Inc. or its Affiliates. ユースケース 3: 他クラウド/オンプレミス にあるデータの分析
  • 90. © 2021, Amazon Web Services, Inc. or its Affiliates. 他クラウド/オンプレミス にあるデータを分析する場合の問題点 ネイティブでサポートされていないデータソースからのデータ移行 Amazon Athena Amazon Redshift Amazon SageMaker S3 ストレージ Other Cloud SaaS Services AWS Cloud Amazon CloudWatch
  • 91. © 2021, Amazon Web Services, Inc. or its Affiliates. 他クラウド/オンプレミス にあるデータを分析する場合の問題点 ネイティブでサポートされていないデータソースからのデータ移行 Amazon Athena Amazon Redshift Amazon SageMaker S3 ストレージ Other Cloud SaaS Services AWS Cloud Amazon CloudWatch 問題点: データが格納されていないため クエリをかけることができない
  • 92. © 2021, Amazon Web Services, Inc. or its Affiliates. AWS Glue Custom Connectors ネイティブにサポートされていないデータストアとの接続 https://aws.amazon.com/jp/about-aws/whats-new/2020/12/aws-glue-launches-aws-glue-custom-connectors/ 任意のデータソースからデータを転送可能 多くのコネクタを利用可能 AWS Marketplaceとの統合 SaaS アプリケーション等から Amazon S3にデータを転送 Salesforce、SAP、Snowflake、Google BigQuery 等とも連携 開発したカスタムコネクタを AWS Marketplace で共有可能 AWS Glue Other Cloud SaaS Services AWS Cloud Amazon CloudWatch
  • 93. © 2021, Amazon Web Services, Inc. or its Affiliates. 他クラウド/オンプレミス にあるデータを分析する場合の解決策 Amazon Athena Amazon Redshift Amazon SageMaker S3 ストレージ 解決策: AWS Glue Custom Connectors を使用してデータをコピーする Glue Job Other Cloud SaaS Services AWS Cloud Amazon CloudWatch
  • 94. © 2021, Amazon Web Services, Inc. or its Affiliates. AWS Glue Custom Connectors の使用 • AWS Glue Studioのホーム画面の左にある Marketplaceを選択
  • 95. © 2021, Amazon Web Services, Inc. or its Affiliates. カスタムコネクターのサブスクライブ① • Topにある検索バーにCloudWatchと入力 • 検索結果に表示される以下を選択 Cloudwatch Logs connector for AWS Glue
  • 96. © 2021, Amazon Web Services, Inc. or its Affiliates. カスタムコネクターのサブスクライブ② • カスタムコネクターの内容を確認し、 画面右上のContinue to Subscribe を選択
  • 97. © 2021, Amazon Web Services, Inc. or its Affiliates. カスタムコネクターのサブスクライブ③ • ソフトウェアのバージョン等の選択後に、 出力されるUsage Instructionsを押下 • 出力されるポップアップにて、以下を選択 Activate the Glue connector in AWS Glue Studio • Custom connector の設定画面へ自動遷移
  • 98. © 2021, Amazon Web Services, Inc. or its Affiliates. コネクターの作成 • Name欄に任意の名前を入力 • Connection access は今回は空欄 認証情報について 他クラウドやSaaSへの接続を行う際には認証情報はあら かじめ、AWS Secrets Managerに格納する必要がある。 今回は、CloudWatchへの接続のため入力不要。
  • 99. © 2021, Amazon Web Services, Inc. or its Affiliates. データソースの指定① • Node type にAthenaCloudwatchLogsが、 追加されていることを確認
  • 100. © 2021, Amazon Web Services, Inc. or its Affiliates. データソースの指定② • Connectionに先程作成したコネクターを選択 • CloudWatchを確認し取得対象となる LogStreamsとLogGroupsを確認 • Table nameにLogStreamsを入力し、 Schema nameにLogGroupsを入力 LogGroup内のすべてのLogStreamsで構成される 特別な「all_log_streams (すべてのログストリー ム)」などでもログを指定可能。 ※詳細は以下リンク先ご参照。 https://github.com/awslabs/aws-athena-query-federation/blob/master/athena-cloudwatch/README.md
  • 101. © 2021, Amazon Web Services, Inc. or its Affiliates. ターゲットの指定 • Connection source ノードを選択した状態で、 画面左下の“+”を押下 • Node typeにS3を選択し、 ユースケース1と同様のターゲット設定を実施
  • 102. © 2021, Amazon Web Services, Inc. or its Affiliates. JOBの詳細設定 • Job detailsタブを選択 • IAM Role に必要な権限を持ったロールを選択 • その他はユースケース1と同じよう設定 必要な権限について ユースケース3にて追加で必要となる権限は以下。 • AWSの管理ポリシーである AmazonEC2ContainerRegistryReadOnly権限 • glue:GetJobおよびglue:GetJobsアクセス許可 • 取得対象となるCloud Watch Logsへのアクセス権限 これらの権限をユースケース1のロールに追加で付与 した上でロールを選択する。
  • 103. © 2021, Amazon Web Services, Inc. or its Affiliates. 結果のモニタリング • 画面右上のSaveを押下した後、 Runボタンを押下しJobを実行 • Runs タブを選択 • Run statusが、 Succeededになったことを確認
  • 104. © 2021, Amazon Web Services, Inc. or its Affiliates. 他クラウド/オンプレミス にあるデータを分析する場合の解決策 Amazon Athena Amazon Redshift Amazon SageMaker S3 ストレージ Glue Job Other Cloud SaaS Services AWS Cloud Amazon CloudWatch 対応後のS3の状態: データソースと同等のデータが格納済
  • 105. © 2021, Amazon Web Services, Inc. or its Affiliates. その他の主要アップデート
  • 106. © 2021, Amazon Web Services, Inc. or its Affiliates. AWS Glue Elastic Views AWS Glue の構成要素と周辺サービス(再掲) Extract, Transform, and Load(ETL)ジョブ AWS Glue Data Catalog Crawler Workflow Management AWS Glue Studio AWS Glue DataBrew New
  • 107. © 2021, Amazon Web Services, Inc. or its Affiliates. AWS Glue DataBrew 分析および機械学習のためのビジュアライズツール データ準備タスクの自動化 ノンコードでのデータ変換 サーバレス データ準備にかかる時間を最大80%短縮 250を超える既成の組込関数を選択して処理を実施 インフラを管理することなく、テラバイト規模のデータを変換
  • 108. © 2021, Amazon Web Services, Inc. or its Affiliates. AWS Glue DataBrew の特徴 TB〜PBクラスのデータに対して、クレンジングと正規化を直接実行 データ品質の理解 データパターンを理解し異 常を検出するためにプロフ ァイリングを行い、データ の品質を評価 デ ー タ リ ネ ー ジ の 視 覚 化 さまざまなデータソース と変換手順を視覚化して トラッキング データのクリーン アップと正規化 250種類以上の変換処理 から選択して、データの 視覚化、クリーンアップ 、正規化を実施 自 動 化 保存された変換手順を新 しい入力データに適用
  • 109. © 2021, Amazon Web Services, Inc. or its Affiliates. AWS Glue DataBrew と AWS Glue Studioの違い AWS Glue DataBrew AWS Glue Studio • GUI でデータを可視化しながら データ変換したい • Data Brew で利用可能な 250種 類以上の変換処理を活用したい • データアナリスト & データサイエンティスト向け • プログラムコードでデータ変換したい • GUI でデータ変換を記述しつつ、必要に応じ てカスタムコードを加えたい • カスタムコネクタでさまざまなデータソース と接続したい • ストリーミング処理を活用したい • E T L デ ベ ロ ッ パ ー 向 け
  • 110. © 2021, Amazon Web Services, Inc. or its Affiliates. AWS Glue の構成要素と周辺サービス(再掲) Extract, Transform, and Load(ETL)ジョブ AWS Glue Data Catalog Crawler Workflow Management AWS Glue Studio AWS Glue DataBrew AWS Glue Elastic Views New
  • 111. © 2021, Amazon Web Services, Inc. or its Affiliates. AWS Glue Elastic Views (Preview) 複数のデータソースにまたがるマテリアライズドビューを作成 Amazon DynamoDB Amazon Redshift Amazon Simple Storage Service (S3) Amazon Elasticsearch Service Target Database SQLを用いてターゲットDBを指定 データ変更に迅速に対応 サーバーレス ターゲットデータベースに対して自動的にデータを複製 データソースをモニタし、データの変更が発生したら迅速で反映 インフラ管理は不要。キャパシティを自動的に制御
  • 112. © 2021, Amazon Web Services, Inc. or its Affiliates. プレビュー時にサポートされるsourceとtarget Source Target Amazon DynamoDB ✓ Amazon Elasticsearch Service ✓ Amazon S3 ✓ Amazon Redshift ✓
  • 113. © 2021, Amazon Web Services, Inc. or its Affiliates. previewで利用可能なユースケース • DynamoDB内のデータの検索インデックスをElasticsearch内に作成 Amazon DynamoDB • DynamoDB内の業務データをDataLakeに統合 • DynamoDB内のデータをRedshiftで分析 Amazon DynamoDB Amazon DynamoDB Amazon Elasticsearch Service AWS Glue Elastic Views Amazon Simple Storage Service AWS Glue Elastic Views Amazon Redshift AWS Glue Elastic Views
  • 114. © 2021, Amazon Web Services, Inc. or its Affiliates. AWS Glue の構成要素と周辺サービス(再掲) Extract, Transform, and Load(ETL)ジョブ AWS Glue Data Catalog Crawler Workflow Management AWS Glue Studio AWS Glue DataBrew AWS Elastic Views New
  • 115. © 2021, Amazon Web Services, Inc. or its Affiliates. まとめ
  • 116. © 2021, Amazon Web Services, Inc. or its Affiliates. まとめ 1. AWS Glueとは、 サービス間でデータを簡単に移動するための、サーバーレスデータ統合サービス 2. データの前処理が必要な場合、 AWS Glue Studioを使用することでグラフィカルにETLJobを作成可能 3. データがAWS以外に格納されている場合でも、 AWS Glue Custom Connectorsを使用することでデータの移動が可能
  • 117. © 2021, Amazon Web Services, Inc. or its Affiliates. 参考情報 AWS Glue ホームページ https://aws.amazon.com/jp/glue/ AWS Glue 開発者ガイド(公式ドキュメント) https://aws.amazon.com/jp/documentation/glue/ AWS Glue custom connectors の設定例 https://aws.amazon.com/jp/blogs/big-data/migrating-data-from-google-bigquery-to-amazon- s3-using-aws-glue-custom-connectors/ AWS Glueの料金 https://aws.amazon.com/jp/glue/pricing/ AWS Glueのサービス制限 https://docs.aws.amazon.com/ja_jp/general/latest/gr/aws_service_limits.html#limits_glue
  • 118. © 2021, Amazon Web Services, Inc. or its Affiliates. Q&A お答えできなかったご質問については AWS Japan Blog https://aws.amazon.com/jp/blogs/news/ に 後日掲載します。
  • 119. © 2021, Amazon Web Services, Inc. or its Affiliates. AWS の日本語資料の場所「AWS 資料」で検索 https://amzn.to/JPArchive
  • 120. © 2021, Amazon Web Services, Inc. or its Affiliates. で[検索] AWS イベント 毎週”W-A個別技術相談会”を実施中 • AWSのソリューションアーキテクト(SA)に 対策などを相談することも可能 • 申込みはイベント告知サイトから (https://aws.amazon.com/jp/about-aws/events/) AWS Well-Architected 個別技術相談会
  • 121. © 2021, Amazon Web Services, Inc. or its Affiliates. 4月以降のBlack Belt Online Seminarについて ライブ配信によるBlack Belt Online Seminarは3月一杯で終了し、 今後はオンデマンドによる定期配信に変更いたします。 今後もコンテンツを拡充して行きますので、楽しみにお待ちください。 オンデマンドでの配信スケジュールは、AWS Blog, AWSニュースレ ターでお知らせいたします(5月17日週に再開を予定しています)
  • 122. © 2021, Amazon Web Services, Inc. or its Affiliates. AWS 公式 Webinar https://amzn.to/JPWebinar 過去資料 https://amzn.to/JPArchive ご視聴ありがとうございました