Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

20210217 AWS Black Belt Online Seminar AWS Glue DataBrew

AWS公式オンラインセミナー: https://amzn.to/JPWebinar
過去資料: https://amzn.to/JPArchive

  • Be the first to comment

20210217 AWS Black Belt Online Seminar AWS Glue DataBrew

  1. 1. © 2021, Amazon Web Services, Inc. or its Affiliates. AWS 公式 Webinar https://amzn.to/JPWebinar 過去資料 https://amzn.to/JPArchive Junpei Ozono, Solutions Architect 2021.2.17 [AWS Black Belt Online Seminar] AWS Glue DataBrew
  2. 2. © 2021, Amazon Web Services, Inc. or its Affiliates. All rights reserved. 2 AWS Black Belt Online Seminar とは 「サービス別」「ソリューション別」「業種別」のそれぞれのテーマに分かれて、アマゾ ン ウェブ サービス ジャパン株式会社が主催するオンラインセミナーシリーズです。 質問を投げることができます! • 書き込んだ質問は、主催者にしか見えません • 今後のロードマップに関するご質問は お答えできませんのでご了承下さい ① 吹き出しをクリック ② 質問を入力 ③ Sendをクリック Twitter ハッシュタグは以下をご利用ください #awsblackbelt
  3. 3. © 2021, Amazon Web Services, Inc. or its Affiliates. All rights reserved. 3 自己紹介 大薗 純平 (おおぞの じゅんぺい) @jostandard アマゾン ウェブ サービス ジャパン アナリティクスソリューションアーキテクト
  4. 4. © 2021, Amazon Web Services, Inc. or its Affiliates. 4 内容についての注意点 • 本資料では2021 年 2 月 17 日現在のサービス内容および価格についてご説明しています。最新の情報はAWS公式 ウェブサイト(http://aws.amazon.com)にてご確認ください。 • 資料作成には十分注意しておりますが、資料内の価格とAWS公式ウェブサイト記載の価格に相違があった場合、 AWS公式ウェブサイトの価格を優先とさせていただきます。 • 価格は税抜表記となっています。日本居住者のお客様には別途消費税をご請求させていただきます。 • AWS does not offer binding price quotes. AWS pricing is publicly available and is subject to change in accordance with the AWS Customer Agreement available at http://aws.amazon.com/agreement/. Any pricing information included in this document is provided only as an estimate of usage charges for AWS services based on certain information that you have provided. Monthly charges will be based on your actual use of AWS services, and may vary from the estimates provided.
  5. 5. © 2021, Amazon Web Services, Inc. or its Affiliates. 5 • データ準備の課題 • AWS Glue DataBrew 概要 • AWS Glue DataBrew の使い方 • AWS Glue DataBrew のユースケース • AWS Glue DataBrew の料金 • まとめ 本日のアジェンダ
  6. 6. © 2021, Amazon Web Services, Inc. or its Affiliates. 6 データ準備の課題
  7. 7. © 2021, Amazon Web Services, Inc. or its Affiliates. 7 データ準備 (Data prep) には複雑なタスクを伴う 抽出と ロード クリーニングと 正規化 大規模な 自動化 大規模に活用するためには複雑な ETL パイプラインの実装が必要
  8. 8. © 2021, Amazon Web Services, Inc. or its Affiliates. 8 80% の時間がデータ準備に費やされている 利用ユーザーに合った適切なツールが必要
  9. 9. © 2021, Amazon Web Services, Inc. or its Affiliates. 9 典型的なデータ準備における課題 時間がかかる 大規模なデータの抽出、クレンジング、正規化、ロードを マルチステップで行う必要がある 手動 繰り返しのワークフローを構築・運用するのは困難 スケールさせるには大規模コーディングが必要 大容量データの移動 組織間やシステム間での繰り返しのデータ移動が発生
  10. 10. © 2021, Amazon Web Services, Inc. or its Affiliates. 10 AWS Glue DataBrew 概要
  11. 11. © 2021, Amazon Web Services, Inc. or its Affiliates. 11 AWS Glue DataBrew データのクリーンアップおよび正規化を 最大 80% 高速化するビジュアルデータ準備ツール
  12. 12. © 2021, Amazon Web Services, Inc. or its Affiliates. 12 データアナリストとデータサイエンティストのためのツール データのクリーン アップと正規化 250 種類以上の組み込 みの変換処理から選択 し、データの視覚化、 クリーニング、正規化 を実施 データ品質の理解 データパターンを理解し 異常を検出するために プロファイリングを行い データの品質を評価 データリネージの 視覚化 データソースと 変換手順を視覚化 してトラッキング 自動化 保存された変換手順を 使いまわしたり 自動実行する 高度なデータ準備機能をノンコーディングで利用可能
  13. 13. © 2021, Amazon Web Services, Inc. or its Affiliates. 13 AWS Glue DataBrew の使い方
  14. 14. © 2021, Amazon Web Services, Inc. or its Affiliates. 14 プロジェクト データセットのクリーンアップや正規化などの変換に関するステップをまとめた レシピを作成するためのワークスペース データセット AWS Glue DataBrew が接続する、フィールド (列) を持つデータの集合 レシピ データ変換ステップの一連のセット ジョブ データセットに対してレシピを適用して変換処理を行うもの (レシピジョブ) データセットの統計に関するプロファイルを作成するもの (プロファイルジョブ) AWS Glue DataBrew 用語の紹介
  15. 15. © 2021, Amazon Web Services, Inc. or its Affiliates. 15 AWS Glue DataBrew の使い方 事前準備 (IAM*) データ変換処理の作成 ジョブの実行 * AWS Identity and Access Management • IAM ユーザー/グループ • IAM ロール • IAM ポリシー • プロジェクトの作成 • データセットへの接続 • レシピの作成 • レシピジョブ • プロファイルジョブ
  16. 16. © 2021, Amazon Web Services, Inc. or its Affiliates. 16 AWS Glue DataBrew の使い方 事前準備 (IAM*) データ変換処理の作成 ジョブの実行 * AWS Identity and Access Management • IAM ユーザー/グループ • IAM ロール • IAM ポリシー • プロジェクトの作成 • データセットへの接続 • レシピの作成 • レシピジョブ • プロファイルジョブ
  17. 17. © 2021, Amazon Web Services, Inc. or its Affiliates. 17 IAM おさらい https://www.slideshare.net/AmazonWebServicesJapan/20190129-aws-black-belt-online-seminar-aws-identity-and-access-management-iam-part1 https://www.slideshare.net/AmazonWebServicesJapan/20190130-aws-black-belt-online-seminar-aws-identity-and-access-management-aws-iam-part2 事前準備 データ変換処理の作成 ジョブの実行 ・・・ Optional top-level elements Statement Statement IAM ポリシー IAM グループ IAM ユーザー IAM ユーザー IAM ユーザー どのリソースにどの操作を許 可するか権限を定義する グループ内のユーザに対して 特定の権限を付与する ログインと特定の権限 を付与する IAM ロール 特定のユーザや AWS サービ スに対して権限を委任する
  18. 18. © 2021, Amazon Web Services, Inc. or its Affiliates. 18 1. AWS Glue DataBrew の利用者が 認証に使用するための IAM ユーザー/グループ および IAM ユーザー/グループにアタッチする IAM ポリシー 2. AWS Glue DataBrew サービス自体が 他の AWS サービスにアクセスする際に使用する IAM ロール および IAM ロールにアタッチする IAM ポリシー 事前準備として必要なもの https://docs.aws.amazon.com/ja_jp/databrew/latest/dg/setting-up.html
  19. 19. © 2021, Amazon Web Services, Inc. or its Affiliates. 19 IAM ユーザー/グループ準備 https://docs.aws.amazon.com/ja_jp/databrew/latest/dg/setting-up.html 事前準備 データ変換処理の作成 ジョブの実行 AWS Management Console AWS Command Line Interface (AWS CLI) AWS Glue DataBrew ・・・ Optional top-level elements Statement Statement IAM ポリシー IAM グループ IAM ユーザー IAM ユーザー IAM ユーザー ・・・ AWS マネージメントコンソールやコマンドラインインターフェース (CLI) から AWS Glue DataBrew に接続するための IAM ユーザー/グループを準備(作成) IAM ユーザー/グループに アタッチする必要な権限が 揃った IAM ポリシーを作成 IAM ポリシーを IAM ユーザー/グループにアタッチ 2 3 1
  20. 20. © 2021, Amazon Web Services, Inc. or its Affiliates. 20 IAM ロール準備 https://docs.aws.amazon.com/ja_jp/databrew/latest/dg/setting-up.html 事前準備 データ変換処理の作成 ジョブの実行 AWS Glue DataBrew ・・・ Optional top-level elements Statement Statement IAM ポリシー ・・・ AWS Glue DataBrew からアクセスが 必要な他の AWS サービスへのアクセ ス権限を定義した IAM ロールを準備 (作成) IAM ロールに アタッチする必要な権限が 揃った IAM ポリシーを作成 IAM ロール Amazon Simple Storage Service (S3) AWS Glue AWS Key Management Service (AWS KMS) 1 IAM ポリシーを IAM ロールにアタッチ 3 2
  21. 21. © 2021, Amazon Web Services, Inc. or its Affiliates. 21 AWS Glue DataBrew の使い方 事前準備 (IAM*) データ変換処理の作成 ジョブの実行 * AWS Identity and Access Management • IAM ユーザー/グループ • IAM ロール • IAM ポリシー • プロジェクトの作成 • データセットへの接続 • レシピの作成 • レシピジョブ • プロファイルジョブ
  22. 22. © 2021, Amazon Web Services, Inc. or its Affiliates. 22 マネージメントコンソールに AWS Glue DataBrew の操作権限を持った IAM ユーザーでアクセスしてプロジェクトを作成する プロジェクトの作成 https://docs.aws.amazon.com/databrew/latest/dg/projects.html 事前準備 データ変換処理の作成 ジョブの実行
  23. 23. © 2021, Amazon Web Services, Inc. or its Affiliates. 23 プロジェクトは、特定のデータセットに対する変換ステップを定義する ”レシピ”を作成するためのワークスペース プロジェクトとは 事前準備 データ変換処理の作成 ジョブの実行 https://docs.aws.amazon.com/databrew/latest/dg/projects.html
  24. 24. © 2021, Amazon Web Services, Inc. or its Affiliates. 24 プロジェクト作成手順① レシピとデータセット レシピ •新しいレシピを作成 •既存のレシピを編集 •レシピからステップをインポート データセット •マイデータセット •サンプルファイル •新しいデータセット 事前準備 データ変換処理の作成 ジョブの実行 https://docs.aws.amazon.com/databrew/latest/dg/projects.html
  25. 25. © 2021, Amazon Web Services, Inc. or its Affiliates. 25 プロジェクト作成手順② データセットの選択 加工/変換したいデータを以下の 中から選択 •ローカルファイル •Amazon S3 上のファイル •AWS Glue データカタログ •AWS Data Exchange https://docs.aws.amazon.com/databrew/latest/dg/datasets.html 事前準備 データ変換処理の作成 ジョブの実行
  26. 26. © 2021, Amazon Web Services, Inc. or its Affiliates. 26 プロジェクト作成手順③ 行サンプリング/アクセス許可 プロジェクト内で操作するデータ セットの行数をサンプリング可能 データセットに対する アクセス許可を指定 •新しい IAM ロールを作成 •既存の IAM ロールを選択 https://docs.aws.amazon.com/databrew/latest/dg/projects.html 事前準備 データ変換処理の作成 ジョブの実行 「事前準備」で IAM ロールを 作成した場合はこちらを選択
  27. 27. © 2021, Amazon Web Services, Inc. or its Affiliates. 27 インプットファイルのサポートフォーマットと拡張子 サポートされるデータセット フォーマット 拡張子 (非圧縮) *1 拡張子 (圧縮) *1 CSV *2 .csv .csv.gz, .csv.snappy, .csv.lz4, .csv.bz2, .csv.deflate TSV *2 .tsv .tsv.gz, .tsv.snappy, .tsv.lz4, .tsv.bz2, .tsv.deflate Microsoft Excel ワークブック .xlsx 非サポート JSON .json .json.gz, .json.snappy, .json.lz4, .json.bz2, .json.deflate JSON lines .jsonl .jsonl.gz, .jsonl.snappy, .jsonl.lz4, .jsonl.bz2, .jsonl.deflate Apache Parquet .parquet .parquet.gz, .gz.parquet, .parquet.snappy, .snappy.parquet, .parquet.lz4, .lz4.parquet *1 DataBrew は拡張子でファイルフォーマットを判断するため、必ず上記拡張子を使用する *2 区切り文字は Comma (,), Colon (:), Semi-colon (;), Pipe (|), Tab (¥t), Caret (^), Space に対応 https://docs.aws.amazon.com/databrew/latest/dg/datasets.html 事前準備 データ変換処理の作成 ジョブの実行
  28. 28. © 2021, Amazon Web Services, Inc. or its Affiliates. 28 Amazon S3 上の特定ファイル/フォルダを示す「S3 パス」または 正規表現を用いた「パラメータ化された S3 パス」を指定可能 例 •ある特定のファイルを指定 s3://bucket-name/inventory-data.csv •ある特定のフォルダ配下にあるすべてのファイルを指定 s3://bucket-name/folder-name/ •“2021” を名称に含むフォルダ配下にあるすべてのファイルを指定 s3://bucket-name/<.*>2021<.*>/ Amazon S3 上のデータ https://docs.aws.amazon.com/databrew/latest/dg/datasets.html 事前準備 データ変換処理の作成 ジョブの実行
  29. 29. © 2021, Amazon Web Services, Inc. or its Affiliates. 29 AWS Glue データカタログ経由で以下サービス上のデータと接続可能 •Amazon Redshift •Amazon Aurora MySQL •Amazon Aurora PostgreSQL •Amazon RDS for MySQL •Amazon RDS for PostgreSQL 他 AWS サービス上のデータ https://docs.aws.amazon.com/databrew/latest/dg/datasets.html 事前準備 データ変換処理の作成 ジョブの実行
  30. 30. © 2021, Amazon Web Services, Inc. or its Affiliates. 30 プロジェクト内でインタラクティブに変換イメージを確認しながら、 データセットに対する変換ステップのコレクションであるレシピを作成 レシピの作成 事前準備 データ変換処理の作成 ジョブの実行 1. 250 種類以上の組み込みの処理から選択 して変換ステップを作成 2. 変換ステップが確定したらレシピを発行 (2) (1) https://docs.aws.amazon.com/databrew/latest/dg/recipes.html
  31. 31. © 2021, Amazon Web Services, Inc. or its Affiliates. 31 • 作成したレシピは編集・削除でき、バージョン管理も可能 • レシピは YAML/JSON でのダウンロード, JSON のアップロードも可能 レシピの管理 事前準備 データ変換処理の作成 ジョブの実行 https://docs.aws.amazon.com/databrew/latest/dg/recipes.html
  32. 32. © 2021, Amazon Web Services, Inc. or its Affiliates. 32 代表的な変換処理
  33. 33. © 2021, Amazon Web Services, Inc. or its Affiliates. 33 データのフィルタリング 事前準備 データ変換処理の作成 ジョブの実行
  34. 34. © 2021, Amazon Web Services, Inc. or its Affiliates. 34 データの結合 事前準備 データ変換処理の作成 ジョブの実行
  35. 35. © 2021, Amazon Web Services, Inc. or its Affiliates. 35 データの集計 事前準備 データ変換処理の作成 ジョブの実行
  36. 36. © 2021, Amazon Web Services, Inc. or its Affiliates. 36 欠損値の補完 事前準備 データ変換処理の作成 ジョブの実行
  37. 37. © 2021, Amazon Web Services, Inc. or its Affiliates. 37 関数を使った新たな列の作成 事前準備 データ変換処理の作成 ジョブの実行
  38. 38. © 2021, Amazon Web Services, Inc. or its Affiliates. 38 複数列の統合 事前準備 データ変換処理の作成 ジョブの実行
  39. 39. © 2021, Amazon Web Services, Inc. or its Affiliates. 39 フラグ値の作成 事前準備 データ変換処理の作成 ジョブの実行
  40. 40. © 2021, Amazon Web Services, Inc. or its Affiliates. 40 One-hot エンコーディング 事前準備 データ変換処理の作成 ジョブの実行
  41. 41. © 2021, Amazon Web Services, Inc. or its Affiliates. 41 数値データの正規化 事前準備 データ変換処理の作成 ジョブの実行
  42. 42. © 2021, Amazon Web Services, Inc. or its Affiliates. 42 AWS Glue DataBrew の使い方 事前準備 (IAM*) データ変換処理の作成 ジョブの実行 * AWS Identity and Access Management • IAM ユーザー/グループ • IAM ロール • IAM ポリシー • プロジェクトの作成 • データセットへの接続 • レシピの作成 • レシピジョブ • プロファイルジョブ
  43. 43. © 2021, Amazon Web Services, Inc. or its Affiliates. 43 AWS Glue DataBrew には 2 種類のジョブがある •レシピジョブ • データセットに対してレシピを適用して変換処理を行うもの •プロファイルジョブ • データセットの統計に関するプロファイルを作成するもの ジョブを実行しても対象のデータセットを書き換えることはせず、 指定した Amazon S3 上に結果を書き出す ジョブ 事前準備 データ変換処理の作成 ジョブの実行 https://docs.aws.amazon.com/databrew/latest/dg/jobs.html
  44. 44. © 2021, Amazon Web Services, Inc. or its Affiliates. 44 レシピジョブ
  45. 45. © 2021, Amazon Web Services, Inc. or its Affiliates. 45 レシピジョブの作成手順① データセットに対してレシピを適用して変換処理 ジョブタイプとして 「レシピジョブを作成」を選択 ジョブを実行する対象の •データセット •プロジェクト •レシピ を選択 事前準備 データ変換処理の作成 ジョブの実行 https://docs.aws.amazon.com/databrew/latest/dg/jobs.html
  46. 46. © 2021, Amazon Web Services, Inc. or its Affiliates. 46 レシピジョブの作成手順② データセットに対してレシピを適用して変換処理 ジョブの出力結果のアウトプット ファイルフォーマットや書き出し 先の S3 プレフィックスを指定 パーティションの設定や ファイルの上書きオプション、 暗号化設定も指定することが可能 事前準備 データ変換処理の作成 ジョブの実行 https://docs.aws.amazon.com/databrew/latest/dg/jobs.html
  47. 47. © 2021, Amazon Web Services, Inc. or its Affiliates. 47 アウトプットファイルのサポートフォーマットと拡張子 サポートされるデータセット フォーマット 拡張子 (非圧縮) 拡張子 (圧縮) CSV *1 .csv .csv.snappy, .csv.gz, .csv.lz4, csv.bz2, .csv.deflate Apache Parquet 非サポート .parquet.snappy, .parquet.gz, .parquet.lz4, .parquet.lzo AWS Glue Parquet 非サポート .glue.parquet.snappy Apache Avro .avro .avro.snappy, .avro.gz, .avro.lz4, .avro.bz2, .avro.deflate Apache Orc 非サポート .orc.snappy, .orc.lzo, .orc.zlib XML .xml .xml.snappy, .xml.gz, .xml.lz4, .xml.bz2, .xml.deflate JSON (JSON Lines format only) .json .json.snappy, .json.gz, .json.lz4, json.bz2, .json.deflate *1 区切り文字は Comma (,), Colon (:), Semi-colon (;), Pipe (|), Tab (¥t), Caret (^), Space に対応 https://docs.aws.amazon.com/databrew/latest/dg/jobs.html 事前準備 データ変換処理の作成 ジョブの実行
  48. 48. © 2021, Amazon Web Services, Inc. or its Affiliates. 48 レシピジョブの作成手順② データセットに対してレシピを適用して変換処理 ジョブに割り当てるノード数や タイムアウト、リトライ回数を 指定し、パフォーマンスを調整 することが可能 •ノード数はデフォルト 5, 最大 149 •1 ノード 4 vCPUs, 16GB メモリ データセットに対する アクセス許可を指定 •新しい IAM ロールを作成 •既存の IAM ロールを選択 事前準備 データ変換処理の作成 ジョブの実行 https://docs.aws.amazon.com/databrew/latest/dg/jobs.html プロジェクト作成時と同じものを選択
  49. 49. © 2021, Amazon Web Services, Inc. or its Affiliates. 49 データリネージ 事前準備 データ変換処理の作成 ジョブの実行 https://docs.aws.amazon.com/databrew/latest/dg/jobs.html データのインプットから アウトプットまでの流れを可視化 ジョブの実行状況も確認可能 各アイコンをクリックすることで 詳細情報の確認も可能
  50. 50. © 2021, Amazon Web Services, Inc. or its Affiliates. 50 プロファイルジョブ
  51. 51. © 2021, Amazon Web Services, Inc. or its Affiliates. 51 プロファイルジョブの作成手順① データセットの統計に関するプロファイルを作成 ジョブタイプとして 「プロファイルジョブを作成する」 を選択 ジョブを実行する対象の データセットを選択 事前準備 データ変換処理の作成 ジョブの実行 https://docs.aws.amazon.com/databrew/latest/dg/jobs.html
  52. 52. © 2021, Amazon Web Services, Inc. or its Affiliates. 52 プロファイルジョブの作成手順② データセットの統計に関するプロファイルを作成 データセットの サンプリング件数を指定 •全件 •件数指定 ジョブの出力結果の アウトプットファイルの 書き出し先の S3 プレフィックス を指定 事前準備 データ変換処理の作成 ジョブの実行 https://docs.aws.amazon.com/databrew/latest/dg/jobs.html
  53. 53. © 2021, Amazon Web Services, Inc. or its Affiliates. 53 ジョブに割り当てるノード数や タイムアウト、リトライ回数を 指定し、パフォーマンスを調整 することが可能 •ノード数はデフォルト 5, 最大 149 •1 ノード 4 vCPUs, 16GB メモリ データセットに対する アクセス許可を指定 •新しい IAM ロールを作成 •既存の IAM ロールを選択 事前準備 データ変換処理の作成 ジョブの実行 https://docs.aws.amazon.com/databrew/latest/dg/jobs.html プロファイルジョブの作成手順③ データセットの統計に関するプロファイルを作成 プロジェクト作成時と同じものを選択
  54. 54. © 2021, Amazon Web Services, Inc. or its Affiliates. 54 データプロファイルの生成 事前準備 データ変換処理の作成 ジョブの実行 https://docs.aws.amazon.com/databrew/latest/dg/datasets.html
  55. 55. © 2021, Amazon Web Services, Inc. or its Affiliates. 55 AWS Glue DataBrew のユースケース
  56. 56. © 2021, Amazon Web Services, Inc. or its Affiliates. 56 1. Amazon Redshift や Amazon RDS など他の AWS サービス内のデータ をアドホックに探索して整備し、BI レポーティング環境を構築する 2. 定常的に生成するデータのプロファイルチェックを自動化し通知する 3. 機械学習モデルを構築するためのデータを準備する 4. Amazon Athena にクエリして Amazon QuickSight で可視化するため のデータを準備するパイプラインをコーディングレスで構築する AWS Glue DataBrew のユースケース
  57. 57. © 2021, Amazon Web Services, Inc. or its Affiliates. 57 1. BI レポーティングのためのアドホックデータ分析 Amazon Simple Storage Service (S3) AWS Glue DataBrew Amazon QuickSight S3 Output Bucket Amazon Redshift Amazon RDS Data Catalog Data Sources Amazon Simple Storage Service (S3) Local file
  58. 58. © 2021, Amazon Web Services, Inc. or its Affiliates. 58 2. AWS Lambda でデータ品質ルールを設定 Amazon Simple Notification Service Amazon EventBridge Email notification AWS Lambda Amazon Simple Storage Service (S3) AWS Glue DataBrew Recurring raw data feed https://aws.amazon.com/jp/blogs/big-data/setting-up-automated-data-quality-workflows-and-alerts-using-aws-glue-databrew-and-aws-lambda/
  59. 59. © 2021, Amazon Web Services, Inc. or its Affiliates. 59 3. 機械学習のためのデータ前処理 Amazon Simple Storage Service (S3) AWS Glue DataBrew JupyterLab Environment Inference S3 Output Bucket Model Training
  60. 60. © 2021, Amazon Web Services, Inc. or its Affiliates. 60 JupyterLab 経由で AWS Glue DataBrew に接続可能 •AWS CLI, AWS Jupyter proxy をセットアップ •JupyterLab (v.2.2.6 以降) に aws_glue_databrew_jupyter Extension をインストール •JupyterLab から AWS Glue DataBrew の接続経路はパブリック通信となる JupyterLab Extension https://docs.aws.amazon.com/databrew/latest/dg/jupyter.html Extension インストールで JupyterLab から AWS Glue DataBrew に 直接接続できるようになる
  61. 61. © 2021, Amazon Web Services, Inc. or its Affiliates. 61 4. ワークフロー内でデータ準備をオーケストレーション AWS Step Functions workflow AWS Glue DataBrew AWS Cloud Amazon Athena AWS Step Functions Amazon EventBridge AWS Glue DataBrew Amazon Simple Notification Service (Amazon SNS) Amazon Athena Amazon Athena Amazon QuickSight AWS Glue Data Catalog マーケティング チーム BI ユーザー https://aws.amazon.com/jp/blogs/big-data/orchestrating-an-aws-glue-databrew-job-and-amazon-athena-query-with-aws-step-functions/ S3 Output Bucket S3 Input Bucket
  62. 62. © 2021, Amazon Web Services, Inc. or its Affiliates. 62 AWS Step Functions との連携 AWS Glue DataBrew ジョブを AWS Step Functions の ワークフローに統合可能 データのクリーニングや正規化の ステップを、分析や機械学習の ワークフローの一部として オーケストレーション可能に https://docs.aws.amazon.com/step-functions/latest/dg/connect-databrew.html
  63. 63. © 2021, Amazon Web Services, Inc. or its Affiliates. 63 AWS Glue DataBrew ビジネスアナリスト データサイエンティスト リッチなビジュアルインターフェース によりデータを整形・正規化 250 以上の組み込みの変換機能 を選択し、タスクを自動化 データパターンや異常値を把握するための データプロファイル機能 大規模なデータセットを操作可能 AWS Glue Studio E T L デ ベ ロ ッ パ ー コードを記述せずに ETL ジョブを 視覚的にオーサリング コンソールから数千のジョブを監視 学習コストなしに分散処理を活用 再利用可能なコードを使った高度な変換
  64. 64. © 2021, Amazon Web Services, Inc. or its Affiliates. 64 AWS Glue DataBrew の料金
  65. 65. © 2021, Amazon Web Services, Inc. or its Affiliates. 65 • DataBrew ジョブ - $0.48/node/hour •ジョブの実行に使用された AWS Glue DataBrew ノードの数に基づいて 1 時間ごとの料金が発生 •デフォルトでは各ジョブに 5 ノード 割り当てられる •1 ノード 4 vCPUs, 16GB メモリ • DataBrew インタラクティブセッション - $1/30分 •DataBrew プロジェクトを開くとセッションが開始され、 未操作の時間が続いた場合自動的にサスペンド •はじめて DataBrew にアクセスする場合、最初の 40 セッションは無償 AWS Glue DataBrew の料金 https://aws.amazon.com/jp/glue/pricing/
  66. 66. © 2021, Amazon Web Services, Inc. or its Affiliates. 66 まとめ
  67. 67. © 2021, Amazon Web Services, Inc. or its Affiliates. 67 • AWS Glue DataBrew は、データのクリーンアップおよび正規化を 最大 80% 高速化するビジュアルデータ準備ツール • データアナリストやサイエンティストが コーディングを行うことなしに、 250 種類以上の組み込みの変換処理を使って データを分析に必要な形に簡単に整形することが可能 • アドホックなデータ探索、データの品質チェック、 機械学習モデル構築の前処理、データ分析パイプライン構築など さまざまなユースケースに活用することが可能 まとめ
  68. 68. © 2021, Amazon Web Services, Inc. or its Affiliates. 68 Q&A お答えできなかったご質問については AWS Japan Blog https://aws.amazon.com/jp/blogs/news/ に 後日掲載します。
  69. 69. © 2021, Amazon Web Services, Inc. or its Affiliates. 69 AWS の日本語資料の場所「AWS 資料」で検索 https://amzn.to/JPArchive
  70. 70. © 2021, Amazon Web Services, Inc. or its Affiliates. 70 で[検索] AWS イベント 毎週”W-A個別技術相談会”を実施中 • AWSのソリューションアーキテクト(SA)に 対策などを相談することも可能 • 申込みはイベント告知サイトから (https://aws.amazon.com/jp/about-aws/events/) AWS Well-Architected 個別技術相談会
  71. 71. © 2021, Amazon Web Services, Inc. or its Affiliates. 72 AWS 公式 Webinar https://amzn.to/JPWebinar 過去資料 https://amzn.to/JPArchive ご視聴ありがとうございました

×