More Related Content Similar to データ分析基盤、どう作る?システム設計のポイント、教えます - Developers.IO 2019 (20191101) (20) More from Yosuke Katsuki (14) データ分析基盤、どう作る?システム設計のポイント、教えます - Developers.IO 2019 (20191101)7. 7データ分析基盤 最小構成の例
AWS Cloud
Region
Availability Zone Availability Zone
VPC
Private subnet
Public subnet
Desktop
BI Tool
EC2 Instance
Generic
database
Traditional
server
DWH(RDB)Bucket with
objects
Internet
gatewayCSV file
Office PC
18. 18S3のバケット構造
データファイルはフォルダで階層分けする
• AthenaやRedshift Spectrumなどで検索する事を想定
• パーティション情報を与える事で検索コスト減
s3://athena-examples/elb/plaintext/2015/01/01/
s3://elasticmapreduce/samples/hive-ads/tables/impressions/
dt=2009-04-12-13-00/
dt=2009-04-12-13-05/
dt=2009-04-12-13-10/
dt=2009-04-12-13-15/
…
引用元:Amzon Athenaユーザーズガイド
https://docs.aws.amazon.com/ja_jp/redshift/latest/dg/c-spectrum-external-tables.html
21. 21Athena, Redshift, Redshift Spectrumの領域イメージ
Data lake
Amazon S3Amazon Athena
Amazon Redshift
AWS Glue Data
Catalog
Redshift Tables
File Tables
File Tables
Redshift Spectrum
23. 23ETL vs ELT
ETL: S3のファイルを加工しながらDWHへロード
• AWSの場合、Glueジョブフローの作成と実行
• 主な必要スキル:PySpark
• その他手段としては、市販のETLツール
• 主な必要要素:財力
• 構成が複雑になる代わりに、DWHへ負担を掛けない
ELT: ファイルを先にDWHにロードしてDWH内で加工
• バルクロード後のデータをSQLで集計
• 主な必要スキル:SQL
• 構成はシンプルになるが、DWHに負担が掛かる
25. 25データ提供方法
基本はBIツールや分析ツール
• Tableau, Looker, SPSS…
• 多くのDWHはODBC, JDBC対応なので、
汎用的なツールはだいたい使える
「人はなぜ BIツールを
CSVダウンロードツールにしてしまうのか」
• BIツールの一部は、帳票表示が苦手
• 何のためにCSVファイルをエクスポートするのか
• BIで目的が完了できるよう、現在の業務における
データの用途を検討して欲しい