Submit Search
Upload
Cmdevio2015 devday-g-3
•
7 likes
•
2,570 views
S
Satoru Ishikawa
Follow
Design and tuning of data analysis infrastructure for Amazon Redshift.
Read less
Read more
Data & Analytics
Report
Share
Report
Share
1 of 39
Download now
Download to read offline
Recommended
Soft layer環境でのdb2構成ガイド
Soft layer環境でのdb2構成ガイド
japan_db2
Ibm クラウドデータベースの使いどころ
Ibm クラウドデータベースの使いどころ
japan_db2
Hybrid configurations db2_for_slideshare
Hybrid configurations db2_for_slideshare
japan_db2
記憶域スペースと Windows Server VNext でのストレージ関連機能の強化ポイント - MVP Community Camp 2015
記憶域スペースと Windows Server VNext でのストレージ関連機能の強化ポイント - MVP Community Camp 2015
Masahiko Sada
Db2 Warehouse on Cloud Flex テクニカルハンドブック 2020年3月版
Db2 Warehouse on Cloud Flex テクニカルハンドブック 2020年3月版
IBM Analytics Japan
Windows と標準的なハードウェアで構築するストレージ サーバー
Windows と標準的なハードウェアで構築するストレージ サーバー
Masahiko Sada
dashDB local ご紹介
dashDB local ご紹介
IBM Analytics Japan
[20171019 三木会] データベース・マイグレーションについて by 株式会社シー・エス・イー 藤井 元雄 氏
[20171019 三木会] データベース・マイグレーションについて by 株式会社シー・エス・イー 藤井 元雄 氏
Insight Technology, Inc.
Recommended
Soft layer環境でのdb2構成ガイド
Soft layer環境でのdb2構成ガイド
japan_db2
Ibm クラウドデータベースの使いどころ
Ibm クラウドデータベースの使いどころ
japan_db2
Hybrid configurations db2_for_slideshare
Hybrid configurations db2_for_slideshare
japan_db2
記憶域スペースと Windows Server VNext でのストレージ関連機能の強化ポイント - MVP Community Camp 2015
記憶域スペースと Windows Server VNext でのストレージ関連機能の強化ポイント - MVP Community Camp 2015
Masahiko Sada
Db2 Warehouse on Cloud Flex テクニカルハンドブック 2020年3月版
Db2 Warehouse on Cloud Flex テクニカルハンドブック 2020年3月版
IBM Analytics Japan
Windows と標準的なハードウェアで構築するストレージ サーバー
Windows と標準的なハードウェアで構築するストレージ サーバー
Masahiko Sada
dashDB local ご紹介
dashDB local ご紹介
IBM Analytics Japan
[20171019 三木会] データベース・マイグレーションについて by 株式会社シー・エス・イー 藤井 元雄 氏
[20171019 三木会] データベース・マイグレーションについて by 株式会社シー・エス・イー 藤井 元雄 氏
Insight Technology, Inc.
[db tech showcase Tokyo 2017] A27: ストレージ視点から見たMariaDB性能チューニング by 東芝メモリ株式会社 佐藤修一
[db tech showcase Tokyo 2017] A27: ストレージ視点から見たMariaDB性能チューニング by 東芝メモリ株式会社 佐藤修一
Insight Technology, Inc.
Windows Server 2012 のストレージ強化とエンタープライズへの活用
Windows Server 2012 のストレージ強化とエンタープライズへの活用
Daichi Ogawa
Db2 Warehouse on Cloud Flex ご紹介資料 2020年3月版
Db2 Warehouse on Cloud Flex ご紹介資料 2020年3月版
IBM Analytics Japan
Db2リブランディングと製品動向 201707
Db2リブランディングと製品動向 201707
IBM Analytics Japan
Windows Server 2012 Essentials~ストレージに関する考察~
Windows Server 2012 Essentials~ストレージに関する考察~
Masahiko Sada
Db2 & Db2 Warehouse v11.5.4 最新情報アップデート2020年8月25日
Db2 & Db2 Warehouse v11.5.4 最新情報アップデート2020年8月25日
IBM Analytics Japan
第22回-第1部「この価格でここまでできる!驚愕のエントリー・ストレージ活用方法」-IBM Storwize V3700-(2012/11/29 on し...
第22回-第1部「この価格でここまでできる!驚愕のエントリー・ストレージ活用方法」-IBM Storwize V3700-(2012/11/29 on し...
System x 部 (生!) : しすなま! @ Lenovo Enterprise Solutions Ltd.
第19回「IBM Smarter Storage、ストレージに関するビジョンと展望」(2012/08/23 on しすなま!)
第19回「IBM Smarter Storage、ストレージに関するビジョンと展望」(2012/08/23 on しすなま!)
System x 部 (生!) : しすなま! @ Lenovo Enterprise Solutions Ltd.
160625 cloud samurai_adds_migration_160625
160625 cloud samurai_adds_migration_160625
wintechq
[db tech showcase Tokyo 2017] E14: 進化を続けるPostgreSQL ~Linuxの成功からみるPostgreSQLの将...
[db tech showcase Tokyo 2017] E14: 進化を続けるPostgreSQL ~Linuxの成功からみるPostgreSQLの将...
Insight Technology, Inc.
ReadyNAS OS 6.9.0 新機能紹介
ReadyNAS OS 6.9.0 新機能紹介
NETGEAR Japan
Ws2012フェールオーバークラスタリングdeep dive 130802
Ws2012フェールオーバークラスタリングdeep dive 130802
wintechq
Db2 Warehouse セッション資料 db tech showcase
Db2 Warehouse セッション資料 db tech showcase
IBM Analytics Japan
PaaS DBへの移行/連携ソリューション紹介! AWS, Azure, Google, IBM全てできます!
PaaS DBへの移行/連携ソリューション紹介! AWS, Azure, Google, IBM全てできます!
株式会社クライム
20180216 sapporo techbar_db_migration
20180216 sapporo techbar_db_migration
Insight Technology, Inc.
DB2をAWS上に構築する際のヒント&TIPS 2018年1月版
DB2をAWS上に構築する際のヒント&TIPS 2018年1月版
Akira Shimosako
db-tech-showcase-sapporo-b24-20150911p
db-tech-showcase-sapporo-b24-20150911p
Satoru Ishikawa
Amazon Redshift パフォーマンスチューニングテクニックと最新アップデート
Amazon Redshift パフォーマンスチューニングテクニックと最新アップデート
Amazon Web Services Japan
Sbc odps 200_data_works_handson_ver1.0
Sbc odps 200_data_works_handson_ver1.0
洋 謝
Movable typeseminar 20120925
Movable typeseminar 20120925
Six Apart
第24回「IBM STGエバンジェリスト座談会 2013年のインフラエンジニアの生き方」(2013/01/17 on しすなま!)
第24回「IBM STGエバンジェリスト座談会 2013年のインフラエンジニアの生き方」(2013/01/17 on しすなま!)
System x 部 (生!) : しすなま! @ Lenovo Enterprise Solutions Ltd.
クラウドの破壊力
クラウドの破壊力
Osaka University
More Related Content
What's hot
[db tech showcase Tokyo 2017] A27: ストレージ視点から見たMariaDB性能チューニング by 東芝メモリ株式会社 佐藤修一
[db tech showcase Tokyo 2017] A27: ストレージ視点から見たMariaDB性能チューニング by 東芝メモリ株式会社 佐藤修一
Insight Technology, Inc.
Windows Server 2012 のストレージ強化とエンタープライズへの活用
Windows Server 2012 のストレージ強化とエンタープライズへの活用
Daichi Ogawa
Db2 Warehouse on Cloud Flex ご紹介資料 2020年3月版
Db2 Warehouse on Cloud Flex ご紹介資料 2020年3月版
IBM Analytics Japan
Db2リブランディングと製品動向 201707
Db2リブランディングと製品動向 201707
IBM Analytics Japan
Windows Server 2012 Essentials~ストレージに関する考察~
Windows Server 2012 Essentials~ストレージに関する考察~
Masahiko Sada
Db2 & Db2 Warehouse v11.5.4 最新情報アップデート2020年8月25日
Db2 & Db2 Warehouse v11.5.4 最新情報アップデート2020年8月25日
IBM Analytics Japan
第22回-第1部「この価格でここまでできる!驚愕のエントリー・ストレージ活用方法」-IBM Storwize V3700-(2012/11/29 on し...
第22回-第1部「この価格でここまでできる!驚愕のエントリー・ストレージ活用方法」-IBM Storwize V3700-(2012/11/29 on し...
System x 部 (生!) : しすなま! @ Lenovo Enterprise Solutions Ltd.
第19回「IBM Smarter Storage、ストレージに関するビジョンと展望」(2012/08/23 on しすなま!)
第19回「IBM Smarter Storage、ストレージに関するビジョンと展望」(2012/08/23 on しすなま!)
System x 部 (生!) : しすなま! @ Lenovo Enterprise Solutions Ltd.
160625 cloud samurai_adds_migration_160625
160625 cloud samurai_adds_migration_160625
wintechq
[db tech showcase Tokyo 2017] E14: 進化を続けるPostgreSQL ~Linuxの成功からみるPostgreSQLの将...
[db tech showcase Tokyo 2017] E14: 進化を続けるPostgreSQL ~Linuxの成功からみるPostgreSQLの将...
Insight Technology, Inc.
ReadyNAS OS 6.9.0 新機能紹介
ReadyNAS OS 6.9.0 新機能紹介
NETGEAR Japan
Ws2012フェールオーバークラスタリングdeep dive 130802
Ws2012フェールオーバークラスタリングdeep dive 130802
wintechq
Db2 Warehouse セッション資料 db tech showcase
Db2 Warehouse セッション資料 db tech showcase
IBM Analytics Japan
PaaS DBへの移行/連携ソリューション紹介! AWS, Azure, Google, IBM全てできます!
PaaS DBへの移行/連携ソリューション紹介! AWS, Azure, Google, IBM全てできます!
株式会社クライム
20180216 sapporo techbar_db_migration
20180216 sapporo techbar_db_migration
Insight Technology, Inc.
DB2をAWS上に構築する際のヒント&TIPS 2018年1月版
DB2をAWS上に構築する際のヒント&TIPS 2018年1月版
Akira Shimosako
What's hot
(16)
[db tech showcase Tokyo 2017] A27: ストレージ視点から見たMariaDB性能チューニング by 東芝メモリ株式会社 佐藤修一
[db tech showcase Tokyo 2017] A27: ストレージ視点から見たMariaDB性能チューニング by 東芝メモリ株式会社 佐藤修一
Windows Server 2012 のストレージ強化とエンタープライズへの活用
Windows Server 2012 のストレージ強化とエンタープライズへの活用
Db2 Warehouse on Cloud Flex ご紹介資料 2020年3月版
Db2 Warehouse on Cloud Flex ご紹介資料 2020年3月版
Db2リブランディングと製品動向 201707
Db2リブランディングと製品動向 201707
Windows Server 2012 Essentials~ストレージに関する考察~
Windows Server 2012 Essentials~ストレージに関する考察~
Db2 & Db2 Warehouse v11.5.4 最新情報アップデート2020年8月25日
Db2 & Db2 Warehouse v11.5.4 最新情報アップデート2020年8月25日
第22回-第1部「この価格でここまでできる!驚愕のエントリー・ストレージ活用方法」-IBM Storwize V3700-(2012/11/29 on し...
第22回-第1部「この価格でここまでできる!驚愕のエントリー・ストレージ活用方法」-IBM Storwize V3700-(2012/11/29 on し...
第19回「IBM Smarter Storage、ストレージに関するビジョンと展望」(2012/08/23 on しすなま!)
第19回「IBM Smarter Storage、ストレージに関するビジョンと展望」(2012/08/23 on しすなま!)
160625 cloud samurai_adds_migration_160625
160625 cloud samurai_adds_migration_160625
[db tech showcase Tokyo 2017] E14: 進化を続けるPostgreSQL ~Linuxの成功からみるPostgreSQLの将...
[db tech showcase Tokyo 2017] E14: 進化を続けるPostgreSQL ~Linuxの成功からみるPostgreSQLの将...
ReadyNAS OS 6.9.0 新機能紹介
ReadyNAS OS 6.9.0 新機能紹介
Ws2012フェールオーバークラスタリングdeep dive 130802
Ws2012フェールオーバークラスタリングdeep dive 130802
Db2 Warehouse セッション資料 db tech showcase
Db2 Warehouse セッション資料 db tech showcase
PaaS DBへの移行/連携ソリューション紹介! AWS, Azure, Google, IBM全てできます!
PaaS DBへの移行/連携ソリューション紹介! AWS, Azure, Google, IBM全てできます!
20180216 sapporo techbar_db_migration
20180216 sapporo techbar_db_migration
DB2をAWS上に構築する際のヒント&TIPS 2018年1月版
DB2をAWS上に構築する際のヒント&TIPS 2018年1月版
Similar to Cmdevio2015 devday-g-3
db-tech-showcase-sapporo-b24-20150911p
db-tech-showcase-sapporo-b24-20150911p
Satoru Ishikawa
Amazon Redshift パフォーマンスチューニングテクニックと最新アップデート
Amazon Redshift パフォーマンスチューニングテクニックと最新アップデート
Amazon Web Services Japan
Sbc odps 200_data_works_handson_ver1.0
Sbc odps 200_data_works_handson_ver1.0
洋 謝
Movable typeseminar 20120925
Movable typeseminar 20120925
Six Apart
第24回「IBM STGエバンジェリスト座談会 2013年のインフラエンジニアの生き方」(2013/01/17 on しすなま!)
第24回「IBM STGエバンジェリスト座談会 2013年のインフラエンジニアの生き方」(2013/01/17 on しすなま!)
System x 部 (生!) : しすなま! @ Lenovo Enterprise Solutions Ltd.
クラウドの破壊力
クラウドの破壊力
Osaka University
20180630 interact2018 rev1
20180630 interact2018 rev1
Takano Masaru
20190516_DLC10_PGStrom
20190516_DLC10_PGStrom
Kohei KaiGai
Cld002 windows server_2016_で作るシンプ
Cld002 windows server_2016_で作るシンプ
Tech Summit 2016
Cm re growth-devio-mtup11-sapporo-004
Cm re growth-devio-mtup11-sapporo-004
Satoru Ishikawa
Game Architecture Trends in Tokyo Kansai Social Game Study#5
Game Architecture Trends in Tokyo Kansai Social Game Study#5
Yasuhiro Matsuo
Snr005 レノボだから実現
Snr005 レノボだから実現
Tech Summit 2016
セミナー資料 2017年1月27日開催「クラウドCAEフェスティバル」
セミナー資料 2017年1月27日開催「クラウドCAEフェスティバル」
Rescale Japan株式会社
Dell emc highperformancevirtualinfracommunitymeetup_20180621publish
Dell emc highperformancevirtualinfracommunitymeetup_20180621publish
Makoto Ono
ゲームインフラと解析基盤 そのものの考え方を変えるAWS
ゲームインフラと解析基盤 そのものの考え方を変えるAWS
Yasuhiro Horiuchi
20160625 cloud samuai_final
20160625 cloud samuai_final
Takano Masaru
乗り遅れるな!IBMが本気で取り組む新世代クラウドサービスを徹底解説
乗り遅れるな!IBMが本気で取り組む新世代クラウドサービスを徹底解説
Kimihiko Kitase
[AWSマイスターシリーズ] Amazon Redshift
[AWSマイスターシリーズ] Amazon Redshift
Amazon Web Services Japan
Share pointを支えるsql server2014最新情報 tokyo_公開用
Share pointを支えるsql server2014最新情報 tokyo_公開用
Yukio Kumazawa
第29回 SQL Server 勉強会 (JSSUG) - Azure Synapse Analytics 概要
第29回 SQL Server 勉強会 (JSSUG) - Azure Synapse Analytics 概要
Daiyu Hatakeyama
Similar to Cmdevio2015 devday-g-3
(20)
db-tech-showcase-sapporo-b24-20150911p
db-tech-showcase-sapporo-b24-20150911p
Amazon Redshift パフォーマンスチューニングテクニックと最新アップデート
Amazon Redshift パフォーマンスチューニングテクニックと最新アップデート
Sbc odps 200_data_works_handson_ver1.0
Sbc odps 200_data_works_handson_ver1.0
Movable typeseminar 20120925
Movable typeseminar 20120925
第24回「IBM STGエバンジェリスト座談会 2013年のインフラエンジニアの生き方」(2013/01/17 on しすなま!)
第24回「IBM STGエバンジェリスト座談会 2013年のインフラエンジニアの生き方」(2013/01/17 on しすなま!)
クラウドの破壊力
クラウドの破壊力
20180630 interact2018 rev1
20180630 interact2018 rev1
20190516_DLC10_PGStrom
20190516_DLC10_PGStrom
Cld002 windows server_2016_で作るシンプ
Cld002 windows server_2016_で作るシンプ
Cm re growth-devio-mtup11-sapporo-004
Cm re growth-devio-mtup11-sapporo-004
Game Architecture Trends in Tokyo Kansai Social Game Study#5
Game Architecture Trends in Tokyo Kansai Social Game Study#5
Snr005 レノボだから実現
Snr005 レノボだから実現
セミナー資料 2017年1月27日開催「クラウドCAEフェスティバル」
セミナー資料 2017年1月27日開催「クラウドCAEフェスティバル」
Dell emc highperformancevirtualinfracommunitymeetup_20180621publish
Dell emc highperformancevirtualinfracommunitymeetup_20180621publish
ゲームインフラと解析基盤 そのものの考え方を変えるAWS
ゲームインフラと解析基盤 そのものの考え方を変えるAWS
20160625 cloud samuai_final
20160625 cloud samuai_final
乗り遅れるな!IBMが本気で取り組む新世代クラウドサービスを徹底解説
乗り遅れるな!IBMが本気で取り組む新世代クラウドサービスを徹底解説
[AWSマイスターシリーズ] Amazon Redshift
[AWSマイスターシリーズ] Amazon Redshift
Share pointを支えるsql server2014最新情報 tokyo_公開用
Share pointを支えるsql server2014最新情報 tokyo_公開用
第29回 SQL Server 勉強会 (JSSUG) - Azure Synapse Analytics 概要
第29回 SQL Server 勉強会 (JSSUG) - Azure Synapse Analytics 概要
More from Satoru Ishikawa
データ分析を支える技術 データ分析基盤再入門
データ分析を支える技術 データ分析基盤再入門
Satoru Ishikawa
BigData-JAWS#16 Lake House Architecture
BigData-JAWS#16 Lake House Architecture
Satoru Ishikawa
データ分析を支える技術 DWH再入門
データ分析を支える技術 DWH再入門
Satoru Ishikawa
re:Growth2019 Analytics Updates
re:Growth2019 Analytics Updates
Satoru Ishikawa
Developers.IO 2019 Effective Datalake
Developers.IO 2019 Effective Datalake
Satoru Ishikawa
re:invent 2018 analytics関連アップデート
re:invent 2018 analytics関連アップデート
Satoru Ishikawa
Re invent 2017 データベースサービス総復習!
Re invent 2017 データベースサービス総復習!
Satoru Ishikawa
20161214 re growth-sapporo
20161214 re growth-sapporo
Satoru Ishikawa
Classmethod awsstudy ec2rds20160114
Classmethod awsstudy ec2rds20160114
Satoru Ishikawa
re:Growth ビッグデータ観点で見た AWS re:Invent 2015
re:Growth ビッグデータ観点で見た AWS re:Invent 2015
Satoru Ishikawa
Running Amazon S3 Encryption
Running Amazon S3 Encryption
Satoru Ishikawa
Cloud Programing for beginner
Cloud Programing for beginner
Satoru Ishikawa
More from Satoru Ishikawa
(12)
データ分析を支える技術 データ分析基盤再入門
データ分析を支える技術 データ分析基盤再入門
BigData-JAWS#16 Lake House Architecture
BigData-JAWS#16 Lake House Architecture
データ分析を支える技術 DWH再入門
データ分析を支える技術 DWH再入門
re:Growth2019 Analytics Updates
re:Growth2019 Analytics Updates
Developers.IO 2019 Effective Datalake
Developers.IO 2019 Effective Datalake
re:invent 2018 analytics関連アップデート
re:invent 2018 analytics関連アップデート
Re invent 2017 データベースサービス総復習!
Re invent 2017 データベースサービス総復習!
20161214 re growth-sapporo
20161214 re growth-sapporo
Classmethod awsstudy ec2rds20160114
Classmethod awsstudy ec2rds20160114
re:Growth ビッグデータ観点で見た AWS re:Invent 2015
re:Growth ビッグデータ観点で見た AWS re:Invent 2015
Running Amazon S3 Encryption
Running Amazon S3 Encryption
Cloud Programing for beginner
Cloud Programing for beginner
Cmdevio2015 devday-g-3
1.
Developer Day G-3 石川 覚, ソリューションアーキテクト クラスメソッド株式会社 Ⓒ
Classmethod, Inc. 2015年03月29日 Amazon Redshift による データ分析基盤の設計・チューニング
2.
石川 覚(いしかわ さとる) 2Ⓒ
Classmethod, Inc. メーカー系SE、VoIP関連ベンチャー企業を経て CMに2014/06 join 札幌出身、東京に8年 Linux, Java, MySQL マイブームはR 当然 AWS好き クラスメソッド株式会社 ソリューションアーキテクト
3.
3Ⓒ Classmethod, Inc. ブログ
4.
4Ⓒ Classmethod, Inc. カスタマーストーリー
/ データ 4 カスタマーストーリーで 「データ分析の民主化」をお手伝い 販売データ(POS)やモバイルログなど、企業に存在する様々なデータを集 約し、様々な角度から顧客理解を深める、ビックデータ分析基盤を提供しま す。
5.
5Ⓒ Classmethod, Inc. アジェンダ はじめに Redshiftのアーキテクチャ RDS/RDBとの相違点 データ解析基盤の設計 パフォーマンスチューニング トラブルシューティング まとめ
6.
Ⓒ Classmethod, Inc. はじめに
7.
PostgreSQLと「ざっくり」互換 - PostgreSQL8.3がベース - 既存のPostgreSQL用ツールが使える -
PostgreSQLのODBC/JDBCによる接続 ParAccelの技術がベース - 2012年7月にParAccelの技術ラインセンスを獲得 - DBエンジンはParAccel技術がベースとなっている 7Ⓒ Classmethod, Inc. Redshiftの技術的バックグラウンド
8.
8Ⓒ Classmethod, Inc. Redshiftに関する誤解 難しい・複雑 シンプル -
徹底したシェアード・ナッシングアーキテクチャー ベンダロックイン ベンダロックオン - ODBC/JDBCによるオープンなデータベースアクセス - COPY、UNLOADコマンドによる高速な入出力 - お客様が使いたくて使ってる 高価 高速・低価格 - ノードタイプの変更やノード数の伸縮可能 - 初期投資が不要で低価格
9.
Ⓒ Classmethod, Inc. RedshiftのArchitecture
10.
Leader Node - SQL
Endpoint - メタデータの管理 - クエリ実行の連携 Compute Nodes - カラムナ・ストレージをローカルに保持 - クエリーを並列実行 - S3, DynamoDB, EMR, SSHを経由して、 データのロード・アンロード、バックアッ プ・リストア 2つのHWプラットフォーム - データ処理に最適化した - DW1 HDD 2TB~2PBまでスケール - DW2 SSD 0.16TB~326TBまでスケール 10Ⓒ Classmethod, Inc. クラスタの構成
11.
各Conpute Nodeはスライスに分けられる - スライスはCPUコア毎分けられる -
DW1:xlargeは2スライス、 8xlargeは16スライス - DW2:largeは2スライス、 8xlargeは32スライス 各スライス毎にメモリ、CPU、 ディスクが割り当てられる ワークロード単位を各スライスが 並列に実行する 11Ⓒ Classmethod, Inc. コンピュートノードとスライス
12.
Ⓒ Classmethod, Inc. RDS/RDBとの相違点
13.
13Ⓒ Classmethod, Inc. RDSとの違い ソートキー、分散キー、列圧縮タイプといったキー や項目がある -
シェアード・ナッシング方式のDWHでは一般的 - ソートキーはあるがインデックスはない シングルAZのみ - ノード間通信を高速にするためマルチAZはない
14.
14Ⓒ Classmethod, Inc. 一般的なRDBとの違い(1) 主キー制約、一意制約、外部キー制約は違反してもエ ラーにならない -
重複したキーのデータが投入される CSVでアップロードする場合 - テキストデータにNULLが含まれると失敗 サポートしているデータ型が11種類のみ - TEXT型など内部的にVARCHARに勝手に置き換えら れる
15.
15Ⓒ Classmethod, Inc. 一般的なRDBとの違い(2) 文字コードはUTF-8のみ -
4バイト以内のUTF-8 日本語の扱いに注意 - NVARCHARやNCHARがない - CHARにはシングルバイトのみ - 日本語を入れる場合はNVARCHARやNCHARの4倍 サイズを指定したVARCHARを指定する
16.
Ⓒ Classmethod, Inc. データ解析基盤の設計
17.
Rの分析結果に従いテーブルの型とサイズを定義 17Ⓒ Classmethod, Inc. データ型・サイズの調査 >
coffeechain <- read.csv("coffeechain.csv", header=T, sep=",", quote=""", as.is = TRUE) > sapply(coffeechain, class) Area.Code Date Market "integer" "character" “character" : > summary(coffeechain) Area.Code Date Market Min. :203.0 Length:4248 Length:4248 1st Qu.:417.0 Class :character Class :character Median :573.0 Mode :character Mode :character Mean :582.3 3rd Qu.:772.0 Max. :985.0 : > min(nchar(coffeechain$Market, type="bytes")) [1] 4 > max(nchar(coffeechain$Market, type="bytes")) [1] 7 データ読込 データ型 (Class)の表示 integer 最小値(Min)、 最大値(Max)、 中央値(Median) character 文字列長の最小値 最大値を取得する
18.
18Ⓒ Classmethod, Inc. 主キー・ソートキーの指定 主キー -
RDBと同様に一意に識別できるキーを指定する ソートキー - 主キーに加えて、集計したい列を順に追加 - ファクトテーブルは日付など増加する値が一般的 外部キー、一意キー - 必要に応じて設定する 制約は有効にならないが、クエリプランナーによって利用され るので設定したほうが良い 圧縮分析(ANALYZE COMPRESSION)の判定に利用される
19.
19Ⓒ Classmethod, Inc. 分散キーの選定 EVEN -
各レコードをラウンドロビンでスライスに蓄積する DISTKEY - 各レコードの明示的に指定したカラム(一つのみ)の ハッシュ値に基づきスライスにデータを蓄積する ALL - 全てのスライスにデータを蓄積する クラスタ内のスライスに対し、均等にデータを配置する ジョイン対象となるテーブルとのコロケーション考慮する データサイズが小さなマスタテーブルやディメンションはALL ファクトテーブルはDISTKEYを指定、不可能な場合はEVEN
20.
20Ⓒ Classmethod, Inc. データの投入(COPY) COPY
from S3 - S3に置いてそのファイルをRedshiftに取込む - ETL済みのデータ COPY from EC2 - EC2上のファイルをRedshiftに取込む - マニフェストファイルはS3に事前に置く必要がある - VPC内でデータを渡せる
21.
21Ⓒ Classmethod, Inc. 列圧縮タイプ データ投入済みテーブルの分析して推奨列エンコーディ ングをレポート出力 -
ANALYZE COMPRESSIONの例 エンコードタイプ キーワード raw(非圧縮) RAW バイトディクショナリ BYTEDICT デルタ DELTA DELTA32K LZO LZO mostlyn MOSTLY8 MOSTLY16 MOSTLY32 ランレングス RUNLENGTH テキスト TEXT255 TEXT32K labdb=> ANALYZE COMPRESSION users COMPROWS 1000000; Table | Column | Encoding -------+---------+---------- users | id | delta32 users | name | lzo users | age | bytedict (3 行) 最も圧縮率の高いエンコードタイプで速いものではない エンコードタイプを設定してテーブルの再作成して、データを COPYコマンドで再投入する必要があり COPYコマンドでCOMPUPDATE ON COMPROWS n を指定す ると推奨列エンコードで再作成される
22.
22Ⓒ Classmethod, Inc. ノードタイプの選定 高密度ストレージノードタイプ(HDD) -
より大容量のデータストレージが必要な場合 高密度コンピューティングタイプ(SSD) - パフォーマンス重視の作業負荷用に最適化 vCPU メモリ[GiB] (スライス) ストレージ (スライス) I/O dw1.xlarge 2 15 (7.5) 2TB HDD (1TB HDD) 0.30GB/s dw1.8xlarge 16 120 (7.5) 16TB HDD (1TB HDD) 2.40GB/s dw2.large 2 15 (7.5) 0.16TB SSD (0.08TB SSD) 0.20GB/s dw2.8xlarge 32 244 (7) 2.56TB SSD (0.08TB SSD) 3.70GB/s ※ノードタイプとストレージサイズは個別に選択できません
23.
23Ⓒ Classmethod, Inc. パフォーマンスチューニング
24.
24Ⓒ Classmethod, Inc. 最大接続・実行・カーソル数の最適化 最大接続・実行・カーソル数の相関 実行時間
vs クエリー並列度 クラスタ WLMのキュー 最大同時接続数 500以下 ー 最大クエリ同時実行数 50以下(15以下が推奨値) 50以下(15以下が推奨値) 最大同時実行カーソル数 クラスタの最大クエリ同時実行数以下 ー ベストプラクティス は15以下の同時実 行レベルを使用する こと
25.
25Ⓒ Classmethod, Inc. WLM WLM(Workload
Management) - 長いバッチ実行中に他のクエリが全く返ってこな い問題の改善するためキュー毎に並列実行する - 目的別にキューを作成し、キューに対してメモリ (%)やタイムアウト時間、並列実行数などを指定 ユーザグループとクエリ グループの2種類 最大で8つのキューで、 うち1つはデフォルト キュー
26.
26Ⓒ Classmethod, Inc. 1件ずつINSERTは遅い 代替案 -
INSERT INTO SELECT…のように一括したデータ追 加は高速 - 全データ投入ならCOPYの利用も検討 - 上記はテーブルが空の場合、ANALYZEやVACCUM は不要 - INSERTに限らずクエリーの実行にはオーバヘッド が生じるので、一回のクエリでより多くのデータ処 理するように処理方式を見直す
27.
27Ⓒ Classmethod, Inc. 既存の行を置き換えるコマンドがない 代替案 -
一部のレコードの入れ替えをするには、ステージン グテーブルを使用したマージ(Upsert)する - 更新したいデータをステージングテーブルにコピー - ステージングテーブルの更新する行と内部結合を使っ て削除した後、既存の行に置き換える 大量のデータをUpsetする場合は、更新対象テーブルとステージ ングテーブルのコロケーションを注意する CREATE TABLE LIKE ステートメントを使用してステージング テーブルを作成する
28.
28Ⓒ Classmethod, Inc. スライス単位でマルチアップロード データをスライスの倍数ファイルに分割 split
-l `wc -l bigfile.txt | awk '{print $1/32}'` -v bigfile.txt “part-“ 複数のファイルのロード - プレフィックスキーを指定するか、マニフェストファ イルにファイルのリストを明示的に指定する リモートホストからデータをロードする場合 - 各エントリは、SSH接続をするので単一ホストの場 合はパフォーマンスを考慮する { "entries": [ {“endpoint":"<ssh_endpoint_or_IP>", "command": "<remote_command>", “mandatory":true, “publickey”: “<public_key>”, "username": “<host_user_name>”} ] }
29.
29Ⓒ Classmethod, Inc. ノード間転送「再分散」の発生 「再分散」の発生要因 -
ジョイン対象となるテーブル間でノード間転送が発 生する可能性がある クエリプランの表示方法 方法1 クエリの先頭に EXPLAIN を付けて実行する 方法2 Management ConsoleからQueryタブ-Queryの番号をク リックするとQuery Execution Detailsに表示される
30.
30Ⓒ Classmethod, Inc. ノード間転送「再分散」の発生 「再分散」の確認 データ転送のオプション -
DS_DIST_NONE、DS_DIST_ALL_NONE:ノード間転送なし - DS_DIST_INNER、DS_DIST_ALL_INNER:インナーテーブル の転送 - DS_BCAST_INNER:インナーテーブルの全ノードへの転送 - DS_DIST_BOTH:インナー、アウターテーブルの転送 DB_BCAST_INNERオプ ションは「再分散」の発生
31.
31Ⓒ Classmethod, Inc. ノード間転送「再分散」の発生 「再分散」の解消 対策はテーブルのコロケーション -
特にDS_BCAST_INNERとDS_DIST_BOTHは排除 - ジョインに使用するカラムをDISTKEYとして作成、 または分散方式ALLでテーブルを再作成する DS_DIST_ALL_NONE また は DS_DIST_NONEになり 「再分散」は解消
32.
32Ⓒ Classmethod, Inc. との連携 分析目的ごとのデータマート作成 -
膨大なデータを直接アクセスするには時間を要する - 事前に分析テーマ毎に必要なデータを集計したデー タマートを作成する - Tableauから最新のデータマートを通じてデータ連 携する データマートからTableau用データファイル作成 - 作成したデータファイルはTableau Serverにパブリ シュしてセキュアでより多くの方に分析内容を展開
33.
33Ⓒ Classmethod, Inc. トラブルシューティング
34.
34Ⓒ Classmethod, Inc. 時間がUTC 現象 -
「7日前を対象外にする」クエリーを実行すると時 間が9時間ずれる 原因 - UTCのため(当たり前ですね) 対策なし - 現在、RedshiftではタイムゾーンがUTC固定となっ ており、仕様的にこのタイムゾーンを変更する事は 出来ない
35.
35Ⓒ Classmethod, Inc. EC2のインスタンスタイプ変更後に接続できない 現象 -
SELECT count(*) FROM xxx は実行できる - SELECT * FROM xxx limit 10 は数分経過後に落ちる 原因 - EC2インスタンスタイプ毎にMTUが異なる 対策 - MTUを1500に変更する CC2、C3、C4、R3、CG1、CR1、G2、HS1、HI1、I2、T2、M3 の各インスタンスタイプ は、9001 MTU(ジャンボフレーム)を提供します。他のインスタンスタイプは、1500 MTU (Ethernet v2 フレーム)を提供します。(2015/3 現在)
36.
36Ⓒ Classmethod, Inc. アプリがタイムアウトしても接続が残る 現象 -
なんか遅い、とにかく遅い 原因 - アプリが切断してもクエリが走り続けている 対策 - リクエストをキャンセルする - 可能であればWLMでキューにタイムアウトを指定 -- PIDを特定する select pid, trim(user_name), starttime, substring(query,1,20) from stv_recents where status='Running'; -- 特定したプロセスをキャンセル cancel [PID]; Management Consoleでき るようになり ました
37.
37Ⓒ Classmethod, Inc. まとめ
38.
38Ⓒ Classmethod, Inc. まとめ まずはRDB/RDSとの違いを知ることが近道 -
アーキテクチャをご理解ください - 設定項目は少ないですが、同時に必須項目です 適切な分散キーの選定は最優先 - コロケーションとデータの平準化を徹底 - 設定が正しければスライスの増加に比例して線形スケー ルする 同時実行や粒度の小さいクエリーは向きません - これまで不可能であった大規模なデータの一括集計や分 析に注力できるように活用し、チューニングしてくださ い
39.
Developer Day ご静聴ありがとうございました。 スライドは後日ブログで公開します。 39 G-3 Ⓒ Classmethod,
Inc. #cmdevio2015
Download now