16. Hive 0.13 Support
• Hive12より、1000個以上の新機能、改善やバッグフィックスが追加され
ています
• パフォーマンスの向上
– Hive12より、数倍のパフォーマンス向上が期待できます
• Sub queryのサポート
SELECT * FROM A
WHERE EXISTS (
SELECT null
FROM B
WHERE B.id = A.id
AND B.date '2009-10-01')
SELECT key FROM t1
GROUP BY key
HAVING COUNT(value) IN (
SELECT p FROM t2);
Sub queryサポートの例
http://hortonworks.com/blog/announcing-apache-hive-0-13-completion-stinger-initiative/
17. Kinesis Integration
• KinesisストリームのデータをEMRから直接アクセス
– Hive, Pig, MapReduceでアクセス可能
– SQLライクに操作可能
– EMR AMI 3.0.4~ 利用可能
Data
Sources
Data
Sources
Data
Sources
RedShift
Kinesis
S3
App
DynamoDB
Kinesis
EMR
62. EMR as a Big Data Platform
Daily/hourly batch
Hive / Pig
Presto /
Impala
Dashboard
BI Tools
HDFS
/ S3
HBase Canssa
Fast cluster processing
Interactive query
ndra MySQL Kinesis
SQL on any data sets
Streaming
Spark
Data analysis platform
74. Sparkアーキテクチャ (続き)
• Resilient Distributed Datasets
(RDDs)
– an efficient, general-purpose and
fault-tolerant abstraction for
sharing data in cluster
applications.
– In-memory
– Partitioned
– Immutable
• RDDs support transformations
and actions