SparkとCassandraの美味しい関係

©2015 DataStax Conﬁdential. Do not distribute without consent.
Apache Cassandra と Sparkの美味しい関係
1
DataStax
原沢滋
@Cassandrajapan

最初にApache Cassandraとは

x
Apache Cassandraとは分散データベース
Apache Cassandra とは
Amazon Dynamo の分散ハッシュ
テーブル（DHT）と、Google
BigTable のKVSの２つの特徴を
併せ持つビッグデータ用分散
データベース
•  Amazon DynamoとGoogle Bigtableの良い点を持つ
•  高速パフォーマンスとリニアな拡張
•  SPOF（Single Point of Failure）がない、簡単に24時
間 x 365日ダウンさせないで運用が可能
•  完全な分散
•  柔軟なNoSQLデータモデル(スキーマーレス！）
•  シンプルな運用管理
•  SQL ライクな言語CQLをサポートしている
•  様々な無償ツールとドライバ/コネクタを持つ
•  様々な整合性を選ぶ事が可能(CAP定理, BASE)
+

100,000+ ノード
数十ペタバイト
数百万件/秒以上オペレーション
最大クラスタのノード数1,000+
バージョンはv1.2 とv2.0を利用
(写真は昨年のもの)

ソニーにおけるApache Cassandra
•  Cassandraを6ヶ月でプロダクション
•  リニアスケーラビリティ
•  パフォーマンス
•  ダウンタイムがない
•  運用が楽
•  コスト
データスループット: Gigabytes/sec
トランザクション: >200,000/sec
データサイズ: Tens of terabytes

NetflixにおけるDataStax Enterprise(DSE)
(Apache Cassandra)
Netflix は映像ストリーミング配信会社
•  Netflix の全データベースのち95%を DSE を
利用
•  スループットは１千万トランザクション/秒
•  １日１兆トランザクションをDSE で処理
•  世界各地にある６つのデータセンターの
Oracle を置き換え、100%クラウドで実現
•  AWSの大規模の再起動の際も全く問題なく24
時間x365日のサービスをCassandraで提供

7

8

C*
C*
C*
C*C*
C*
Cassandra のアーキテクチャ
•  Shared Nothing (データだけでなく機能まで）
•  マスターという概念がなく、すべてのノードが完全に同じ機能を持つ
•  ハイパフォーマンスでリニアにスケールする
•  常にサービスを止めない
レプリケーション
（データのコピー）
は何台に持たせるかを決められる
Replication factor=3
7369,原沢
7369,原沢
7369,原沢
マシンが故障しても、
特定のマシンが特定の機能を
持っている訳ではないので、
他のデータのあるマシンが
同じ作業を全く問題なく処理
する事が可能

Cassandra のアーキテクチャ(マルチデータセンター）
•  複数のデータセンター内でのレプリケーションも自動で行う事が可能
•  双方向のマルチデータセンターでのレプリケーションを行う
•  どのデータセンターのどのノードを対象に対しても読み取り／書き込みが可能
•  故障時はドライバが判断して、接続できるノードに接続を行う
C*
C*
C*
C*
C*
C*
C*
C*
C*
C*
C*
C*
C*
C*
C*
C*
C*
C*
東京
大阪
クラウド
7369,原沢
7369,原沢
7369,原沢
7369,原沢
7369,原沢
7369,原沢
7369,原沢
7369,原沢
7369,原沢

C*
C*
C*
C*C*
C*
Cassandra 向きのアプリケーション
7369,原沢
7369,原沢
7369,原沢
WEB
アプリケーション
Mobile, センサー
ゲーム、インターネット
IoT
リアルタイム

たとえば: 気象観測データの場合
すべての気象観測所のデータを 
リアルタイムに時系列でCassandraに保持
アプリケーションは時系列でデータを取得

CREATE TABLE raw_weather_data (!
wsid text,!
year int,!
month int,!
day int,!
hour int,!
temperature double,!
dewpoint double,!
pressure double,!
wind_direction int,!
wind_speed double,!
sky_condition int,!
sky_condition_text text,!
one_hour_precip double,!
six_hour_precip double,!
PRIMARY KEY ((wsid), year, month, day, hour)!
) WITH CLUSTERING ORDER BY (year DESC, month DESC, day DESC, hour DESC);!
気象データを
• 気象観測所のIDで検索
• 気象観測所のIDと時間で検索
• 気象観測所のIDと時間の範囲で検索
たとえば: 気象観測データの場合

渋谷、東京
２０１５年１２月９日
最高気温：17℃
最低気温：７℃
平均気温：10℃
でもちょっと統計を取ろうとすると大変
気象観測所のIDで集約統計したテーブルを用意
• 気象観測所のIDで検索
• 気象観測所のIDと時間で検索
• 気象観測所のIDと時間の範囲で検索
CREATE TABLE daily_aggregate_temperature (!
wsid text,!
year int,!
month int,!
day int,!
high double,!
low double,!
mean double,!
variance double,!
stdev double,!
PRIMARY KEY ((wsid), year, month, day)!
) WITH CLUSTERING ORDER BY (year DESC, month DESC, day DESC);!

Max, Min, Avgとか使えないの？
使えません
基本すべてのデータに対しての集約関数はCassandraではありません
但し、最新版(CQL 3.3, Cassandra 2.2以降）では、今回のような
場合だと、気象観測所ID(WSID)がPartition Keyなので使えます。
が・・・例えば、東京２３区のMax, Min, Avgはダメです
でもちょっと統計を取ろうとすると大変

どういうことか？
C*
C*
C*
C*C*
C*
7369,渋谷, 東京
7379,目黒,東京
7389,練馬,東京
分散データベースにおいて、データを複数マシンから集めて集約するのは
大変！！
東京２３区のデータの
集約をしたい
7369,品川, 東京
7369,新宿, 東京
7369,世田谷, 東京
すべてのノードが処理、
各ノードで複数件レンジス
キャンする
分散オペレーショナルデータベースと
しては最悪のケース
なので
させない（できない）
！！！！

どういうことか？
C*
C*
C*
C*C*
C*
7369,渋谷, 東京
7379,目黒,東京
7389,練馬,東京
分散データベースにおいて、集約するのは推奨しないでも・・・
東京と渋谷のデータ
だけ集約したい
Partition Key(先ほど
のケースだとWSID)
のみ集約は可能 7369,品川, 東京
7369,新宿, 東京
１つのノードだけで
レンジスキャンする
分散オペレーショナルデータベースと
しては他のノードには影響を与えないので
許容する（Cassandra 2.2以降）

ちなみに
C*
C*
C*
C*C*
C*
7369,渋谷, 東京
7379,目黒,東京
7389,練馬,東京
分散データベースにおいて、Keyでデータを検索するのは最高！！
渋谷、東京の
１レコードだけ検索
7369,品川, 東京
7369,新宿, 東京
１つのノードで１レコードだけ検
索
分散オペレーショナルデータベースの為
の処理
ベスト！
しかも分散なので
複数ノードで大量に処理できる！！
✔ ✔

では、Apache Sparkとは？

Data Science at Scale
2009

Apache Sparkとは
Apache Spark is an open source cluster computing framework originally developed in the AMPLab at University of California, Berkeley but was later donated to the Apache Software Foundation where it remains today. In
contrast to Hadoop's two-stage disk-based MapReduce paradigm, Spark's multi-stage in-memory primitives provides performance up to 100 times faster for certain applications.[1] By allowing user programs to load data
into a cluster's memory and query it repeatedly, Spark is well-suited to machine learning algorithms.[2]
Spark requires a cluster manager and a distributed storage system. For cluster management, Spark supports standalone (native Spark cluster), Hadoop YARN, or Apache Mesos.[3] For distributed storage, Spark can
interface with a wide variety, including Hadoop Distributed File System (HDFS),[4] Cassandra,[5] OpenStack Swift, Amazon S3, Kudu, or a custom solution can be implemented. Spark also supports a pseudo-distributed
local mode, usually used only for development or testing purposes, where distributed storage is not required and the local file system can be used instead; in such a scenario, Spark is run on a single machine with one
executor per CPU core.
Spark had in excess of 465 contributors in 2014,[6] making it not only the most active project in the Apache Software Foundation[citation needed] but one of the most active open source big data projects.[citation needed
出典：Wikipedia https://en.wikipedia.org/wiki/Apache_Spark
•  Apache Sparkはopen Source のクラスターコンピューティングフレームワーク
•  AMPLab (UCB)が開発し、Apacheプロジェクトとなる
•  HadoopのMapReduceのMapとReduceの二回層の作りではなく、In-Memoryでのマルチ層での処理が可能
•  パフォーマンスはMapReduceの１００倍？（特定のものでは・・・）
•  マシーン・ラーナニング向きであるとされる、なぜなら・・・
•  SparkはHadoopのように分散の複数のストレージを利用する（大量データ）
•  クラスターマネージメントとしては、Standalone, YARN, Mesosをサポート
•  いろいろの分散システムとのインターフェースを持つ（HDFS, Swift, S3, Kudu, CASSANDRA, etc…)

Sparkは大量データをスキャンするのが得意
Input Data
Map
Reduce
Intermediate Data
Output Data
ディスクMapReduce

メモリーを使って
Input Data
Spark Intermediate Data
Output Data
ディスクメモリー

Spark Streaming
Near Real-time
SparkSQL
Structured Data
MLLib
Machine Learning
GraphX
Graph Analysis
Sparkは大量データをスキャンするのが得意

Store a ton of data Analyze a ton of data
Cassandra と Sparkの良い関係
大量データをスキャンして
高速に集約、分析するのが得意
大量データをスキャンして
集約、分析するのが苦手
高速に、安全に大量のデータを
集めてくるのが得意
データを集めてくるのは不得意
バッチでデータを集めたりする
得意分野x得意分野
不得意分野を補う

Spark Streaming
Near Real-time
SparkSQL
Structured Data
MLLib
Machine Learning
GraphX
Graph Analysis

Spark Streaming
Near Real-time
SparkSQL
Structured Data
MLLib
Machine Learning
GraphX
Graph Analysis
wsid text, !
year int, !
month int, !
day int, !
hour int, !
temperature double, !
dewpoint double, !
pressure double, !
wind_direction int, !
wind_speed double, !
sky_condition int, !
sky_condition_text text, !
one_hour_precip double, !
six_hour_precip double, !
Spark Connector!

Cassandra
Cassandra +
Spark
Join, Union No Yes
データ変換
(Transformation)
Limited Yes
外部データとの連携 No Yes
計算、集計 Limited Yes

もちろんCassandraと同じレプリケーション機能がありますのでデータは
レプリケーションされる
分散データを各
ノードで分析する 
パラレル処理
を行う事が可能
各ノードにCassandraとSpark

えっ！！でもちょっと待って！！
てなるって
P17で
言ったじゃ
ん！
レンジスキャン
したら

はい・・・正しいです。
なので・・・

こうすれば完璧です。マルチデータセンター
オペレーショナル
環境
分析環境双方向レプリケーション

ETL不要！！（リアルタイムのデータの反映）
オペレーション

リアルタイムにオペレーショナルに負担なしで分析
オペレーション

分析結果をリアルタイムでオペレーショナル環境に反映
分析結果の書き込みリアルタイムの分析
結果の検索

Executer
Master
Worker
Executer
Executer
ノード
各Cassandra+Sparkノードでは

Executer
Master
Worker
Executer
Executer
SELECT *!
FROM keyspace.table!
WHERE token(pk) > 75!
AND token(pk) <= 99!
Spark RDD
Spark Partition!
Spark Partition!
Spark Partition!
Spark Connector!
ノード

Executer
Master
Worker
Executer
Executer
Spark RDD
Spark Partition!
Spark Partition!
Spark Partition!
ノード

Cassandra
Only DC
Cassandra
+ Spark DC
Spark Jobs
Spark Streaming
Hot データ、Warm データCold データ
MapReduce
Pig
Hive/Tez
Spark
Storm
Hbase
HDFS
YARN
データレイクのように
バッチでデータを集めて分析処理
Nearリアルタイムで分析処理をSpark Streamingも可能

Spark Streaming
Near Real-time
SparkSQL
Structured Data
MLLib
Machine Learning
GraphX
Graph Analysis
wsid text, !
year int, !
month int, !
day int, !
hour int, !
temperature double, !
dewpoint double, !
pressure double, !
wind_direction int, !
wind_speed double, !
sky_condition int, !
sky_condition_text text, !
one_hour_precip double, !
six_hour_precip double, !
Spark Connector!
リアルタイム
分析
オペレーショナル
データ
分析結果
検索結果
分析結果
分析結果
オペレーショナルデータ

Store a ton of data Analyze a ton of data

ありがとうございました
Twitter account: @cassandrajapanで情報発信しています

SparkとCassandraの美味しい関係

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Similar to SparkとCassandraの美味しい関係

Similar to SparkとCassandraの美味しい関係 (20)

More from datastaxjp

More from datastaxjp (11)

SparkとCassandraの美味しい関係