Spark徹底入門 #cwt2015

© Cloudera, Inc. All rights reserved.
Cloudera World Tokyo 2015
Spark徹底⼊入⾨門
Cloudera株式会社　川崎達夫
kawasaki@cloudera.com

Sparkに対してどんな印象をお持ちですか？
速そうバッチとリアル
タイム処理理を同
じように扱える

“Run programs up to 100x faster than
Hadoop MapReduce in memory, or 10x faster
on disk.” -‐‑‒ http://spark.apache.org
SparkはMapReduceよりも100倍(10倍）早い？

100倍
100x？

Sparkは汎⽤用⽬目的のクラスタでの計算エンジン
ストレージ
HDFS, HBase, Kudu, …
リソース管理理
YARN
Spark Hadoop
MapReduce
Search
Others
Impala

MapReduce

MapReduceの主な利利点:
•  データの局所性: ⾃自動的に計算処理理を分けてMapperを適切切に開始
•  フォールトトレランス: 中間結果を書き出してMapperが再実⾏行行できることが、コモディティ
ハードウェアで実⾏行行できる機能を意味している
•  線形なスケーラビリティ:問題に対して⼀一般的に拡張できる解決を記述するために、開発者に局
所性とプログラミングモデルの組み合わせ強要する
MapReduceとは？：分散処理理
Map Map Map Map Map Map Map Map Map Map Map Map
Reduce
Reduce Reduce
Reduce

汎⽤用的なクラスタ計算システム-‐‑‒ MapReduce

• 分散されたデータを
それぞれのサーバで
処理理する
13
マスターワーカー群
72.165.33.132 -‐‑‒ -‐‑‒ [04/Nov/
28.114.157.122 -‐‑‒ -‐‑‒ [04/No
52.93.117.198 -‐‑‒ -‐‑‒ [04/Nov/
168.90.228.205 -‐‑‒ -‐‑‒ [04/Nov/
28.42.27.49 -‐‑‒ -‐‑‒ [04/Nov/201
192.120.64.138 -‐‑‒ -‐‑‒ [04/Nov/
156.189.222.57 -‐‑‒ -‐‑‒ [04/Nov/2
164.219.215.208 -‐‑‒ -‐‑‒ [04/Nov/
84.42.208.90 -‐‑‒ -‐‑‒ [04/Nov/20
164.39.210.117 -‐‑‒ -‐‑‒ [04/Nov/
196.144.35.85 -‐‑‒ -‐‑‒ [04/Nov/2
80.78.35.71 -‐‑‒ -‐‑‒ [04/Nov/201
Application

MapReduce -‐‑‒ Map

• 分散されたデータを
それぞれのサーバで
処理理する（Map）
72.165.33.132 -‐‑‒ -‐‑‒ [04/Nov/
28.114.157.122 -‐‑‒ -‐‑‒ [04/No
52.93.117.198 -‐‑‒ -‐‑‒ [04/Nov/
168.90.228.205 -‐‑‒ -‐‑‒ [04/Nov/
28.42.27.49 -‐‑‒ -‐‑‒ [04/Nov/201
192.120.64.138 -‐‑‒ -‐‑‒ [04/Nov/
156.189.222.57 -‐‑‒ -‐‑‒ [04/Nov/2
164.219.215.208 -‐‑‒ -‐‑‒ [04/Nov/
84.42.208.90 -‐‑‒ -‐‑‒ [04/Nov/20
164.39.210.117 -‐‑‒ -‐‑‒ [04/Nov/
196.144.35.85 -‐‑‒ -‐‑‒ [04/Nov/2
80.78.35.71 -‐‑‒ -‐‑‒ [04/Nov/201
Application
Task
Task
Task
Task
14

MapReduce -‐‑‒ Reduce

• 分散処理理した結果を
集約する（Reduce）
15
72.165.33.132, 1
72.165.33.132, 1
72.165.33.132, 1
72.165.33.145, 1
168.90.228.205,1
168.90.228.205,1
192.120.64.138,1
156.189.222.57,1
156.189.222.57,1
164.219.215.208,1
164.39.210.117,1
164.39.210.117,1
164.39.210.118.1
Task

Hadoop MapReduceとSparkを⽐比較する

Speed

（再）MapReduce：分散処理理
Map Map Map Map Map Map Map Map Map Map Map Map
Reduce
Reduce Reduce
Reduce

処理理を⽐比較
Map
Reduce
Map
Map
Reduce
Map
単純な処理理
のみ
Map
Reduce
Map
Map
Reduce
Map
Reduce
Map
Map
複雑な処理理も
可能

ジョブのパイプラインの⽐比較
Map Reduce Map Reduce
Map Map ReduceXMapX

ジョブの繰り返し（例例：機械学習）の⽐比較
Map Reduce
Map Reduce

トレンド:
•  18ヶ⽉月ごとに価格が半分
になる
•  3年年ごとに帯域が倍になる
64-‐‑‒128GB
RAM
16 cores
50 GB per second
メモリの効果
⾼高性能なビッグデータアプリケーションが可能に

⾼高速な処理理のためにキャッシュを使⽤用できる
インメモリキャッシュ
•  データ⽤用のパーティションは
ディスクの代わりにメモリか
ら読み込む
グラフ演算(DAG)
•  スケジューリングの最適化
•  フォールトトレランス
join
ﬁlter
groupBy
B: B:
C: D: E:
F:
Ç
√
Ω
map
A:
map
take
= cached partition= RDD

例例:ロジスティック回帰のパフォーマンス:１回⽬目
（メモリにフィットする場合）
110sec
80sec

例例:2回⽬目
+110sec
+1sec
110sec
80sec

ロジスティック回帰のパフォーマンス
(データがメモリに乗っている場合)
0
500
1000
1500
2000
2500
3000
3500
4000
1 5 10 20 30
Running Time(s)
# of Iterations
MapReduce
Spark
110 s/繰り返し
最初の繰り返し=80s
以降降の繰り返しは
キャッシュにより1s

開発が

容易易

⽣生産性が⾼高い
同⼀一のAPIで複数の
⾔言語をネイティブ
にサポート
Scala
Java
Python
Python
lines = sc.textFile(...)
lines.filter(lambda s: “ERROR” in s).count()
Scala
val lines = sc.textFile(...)
lines.filter(s => s.contains(“ERROR”)).count()
Java
JavaRDD<String> lines = sc.textFile(...);
lines.filter(new Function<String, Boolean>() {
Boolean call(String s) {
return s.contains(“error”);
}
}).count();

開発が容易易
対話的な環境が使⽤用できる
•  データサイエンティストのた
めのインタラクティブなデー
タ探索索
•  「アプリケーション」を
開発する必要がない
•  開発者は実際のシステムでア
プリケーションのプロトタイ
ピングができる
percolateur:spark srowen$ ./bin/spark-shell --master local[*]
...
Welcome to
____ __
/ __/__ ___ _____/ /__
_ / _ / _ `/ __/ '_/
/___/ .__/_,_/_/ /_/_ version 1.5.0-SNAPSHOT
/_/
Using Scala version 2.10.4
(Java HotSpot(TM) 64-Bit Server VM, Java 1.8.0_51)
Type in expressions to have them evaluated.
Type :help for more information.
...
scala> val words = sc.textFile("file:/usr/share/dict/words")
...
words: org.apache.spark.rdd.RDD[String] =
MapPartitionsRDD[1] at textFile at <console>:21
scala> words.count
...
res0: Long = 235886
scala>

Word Count の例例
public class WordCount {
public static void main(String[] args) throws Exception {
Job job = new Job();
job.setJarByClass(WordCount.class);
job.setJobName("Word Count");
FileInputFormat.setInputPaths(job, new Path(args[0]));
FileOutputFormat.setOutputPath(job, new Path(args[1]));
job.setMapperClass(WordMapper.class);
job.setReducerClass(SumReducer.class);
job.setMapOutputKeyClass(Text.class);
job.setMapOutputValueClass(IntWritable.class);
job.setOutputKeyClass(Text.class);
job.setOutputValueClass(IntWritable.class);
boolean success = job.waitForCompletion(true);
System.exit(success ? 0 : 1);
}
}
public class WordMapper extends Mapper<LongWritable, Text, Text,
IntWritable> {
public void map(LongWritable key, Text value,
Context context) throws IOException, InterruptedException {
String line = value.toString();
for (String word : line.split("W+")) {
if (word.length() > 0)
context.write(new Text(word), new IntWritable(1));
}
}
}
}
public class SumReducer extends Reducer<Text, IntWritable, Text,
IntWritable> {
public void reduce(Text key, Iterable<IntWritable>
values, Context context) throws IOException, InterruptedException {
int wordCount = 0;
for (IntWritable value : values) {
wordCount += value.get();
}
context.write(key, new IntWritable(wordCount));
}
}
sc.textFile(file)
.flatMap(lambda s: s.split())
.map(lambda w: (w,1))
.reduceByKey(lambda v1,v2: v1+v2)
.saveAsTextFile(output)
MapReduceより
2-‐‑‒5x
少ないコード量量

RDD
耐障害性分散データセット：
Resilient Distributed Datasets (RDD)

I've never seen a purple cow.
I never hope to see one;
But I can tell you, anyhow,
I'd rather see than be one.
I'VE NEVER SEEN A PURPLE COW.
I NEVER HOPE TO SEE ONE;
BUT I CAN TELL YOU, ANYHOW,
I'D RATHER SEE THAN BE ONE.
I'VE NEVER SEEN A PURPLE COW.
I NEVER HOPE TO SEE ONE;
I'D RATHER SEE THAN BE ONE.
I've never seen a purple cow.
I never hope to see one;
But I can tell you, anyhow,
I'd rather see than be one.
File: purplecow.txt
RDD: mydata
RDD: mydata_̲uc
RDD: mydata_̲ﬁlt
>  mydata =
sc.textFile("purplecow.txt")
>  mydata_uc = mydata.map(lambda
line: line.upper())
>  mydata_filt =
mydata_uc.filter(lambda line:

line.startswith('I'))
>  mydata_filt.count()
3
リネージ

Hue Notebook

Jupyter/IPython Notebook

SparkSQL
MLlib
SparkR

SparkSQL
• ⽬目標
•  Spark/Javaの開発者とデータサイ
エンティストがSparkアプリにイン
ラインでSQLを記述できる
• 設計⽬目的
•  Spark開発者のための開発の⽀支援
•  Sparkジョブはそれほど並⾏行行実⾏行行さ
れない
•  強み
•  SQLをJavaやScalaアプリケーショ
ンに容易易に組み込み可能になる
•  開発フローの⼀一般的な機能のための
SQL (例例. 集約、フィルタ、サンプ
リング)

MLlib
•  Sparkの機械学習(ML)ライブラリ
•  ⽬目的
• 実⽤用的な機械学習をスケーラブルおよび簡単にすること
•  MLlibとは
• Sparkのスケール可能な機械学習ライブラリ
• ⼀一般的な機械学習アルゴリズムとユーティリティからなる

Streaming

バッチ処理理とストリーミング
• Hadoop MapReduceはバッチ処理理
• ⼤大量量なデータを効率率率的に処理理できる
• しかし、不不正検知のような（ニア）リアルタイム
での処理理には不不向き

Spark Streaming
•  SparkのコアAPIを⽤用いて、データに対して
「連続」して処理理を実⾏行行
data…data…data…data…data…data…data…data…Live Data
t=0 t=1 t=2 t=3
DStream
data…
data…
data…
data…
RDD @ t=1data…
data…
data…
data…
RDD @ t=2
data…
data…
data…
data…
RDD @ t=3

Spark Streaming
•  「ローリングウィンドウ」操作
•  ある「期間」の処理理を⾏行行うのではなく、それまで期間と
またいで処理理を⾏行行う
•  例例: 直近5分間のデータをローリングしながら平均やカ
ウントを計算する
•  バッチとストリーミング処理理との組み合わせ
•  ストリーミングデータにMLlibなどの組み合わせが可能
に

val tweets = ssc.twitterStream()
val hashTags = tweets.flatMap (status => getTags(status))
hashTags.saveAsHadoopFiles("hdfs://...")
“マイクロバッチ” アーキテクチャー
flatMap flatMap flatMap
save save save
batch @ t
+1
batch @ t
batch @ t
+2
tweets DStream
hashTags
DStream
短い間隔の
計算バッチ
から構成

SparkはICUでも利利⽤用されている
54© 2015 Cloudera, Inc. All rights reserved.

バッチ、ストリーミング処理理との組み合わせ
http://blog.cloudera.com/blog/2015/07/designing-‐‑‒fraud-‐‑‒detection-‐‑‒architecture-‐‑‒
that-‐‑‒works-‐‑‒like-‐‑‒your-‐‑‒brain-‐‑‒does/

SparkはHadoopを置き換えるのか？

http://itpro.nikkeibp.co.jp/atcl/column/14/072800028/073000001/
“MapReduceは「ゆっくり死んでいく」”
　-‐‑‒ Doug Cutting

http://www.cloudera.co.jp/blog/one-‐‑‒platform-‐‑‒initiative.html
“Hadoopはもう終わり
でしょうか？”
“⾯面⽩白い話ですが、
答えはNoです.”
-‐‑‒ Mike Olson

現在はMapReduceのみ対応しているエコシステムがある
• Hive, Pig
• Sqoop
• distcp
• …

Sparkが徐々にMapReduceに取って代わる
Stage
1
• Crunch on Spark
• Search on Spark
Stage
2
• Hive on Spark (beta)
• Spark on HBase (beta)
Stage
3
• Pig on Spark (alpha)
• Sqoop on Spark
ClouderaはコンポーネントをSparkに移⾏行行するコミュニティでの開発を主導して
いる

これらが解決されることで徐々に移⾏行行が進む
• 既存のMapReduceの資産
• Sparkの
• 安定性
• スケーラビリティ
• セキュリティ
• 管理理性
の向上

今後のHadoopでのデータ処理理
Sparkによる汎⽤用データ処理理
⾼高速バッチ処理理
機械学習
ストリーム処理理
　Impalaによる
　分析データベース
低レイテンシ・超並⾏行行クエリ
Solrによるテキスト検索索
テキストデータに対するクエリ
MapReduceによる
ディスクのデータ処理理
ディスクIOに強く依存したジョブの⼤大規
模スケールでの実⾏行行
共有:
•  データスト
レージ
•  メタデータ
•  リソース管理理
•  運⽤用監視
•  セキュリティ
•  ガバナンス

Spark エコシステムと Hadoop
Spark
Streaming
MLlib SparkSQL GraphX
Data-‐‑‒
frames
SparkR
ストレージ
HDFS, HBase
リソース管理理
YARN
Spark
Impala
MR
Others
Search

ClouderaはSparkの変化を導いています
2013 2014 2015 2016
Sparkの初期の可
能性を認識識
CDH4.4に
Sparkを同
梱してサ
ポート
Spark on YARN
連携を追加
Sparkを標準実⾏行行エンジ
ンにすることへの⽅方向性
を発表
最初のSpark
トレーニング
を開始
セキュリティ
連携を追加
Clouderaのエンジニア
がオライリーのSpark
書籍を執筆
より良良いパフォー
マンス、ユーザビ
リティ、エンター
プライズレディの
ための努⼒力力を継続
していく

Clouderaのお客様のユースケース
Core Spark Spark Streaming
•  ポートフォリオリスク分析
•  ETLパイプライン⾼高速化
•  20年年以上の株データ⾦金金融
医療療
•  ⼈人間の完全なゲノムから病
気の原因となる遺伝⼦子を特
定
•  医療療データセットから
Jaccardスコアを計算
ERP
•  光学式⽂文字認識識(OCR)と紙幣分
類
•  トレンド分析
•  ドキュメント分類(LDA)
•  不不正分析データ
サービ
ス
1010
•  オンライン不不正検知
⾦金金融
医療療
•  敗⾎血症の発⽣生予測
⼩小売
•  オンラインリコメンドシステム
•  リアルタイム在庫管理理
アドテ
ク
•  リアルタイム広告パフォーマン
ス分析

まとめ

Apache Spark
Speed Easy Streaming

どうやって
学習すれば
よいの？

⽇日本語版
近⽇日登場！
日本語の書籍も登場！
会場でも販売しています！

Clouderaのトレーニング
• Apache Spark 開発者向けトレーニング
• Spark & Hadoop 開発者向けトレーニング I 　(New)
http://cloudera.co.jp/university

Spark関連リソース
• Sparkを学ぶ
• オライリー「初めてのSpark」
• Oʼ’Reilly Advanced Analytics with Spark (written by
Clouderans)
• 翔泳社「Apache Hadoop⼊入⾨門」
• Cloudera Developer Blog
• 試してみる
• Cloudera Quick Start VM 上で Spark によるバスケット分析　　　　
　　　　　　　http://codezine.jp/article/corner/583

Cloudera Liveで試してみる
cloudera.com/live
CDH

Clouderaに⼊入って⼈人々を⽀支援し、
世界で最も⼤大きな問題の解決に
乗り出しましょう！
⽇日本チームでの募集職種
•  セールス
•  セールスエンジニア
career-‐‑‒jp@cloudera.com
We are Hiring!

Spark徹底入門 #cwt2015

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Similar to Spark徹底入門 #cwt2015

Similar to Spark徹底入門 #cwt2015 (20)

More from Cloudera Japan

More from Cloudera Japan (18)

Recently uploaded

Recently uploaded (9)

Spark徹底入門 #cwt2015

Editor's Notes