Spark introduction - In Chinese

Spark

Introduction
蘑菇街 FST －天火

¡  分布式计算框架

¡  等等，关我什么事？

§  太多的分布式计算框架

¡  因为它很Cool

¡  所以你不想Out？

¡  出身背景很Cool

§  UC
Berkeley
AMPLab实验室

¡  主要开发者很Cool

§  DataBricks

§  Intel
/
Yahoo
/
Cloudera

¡  应用场景很Cool

§  ETL、OLAP、机器学习、基因⼯工程

¡  开发语⾔言很Cool

§  scala

¡  很Cool的背景

§  理论架构的先进性

§  性能

¡  很Cool的开发团队

§  持续发展的动⼒力源泉

¡  很Cool的应用场景

§  活跃的社区

§  不⾄至于成为屠龙之技

¡  很Cool的开发语⾔言

§  开发效率

§  ⾼高(zhuang)逼格的资本 lol

¡  快速从Apache
Incubator项目毕业成为
Apache顶级项目

¡  ⼤大数据解决⽅方案提供商的支持

§  Cloudera
/
MapR

/
Hortonworks
/
Pivotal
/
SAP
…

§  华为
/
星环科技

¡  应用

§  阿里/百度/爱奇艺/优酷/京东…

¡  2014年⼤大数据领域最活跃的开源项目

¡  分布式计算框架

¡  基于内存的调度和运算模型

¡  兼容Hadoop⽣生态环境

§  数据存储格式

§  Works
with
Hdfs/Yarn/Hive/Hbase/kaQa…
etc.

¡  丰富的应用场景

§  离线处理 /
实时计算

§  SQL
/
机器学习 /
图计算

¡  更加⾼高效和通用的编程模型

§  相比MapReduce模型，更加适用于两种类型的
应用

▪  迭代算法类（机器学习，图计算）

▪  交互式数据挖掘

¡  良好的用户体验

▪  编程效率：基于Scala的核⼼心模块，提供Java/python编
程接⼝口

▪  功能强⼤大的API,丰富的操作算⼦子

▪  交互式的解释执⾏行接⼝口（调试，学习）

Step Step Step Step Step
Client

Step Step Step Step Step
Client

¡  计算模型固定

¡  每个MapReduce阶段之间需要落盘

¡  容错性好
Map

Map

Map

Reduce

Reduce

Input
Output

Dryad-‐like
DAGs

Pipelines
functions

within
a
stage

Cache-‐aware
work

reuse
&
locality

Partitioning-‐aware

to
avoid
shuﬄes

join

union

groupBy

map

Stage
3

Stage
1

Stage
2

A:
B:

C:
D:

E:

F:

G:

=
cached
data
partition

¡  Resilient
distributed
datasets
(RDDs)

¡  http://dl.acm.org/citation.cfm?id=2228301

§  不可变的，按分区组织的数据对象

§  ⼀一个RDD可以通过各种（map,
ﬁlter,
groupBy,

Join…)操作转换为另⼀一个RDD

§  源头的RDD的数据来源可以是外部存储，如
HDFS，也可以动态⽣生成

§  可以采用各种缓存⽅方式加速处理

§  容错,
数据本地性,
可扩展性

¡  分布式运算环境下的数据容错模型往往是影响
整个系统的核⼼心机制之⼀一

¡  其它基于内存的类似计算框架系统采用细颗粒
度的数据备份或者LOG机制

¡  RDD采用基于⾎血统关系(Lineage)的容错模型

§  Lineage记录的是粗颗粒度的数据变换操作⾏行为

§  当RDD的部分分区数据丢失时，它可以通过Lineage
信息重新运算和恢复丢失的数据分区。

§  这种粗颗粒的数据模型，限制了Spark的运用场合，
但同时相比细颗粒度的数据模型，也带来了性能的
提升。

RDDs
maintain
lineage
information
that
can
be

used
to
reconstruct
lost
partitions

Ex:

messages = textFile(...).filter(_.startsWith(“ERROR”))
Result ＝ messages.map(_.split(‘t’)(2))
HDFS
File
Filtered
RDD
Mapped
RDD

ﬁlter

(func
=
_.startsWith(...))

map

(func
=
_.split(...))

lines = spark.textFile(“hdfs://...”)
errors = lines.filter(_.startsWith(“ERROR”))
messages = errors.map(_.split(‘t’)(2))
cachedMsgs = messages.cache()
Block
1

Block
2

Block
3

Worker

Worker

Worker

Driver

cachedMsgs.filter(_.contains(“foo”)).count
cachedMsgs.filter(_.contains(“bar”)).count
. . .
tasks

results

Cache
1

Cache
2

Cache
3

Base
RDD

Transformed
RDD

Action

¡  围绕RDD的概念，实现核⼼心运⾏行调度逻辑

§  Scheduler：作业和任务的调度管理

§  BlockManager：RDD/Shuffle等数据块的管理

§  RDD：各种RDD数据结构表达和算法实现

§  Shuffle：管理Shuffle逻辑和相关数据流程

§  NetWork：跨节点数据通讯相关

§  Yarn:
基于Yarn的任务调度管理模块

§  其它…

¡  其它各种上层模块都是基于Core的衍⽣生

§  RDD核⼼心思想在不同领域的拓展和定制化实现

§  RDD数据模型的通用性和灵活性，从本质上决
定了它很容易被应用到各种具体的编程模型上

¡  本质上是Micro-‐batches
RDDs的处理

§  相比于小Batch的Hadoop
Job，Task启动代价小，
latency低

§  近实时（相比Storm）

▪  默认200ms⼀一个批次

§  吞吐率⾼高

§  相对于其它模块，最早在业界得到应用

§  与普通RDD批处理统⼀一的编程模型

§  基于Lineage的容错模型

§  丰富的数据源

val
conf
=
new
SparkConf()

val
ssc
=
new
StreamingContext(conf,
Seconds(1))

val
lines
=
ssc.textFileStream(args(1))

val
words
=
lines.ﬂatMap(_.split("
"))

val
result
=
words.map(x
=>
(x,
1)).reduceByKey(_
+
_).collect()

ssc.start()

val
conf
=
new
SparkConf()

val ﾊsc ﾊ= ﾊnew ﾊSparkContext(conf)

val ﾊlines ﾊﾊ= ﾊsc.textFile(args(1))

val ﾊwords ﾊ= ﾊlines.ﬂﾟatMap(_.split("
"))
val result = words.map(x ﾊ=> ﾊ(x, ﾊ1)).reduceByKey(_
+
_).collect()

n Hive-‐like
interface(JDBC

Service
/
CLI)

n Both
Hive
QL
&
Simple
SQL

dialects
are
Supported

n DDL
is
100%
compatible
with

Hive
Metastore

n Hive
QL
aims
to
100%

compatible
with
Hive
DML
Spark
Core

Spark
Execution
Operators

Catalyst

Hive
QL
Simple
SQL

SQL
API
CLI

User Application
JDBC
Service

Data
Analyst
Hive
Meta
Store
Simple
Catalog

n First
released
in
Spark
1.0
(May,
2014)

n Initial
committed
by
Michael
Armbrust
&

Reynold
Xin
from
Databricks

¡  MLlib
机器学习算法库:

§  Initial
contribution
from
AMPLab,
UC
Berkeley

§  Shipped
with
Spark
since
version
0.8
(Sep
2013)

¡  数据类型

§  Dense

§  Sparse
(
Since
1.0)

▪  现实世界中，众多的数据集都是稀疏的

¡  算法集

§  Classiﬁcation
/
Regression
/collaborative
ﬁltering
/

Clustering
/
Decomposition

¡  Bagel
:
Spark
0.6,
2013-‐08

¡  Graphx-‐Branch
:
Spark
0.8,
2013-‐09
¡  Graphx-‐Alpha
:
Spark
0.9,
2014-‐03

¡  图计算的模型

§  类Pregel的思想

§  Super
Step

▪  更新Vertex和Edge

¡  图切割

§  实现分布式的关键所在

§  Move
vertex
to
Edge

¡  本质上是在RDD基础上
构建

§  合理的数据表达⽅方式

§  针对性的API设计

¡  用于交互式运⾏行测试Spark程序

§  便于快速测试程序局部逻辑

¡  构建在Scala
Repl的基础上

§  Repl：读取执⾏行打印循环

§  拓展：

▪  Modiﬁed
wrapper
code
generation
so
that
each
line

typed
has
references
to
objects
for
its
dependencies

▪  Distribute
generated
classes
over
the
network

¡  Pluggable
shufﬂﾟe
Interface

§  Hash
-‐>
Sort

▪  Memory/performance
etc.
¡  Improved
Data
transfer
mechanism

§  Pluggable

§  Employ
Netty

¡  Others

§  pySpark
/
JDBC
server
/
Dynamic
metric
…

¡  Core

§  Pluggable
Storage
Interface

▪  To
support
various
Storage
type,
SSD，HDFS
Cache
etc ﾊ
¡  Spark ﾊSQL

§  更多的数据源的支持

▪  (Cassandra, MongoDB)
RDMS
(SAP/Vertica/Oracle)
§  性能优化(code
gen,
faster
joins,
etc)

§  语法增强(towards
SQL92)

¡  Graphx

§  Move
graphx
out
of
“Alpha”

¡  稳定性和可扩展性

¡  Better
Yarn
Integration

§  Security

§  Dynamic
resource
adjustment
¡  More
Algorithms
for
Mllib

§  On
June,
15+

§  Should
Double
quickly.
¡  Spark ﾊStreaming
§  Streaming
SQL
/
More
data
source
etc.

¡  以推荐算法所需数据源的处理流程为例

§  Log⽂文件
/
KaQa
/
HDFS
/
MapReduce
/
Hive
/

Hbase
/
DB
/
Solr
/
Redis

§  战线漫长，模块众多，关系复杂，模式各异

¡  离线模型训练

§  计算密集型，迭代运算

¡  实时推荐

§  离线和实时计算模型统⼀一？

¡  目前主要问题？

¡  相关项目

§  Tez
/
Dryad
/
Flink

蘑菇街天火 tianhuo@mogujie.com
Weibo： @冷冻蚂蚁
http://blog.csdn.net/colorant

Spark introduction - In Chinese

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Viewers also liked

Viewers also liked (20)

Similar to Spark introduction - In Chinese

Similar to Spark introduction - In Chinese (20)

Spark introduction - In Chinese