吕潇星环科技大数据技术探索与应用实践

2015/7/22 1www.transwarp.io confidential
星环科技大数据技术探索与应用实践
吕潇
xiao.lv@transwarp.io
星环科技
www.transwarp.io

• 中国最久的Hadoop核心开发团队
• 成功完成近亿元级别的A轮融资
• 国内技术最领先的大数据基础软件
• 超越硅谷的企业级架构及功能模块
• 国内最多的落地应用案例
• 2014年进入中央政府采购网
2
参考CSDN的技术报道：【云先锋】星环TDH：性能大幅领先于开源Hadoop2的技术架构赏析
http://www.csdn.net/article/2014-09-03/2821532-Hadoop-TranswarpDataHub-Spark

孙元浩
创始人兼CTO
星环科技的技术开发团队来自Intel, Google, Microsoft, IBM, NVidia、
Oracle、EMC、百度等知名科技公司，以及南京大学、复旦大学、
上海交通大学、中国科学技术大学、美国普渡大学等多个知名学府，
也包括放弃海外知名企业优厚待遇回国创业的成员。星环科技的核
心团队参与部署了国内最早的企业级Hadoop集群。
佘晖
总经理
核心团队
方之熙
CRO
曾任英特尔中国OEM/渠道业务总经理，负责英特尔
®IA架构产品（包括英特尔®处理器、服务器，网络产
品等）在中国大陆地区的销售和市场推广。
Hadoop技术专家，曾是英特尔软件部亚太区CTO，
是英特尔Hadoop发行版的创始人。孙元浩及其团队在
中国成功建立数十个Hadoop成功案例。
曾任英特尔副总裁，英特尔中国研究院院长，领导嵌
入式系统的深入研究并带领英特尔中国研究院开发突
破性技术。是编译器和CPU体系架构领域科学家。
股东大会
董事会
总经理
监事会
营
销
基
础
研
发
综
合
市
场
应
用
咨
询
技
术
服
务
北京广州南京人力财务行政北京上海

• 公司新近完成A轮和A+轮融资
– 2014年6月，A轮融资由方广资本领投，联合恒生电子、信雅达等上市公司共同完成，获得
业界广泛关注，除几乎全部的IT主流媒体外，腾讯、网易、和讯、金融界、中金在线、中国
证券网等主流财经媒体及门户均进行相关报道
– 时隔半年，2015年1月，A+ 轮融资由著名风投启明创投(QimingVenturePartners)领投，
上轮投资者包括知名VC方广资本(F&GVenture)、恒生电子及信雅达等上市公司这轮全部
继续跟投，反映了投资人对于星环的一致看好
• 与浪潮信息签署战略合作协议，携手打造中国自主的大数据核心技术平台。该携手填
补国内空白，完整实现大数据基础技术由内到外的高水平全国产化
近期公司大事记

• 2014年10月，公司在纽约召开的Strata＋Hadoop World大会上发
布了Transwarp Data Hub 3.4新版本Hadoop发行版软件
– 这次Strata是近年来规模最大的大数据盛会，有5500多人参加这次
大会，130多家厂商参展，门票在开会前就售罄。这么大规模的盛
会标志着hadoop已经真正成为大数据处理技术的主流地位。这也
是星环首次在美国-大数据的大本营-发布大数据最新产品
– 在这次大会上公司发布了最新的性能数据，相对于Cloudera
Impala，性能更好，SQL支持更完整
• 2014年12月，公司在北京召开的年度大数据大会BDTC上，发布了
TDH4.0最新版本，全面升级了各组件的功能，同时全方位提升了平台
性能
• 2015年4月16日，公司在中国数据库大会上发布TDH4.1版本，更好
地支持数据仓库应用。同时宣布在6月底发布TOS1.0版本，进入
Hadoop on Docker时代。
近期公司大事记
CCTV采访DTCC专访Databricks CEO
Ion Stoica
HBase PMC Chairman
Michael Stack
2014/12 2015/04
Cloudera Founder
Mike Olson
Strata Conference
New York 2014/10
Tony Baer, Big Data Analyst at NY
Cloudera Founder
Mike Olson
Tony Baer, BigData Analyst @NewYork

星环科技典型案例 (落地案例最多）
金融证劵
 银行+证券
电信运营商
 移动、联通、电信
交通公安
 山东、辽宁、浙江等
能源
 国网+南网
互联网
 电商+CDN
政府
 工商+税务
物流快递
 EMS
广播电视
 华数+卫视

我们的部分客户

Spark成为最受欢迎的计算引擎
source: http://databricks.com/certified-on-spark-distribution
全球已有近50家企业围绕Spark提供产品和服务，11家提供商业Spark版本

Transwarp Data Hub (TDH) 架构图
9
Transwarp Proprietary
流处理
引擎
Stream
NoSQL数据库
搜索、图计算
Hyperbase
Transwarp Manager
交互式分析引擎
数据挖掘
Inceptor
including Apache Spark
资源管理 YARN 2.5
(内置Transwarp Extension)
优化存储 HDFS 2.5
(内置Transwarp Erasure Code)
批处理
Pig 0.13
批处理框架
Map/Reduce2
协作服务
Zookeeper 3.4.5
机器学习
Mahout 0.9
工作流
Oozie 4.0.1
日志采集
Flume 1.4
全文搜索
Elastic
Search 1.3.1
数据集成
Sqoop 1.4.5
一站式数据存储平台
TDH通过内存计算技术、高效索引、执行计划优化和高度
容错的技术，使得一个平台能够处理从GB到PB的数据，
并且在每个数量级上，都能比现有技术提供更快的性能；
企业客户不再需要混合架构，不需要孤立的多个集群，
TDH可以伴随企业客户的数据增长，动态不停机扩容，避
免MPP或传统架构数据迁移的棘手问题。
一站式资源管理平台
TDH在统一存储上建立资源管理层，提供企业用户统一的
计算资源管理、动态资源分配、多部门之间资源配置和动
态共享，灵活支持多部门多应用在统一平台上平滑运行。
一站式数据分析平台
TDH支持批处理统计分析、交互式SQL分析、在线数据检
索、R语言数据挖掘、机器学习、实时流处理、全文搜索
和图计算，为企业客户提供广泛的计算支持能力，客户无
需切换平台或架构即可完成复杂的任务。
一站式管理平台:
TDH作为企业级解决方案，开发了用户友好的管理界面、
提供了系统安装、集群配置，安全访问控制、监控及预警
等多方面支持，在可管理性方面优势显著。
>
>
>
>
Apache Projects

交互式分析引擎Inceptor架构图
Apache Spark
基于内存的Map/Reduce计算引擎，即将成为新一代主流计算框架。处
理大数据像“光速”一样快，比Hadoop Map/Reduce快10x倍。
Holodesk
跨内存/闪存/磁盘等介质的分布式混合列式存储，常用于缓存数据供
Spark高速访问。Holodesk内建内存索引，可提供比开源Spark更高的
交互式统计性能；结合使用低成本的内存/SSD混合存储方案，可接近全
内存存储的分析性能。
SQL引擎
高度优化的高速SQL引擎，可运行在Spark或Map/Reduce上，可高速
处理缓存在Holodesk上的列式数据。兼容ANSI SQL 2003, HiveQL和
PL/SQL语法，支持数据仓库、数据集市等分析系统中常用的复杂分析型
语法，方便应用迁移。
统计库
并行化的高性能统计算法库，用于对原始数据进行去噪、去缺省/异常值、
归一化、统计分布等，是机器学习或数据挖掘的基础工具包。
机器学习库
并行化的高性能机器学习算法库，包含分类、聚类、预测、推荐等机器
学习算法。可用于构建高精度的推荐引擎或者预测引擎。
R 语言/R Studio
强大的主流数据统计和绘图语言R以及Web图形化开发界面RStudio。
通过调用Inceptor内置并行算法库，支持对大数据集进行数据挖掘和统
计。
丰富的工具支持
支持主流可视化和BI/挖掘工具，包括Tableau, IBM Cognos, SAP BO,
Oracle BI, SAS等。支持Informatica，Pentaho/Kettle等ETL工具。
Transwarp HDFS2
分布式持久化数据存储
cache
Transwarp Hyperbase
分布式实时数据库
cache
Transwarp Holodesk
分布式内存列式存储
R – statistical computing
Distributed Execution Engine 分布式执行引擎
编译器 SQL 2003 + PL/SQL COMPILER
优化器 COST BASED OPTIMIZER
代码生成 CODE GENERATOR
Interactive SQL Engine
Transwarp
Statistics Library
并行统计算法库
Transwarp
Machine Learning
Library
机器学习算法库
JDBC 4.0 SHELLODBC 3.5

实时NoSQL数据库Hyperbase
Transwarp HBase – Hadoop Database
分布式 Big Table
Transwarp Hyperdrive – SQL backend engine between Inceptor & Hyperbase
Real-time OLTP + OLAP + BATCH + Search + Graph Traversal Application
Mixed Workload 混合负载业务
Graph
language
Scalable
Graph
Database
图形
数据库
Transaction
SQL & API
Transaction
Execution
Engine
分布式事务
处理引擎
Index
SQL & API
Global/Local
Index
全局/局部
索引
日志
文本
关系
数据库
二进制
文件
图像
OLTP
支持高并发毫秒级数据插入/修改/查询/删除(CRUD)。
结合Inceptor SQL引擎，可以支持通过SQL进行高并发
的CRUD。
支持分布式事务处理。
支持常见数据类型，可更高效的存取数据。
OLAP
支持多种索引（global/local/high-dimensional
index）。
结合Inceptor，可进行行列存储转换，进行秒级高效分
析。
支持复杂查询条件，自动利用索引加速数据检索，无需
指定索引。
批处理
可以对数据进行全量高速统计，会比M/R运行在HBase
上快5-10倍。
可通过Inceptor SQL进行全量统计。
支持通过SQL进行BulkLoad批量装载数据
内嵌搜索引擎
实时同步创建索引
实现秒级关键字搜索
图数据库
支持高并发图遍历和检索
多类型支持
结构化记录
半结构化文档（JSON/BSON）
非结构化数据（图片、音频、二进制文档等）
支持混合结构数据的存储、搜索、统计、分析
支持SQL访问关系表和层次化文档
sqoopflume
Elastic Search
分布式全文索引
Document
SQL & API
Document
Store
json/bson
文档存储
Object
SQL & API
Object Store
image/files, etc
对象存储
Search
SQL & API
Distributed
Full-text
Search
全文搜索
Transwarp Inceptor

Stream流处理产品
Transwarp Hyperbase
分布式NoSQL数据库
高速查询或搜索
/20130101/…
/20130102/…
在线自动分类时间窗口统计实时告警
分
布
式
消
息
队
列
安
全
的
Kafka
Distributed Execution Engine 分布式执行引擎
Streaming
Data Driver
流数据
接收驱动器
Streaming
Machine Learning
流式机器学习
算法库（支持R语言）
Streaming Engine 流式计算引擎
Streaming SQL
(via Inceptor)
流式SQL
执行引擎
Transwarp Stream Web Console 流式任务Web控制器
Outlier异常检测实时事件
流
式
任
务
管
理
服
务
StreamingJobServer
Transwarp Holodesk
分布式内存/SSD缓存
高速SQL/R探索分析

Transwarp Inceptor是第一个
也是目前唯一一个支持PL/SQL的SQL on Hadoop引擎
名称计算引擎 ANSI SQL支持程度存储过程第一个版本发布时间
Cloudera Impala 类Dremel，类MPP引擎 SQL92子集 + SQL2003扩展（<40%）不支持 2011/10
Hortonworks
Tez/Stinger
Map/Reduce改进 SQL92子集 + SQL2003扩展（<50%）不支持 2012/5
Transwarp Inceptor Spark SQL2003 (>90%) Oracle Compatible
PL/SQL
2013/11
Databricks SparkSQL Spark HiveQL (SQL92子集, <40%) 不支持 2014/6
MapR Drill 改进自OpenDremel SQL92子集 (<40%) 不支持 2012/6立项，2014/11发布
IBM BigSQL v3 DB2/DPF like MPP Engine over HDFS SQL 2003 不支持 2014/6
Pivotal HAWQ Greenplum like MPP Engine over
HDFS
SQL 2003(<90%) 不支持 2013/2
Splice Machine Apache Derby + HBase SQL 1999 不支持 2015 GA
Actian Vortex MPP Engine over HDFS SQL 2003 不支持 2014

PL/SQL支持程度
 基本语句
• 赋值语句
• SQL语句
• 匿名块执行
• 存储过程调用
• UDF/UDAF调用
 数据类型
• 标量类型
• 集合类型及其方法(COUNT()/LIMIT()/etc.)
• RECORD类型
• 隐/显式类型转换
 流程控制语句
• IF/ELSE IF/ELSE语句
• GOTO语句
• LOOP循环
• FOR循环
• FORALL循环
• WHILE循环
• CONTINUE(WHEN)语句
• EXIT(WHEN)语句
 游标支持
• 显式CURSOR及其基本操作：OPEN/FETCH(BULK
COLLECT)/NOTFOUND/etc.
• 隐式游标（FOR 循环）
• SELECT (BULK COLLECT) INTO语句
• PACKAGE
• 包内全局变量
• 包内类型
• 包内函数
• 参数和变量属性
• NOT NULL
• IN/OUT
• DEFAULT VALUE
• 变量声明时赋值
• 异常
• 声明时赋值PARGMA EXCEPTION_INIT
• 内置函数RAISE_APPLICATION_ERROR/SOLCODE/SQLERRM/FORALL ... SAVE
EXCEPTIONS
• 其他系统预定义异常的抛出点
 异常
• 支持用户自定义异常和系统预定义异常
• 支持RAISE语句
• 支持WHEN (OR) THEN (OTHERS)异常处理
• 支持存储过程内部和存储过程之间的异常传播
• 部分系统预定义异常抛出点
• 部分编译时刻错误检测
 部分系统函数
• PUT_LINE()
待支持的功能

我们的核心优势：SQL功能和性能远超国外友商
四种不同的SQL引擎在独立发展
名称计算引擎 SQL支持程度第一个版本发布时间
Cloudera Impala 类Dremel，类MPP引擎 SQL92子集+SQL2003扩展（窗口函数） 2011/10
Hortonworks Tez/Stinger Map/Reduce改进 SQL92+SQL2003扩展（窗口函数） 2012/5
Transwarp Inceptor Spark SQL2003+PL/SQL（存储过程、游标） 2013/11
Databricks SparkSQL Spark HiveQL (SQL92子集) 2014/6
MapR Drill 改进自OpenDremel SQL92子集 2012/6立项，2014/11发布
图中纵坐标小于1表示Impala性能超过Inceptor，而大于1则表示Inceptor性能更好。对于Impala不能支持的SQL，我们就标记这个性能比为100。
从图中可见，在Impala支持的19个SQL中，只有8个SQL的表现超过Inceptor，另外11个SQL 在Inceptor的表现比Impala更好。

– Slice
– Dice
– Rollup
– Drill Up
– Drill Down
– Pivot
交互式OLAP分析：Distributed Cube
Holodesk – A Columnar Store on SSD cache layer
Executor
Inceptor
Server
Executor Executor Executor
Columnar Store API
Cube(D
1
,D
2
,
D
3
)
INDEX
ColumnD
1
INDEX
ColumnD
2
INDEX
ColumnD
3
INDEX
ColumnM
1
Cube(D
1
,D
2
),
(D
2
,D
3
),(D
1
,
D
3
)
Columnar Store API
Cube(D
1
,D
2
,
D
3
)
INDEX
ColumnD
1
INDEX
ColumnD
2
INDEX
ColumnD3
INDEX
ColumnM
1
Cube(D
1
,D
2
),
(D
2
,D
3
),(D
1
,
D
3
)
Columnar Store API
Cube(D
1
,D
2
,
D
3
)
INDEX
ColumnD
1
INDEX
ColumnD
2
INDEX
ColumnD
3
INDEX
ColumnM
1
Cube(D
1
,D
2
),
(D
2
,D
3
),(D
1
,
D
3
)
Columnar Store API
Cube(D
1
,D
2
,
D
3
)
INDEX
ColumnD
1
INDEX
ColumnD
2
INDEX
ColumnD
3
INDEX
ColumnM
1
Cube(D
1
,D
2
),
(D
2
,D
3
),(D
1
,
D
3
)
如何定义一个Cube？
Cube Size
256KB固定大小
ZK Cluster
• Cube on Transwarp Holodesk
• Cube是OLAP分析的常用技术
create table store_sales tblproperties(
‘cache’=‘ram’,
‘holodesk.dimensions’=‘product,
cities, time’
) as select * from store_sales;
计算下沉到存储层
Compute and filters
pushed down to storage
layer

0.9
9.8 12.4 12.1 14.0
1.3
8.8
12.7
20.2
43.3
58.9
86.6
136.1
1.4
55.2 56.5
0
20
40
60
80
100
120
140
160
1 2 3 4 5 6 7 8
执行时间（秒）
w/ cube w/o cube
Holodesk Cube带来的性能加速
Operation SQL query
q1 count select count(*) from store_sales
q2 measure select sum(ss_sales_price) from store_sales
q3 aggregation
select sum(ss_sales_price) from store_sales group by
ss_customer_sk
q4 drill down
ss_sold_date_sk
q5 drill down
ss_customer_sk, ss_sold_date_sk
q6 slice
select sum(ss_sales_price) from store_sales_r where
ss_customer_sk=5000 group by
ss_customer_sk,ss_sold_date_sk
q7 dice
select sum(ss_sales_price) from store_sales where
ss_sold_date_sk between 2450629 and 2451816 group by
ss_customer_sk
q8 pivot
select sum(ss_sales_price) from store_sales where
ss_customer_sk > 5000 and ss_sold_date_sk between
2450629 and 2451816 group by
ss_customer_sk,ss_sold_date_sk
40亿条记录
共500GB驻留内存
4台两路普通服务器
每台服务器
内存：256GB
CPU：E5-2620v2
网络：万兆网络

为SSD设计专有格式 - Holodesk
1 W A
2 X B
3 Y C
4 Z D
5 O E
6 P F
7 Q G
8 R H
Holodesk – A Columnar Store on SSD cache layer
Spark
1 W A
GLOBAL
INDEX
2 X B
Dictionary
BITMAP
INDEX
FILTER
BITMAP
INDEX
FILTER
BITMAP
INDEX
FILTER
3 Y C
4 Z D
BITMAP
INDEX
FILTER
BITMAP
INDEX
FILTER
BITMAP
INDEX
FILTER
Dictionary
5 O E
6 P F
BITMAP
INDEX
FILTER
BITMAP
INDEX
FILTER
BITMAP
INDEX
FILTER
Dictionary
7 Q G
8 R H
BITMAP
INDEX
FILTER
BITMAP
INDEX
FILTER
BITMAP
INDEX
FILTER
Dictionary
HDFS Storage Layer
HDFS Text or ORC or Parquet Files
Memory Tier
SSD Tier
• HDFS Storage Tier – 让应用程序来选择存储层
– Memory as storage tier
– SSD Storage Tier
• 但是，现有的Text以及行列混合(ORC or Parquet)等文件格式都
不足以利用SSD的高性能。
Executor
Spark
Context
Executor Executor Executor
Columnar Store APIColumnar Store APIColumnar Store APIColumnar Store API
File System API
CREATE TABLE t1
TBLPROPERTIES(
"cache"=“SSD”,
“filters”=“hashbucket(360):c1”
) AS
SELECT *
FROM src
DISTRIBUTE BY c1;
• Off-Heap
• Columnar store
• Secondary index
• Table format/access
• SSD as cache
ZK Cluster

不同格式在SSD上的性能对比
测试项格式硬件介质存储引擎性能提升
text(disk) SequenceFile Hard Disk HDFS 基准
text(ssd) SequenceFile PCI-e SSD HDFS 1.5倍
orc(ssd) ORC File PCI-e SSD HDFS 4倍
holodesk(ssd) Columnar Store PCI-e SSD Holodesk 8倍
结论
• 采用文本格式，PCI-e SSD较磁盘仅带来的性能提升仅1.5倍
• 采用针对硬盘设计的行列混合ORC存储格式，在SSD上可比文本格式提升2.7倍
• 采用转为内存和SSD设计的Holodesk列式存储
• 比SSD上的ORC文件格式提升2倍；
• 比SSD上的文本格式提升6倍 ;
• 比硬盘上的文本格式提升8倍以上。
0
5
10
15
20
25
30
35
40
45
50
q5 q12 q17 q19 q22 q25 q42 q49 q51 q52 q55 q56 q58 q60 q66 q96 q98 q100 q101 q102 q103 q104
text(disk)
text(ssd)
orc(ssd)
holodesk(ssd)
提升倍数 TPC-DS中I/O密集的测试集

Cost Based Optimizer
20
Table A
100M
Records
kurt
mary
john
smith
622523454095243
622550042034568
622544334568763
622534878982324
v_name Card_id
1
2
…
…
9999999
10000000
No.
Table B
100M records
JOIN ON
A.card_id=B.card_id
Cost based
optimizer
Table size
Immediate
result size
Data skew
Value
distribution
selectivity
Map Join
Lookup Join
Hash Join
Query Plan
Common Join
Co-Group Join

与数据可视化工具良好对接
 在数据可视化的过程中Spark扩展支持大量的可视化及报表生成工具，如 Tableau，SAP
Business Objects, Oracle Business Intelligence等，使得基于大数据分析的商业决策更
易被理解和接受，从而将大数据的潜在价值最大化。
 业务人员通过简单的拖拽既可定制个性化报表，跳过了数据准备的工作环节。

对R语言的完整支持
R package
from Transwarp
R – SQL
Interface
from Transwarp
Tables
Distributed Columnar
Store on SSD
Statistics Library
Machine Learning
Library
Files
Hadoop Distributed File
System
R – Spark
Interface
from Transwarp
Spark RDD
Resilient Distributed
Dataset in Memory
Call parallelized algorithms
Call SQL
call sequential algorithm for distributed dataset
算法名称 TDH MLlib
Min/Max YES YES
Mean/Variance YES YES
Normalization YES YES
Standard scaling YES YES
Correlation YES YES
Histogram YES NO
Bining YES NO
Percentile YES NO
Median YES NO
Boxplot YES NO
Screen YES NO
Cardnality YES NO
Logistic Regression YES YES
Naive Bayes YES YES
SVM YES YES
KMeans YES YES
Collaborative Filtering YES YES
Linear Regression YES YES
Ridge Regression YES YES
Lasso Regression YES YES
GLM YES NO
DecisionTree YES YES
Apriori YES NO
Asocciation rules YES NO
Gradient Boosted Trees YES NO
Random Forest YES NO
Deep Learning YES NO
R Studio

TRANSWARP © 2014
应用与实践
星环信息科技（上海）有限公司

智慧城市中的大数据
智能楼宇
智能电网
污染监控
移动医疗影像
设备
急救车上
传感器
手机附加
传感器
智慧城市
智能医院
智能工厂
智能交通
车载传感器
智能电表
工业自动化
感应传感器
电子警察
气象监控
三大特点：7x24小时不断产生的数据；数据量大、并发度高、处理延时要求高；模式分析和挖掘成为必需

物联网传感器数据分析
Kafka
SQL
aggregation
Outlier
detection
batch @ t+1batch @ t
报警
data mining on streams
100k records/s/node
1KB/record
transwarp stream
0 2 4 6 8
1 3 5 7 9
… …
table_per_day
Ad-hoc Analysis
using ANSI SQL
Data mining
using R
transwarp inceptor
Columnar Store on SSD
Predicting using
CFD Algorithms
… …

统计类应用：利用基站数据进行人流分析
通过基站数据定位用户的活动区域
通过基站上网数据分析用户的关注点、出行目的、出行时间
通过人群密集度算法，算出时间、经纬度、人群密度
等关键指标，分析出人群迁移和密度变化趋势

统计类应用：商圈人群密度分析
ID 名称 ID 名称 ID 名称
1 五角场 6 徐家汇 11 大柏树
2 浦东建材市场 7 静安寺-南京路-人民广场 12 娄山关路
3 金沙江路中环路口 8 虹莘路 13 新世界
4 漕河泾 9 金沙江路祁连山路 14 长寿路
5 中山公园 10 陆家嘴
• 实时刷卡信息（来自银联）
• 定义商圈
• 商圈聚类模型分析与选择
• 模型拟合
• 动态商圈区域即时呈现，收缩变化一目了然
• 二级商圈的挖掘
• 人群密度趋势研判

基于流的垃圾短信分类
特征提取
朴素贝叶斯模型预测
SVM模型预测
在线并发数据挖掘
基于Transwarp Data Hub的实时垃圾
短信分析报警系统
N
Y 报警Kafka
训练离线模型
分词
报警
过
滤
器
短消息
短消息
短消息
短消息

金融实时交易风险评估系统
• Logistic regression
• Decision tree
• Random forest
• Cost sensitive LR
• SVM
交易数据交易数据
交易数据
聚类/
分类
检测
直接交易
正常
可疑
正常交易
可疑交易
交易时间、
地点、金额、
商家等信息
神经网络模型
每
笔
交
易

持卡人行为分析应用
 训练数据采样某银行
2012年的04~09半年
的交易流水
 总共约2亿条记录，
506万个独立持卡人，
数据大小约80GB
 并行360度用户画像
在2分钟内完成对506
万独立持卡人的画像
消费频繁度
消费水平
美食爱好
旅游
爱好
体育爱好
电子爱好
IT爱好年轻活力
男性
女性
商人
开车一族
电话达人
差旅人士

内部服务接
口
平
台
数
据
O
域
BOSS
系
统
Gn信令
业务订购
使用行为
数据
Mc信令
通信详单
营帐资料
渠道数据
政企数据
网络
覆盖数据
GIS
地图服务
LTE信令
Inceptor SQL 编译解析器
流量运营平台
SPARK集群
自助分析平台
SPARK集群
经营分析系统
M/R集群
渠道运营平台
M/R集群
… 客户标签库
在线数据
查询服务
Hyperbase
基于位置的
实时事件营销
Stream集群
八大数据源新增
4TB/天
Flume
FTP
OverHDFS
分
布
式
消
息
队
列
RabbitMQ
OrSocket
CLI
命令行接口
外部服务接口
PL/SQL
JDBC/ODBC
REST
编程接口
文件接口
JAVA
编程接口
权限访问控制
SSD
数据流程
运营商的大数据运营中心
Data source
• 8 data sources including
network signaling, billing
records, CRM, and
subscription behaviors,
etc.
• 4TB added every day.
Applications
13 analytic applications
including:
• Targeted data plan
• Network optimization
• Location-based ads
• Customer analysis
…
Deployed Cluster
• 20 server nodes
• 5x faster than 4 mini-
computer + DB2 cluster
统一资源调度和管理YARN
统一的大数据存储平台HDFS
流
量
经
营
平
台

Typical Case: Streaming in Intelligent Transportation System
Inceptor
Hyperbase
Real time database
• Real time picture
serving for road
segments
• Legacy applications
• Real time road condition
• Average speed estimation
• Regulation Check
… …
• Traffic info online serving
• Traffic pattern mining
Streaming Cluster
Inceptor
Kafka
Distributed
Message
Queue
Result tables stored in hyperbase
Deployed for ITS of Shandong Province in China
End to end latency is < 2 seconds,
streaming cluster with >30 nodes
Message
cluster with >10
nodes
>30 nodes
30 million events/day,
10000 events/second in rush
hours

Transwarp Data Hub 核心优势
无限水平扩展
系统可线性扩充存储容量或提高处理性能，只需要简单的向集群中
增加机器，无需停机。有效解决企业由于数据增长导致的处理性能
缓慢或频繁迁移数据的问题。
统一数据处理平台
改进的YARN资源管理框架，可在同一份数据集上运行多种计算框架，
动态创建SQL统计、数据挖掘、机器学习、流处理等计算集群，满
足企业多部门资源统一管理的需求。
高速SQL分析
Inceptor交互式内存分析引擎，同时支持SQL’99和R语言，满足数
据交互式分析和挖掘需求，加快企业决策速度。内置改进后的
Apache Spark，SQL执行性能比Apache Hadoop 快10倍左右。
灵活数据处理
Hyperbase实时数据库支持结构化、半结构化、非结构化等多种类
型数据的OLTP在线存储、OLAP检索、全文搜索、图分析和批处理
统计业务等全方位需求。
实时流计算
Stream分布式实时流处理引擎提供强大的流计算表达能力，可支持
复杂的实时处理逻辑，满足企业实时告警、风险控制、在线统计和
挖掘等应用需求。
超高性价比
采用普通商用服务器构建集群，最大程度降低成本；内置Erasure
Code先进编码技术，提供两倍存储效率和两倍容错能力；高效支持
内存/闪存/硬盘混合存储，可提供最佳性价比存储配置。
Transwarp Proprietary
流处理
引擎
Stream
NoSQL数据库
搜索、图计算
Hyperbase
Transwarp Manager
交互式内存分析
数据挖掘
Inceptor
资源管理 YARN
(内置Transwarp Extension)
优化存储 HDFS2
(内置Transwarp Erasure Code)
批处理
Pig
批处理框架
Map/Reduce2
协作服务
Zookeeper
机器学习
Mahout
工作流
Oozie
日志采集
Flume
全文搜索
Elastic
Search
数据集成
Sqoop
Apache Projects

Welcome to Join Us！

吕潇星环科技大数据技术探索与应用实践

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Viewers also liked

Viewers also liked (20)

Similar to 吕潇星环科技大数据技术探索与应用实践

Similar to 吕潇星环科技大数据技术探索与应用实践 (20)

More from jins0618

More from jins0618 (18)