SlideShare a Scribd company logo
1 of 35
Download to read offline
2015/7/22 1www.transwarp.io confidential
星环科技大数据技术探索与应用实践
吕 潇
xiao.lv@transwarp.io
星环科技
www.transwarp.io
2015/7/22 2www.transwarp.io confidential
• 中国最久的Hadoop核心开发团队
• 成功完成近亿元级别的A轮融资
• 国内技术最领先的大数据基础软件
• 超越硅谷的企业级架构及功能模块
• 国内最多的落地应用案例
• 2014年进入中央政府采购网
2
参考CSDN的技术报道:【云先锋】星环TDH:性能大幅领先于开源Hadoop2的技术架构赏析
http://www.csdn.net/article/2014-09-03/2821532-Hadoop-TranswarpDataHub-Spark
2015/7/22 3www.transwarp.io confidential
孙元浩
创始人兼CTO
星环科技的技术开发团队来自Intel, Google, Microsoft, IBM, NVidia、
Oracle、EMC、百度等知名科技公司,以及南京大学、复旦大学、
上海交通大学、中国科学技术大学、美国普渡大学等多个知名学府,
也包括放弃海外知名企业 优厚待遇回国创业的成员。星环科技的核
心团队参与部署了国内最早的企业级Hadoop集群。
佘晖
总经理
核心团队
方之熙
CRO
曾任英特尔中国OEM/渠道业务总经理,负责英特尔
®IA架构产品(包括英特尔®处理器、服务器,网络产
品等)在中国大陆地区的销售和市场推广。
Hadoop技术专家,曾是英特尔软件部亚太区CTO,
是英特尔Hadoop发行版的创始人。孙元浩及其团队在
中国成功建立数十个Hadoop成功案例。
曾任英特尔副总裁,英特尔中国研究院院长,领导嵌
入式系统的深入研究并带领英特尔中国研究院开发突
破性技术。是编译器和CPU体系架构领域科学家。
股东大会
董事会
总经理
监事会
营
销
基
础
研
发
综
合
市
场
应
用
咨
询
技
术
服
务
北京 广州 南京 人力 财务 行政北京 上海
2015/7/22 4www.transwarp.io confidential
• 公司新近完成A轮和A+轮融资
– 2014年6月,A轮融资由方广资本领投,联合恒生电子、信雅达等上市公司共同完成,获得
业界广泛关注,除几乎全部的IT主流媒体外,腾讯、网易、和讯、金融界、中金在线、中国
证券网等主流财经媒体及门户均进行相关报道
– 时隔半年,2015年1月,A+ 轮融资由著名风投启明创投(QimingVenturePartners)领投,
上轮投资者包括知名VC方广资本(F&GVenture)、恒生电子及信雅达等上市公司这轮全部
继续跟投,反映了投资人对于星环的一致看好
• 与浪潮信息签署战略合作协议,携手打造中国自主的大数据核心技术平台。该携手填
补国内空白,完整实现大数据基础技术由内到外的高水平全国产化
近期公司大事记
2015/7/22 5www.transwarp.io confidential
• 2014年10月,公司在纽约召开的Strata+Hadoop World大会上发
布了Transwarp Data Hub 3.4新版本Hadoop发行版软件
– 这次Strata是近年来规模最大的大数据盛会,有5500多人参加这次
大会,130多家厂商参展,门票在开会前就售罄。这么大规模的盛
会标志着hadoop已经真正成为大数据处理技术的主流地位。这也
是星环首次在美国-大数据的大本营-发布大数据最新产品
– 在这次大会上公司发布了最新的性能数据,相对于Cloudera
Impala,性能更好,SQL支持更完整
• 2014年12月,公司在北京召开的年度大数据大会BDTC上,发布了
TDH4.0最新版本,全面升级了各组件的功能,同时全方位提升了平台
性能
• 2015年4月16日,公司在中国数据库大会上发布TDH4.1版本,更好
地支持数据仓库应用。同时宣布在6月底发布TOS1.0版本,进入
Hadoop on Docker时代。
近期公司大事记
CCTV采访DTCC专访Databricks CEO
Ion Stoica
HBase PMC Chairman
Michael Stack
2014/12 2015/04
Cloudera Founder
Mike Olson
Strata Conference
New York 2014/10
Tony Baer, Big Data Analyst at NY
Cloudera Founder
Mike Olson
Tony Baer, BigData Analyst @NewYork
2015/7/22 6www.transwarp.io confidential
星环科技典型案例 (落地案例最多)
金融证劵
 银行+证券
电信运营商
 移动、联通、电信
交通公安
 山东、辽宁、浙江等
能源
 国网+南网
互联网
 电商+CDN
政府
 工商+税务
物流快递
 EMS
广播电视
 华数+卫视
2015/7/22 7www.transwarp.io confidential
我们的部分客户
2015/7/22 8www.transwarp.io confidential
Spark成为最受欢迎的计算引擎
source: http://databricks.com/certified-on-spark-distribution
全球已有近50家企业围绕Spark提供产品和服务,11家提供商业Spark版本
2015/7/22 9www.transwarp.io confidential
Transwarp Data Hub (TDH) 架构图
9
Transwarp Proprietary
流处理
引擎
Stream
NoSQL数据库
搜索、图计算
Hyperbase
Transwarp Manager
交互式分析引擎
数据挖掘
Inceptor
including Apache Spark
资源管理 YARN 2.5
(内置Transwarp Extension)
优化存储 HDFS 2.5
(内置Transwarp Erasure Code)
批处理
Pig 0.13
批处理框架
Map/Reduce2
协作服务
Zookeeper 3.4.5
机器学习
Mahout 0.9
工作流
Oozie 4.0.1
日志采集
Flume 1.4
全文搜索
Elastic
Search 1.3.1
数据集成
Sqoop 1.4.5
一站式数据存储平台
TDH通过内存计算技术、高效索引、执行计划优化和高度
容错的技术,使得一个平台能够处理从GB到PB的数据,
并且在每个数量级上,都能比现有技术提供更快的性能;
企业客户不再需要混合架构,不需要孤立的多个集群,
TDH可以伴随企业客户的数据增长,动态不停机扩容,避
免MPP或传统架构数据迁移的棘手问题。
一站式资源管理平台
TDH在统一存储上建立资源管理层,提供企业用户统一的
计算资源管理、动态资源分配、多部门之间资源配置和动
态共享,灵活支持多部门多应用在统一平台上平滑运行。
一站式数据分析平台
TDH支持批处理统计分析、交互式SQL分析、在线数据检
索、R语言数据挖掘、机器学习、实时流处理、全文搜索
和图计算,为企业客户提供广泛的计算支持能力,客户无
需切换平台或架构即可完成复杂的任务。
一站式管理平台:
TDH作为企业级解决方案,开发了用户友好的管理界面、
提供了系统安装、集群配置,安全访问控制、监控及预警
等多方面支持,在可管理性方面优势显著。
>
>
>
>
Apache Projects
2015/7/22 10www.transwarp.io confidential
交互式分析引擎Inceptor架构图
Apache Spark
基于内存的Map/Reduce计算引擎,即将成为新一代主流计算框架。处
理大数据像“光速”一样快,比Hadoop Map/Reduce快10x倍。
Holodesk
跨内存/闪存/磁盘等介质的分布式混合列式存储,常用于缓存数据供
Spark高速访问。Holodesk内建内存索引,可提供比开源Spark更高的
交互式统计性能;结合使用低成本的内存/SSD混合存储方案,可接近全
内存存储的分析性能。
SQL引擎
高度优化的高速SQL引擎,可运行在Spark或Map/Reduce上,可高速
处理缓存在Holodesk上的列式数据。兼容ANSI SQL 2003, HiveQL和
PL/SQL语法,支持数据仓库、数据集市等分析系统中常用的复杂分析型
语法,方便应用迁移。
统计库
并行化的高性能统计算法库,用于对原始数据进行去噪、去缺省/异常值、
归一化、统计分布等,是机器学习或数据挖掘的基础工具包。
机器学习库
并行化的高性能机器学习算法库,包含分类、聚类、预测、推荐等机器
学习算法。可用于构建高精度的推荐引擎或者预测引擎。
R 语言/R Studio
强大的主流数据统计和绘图语言R以及Web图形化开发界面RStudio。
通过调用Inceptor内置并行算法库,支持对大数据集进行数据挖掘和统
计。
丰富的工具支持
支持主流可视化和BI/挖掘工具,包括Tableau, IBM Cognos, SAP BO,
Oracle BI, SAS等。支持Informatica,Pentaho/Kettle等ETL工具。
Transwarp HDFS2
分布式持久化数据存储
cache
Transwarp Hyperbase
分布式实时数据库
cache
Transwarp Holodesk
分布式内存列式存储
R – statistical computing
Distributed Execution Engine 分布式执行引擎
including Apache Spark
编译器 SQL 2003 + PL/SQL COMPILER
优化器 COST BASED OPTIMIZER
代码生成 CODE GENERATOR
Interactive SQL Engine
Transwarp
Statistics Library
并行统计算法库
Transwarp
Machine Learning
Library
机器学习算法库
JDBC 4.0 SHELLODBC 3.5
2015/7/22 11www.transwarp.io confidential
实时NoSQL数据库Hyperbase
Transwarp HBase – Hadoop Database
分布式 Big Table
Transwarp Hyperdrive – SQL backend engine between Inceptor & Hyperbase
Real-time OLTP + OLAP + BATCH + Search + Graph Traversal Application
Mixed Workload 混合负载业务
Graph
language
Scalable
Graph
Database
图形
数据库
Transaction
SQL & API
Transaction
Execution
Engine
分布式事务
处理引擎
Index
SQL & API
Global/Local
Index
全局/局部
索引
日志
文本
关系
数据库
二进制
文件
图像
OLTP
支持高并发毫秒级数据插入/修改/查询/删除(CRUD)。
结合Inceptor SQL引擎,可以支持通过SQL进行高并发
的CRUD。
支持分布式事务处理。
支持常见数据类型,可更高效的存取数据。
OLAP
支持多种索引(global/local/high-dimensional
index)。
结合Inceptor,可进行行列存储转换,进行秒级高效分
析。
支持复杂查询条件,自动利用索引加速数据检索,无需
指定索引。
批处理
可以对数据进行全量高速统计,会比M/R运行在HBase
上快5-10倍。
可通过Inceptor SQL进行全量统计。
支持通过SQL进行BulkLoad批量装载数据
内嵌搜索引擎
实时同步创建索引
实现秒级关键字搜索
图数据库
支持高并发图遍历和检索
多类型支持
结构化记录
半结构化文档(JSON/BSON)
非结构化数据(图片、音频、二进制文档等)
支持混合结构数据的存储、搜索、统计、分析
支持SQL访问关系表和层次化文档
sqoopflume
Elastic Search
分布式全文索引
Document
SQL & API
Document
Store
json/bson
文档存储
Object
SQL & API
Object Store
image/files, etc
对象存储
Search
SQL & API
Distributed
Full-text
Search
全文搜索
Transwarp Inceptor
2015/7/22 12www.transwarp.io confidential
Stream流处理产品
Transwarp Hyperbase
分布式NoSQL数据库
高速查询或搜索
/20130101/…
/20130102/…
在线自动分类时间窗口统计实时告警
分
布
式
消
息
队
列
安
全
的
Kafka
Distributed Execution Engine 分布式执行引擎
Streaming
Data Driver
流数据
接收驱动器
Streaming
Machine Learning
流式机器学习
算法库(支持R语言)
Streaming Engine 流式计算引擎
Streaming SQL
(via Inceptor)
流式SQL
执行引擎
Transwarp Stream Web Console 流式任务Web控制器
Outlier异常检测实时事件
流
式
任
务
管
理
服
务
StreamingJobServer
Transwarp Holodesk
分布式内存/SSD缓存
高速SQL/R探索分析
2015/7/22 13www.transwarp.io confidential
Transwarp Inceptor是第一个
也是目前唯一一个支持PL/SQL的SQL on Hadoop引擎
名称 计算引擎 ANSI SQL支持程度 存储过程 第一个版本发布时间
Cloudera Impala 类Dremel,类MPP引擎 SQL92子集 + SQL2003扩展(<40%) 不支持 2011/10
Hortonworks
Tez/Stinger
Map/Reduce改进 SQL92子集 + SQL2003扩展(<50%) 不支持 2012/5
Transwarp Inceptor Spark SQL2003 (>90%) Oracle Compatible
PL/SQL
2013/11
Databricks SparkSQL Spark HiveQL (SQL92子集, <40%) 不支持 2014/6
MapR Drill 改进自OpenDremel SQL92子集 (<40%) 不支持 2012/6立项,2014/11发布
IBM BigSQL v3 DB2/DPF like MPP Engine over HDFS SQL 2003 不支持 2014/6
Pivotal HAWQ Greenplum like MPP Engine over
HDFS
SQL 2003(<90%) 不支持 2013/2
Splice Machine Apache Derby + HBase SQL 1999 不支持 2015 GA
Actian Vortex MPP Engine over HDFS SQL 2003 不支持 2014
2015/7/22 14www.transwarp.io confidential
PL/SQL支持程度
 基本语句
• 赋值语句
• SQL语句
• 匿名块执行
• 存储过程调用
• UDF/UDAF调用
 数据类型
• 标量类型
• 集合类型及其方法(COUNT()/LIMIT()/etc.)
• RECORD类型
• 隐/显式类型转换
 流程控制语句
• IF/ELSE IF/ELSE语句
• GOTO语句
• LOOP循环
• FOR循环
• FORALL循环
• WHILE循环
• CONTINUE(WHEN)语句
• EXIT(WHEN)语句
 游标支持
• 显式CURSOR及其基本操作:OPEN/FETCH(BULK
COLLECT)/NOTFOUND/etc.
• 隐式游标(FOR 循环)
• SELECT (BULK COLLECT) INTO语句
• PACKAGE
• 包内全局变量
• 包内类型
• 包内函数
• 参数和变量属性
• NOT NULL
• IN/OUT
• DEFAULT VALUE
• 变量声明时赋值
• 异常
• 声明时赋值PARGMA EXCEPTION_INIT
• 内置函数RAISE_APPLICATION_ERROR/SOLCODE/SQLERRM/FORALL ... SAVE
EXCEPTIONS
• 其他系统预定义异常的抛出点
 异常
• 支持用户自定义异常和系统预定义异常
• 支持RAISE语句
• 支持WHEN (OR) THEN (OTHERS)异常处理
• 支持存储过程内部和存储过程之间的异常传播
• 部分系统预定义异常抛出点
• 部分编译时刻错误检测
 部分系统函数
• PUT_LINE()
待支持的功能
2015/7/22 15www.transwarp.io confidential
我们的核心优势:SQL功能和性能远超国外友商
四种不同的SQL引擎在独立发展
名称 计算引擎 SQL支持程度 第一个版本发布时间
Cloudera Impala 类Dremel,类MPP引擎 SQL92子集+SQL2003扩展(窗口函数) 2011/10
Hortonworks Tez/Stinger Map/Reduce改进 SQL92+SQL2003扩展(窗口函数) 2012/5
Transwarp Inceptor Spark SQL2003+PL/SQL(存储过程、游标) 2013/11
Databricks SparkSQL Spark HiveQL (SQL92子集) 2014/6
MapR Drill 改进自OpenDremel SQL92子集 2012/6立项,2014/11发布
图中纵坐标小于1表示Impala性能超过Inceptor,而大于1则表示Inceptor性能更好。对于Impala不能支持的SQL,我们就标记这个性能比为100。
从图中可见,在Impala支持的19个SQL中,只有8个SQL的表现超过Inceptor,另外11个SQL 在Inceptor的表现比Impala更好。
2015/7/22 16www.transwarp.io confidential
– Slice
– Dice
– Rollup
– Drill Up
– Drill Down
– Pivot
交互式OLAP分析:Distributed Cube
Holodesk – A Columnar Store on SSD cache layer
Executor
Inceptor
Server
Executor Executor Executor
Columnar Store API
Cube(D
1
,D
2
,
D
3
)
INDEX
ColumnD
1
INDEX
ColumnD
2
INDEX
ColumnD
3
INDEX
ColumnM
1
Cube(D
1
,D
2
),
(D
2
,D
3
),(D
1
,
D
3
)
Columnar Store API
Cube(D
1
,D
2
,
D
3
)
INDEX
ColumnD
1
INDEX
ColumnD
2
INDEX
ColumnD3
INDEX
ColumnM
1
Cube(D
1
,D
2
),
(D
2
,D
3
),(D
1
,
D
3
)
Columnar Store API
Cube(D
1
,D
2
,
D
3
)
INDEX
ColumnD
1
INDEX
ColumnD
2
INDEX
ColumnD
3
INDEX
ColumnM
1
Cube(D
1
,D
2
),
(D
2
,D
3
),(D
1
,
D
3
)
Columnar Store API
Cube(D
1
,D
2
,
D
3
)
INDEX
ColumnD
1
INDEX
ColumnD
2
INDEX
ColumnD
3
INDEX
ColumnM
1
Cube(D
1
,D
2
),
(D
2
,D
3
),(D
1
,
D
3
)
如何定义一个Cube?
Cube Size
256KB固定大小
ZK Cluster
• Cube on Transwarp Holodesk
• Cube是OLAP分析的常用技术
create table store_sales tblproperties(
‘cache’=‘ram’,
‘holodesk.dimensions’=‘product,
cities, time’
) as select * from store_sales;
计算下沉到存储层
Compute and filters
pushed down to storage
layer
2015/7/22 17www.transwarp.io confidential
0.9
9.8 12.4 12.1 14.0
1.3
8.8
12.7
20.2
43.3
58.9
86.6
136.1
1.4
55.2 56.5
0
20
40
60
80
100
120
140
160
1 2 3 4 5 6 7 8
执行时间(秒)
w/ cube w/o cube
Holodesk Cube带来的性能加速
Operation SQL query
q1 count select count(*) from store_sales
q2 measure select sum(ss_sales_price) from store_sales
q3 aggregation
select sum(ss_sales_price) from store_sales group by
ss_customer_sk
q4 drill down
select sum(ss_sales_price) from store_sales group by
ss_sold_date_sk
q5 drill down
select sum(ss_sales_price) from store_sales group by
ss_customer_sk, ss_sold_date_sk
q6 slice
select sum(ss_sales_price) from store_sales_r where
ss_customer_sk=5000 group by
ss_customer_sk,ss_sold_date_sk
q7 dice
select sum(ss_sales_price) from store_sales where
ss_sold_date_sk between 2450629 and 2451816 group by
ss_customer_sk
q8 pivot
select sum(ss_sales_price) from store_sales where
ss_customer_sk > 5000 and ss_sold_date_sk between
2450629 and 2451816 group by
ss_customer_sk,ss_sold_date_sk
40亿条记录
共500GB驻留内存
4台两路普通服务器
每台服务器
内存:256GB
CPU:E5-2620v2
网络:万兆网络
2015/7/22 18www.transwarp.io confidential
为SSD设计专有格式 - Holodesk
1 W A
2 X B
3 Y C
4 Z D
5 O E
6 P F
7 Q G
8 R H
Holodesk – A Columnar Store on SSD cache layer
Spark
1 W A
GLOBAL
INDEX
2 X B
Dictionary
BITMAP
INDEX
FILTER
BITMAP
INDEX
FILTER
BITMAP
INDEX
FILTER
3 Y C
4 Z D
BITMAP
INDEX
FILTER
BITMAP
INDEX
FILTER
BITMAP
INDEX
FILTER
Dictionary
5 O E
6 P F
BITMAP
INDEX
FILTER
BITMAP
INDEX
FILTER
BITMAP
INDEX
FILTER
Dictionary
7 Q G
8 R H
BITMAP
INDEX
FILTER
BITMAP
INDEX
FILTER
BITMAP
INDEX
FILTER
Dictionary
HDFS Storage Layer
HDFS Text or ORC or Parquet Files
Memory Tier
SSD Tier
• HDFS Storage Tier – 让应用程序来选择存储层
– Memory as storage tier
– SSD Storage Tier
• 但是,现有的Text以及行列混合(ORC or Parquet)等文件格式都
不足以利用SSD的高性能。
Executor
Spark
Context
Executor Executor Executor
Columnar Store APIColumnar Store APIColumnar Store APIColumnar Store API
File System API
CREATE TABLE t1
TBLPROPERTIES(
"cache"=“SSD”,
“filters”=“hashbucket(360):c1”
) AS
SELECT *
FROM src
DISTRIBUTE BY c1;
• Off-Heap
• Columnar store
• Secondary index
• Table format/access
• SSD as cache
ZK Cluster
2015/7/22 19www.transwarp.io confidential
不同格式在SSD上的性能对比
测试项 格式 硬件介质 存储引擎 性能提升
text(disk) SequenceFile Hard Disk HDFS 基准
text(ssd) SequenceFile PCI-e SSD HDFS 1.5倍
orc(ssd) ORC File PCI-e SSD HDFS 4倍
holodesk(ssd) Columnar Store PCI-e SSD Holodesk 8倍
结论
• 采用文本格式,PCI-e SSD较磁盘仅带来的性能提升仅1.5倍
• 采用针对硬盘设计的行列混合ORC存储格式,在SSD上可比文本格式提升2.7倍
• 采用转为内存和SSD设计的Holodesk列式存储
• 比SSD上的ORC文件格式提升2倍;
• 比SSD上的文本格式提升6倍 ;
• 比硬盘上的文本格式提升8倍以上。
0
5
10
15
20
25
30
35
40
45
50
q5 q12 q17 q19 q22 q25 q42 q49 q51 q52 q55 q56 q58 q60 q66 q96 q98 q100 q101 q102 q103 q104
text(disk)
text(ssd)
orc(ssd)
holodesk(ssd)
提升倍数 TPC-DS中I/O密集的测试集
2015/7/22 20www.transwarp.io confidential
Cost Based Optimizer
20
Table A
100M
Records
kurt
mary
john
smith
622523454095243
622550042034568
622544334568763
622534878982324
v_name Card_id
1
2
…
…
9999999
10000000
No.
Table B
100M records
JOIN ON
A.card_id=B.card_id
Cost based
optimizer
Table size
Immediate
result size
Data skew
Value
distribution
selectivity
Map Join
Lookup Join
Hash Join
Query Plan
Common Join
Co-Group Join
2015/7/22 21www.transwarp.io confidential
与数据可视化工具良好对接
 在数据可视化的过程中Spark扩展支持大量的可视化及报表生成工具,如 Tableau,SAP
Business Objects, Oracle Business Intelligence等,使得基于大数据分析的商业决策更
易被理解和接受,从而将大数据的潜在价值最大化。
 业务人员通过简单的拖拽既可定制个性化报表,跳过了数据准备的工作环节。
2015/7/22 22www.transwarp.io confidential
对R语言的完整支持
R package
from Transwarp
R – SQL
Interface
from Transwarp
Tables
Distributed Columnar
Store on SSD
Statistics Library
Machine Learning
Library
Files
Hadoop Distributed File
System
R – Spark
Interface
from Transwarp
Spark RDD
Resilient Distributed
Dataset in Memory
Call parallelized algorithms
Call SQL
call sequential algorithm for distributed dataset
算法名称 TDH MLlib
Min/Max YES YES
Mean/Variance YES YES
Normalization YES YES
Standard scaling YES YES
Correlation YES YES
Histogram YES NO
Bining YES NO
Percentile YES NO
Median YES NO
Boxplot YES NO
Screen YES NO
Cardnality YES NO
Logistic Regression YES YES
Naive Bayes YES YES
SVM YES YES
KMeans YES YES
Collaborative Filtering YES YES
Linear Regression YES YES
Ridge Regression YES YES
Lasso Regression YES YES
GLM YES NO
DecisionTree YES YES
Apriori YES NO
Asocciation rules YES NO
Gradient Boosted Trees YES NO
Random Forest YES NO
Deep Learning YES NO
R Studio
2015/7/22 23www.transwarp.io confidential
TRANSWARP © 2014
应用与实践
星环信息科技(上海)有限公司
2015/7/22 24www.transwarp.io confidential
智慧城市中的大数据
智能楼宇
智能电网
污染监控
移动医疗影像
设备
急救车上
传感器
手机附加
传感器
智慧城市
智能医院
智能工厂
智能交通
车载传感器
智能电表
工业自动化
感应传感器
电子警察
气象监控
三大特点:7x24小时不断产生的数据;数据量大、并发度高、处理延时要求高;模式分析和挖掘成为必需
2015/7/22 25www.transwarp.io confidential
物联网传感器数据分析
Kafka
SQL
aggregation
Outlier
detection
batch @ t+1batch @ t
报警
data mining on streams
100k records/s/node
1KB/record
transwarp stream
0 2 4 6 8
1 3 5 7 9
… …
table_per_day
Ad-hoc Analysis
using ANSI SQL
Data mining
using R
transwarp inceptor
Columnar Store on SSD
Predicting using
CFD Algorithms
… …
2015/7/22 26www.transwarp.io confidential
统计类应用:利用基站数据进行人流分析
通过基站数据定位用户的活动区域
通过基站上网数据分析用户的关注点、出行目的、出行时间
通过人群密集度算法,算出时间、经纬度、人群密度
等关键指标,分析出人群迁移和密度变化趋势
2015/7/22 27www.transwarp.io confidential
统计类应用:商圈人群密度分析
ID 名称 ID 名称 ID 名称
1 五角场 6 徐家汇 11 大柏树
2 浦东建材市场 7 静安寺-南京路-人民广场 12 娄山关路
3 金沙江路中环路口 8 虹莘路 13 新世界
4 漕河泾 9 金沙江路祁连山路 14 长寿路
5 中山公园 10 陆家嘴
• 实时刷卡信息(来自银联)
• 定义商圈
• 商圈聚类模型分析与选择
• 模型拟合
• 动态商圈区域即时呈现,收缩变化一目了然
• 二级商圈的挖掘
• 人群密度趋势研判
2015/7/22 28www.transwarp.io confidential
基于流的垃圾短信分类
特征提取
朴素贝叶斯模型预测
SVM模型预测
在线并发数据挖掘
基于Transwarp Data Hub的实时垃圾
短信分析报警系统
N
Y 报警Kafka
训练离线模型
分词
报警
过
滤
器
短消息
短消息
短消息
短消息
2015/7/22 29www.transwarp.io confidential
金融实时交易风险评估系统
• Logistic regression
• Decision tree
• Random forest
• Cost sensitive LR
• SVM
交易数据交易数据
交易数据
聚类/
分类
检测
直接交易
正常
可疑
正常交易
可疑交易
交易时间、
地点、金额、
商家等信息
神经网络模型
每
笔
交
易
2015/7/22 30www.transwarp.io confidential
持卡人行为分析应用
 训练数据采样某银行
2012年的04~09半年
的交易流水
 总共约2亿条记录,
506万个独立持卡人,
数据大小约80GB
 并行360度用户画像
在2分钟内完成对506
万独立持卡人的画像
消费频繁度
消费水平
美食爱好
旅游
爱好
体育爱好
电子爱好
IT爱好年轻活力
男性
女性
商人
开车一族
电话达人
差旅人士
2015/7/22 31www.transwarp.io confidential
内部服务接
口
平
台
数
据
O
域
BOSS
系
统
Gn信令
业务订购
使用行为
数据
Mc信令
通信详单
营帐资料
渠道数据
政企数据
网络
覆盖数据
GIS
地图服务
LTE信令
Inceptor SQL 编译解析器
流量运营平台
SPARK集群
自助分析平台
SPARK集群
经营分析系统
M/R集群
渠道运营平台
M/R集群
… 客户标签库
在线数据
查询服务
Hyperbase
基于位置的
实时事件营销
Stream集群
八大数据源 新增
4TB/天
Flume
FTP
OverHDFS
分
布
式
消
息
队
列
RabbitMQ
OrSocket
CLI
命令行接口
外部服务接口
PL/SQL
JDBC/ODBC
REST
编程接口
文件接口
JAVA
编程接口
权限访问控制
SSD
数据流程
运营商的大数据运营中心
Data source
• 8 data sources including
network signaling, billing
records, CRM, and
subscription behaviors,
etc.
• 4TB added every day.
Applications
13 analytic applications
including:
• Targeted data plan
• Network optimization
• Location-based ads
• Customer analysis
…
Deployed Cluster
• 20 server nodes
• 5x faster than 4 mini-
computer + DB2 cluster
统一资源调度和管理YARN
统一的大数据存储平台HDFS
流
量
经
营
平
台
2015/7/22 32www.transwarp.io confidential
Typical Case: Streaming in Intelligent Transportation System
Inceptor
Hyperbase
Real time database
• Real time picture
serving for road
segments
• Legacy applications
• Real time road condition
• Average speed estimation
• Regulation Check
… …
• Traffic info online serving
• Traffic pattern mining
Streaming Cluster
Inceptor
Kafka
Distributed
Message
Queue
Result tables stored in hyperbase
Deployed for ITS of Shandong Province in China
End to end latency is < 2 seconds,
streaming cluster with >30 nodes
Message
cluster with >10
nodes
>30 nodes
30 million events/day,
10000 events/second in rush
hours
2015/7/22 33www.transwarp.io confidential
Transwarp Data Hub 核心优势
无限水平扩展
系统可线性扩充存储容量或提高处理性能,只需要简单的向集群中
增加机器,无需停机。有效解决企业由于数据增长导致的处理性能
缓慢或频繁迁移数据的问题。
统一数据处理平台
改进的YARN资源管理框架,可在同一份数据集上运行多种计算框架,
动态创建SQL统计、数据挖掘、机器学习、流处理等计算集群,满
足企业多部门资源统一管理的需求。
高速SQL分析
Inceptor交互式内存分析引擎,同时支持SQL’99和R语言,满足数
据交互式分析和挖掘需求,加快企业决策速度。内置改进后的
Apache Spark,SQL执行性能比Apache Hadoop 快10倍左右。
灵活数据处理
Hyperbase实时数据库支持结构化、半结构化、非结构化等多种类
型数据的OLTP在线存储、OLAP检索、全文搜索、图分析和批处理
统计业务等全方位需求。
实时流计算
Stream分布式实时流处理引擎提供强大的流计算表达能力,可支持
复杂的实时处理逻辑,满足企业实时告警、风险控制、在线统计和
挖掘等应用需求。
超高性价比
采用普通商用服务器构建集群,最大程度降低成本;内置Erasure
Code先进编码技术,提供两倍存储效率和两倍容错能力;高效支持
内存/闪存/硬盘混合存储,可提供最佳性价比存储配置。
Transwarp Proprietary
流处理
引擎
Stream
NoSQL数据库
搜索、图计算
Hyperbase
Transwarp Manager
交互式内存分析
数据挖掘
Inceptor
including Apache Spark
资源管理 YARN
(内置Transwarp Extension)
优化存储 HDFS2
(内置Transwarp Erasure Code)
批处理
Pig
批处理框架
Map/Reduce2
协作服务
Zookeeper
机器学习
Mahout
工作流
Oozie
日志采集
Flume
全文搜索
Elastic
Search
数据集成
Sqoop
Apache Projects
2015/7/22 34www.transwarp.io confidential
Welcome to Join Us!
2015/7/22 35www.transwarp.io confidential
TRANSWARP © 2014

More Related Content

What's hot

Oracle db 12c 加速企业转型之十大功能
Oracle db 12c 加速企业转型之十大功能Oracle db 12c 加速企业转型之十大功能
Oracle db 12c 加速企业转型之十大功能Ethan M. Liu
 
Search engine
Search engineSearch engine
Search engineSamchu Li
 
How to plan a hadoop cluster for testing and production environment
How to plan a hadoop cluster for testing and production environmentHow to plan a hadoop cluster for testing and production environment
How to plan a hadoop cluster for testing and production environmentAnna Yen
 
豆瓣数据架构实践
豆瓣数据架构实践豆瓣数据架构实践
豆瓣数据架构实践Xupeng Yun
 
Hadoop的典型应用与企业化之路 for HBTC 2012
Hadoop的典型应用与企业化之路 for HBTC 2012Hadoop的典型应用与企业化之路 for HBTC 2012
Hadoop的典型应用与企业化之路 for HBTC 2012James Chen
 
Cloudera企业数据中枢平台
Cloudera企业数据中枢平台Cloudera企业数据中枢平台
Cloudera企业数据中枢平台Jianwei Li
 
Heartbeat v2 安装和配置原理
Heartbeat v2 安装和配置原理Heartbeat v2 安装和配置原理
Heartbeat v2 安装和配置原理Pickup Li
 
Introduction to K8S Big Data SIG
Introduction to K8S Big Data SIGIntroduction to K8S Big Data SIG
Introduction to K8S Big Data SIGJazz Yao-Tsung Wang
 
开源分布式数据库Tidb简介
开源分布式数据库Tidb简介开源分布式数据库Tidb简介
开源分布式数据库Tidb简介www.tujia.com
 
2015中国软件技术大会-开放云介绍
2015中国软件技术大会-开放云介绍2015中国软件技术大会-开放云介绍
2015中国软件技术大会-开放云介绍Li Jiansheng
 
Big Data Projet Management the Body of Knowledge (BDPMBOK)
Big Data Projet Management the Body of Knowledge (BDPMBOK)Big Data Projet Management the Body of Knowledge (BDPMBOK)
Big Data Projet Management the Body of Knowledge (BDPMBOK)Jazz Yao-Tsung Wang
 
Hadoop Deployment Model @ OSDC.TW
Hadoop Deployment Model @ OSDC.TWHadoop Deployment Model @ OSDC.TW
Hadoop Deployment Model @ OSDC.TWJazz Yao-Tsung Wang
 
唯品会大数据实践 Sacc pub
唯品会大数据实践 Sacc pub唯品会大数据实践 Sacc pub
唯品会大数据实践 Sacc pubChao Zhu
 
数据科学分析协作平台CDSW
数据科学分析协作平台CDSW数据科学分析协作平台CDSW
数据科学分析协作平台CDSWJianwei Li
 
MySQL 高可用方案及成功案例
MySQL 高可用方案及成功案例MySQL 高可用方案及成功案例
MySQL 高可用方案及成功案例郁萍 王
 
Azure Data Lake 簡介
Azure Data Lake 簡介Azure Data Lake 簡介
Azure Data Lake 簡介Herman Wu
 
阿里自研数据库 Ocean base实践
阿里自研数据库 Ocean base实践阿里自研数据库 Ocean base实践
阿里自研数据库 Ocean base实践drewz lin
 
Apache hadoop and cdh(cloudera distribution) introduction 基本介紹
Apache hadoop and cdh(cloudera distribution) introduction 基本介紹Apache hadoop and cdh(cloudera distribution) introduction 基本介紹
Apache hadoop and cdh(cloudera distribution) introduction 基本介紹Anna Yen
 
Hadoop 與 SQL 的甜蜜連結
Hadoop 與 SQL 的甜蜜連結Hadoop 與 SQL 的甜蜜連結
Hadoop 與 SQL 的甜蜜連結James Chen
 
Feeds & Node Import: Quick Importing Tools for Drupal
Feeds & Node Import: Quick Importing Tools for DrupalFeeds & Node Import: Quick Importing Tools for Drupal
Feeds & Node Import: Quick Importing Tools for DrupalHui-Hong You
 

What's hot (20)

Oracle db 12c 加速企业转型之十大功能
Oracle db 12c 加速企业转型之十大功能Oracle db 12c 加速企业转型之十大功能
Oracle db 12c 加速企业转型之十大功能
 
Search engine
Search engineSearch engine
Search engine
 
How to plan a hadoop cluster for testing and production environment
How to plan a hadoop cluster for testing and production environmentHow to plan a hadoop cluster for testing and production environment
How to plan a hadoop cluster for testing and production environment
 
豆瓣数据架构实践
豆瓣数据架构实践豆瓣数据架构实践
豆瓣数据架构实践
 
Hadoop的典型应用与企业化之路 for HBTC 2012
Hadoop的典型应用与企业化之路 for HBTC 2012Hadoop的典型应用与企业化之路 for HBTC 2012
Hadoop的典型应用与企业化之路 for HBTC 2012
 
Cloudera企业数据中枢平台
Cloudera企业数据中枢平台Cloudera企业数据中枢平台
Cloudera企业数据中枢平台
 
Heartbeat v2 安装和配置原理
Heartbeat v2 安装和配置原理Heartbeat v2 安装和配置原理
Heartbeat v2 安装和配置原理
 
Introduction to K8S Big Data SIG
Introduction to K8S Big Data SIGIntroduction to K8S Big Data SIG
Introduction to K8S Big Data SIG
 
开源分布式数据库Tidb简介
开源分布式数据库Tidb简介开源分布式数据库Tidb简介
开源分布式数据库Tidb简介
 
2015中国软件技术大会-开放云介绍
2015中国软件技术大会-开放云介绍2015中国软件技术大会-开放云介绍
2015中国软件技术大会-开放云介绍
 
Big Data Projet Management the Body of Knowledge (BDPMBOK)
Big Data Projet Management the Body of Knowledge (BDPMBOK)Big Data Projet Management the Body of Knowledge (BDPMBOK)
Big Data Projet Management the Body of Knowledge (BDPMBOK)
 
Hadoop Deployment Model @ OSDC.TW
Hadoop Deployment Model @ OSDC.TWHadoop Deployment Model @ OSDC.TW
Hadoop Deployment Model @ OSDC.TW
 
唯品会大数据实践 Sacc pub
唯品会大数据实践 Sacc pub唯品会大数据实践 Sacc pub
唯品会大数据实践 Sacc pub
 
数据科学分析协作平台CDSW
数据科学分析协作平台CDSW数据科学分析协作平台CDSW
数据科学分析协作平台CDSW
 
MySQL 高可用方案及成功案例
MySQL 高可用方案及成功案例MySQL 高可用方案及成功案例
MySQL 高可用方案及成功案例
 
Azure Data Lake 簡介
Azure Data Lake 簡介Azure Data Lake 簡介
Azure Data Lake 簡介
 
阿里自研数据库 Ocean base实践
阿里自研数据库 Ocean base实践阿里自研数据库 Ocean base实践
阿里自研数据库 Ocean base实践
 
Apache hadoop and cdh(cloudera distribution) introduction 基本介紹
Apache hadoop and cdh(cloudera distribution) introduction 基本介紹Apache hadoop and cdh(cloudera distribution) introduction 基本介紹
Apache hadoop and cdh(cloudera distribution) introduction 基本介紹
 
Hadoop 與 SQL 的甜蜜連結
Hadoop 與 SQL 的甜蜜連結Hadoop 與 SQL 的甜蜜連結
Hadoop 與 SQL 的甜蜜連結
 
Feeds & Node Import: Quick Importing Tools for Drupal
Feeds & Node Import: Quick Importing Tools for DrupalFeeds & Node Import: Quick Importing Tools for Drupal
Feeds & Node Import: Quick Importing Tools for Drupal
 

Viewers also liked

数据挖掘理论与实践
数据挖掘理论与实践数据挖掘理论与实践
数据挖掘理论与实践medcl
 
HIPAA compliance for Business Associates- The value of compliance, how to acq...
HIPAA compliance for Business Associates- The value of compliance, how to acq...HIPAA compliance for Business Associates- The value of compliance, how to acq...
HIPAA compliance for Business Associates- The value of compliance, how to acq...Compliancy Group
 
Pistoia Alliance USA Conference 2016
Pistoia Alliance USA Conference 2016Pistoia Alliance USA Conference 2016
Pistoia Alliance USA Conference 2016Pistoia Alliance
 
PDF FF catalog 2016 New TEST1_print
PDF FF catalog 2016 New TEST1_printPDF FF catalog 2016 New TEST1_print
PDF FF catalog 2016 New TEST1_printSergii Pivnov
 
Pistoia Alliance USA Conference 2016
Pistoia Alliance USA Conference 2016Pistoia Alliance USA Conference 2016
Pistoia Alliance USA Conference 2016Pistoia Alliance
 
2016 고려대학교 신입생 프로그래밍 경시대회 해법
2016 고려대학교 신입생 프로그래밍 경시대회 해법2016 고려대학교 신입생 프로그래밍 경시대회 해법
2016 고려대학교 신입생 프로그래밍 경시대회 해법Hongjun Jang
 
Pistoia Alliance USA Conference 2016
Pistoia Alliance USA Conference 2016Pistoia Alliance USA Conference 2016
Pistoia Alliance USA Conference 2016Pistoia Alliance
 
Wang ke classification by cut clearance under threshold
Wang ke classification by cut clearance under thresholdWang ke classification by cut clearance under threshold
Wang ke classification by cut clearance under thresholdjins0618
 
Wang ke mining revenue-maximizing bundling configuration
Wang ke mining revenue-maximizing bundling configurationWang ke mining revenue-maximizing bundling configuration
Wang ke mining revenue-maximizing bundling configurationjins0618
 
Comparing pregel related systems
Comparing pregel related systemsComparing pregel related systems
Comparing pregel related systemsPrashant Raaghav
 
Gao cong geospatial social media data management and context-aware recommenda...
Gao cong geospatial social media data management and context-aware recommenda...Gao cong geospatial social media data management and context-aware recommenda...
Gao cong geospatial social media data management and context-aware recommenda...jins0618
 
Movies&amp;demographics
Movies&amp;demographicsMovies&amp;demographics
Movies&amp;demographicsjins0618
 
Ke yi small summaries for big data
Ke yi small summaries for big dataKe yi small summaries for big data
Ke yi small summaries for big datajins0618
 
2015 07-tuto2-clus type
2015 07-tuto2-clus type2015 07-tuto2-clus type
2015 07-tuto2-clus typejins0618
 
Graph processing
Graph processingGraph processing
Graph processingyeahjs
 
Weiyi meng web data truthfulness analysis
Weiyi meng web data truthfulness analysisWeiyi meng web data truthfulness analysis
Weiyi meng web data truthfulness analysisjins0618
 
2015 07-tuto1-phrase mining
2015 07-tuto1-phrase mining2015 07-tuto1-phrase mining
2015 07-tuto1-phrase miningjins0618
 
Processing Large Graphs in Hadoop
Processing Large Graphs in HadoopProcessing Large Graphs in Hadoop
Processing Large Graphs in HadoopDani Solà Lagares
 

Viewers also liked (20)

数据挖掘理论与实践
数据挖掘理论与实践数据挖掘理论与实践
数据挖掘理论与实践
 
HIPAA compliance for Business Associates- The value of compliance, how to acq...
HIPAA compliance for Business Associates- The value of compliance, how to acq...HIPAA compliance for Business Associates- The value of compliance, how to acq...
HIPAA compliance for Business Associates- The value of compliance, how to acq...
 
Walking on the Water
Walking on the WaterWalking on the Water
Walking on the Water
 
Pistoia Alliance USA Conference 2016
Pistoia Alliance USA Conference 2016Pistoia Alliance USA Conference 2016
Pistoia Alliance USA Conference 2016
 
PDF FF catalog 2016 New TEST1_print
PDF FF catalog 2016 New TEST1_printPDF FF catalog 2016 New TEST1_print
PDF FF catalog 2016 New TEST1_print
 
Pistoia Alliance USA Conference 2016
Pistoia Alliance USA Conference 2016Pistoia Alliance USA Conference 2016
Pistoia Alliance USA Conference 2016
 
biodosimetry
biodosimetrybiodosimetry
biodosimetry
 
2016 고려대학교 신입생 프로그래밍 경시대회 해법
2016 고려대학교 신입생 프로그래밍 경시대회 해법2016 고려대학교 신입생 프로그래밍 경시대회 해법
2016 고려대학교 신입생 프로그래밍 경시대회 해법
 
Pistoia Alliance USA Conference 2016
Pistoia Alliance USA Conference 2016Pistoia Alliance USA Conference 2016
Pistoia Alliance USA Conference 2016
 
Wang ke classification by cut clearance under threshold
Wang ke classification by cut clearance under thresholdWang ke classification by cut clearance under threshold
Wang ke classification by cut clearance under threshold
 
Wang ke mining revenue-maximizing bundling configuration
Wang ke mining revenue-maximizing bundling configurationWang ke mining revenue-maximizing bundling configuration
Wang ke mining revenue-maximizing bundling configuration
 
Comparing pregel related systems
Comparing pregel related systemsComparing pregel related systems
Comparing pregel related systems
 
Gao cong geospatial social media data management and context-aware recommenda...
Gao cong geospatial social media data management and context-aware recommenda...Gao cong geospatial social media data management and context-aware recommenda...
Gao cong geospatial social media data management and context-aware recommenda...
 
Movies&amp;demographics
Movies&amp;demographicsMovies&amp;demographics
Movies&amp;demographics
 
Ke yi small summaries for big data
Ke yi small summaries for big dataKe yi small summaries for big data
Ke yi small summaries for big data
 
2015 07-tuto2-clus type
2015 07-tuto2-clus type2015 07-tuto2-clus type
2015 07-tuto2-clus type
 
Graph processing
Graph processingGraph processing
Graph processing
 
Weiyi meng web data truthfulness analysis
Weiyi meng web data truthfulness analysisWeiyi meng web data truthfulness analysis
Weiyi meng web data truthfulness analysis
 
2015 07-tuto1-phrase mining
2015 07-tuto1-phrase mining2015 07-tuto1-phrase mining
2015 07-tuto1-phrase mining
 
Processing Large Graphs in Hadoop
Processing Large Graphs in HadoopProcessing Large Graphs in Hadoop
Processing Large Graphs in Hadoop
 

Similar to 吕潇 星环科技大数据技术探索与应用实践

Track A-1: Cloudera 大數據產品和技術最前沿資訊報告
Track A-1: Cloudera 大數據產品和技術最前沿資訊報告Track A-1: Cloudera 大數據產品和技術最前沿資訊報告
Track A-1: Cloudera 大數據產品和技術最前沿資訊報告Etu Solution
 
Qcon2013 罗李 - hadoop在阿里
Qcon2013 罗李 - hadoop在阿里Qcon2013 罗李 - hadoop在阿里
Qcon2013 罗李 - hadoop在阿里li luo
 
選擇正確的Solution 來建置現代化的雲端資料倉儲
選擇正確的Solution 來建置現代化的雲端資料倉儲選擇正確的Solution 來建置現代化的雲端資料倉儲
選擇正確的Solution 來建置現代化的雲端資料倉儲Herman Wu
 
Easier and Faster for hbase in HadoopCon 2014
Easier and Faster for hbase in HadoopCon 2014Easier and Faster for hbase in HadoopCon 2014
Easier and Faster for hbase in HadoopCon 2014Hubert Fan Chiang
 
《数据库发展研究报告-解读(2023年)》.pdf
《数据库发展研究报告-解读(2023年)》.pdf《数据库发展研究报告-解读(2023年)》.pdf
《数据库发展研究报告-解读(2023年)》.pdfmarkmind
 
浅谈电商网站数据访问层(DAL)与 ORM 之适用性
浅谈电商网站数据访问层(DAL)与 ORM 之适用性浅谈电商网站数据访问层(DAL)与 ORM 之适用性
浅谈电商网站数据访问层(DAL)与 ORM 之适用性Xuefeng Zhang
 
王涛:基于Cloudera impala的非关系型数据库sql执行引擎
王涛:基于Cloudera impala的非关系型数据库sql执行引擎王涛:基于Cloudera impala的非关系型数据库sql执行引擎
王涛:基于Cloudera impala的非关系型数据库sql执行引擎hdhappy001
 
Zh120226techparty velocity2011-review
Zh120226techparty velocity2011-reviewZh120226techparty velocity2011-review
Zh120226techparty velocity2011-reviewZoom Quiet
 
Oracle saa s paas overview
Oracle saa s paas overviewOracle saa s paas overview
Oracle saa s paas overviewChris Lee
 
Oracle雲端服務介紹 taiwan
Oracle雲端服務介紹   taiwanOracle雲端服務介紹   taiwan
Oracle雲端服務介紹 taiwanChieh-An Yu
 
Top100summit 腾讯-周健-服务化与体系化解决大量定制小项目开发困境
Top100summit 腾讯-周健-服务化与体系化解决大量定制小项目开发困境Top100summit 腾讯-周健-服务化与体系化解决大量定制小项目开发困境
Top100summit 腾讯-周健-服务化与体系化解决大量定制小项目开发困境drewz lin
 
Taobao数据库这5年
Taobao数据库这5年Taobao数据库这5年
Taobao数据库这5年yp_fangdong
 
高科技產業資料分析解決方案 Hare DB
高科技產業資料分析解決方案 Hare DB高科技產業資料分析解決方案 Hare DB
高科技產業資料分析解決方案 Hare DBEtu Solution
 
2014-10-17 探析台灣巨量資料產業供應鏈串聯現況
2014-10-17 探析台灣巨量資料產業供應鏈串聯現況2014-10-17 探析台灣巨量資料產業供應鏈串聯現況
2014-10-17 探析台灣巨量資料產業供應鏈串聯現況Jazz Yao-Tsung Wang
 
Raising The MySQL Bar-Manyi Lu
Raising The MySQL Bar-Manyi LuRaising The MySQL Bar-Manyi Lu
Raising The MySQL Bar-Manyi Lu郁萍 王
 
4. Go 工程化实践-0124-v2.pdf
4. Go 工程化实践-0124-v2.pdf4. Go 工程化实践-0124-v2.pdf
4. Go 工程化实践-0124-v2.pdfssuserd6c7621
 
COSCUP 2019 - 開源大數據引擎 Greenplum
COSCUP 2019 - 開源大數據引擎 GreenplumCOSCUP 2019 - 開源大數據引擎 Greenplum
COSCUP 2019 - 開源大數據引擎 GreenplumOmni-Alex Chen
 
淺談台灣巨量資料產業供應鏈串聯現況
淺談台灣巨量資料產業供應鏈串聯現況淺談台灣巨量資料產業供應鏈串聯現況
淺談台灣巨量資料產業供應鏈串聯現況Jazz Yao-Tsung Wang
 

Similar to 吕潇 星环科技大数据技术探索与应用实践 (20)

Track A-1: Cloudera 大數據產品和技術最前沿資訊報告
Track A-1: Cloudera 大數據產品和技術最前沿資訊報告Track A-1: Cloudera 大數據產品和技術最前沿資訊報告
Track A-1: Cloudera 大數據產品和技術最前沿資訊報告
 
Qcon2013 罗李 - hadoop在阿里
Qcon2013 罗李 - hadoop在阿里Qcon2013 罗李 - hadoop在阿里
Qcon2013 罗李 - hadoop在阿里
 
選擇正確的Solution 來建置現代化的雲端資料倉儲
選擇正確的Solution 來建置現代化的雲端資料倉儲選擇正確的Solution 來建置現代化的雲端資料倉儲
選擇正確的Solution 來建置現代化的雲端資料倉儲
 
Easier and Faster for hbase in HadoopCon 2014
Easier and Faster for hbase in HadoopCon 2014Easier and Faster for hbase in HadoopCon 2014
Easier and Faster for hbase in HadoopCon 2014
 
Hadoop 介紹 20141024
Hadoop 介紹 20141024Hadoop 介紹 20141024
Hadoop 介紹 20141024
 
《数据库发展研究报告-解读(2023年)》.pdf
《数据库发展研究报告-解读(2023年)》.pdf《数据库发展研究报告-解读(2023年)》.pdf
《数据库发展研究报告-解读(2023年)》.pdf
 
浅谈电商网站数据访问层(DAL)与 ORM 之适用性
浅谈电商网站数据访问层(DAL)与 ORM 之适用性浅谈电商网站数据访问层(DAL)与 ORM 之适用性
浅谈电商网站数据访问层(DAL)与 ORM 之适用性
 
王涛:基于Cloudera impala的非关系型数据库sql执行引擎
王涛:基于Cloudera impala的非关系型数据库sql执行引擎王涛:基于Cloudera impala的非关系型数据库sql执行引擎
王涛:基于Cloudera impala的非关系型数据库sql执行引擎
 
Zh120226techparty velocity2011-review
Zh120226techparty velocity2011-reviewZh120226techparty velocity2011-review
Zh120226techparty velocity2011-review
 
大數據
大數據大數據
大數據
 
Oracle saa s paas overview
Oracle saa s paas overviewOracle saa s paas overview
Oracle saa s paas overview
 
Oracle雲端服務介紹 taiwan
Oracle雲端服務介紹   taiwanOracle雲端服務介紹   taiwan
Oracle雲端服務介紹 taiwan
 
Top100summit 腾讯-周健-服务化与体系化解决大量定制小项目开发困境
Top100summit 腾讯-周健-服务化与体系化解决大量定制小项目开发困境Top100summit 腾讯-周健-服务化与体系化解决大量定制小项目开发困境
Top100summit 腾讯-周健-服务化与体系化解决大量定制小项目开发困境
 
Taobao数据库这5年
Taobao数据库这5年Taobao数据库这5年
Taobao数据库这5年
 
高科技產業資料分析解決方案 Hare DB
高科技產業資料分析解決方案 Hare DB高科技產業資料分析解決方案 Hare DB
高科技產業資料分析解決方案 Hare DB
 
2014-10-17 探析台灣巨量資料產業供應鏈串聯現況
2014-10-17 探析台灣巨量資料產業供應鏈串聯現況2014-10-17 探析台灣巨量資料產業供應鏈串聯現況
2014-10-17 探析台灣巨量資料產業供應鏈串聯現況
 
Raising The MySQL Bar-Manyi Lu
Raising The MySQL Bar-Manyi LuRaising The MySQL Bar-Manyi Lu
Raising The MySQL Bar-Manyi Lu
 
4. Go 工程化实践-0124-v2.pdf
4. Go 工程化实践-0124-v2.pdf4. Go 工程化实践-0124-v2.pdf
4. Go 工程化实践-0124-v2.pdf
 
COSCUP 2019 - 開源大數據引擎 Greenplum
COSCUP 2019 - 開源大數據引擎 GreenplumCOSCUP 2019 - 開源大數據引擎 Greenplum
COSCUP 2019 - 開源大數據引擎 Greenplum
 
淺談台灣巨量資料產業供應鏈串聯現況
淺談台灣巨量資料產業供應鏈串聯現況淺談台灣巨量資料產業供應鏈串聯現況
淺談台灣巨量資料產業供應鏈串聯現況
 

More from jins0618

Machine Status Prediction for Dynamic and Heterogenous Cloud Environment
Machine Status Prediction for Dynamic and Heterogenous Cloud EnvironmentMachine Status Prediction for Dynamic and Heterogenous Cloud Environment
Machine Status Prediction for Dynamic and Heterogenous Cloud Environmentjins0618
 
Latent Interest and Topic Mining on User-item Bipartite Networks
Latent Interest and Topic Mining on User-item Bipartite NetworksLatent Interest and Topic Mining on User-item Bipartite Networks
Latent Interest and Topic Mining on User-item Bipartite Networksjins0618
 
Web Service QoS Prediction Approach in Mobile Internet Environments
Web Service QoS Prediction Approach in Mobile Internet EnvironmentsWeb Service QoS Prediction Approach in Mobile Internet Environments
Web Service QoS Prediction Approach in Mobile Internet Environmentsjins0618
 
李战怀 大数据环境下数据存储与管理的研究
李战怀 大数据环境下数据存储与管理的研究李战怀 大数据环境下数据存储与管理的研究
李战怀 大数据环境下数据存储与管理的研究jins0618
 
2015 07-tuto0-courseoutline
2015 07-tuto0-courseoutline2015 07-tuto0-courseoutline
2015 07-tuto0-courseoutlinejins0618
 
Christian jensen advanced routing in spatial networks using big data
Christian jensen advanced routing in spatial networks using big dataChristian jensen advanced routing in spatial networks using big data
Christian jensen advanced routing in spatial networks using big datajins0618
 
Jeffrey xu yu large graph processing
Jeffrey xu yu large graph processingJeffrey xu yu large graph processing
Jeffrey xu yu large graph processingjins0618
 
Calton pu experimental methods on performance in cloud and accuracy in big da...
Calton pu experimental methods on performance in cloud and accuracy in big da...Calton pu experimental methods on performance in cloud and accuracy in big da...
Calton pu experimental methods on performance in cloud and accuracy in big da...jins0618
 
Ling liu part 02:big graph processing
Ling liu part 02:big graph processingLing liu part 02:big graph processing
Ling liu part 02:big graph processingjins0618
 
Ling liu part 01:big graph processing
Ling liu part 01:big graph processingLing liu part 01:big graph processing
Ling liu part 01:big graph processingjins0618
 
2015 07-tuto3-mining hin
2015 07-tuto3-mining hin2015 07-tuto3-mining hin
2015 07-tuto3-mining hinjins0618
 
2015 07-tuto0-courseoutline
2015 07-tuto0-courseoutline2015 07-tuto0-courseoutline
2015 07-tuto0-courseoutlinejins0618
 
Chengqi zhang graph processing and mining in the era of big data
Chengqi zhang graph processing and mining in the era of big dataChengqi zhang graph processing and mining in the era of big data
Chengqi zhang graph processing and mining in the era of big datajins0618
 
Chen li asterix db: 大数据处理开源平台
Chen li asterix db: 大数据处理开源平台Chen li asterix db: 大数据处理开源平台
Chen li asterix db: 大数据处理开源平台jins0618
 
Some links of recommender system
Some links of recommender systemSome links of recommender system
Some links of recommender systemjins0618
 
Clustering:k-means, expect-maximization and gaussian mixture model
Clustering:k-means, expect-maximization and gaussian mixture modelClustering:k-means, expect-maximization and gaussian mixture model
Clustering:k-means, expect-maximization and gaussian mixture modeljins0618
 
Transfer Learning: An overview
Transfer Learning: An overviewTransfer Learning: An overview
Transfer Learning: An overviewjins0618
 

More from jins0618 (18)

Machine Status Prediction for Dynamic and Heterogenous Cloud Environment
Machine Status Prediction for Dynamic and Heterogenous Cloud EnvironmentMachine Status Prediction for Dynamic and Heterogenous Cloud Environment
Machine Status Prediction for Dynamic and Heterogenous Cloud Environment
 
Latent Interest and Topic Mining on User-item Bipartite Networks
Latent Interest and Topic Mining on User-item Bipartite NetworksLatent Interest and Topic Mining on User-item Bipartite Networks
Latent Interest and Topic Mining on User-item Bipartite Networks
 
Web Service QoS Prediction Approach in Mobile Internet Environments
Web Service QoS Prediction Approach in Mobile Internet EnvironmentsWeb Service QoS Prediction Approach in Mobile Internet Environments
Web Service QoS Prediction Approach in Mobile Internet Environments
 
李战怀 大数据环境下数据存储与管理的研究
李战怀 大数据环境下数据存储与管理的研究李战怀 大数据环境下数据存储与管理的研究
李战怀 大数据环境下数据存储与管理的研究
 
2015 07-tuto0-courseoutline
2015 07-tuto0-courseoutline2015 07-tuto0-courseoutline
2015 07-tuto0-courseoutline
 
Christian jensen advanced routing in spatial networks using big data
Christian jensen advanced routing in spatial networks using big dataChristian jensen advanced routing in spatial networks using big data
Christian jensen advanced routing in spatial networks using big data
 
Jeffrey xu yu large graph processing
Jeffrey xu yu large graph processingJeffrey xu yu large graph processing
Jeffrey xu yu large graph processing
 
Calton pu experimental methods on performance in cloud and accuracy in big da...
Calton pu experimental methods on performance in cloud and accuracy in big da...Calton pu experimental methods on performance in cloud and accuracy in big da...
Calton pu experimental methods on performance in cloud and accuracy in big da...
 
Ling liu part 02:big graph processing
Ling liu part 02:big graph processingLing liu part 02:big graph processing
Ling liu part 02:big graph processing
 
Ling liu part 01:big graph processing
Ling liu part 01:big graph processingLing liu part 01:big graph processing
Ling liu part 01:big graph processing
 
2015 07-tuto3-mining hin
2015 07-tuto3-mining hin2015 07-tuto3-mining hin
2015 07-tuto3-mining hin
 
2015 07-tuto0-courseoutline
2015 07-tuto0-courseoutline2015 07-tuto0-courseoutline
2015 07-tuto0-courseoutline
 
Chengqi zhang graph processing and mining in the era of big data
Chengqi zhang graph processing and mining in the era of big dataChengqi zhang graph processing and mining in the era of big data
Chengqi zhang graph processing and mining in the era of big data
 
Chen li asterix db: 大数据处理开源平台
Chen li asterix db: 大数据处理开源平台Chen li asterix db: 大数据处理开源平台
Chen li asterix db: 大数据处理开源平台
 
LITM
LITMLITM
LITM
 
Some links of recommender system
Some links of recommender systemSome links of recommender system
Some links of recommender system
 
Clustering:k-means, expect-maximization and gaussian mixture model
Clustering:k-means, expect-maximization and gaussian mixture modelClustering:k-means, expect-maximization and gaussian mixture model
Clustering:k-means, expect-maximization and gaussian mixture model
 
Transfer Learning: An overview
Transfer Learning: An overviewTransfer Learning: An overview
Transfer Learning: An overview
 

吕潇 星环科技大数据技术探索与应用实践

  • 2. 2015/7/22 2www.transwarp.io confidential • 中国最久的Hadoop核心开发团队 • 成功完成近亿元级别的A轮融资 • 国内技术最领先的大数据基础软件 • 超越硅谷的企业级架构及功能模块 • 国内最多的落地应用案例 • 2014年进入中央政府采购网 2 参考CSDN的技术报道:【云先锋】星环TDH:性能大幅领先于开源Hadoop2的技术架构赏析 http://www.csdn.net/article/2014-09-03/2821532-Hadoop-TranswarpDataHub-Spark
  • 3. 2015/7/22 3www.transwarp.io confidential 孙元浩 创始人兼CTO 星环科技的技术开发团队来自Intel, Google, Microsoft, IBM, NVidia、 Oracle、EMC、百度等知名科技公司,以及南京大学、复旦大学、 上海交通大学、中国科学技术大学、美国普渡大学等多个知名学府, 也包括放弃海外知名企业 优厚待遇回国创业的成员。星环科技的核 心团队参与部署了国内最早的企业级Hadoop集群。 佘晖 总经理 核心团队 方之熙 CRO 曾任英特尔中国OEM/渠道业务总经理,负责英特尔 ®IA架构产品(包括英特尔®处理器、服务器,网络产 品等)在中国大陆地区的销售和市场推广。 Hadoop技术专家,曾是英特尔软件部亚太区CTO, 是英特尔Hadoop发行版的创始人。孙元浩及其团队在 中国成功建立数十个Hadoop成功案例。 曾任英特尔副总裁,英特尔中国研究院院长,领导嵌 入式系统的深入研究并带领英特尔中国研究院开发突 破性技术。是编译器和CPU体系架构领域科学家。 股东大会 董事会 总经理 监事会 营 销 基 础 研 发 综 合 市 场 应 用 咨 询 技 术 服 务 北京 广州 南京 人力 财务 行政北京 上海
  • 4. 2015/7/22 4www.transwarp.io confidential • 公司新近完成A轮和A+轮融资 – 2014年6月,A轮融资由方广资本领投,联合恒生电子、信雅达等上市公司共同完成,获得 业界广泛关注,除几乎全部的IT主流媒体外,腾讯、网易、和讯、金融界、中金在线、中国 证券网等主流财经媒体及门户均进行相关报道 – 时隔半年,2015年1月,A+ 轮融资由著名风投启明创投(QimingVenturePartners)领投, 上轮投资者包括知名VC方广资本(F&GVenture)、恒生电子及信雅达等上市公司这轮全部 继续跟投,反映了投资人对于星环的一致看好 • 与浪潮信息签署战略合作协议,携手打造中国自主的大数据核心技术平台。该携手填 补国内空白,完整实现大数据基础技术由内到外的高水平全国产化 近期公司大事记
  • 5. 2015/7/22 5www.transwarp.io confidential • 2014年10月,公司在纽约召开的Strata+Hadoop World大会上发 布了Transwarp Data Hub 3.4新版本Hadoop发行版软件 – 这次Strata是近年来规模最大的大数据盛会,有5500多人参加这次 大会,130多家厂商参展,门票在开会前就售罄。这么大规模的盛 会标志着hadoop已经真正成为大数据处理技术的主流地位。这也 是星环首次在美国-大数据的大本营-发布大数据最新产品 – 在这次大会上公司发布了最新的性能数据,相对于Cloudera Impala,性能更好,SQL支持更完整 • 2014年12月,公司在北京召开的年度大数据大会BDTC上,发布了 TDH4.0最新版本,全面升级了各组件的功能,同时全方位提升了平台 性能 • 2015年4月16日,公司在中国数据库大会上发布TDH4.1版本,更好 地支持数据仓库应用。同时宣布在6月底发布TOS1.0版本,进入 Hadoop on Docker时代。 近期公司大事记 CCTV采访DTCC专访Databricks CEO Ion Stoica HBase PMC Chairman Michael Stack 2014/12 2015/04 Cloudera Founder Mike Olson Strata Conference New York 2014/10 Tony Baer, Big Data Analyst at NY Cloudera Founder Mike Olson Tony Baer, BigData Analyst @NewYork
  • 6. 2015/7/22 6www.transwarp.io confidential 星环科技典型案例 (落地案例最多) 金融证劵  银行+证券 电信运营商  移动、联通、电信 交通公安  山东、辽宁、浙江等 能源  国网+南网 互联网  电商+CDN 政府  工商+税务 物流快递  EMS 广播电视  华数+卫视
  • 8. 2015/7/22 8www.transwarp.io confidential Spark成为最受欢迎的计算引擎 source: http://databricks.com/certified-on-spark-distribution 全球已有近50家企业围绕Spark提供产品和服务,11家提供商业Spark版本
  • 9. 2015/7/22 9www.transwarp.io confidential Transwarp Data Hub (TDH) 架构图 9 Transwarp Proprietary 流处理 引擎 Stream NoSQL数据库 搜索、图计算 Hyperbase Transwarp Manager 交互式分析引擎 数据挖掘 Inceptor including Apache Spark 资源管理 YARN 2.5 (内置Transwarp Extension) 优化存储 HDFS 2.5 (内置Transwarp Erasure Code) 批处理 Pig 0.13 批处理框架 Map/Reduce2 协作服务 Zookeeper 3.4.5 机器学习 Mahout 0.9 工作流 Oozie 4.0.1 日志采集 Flume 1.4 全文搜索 Elastic Search 1.3.1 数据集成 Sqoop 1.4.5 一站式数据存储平台 TDH通过内存计算技术、高效索引、执行计划优化和高度 容错的技术,使得一个平台能够处理从GB到PB的数据, 并且在每个数量级上,都能比现有技术提供更快的性能; 企业客户不再需要混合架构,不需要孤立的多个集群, TDH可以伴随企业客户的数据增长,动态不停机扩容,避 免MPP或传统架构数据迁移的棘手问题。 一站式资源管理平台 TDH在统一存储上建立资源管理层,提供企业用户统一的 计算资源管理、动态资源分配、多部门之间资源配置和动 态共享,灵活支持多部门多应用在统一平台上平滑运行。 一站式数据分析平台 TDH支持批处理统计分析、交互式SQL分析、在线数据检 索、R语言数据挖掘、机器学习、实时流处理、全文搜索 和图计算,为企业客户提供广泛的计算支持能力,客户无 需切换平台或架构即可完成复杂的任务。 一站式管理平台: TDH作为企业级解决方案,开发了用户友好的管理界面、 提供了系统安装、集群配置,安全访问控制、监控及预警 等多方面支持,在可管理性方面优势显著。 > > > > Apache Projects
  • 10. 2015/7/22 10www.transwarp.io confidential 交互式分析引擎Inceptor架构图 Apache Spark 基于内存的Map/Reduce计算引擎,即将成为新一代主流计算框架。处 理大数据像“光速”一样快,比Hadoop Map/Reduce快10x倍。 Holodesk 跨内存/闪存/磁盘等介质的分布式混合列式存储,常用于缓存数据供 Spark高速访问。Holodesk内建内存索引,可提供比开源Spark更高的 交互式统计性能;结合使用低成本的内存/SSD混合存储方案,可接近全 内存存储的分析性能。 SQL引擎 高度优化的高速SQL引擎,可运行在Spark或Map/Reduce上,可高速 处理缓存在Holodesk上的列式数据。兼容ANSI SQL 2003, HiveQL和 PL/SQL语法,支持数据仓库、数据集市等分析系统中常用的复杂分析型 语法,方便应用迁移。 统计库 并行化的高性能统计算法库,用于对原始数据进行去噪、去缺省/异常值、 归一化、统计分布等,是机器学习或数据挖掘的基础工具包。 机器学习库 并行化的高性能机器学习算法库,包含分类、聚类、预测、推荐等机器 学习算法。可用于构建高精度的推荐引擎或者预测引擎。 R 语言/R Studio 强大的主流数据统计和绘图语言R以及Web图形化开发界面RStudio。 通过调用Inceptor内置并行算法库,支持对大数据集进行数据挖掘和统 计。 丰富的工具支持 支持主流可视化和BI/挖掘工具,包括Tableau, IBM Cognos, SAP BO, Oracle BI, SAS等。支持Informatica,Pentaho/Kettle等ETL工具。 Transwarp HDFS2 分布式持久化数据存储 cache Transwarp Hyperbase 分布式实时数据库 cache Transwarp Holodesk 分布式内存列式存储 R – statistical computing Distributed Execution Engine 分布式执行引擎 including Apache Spark 编译器 SQL 2003 + PL/SQL COMPILER 优化器 COST BASED OPTIMIZER 代码生成 CODE GENERATOR Interactive SQL Engine Transwarp Statistics Library 并行统计算法库 Transwarp Machine Learning Library 机器学习算法库 JDBC 4.0 SHELLODBC 3.5
  • 11. 2015/7/22 11www.transwarp.io confidential 实时NoSQL数据库Hyperbase Transwarp HBase – Hadoop Database 分布式 Big Table Transwarp Hyperdrive – SQL backend engine between Inceptor & Hyperbase Real-time OLTP + OLAP + BATCH + Search + Graph Traversal Application Mixed Workload 混合负载业务 Graph language Scalable Graph Database 图形 数据库 Transaction SQL & API Transaction Execution Engine 分布式事务 处理引擎 Index SQL & API Global/Local Index 全局/局部 索引 日志 文本 关系 数据库 二进制 文件 图像 OLTP 支持高并发毫秒级数据插入/修改/查询/删除(CRUD)。 结合Inceptor SQL引擎,可以支持通过SQL进行高并发 的CRUD。 支持分布式事务处理。 支持常见数据类型,可更高效的存取数据。 OLAP 支持多种索引(global/local/high-dimensional index)。 结合Inceptor,可进行行列存储转换,进行秒级高效分 析。 支持复杂查询条件,自动利用索引加速数据检索,无需 指定索引。 批处理 可以对数据进行全量高速统计,会比M/R运行在HBase 上快5-10倍。 可通过Inceptor SQL进行全量统计。 支持通过SQL进行BulkLoad批量装载数据 内嵌搜索引擎 实时同步创建索引 实现秒级关键字搜索 图数据库 支持高并发图遍历和检索 多类型支持 结构化记录 半结构化文档(JSON/BSON) 非结构化数据(图片、音频、二进制文档等) 支持混合结构数据的存储、搜索、统计、分析 支持SQL访问关系表和层次化文档 sqoopflume Elastic Search 分布式全文索引 Document SQL & API Document Store json/bson 文档存储 Object SQL & API Object Store image/files, etc 对象存储 Search SQL & API Distributed Full-text Search 全文搜索 Transwarp Inceptor
  • 12. 2015/7/22 12www.transwarp.io confidential Stream流处理产品 Transwarp Hyperbase 分布式NoSQL数据库 高速查询或搜索 /20130101/… /20130102/… 在线自动分类时间窗口统计实时告警 分 布 式 消 息 队 列 安 全 的 Kafka Distributed Execution Engine 分布式执行引擎 Streaming Data Driver 流数据 接收驱动器 Streaming Machine Learning 流式机器学习 算法库(支持R语言) Streaming Engine 流式计算引擎 Streaming SQL (via Inceptor) 流式SQL 执行引擎 Transwarp Stream Web Console 流式任务Web控制器 Outlier异常检测实时事件 流 式 任 务 管 理 服 务 StreamingJobServer Transwarp Holodesk 分布式内存/SSD缓存 高速SQL/R探索分析
  • 13. 2015/7/22 13www.transwarp.io confidential Transwarp Inceptor是第一个 也是目前唯一一个支持PL/SQL的SQL on Hadoop引擎 名称 计算引擎 ANSI SQL支持程度 存储过程 第一个版本发布时间 Cloudera Impala 类Dremel,类MPP引擎 SQL92子集 + SQL2003扩展(<40%) 不支持 2011/10 Hortonworks Tez/Stinger Map/Reduce改进 SQL92子集 + SQL2003扩展(<50%) 不支持 2012/5 Transwarp Inceptor Spark SQL2003 (>90%) Oracle Compatible PL/SQL 2013/11 Databricks SparkSQL Spark HiveQL (SQL92子集, <40%) 不支持 2014/6 MapR Drill 改进自OpenDremel SQL92子集 (<40%) 不支持 2012/6立项,2014/11发布 IBM BigSQL v3 DB2/DPF like MPP Engine over HDFS SQL 2003 不支持 2014/6 Pivotal HAWQ Greenplum like MPP Engine over HDFS SQL 2003(<90%) 不支持 2013/2 Splice Machine Apache Derby + HBase SQL 1999 不支持 2015 GA Actian Vortex MPP Engine over HDFS SQL 2003 不支持 2014
  • 14. 2015/7/22 14www.transwarp.io confidential PL/SQL支持程度  基本语句 • 赋值语句 • SQL语句 • 匿名块执行 • 存储过程调用 • UDF/UDAF调用  数据类型 • 标量类型 • 集合类型及其方法(COUNT()/LIMIT()/etc.) • RECORD类型 • 隐/显式类型转换  流程控制语句 • IF/ELSE IF/ELSE语句 • GOTO语句 • LOOP循环 • FOR循环 • FORALL循环 • WHILE循环 • CONTINUE(WHEN)语句 • EXIT(WHEN)语句  游标支持 • 显式CURSOR及其基本操作:OPEN/FETCH(BULK COLLECT)/NOTFOUND/etc. • 隐式游标(FOR 循环) • SELECT (BULK COLLECT) INTO语句 • PACKAGE • 包内全局变量 • 包内类型 • 包内函数 • 参数和变量属性 • NOT NULL • IN/OUT • DEFAULT VALUE • 变量声明时赋值 • 异常 • 声明时赋值PARGMA EXCEPTION_INIT • 内置函数RAISE_APPLICATION_ERROR/SOLCODE/SQLERRM/FORALL ... SAVE EXCEPTIONS • 其他系统预定义异常的抛出点  异常 • 支持用户自定义异常和系统预定义异常 • 支持RAISE语句 • 支持WHEN (OR) THEN (OTHERS)异常处理 • 支持存储过程内部和存储过程之间的异常传播 • 部分系统预定义异常抛出点 • 部分编译时刻错误检测  部分系统函数 • PUT_LINE() 待支持的功能
  • 15. 2015/7/22 15www.transwarp.io confidential 我们的核心优势:SQL功能和性能远超国外友商 四种不同的SQL引擎在独立发展 名称 计算引擎 SQL支持程度 第一个版本发布时间 Cloudera Impala 类Dremel,类MPP引擎 SQL92子集+SQL2003扩展(窗口函数) 2011/10 Hortonworks Tez/Stinger Map/Reduce改进 SQL92+SQL2003扩展(窗口函数) 2012/5 Transwarp Inceptor Spark SQL2003+PL/SQL(存储过程、游标) 2013/11 Databricks SparkSQL Spark HiveQL (SQL92子集) 2014/6 MapR Drill 改进自OpenDremel SQL92子集 2012/6立项,2014/11发布 图中纵坐标小于1表示Impala性能超过Inceptor,而大于1则表示Inceptor性能更好。对于Impala不能支持的SQL,我们就标记这个性能比为100。 从图中可见,在Impala支持的19个SQL中,只有8个SQL的表现超过Inceptor,另外11个SQL 在Inceptor的表现比Impala更好。
  • 16. 2015/7/22 16www.transwarp.io confidential – Slice – Dice – Rollup – Drill Up – Drill Down – Pivot 交互式OLAP分析:Distributed Cube Holodesk – A Columnar Store on SSD cache layer Executor Inceptor Server Executor Executor Executor Columnar Store API Cube(D 1 ,D 2 , D 3 ) INDEX ColumnD 1 INDEX ColumnD 2 INDEX ColumnD 3 INDEX ColumnM 1 Cube(D 1 ,D 2 ), (D 2 ,D 3 ),(D 1 , D 3 ) Columnar Store API Cube(D 1 ,D 2 , D 3 ) INDEX ColumnD 1 INDEX ColumnD 2 INDEX ColumnD3 INDEX ColumnM 1 Cube(D 1 ,D 2 ), (D 2 ,D 3 ),(D 1 , D 3 ) Columnar Store API Cube(D 1 ,D 2 , D 3 ) INDEX ColumnD 1 INDEX ColumnD 2 INDEX ColumnD 3 INDEX ColumnM 1 Cube(D 1 ,D 2 ), (D 2 ,D 3 ),(D 1 , D 3 ) Columnar Store API Cube(D 1 ,D 2 , D 3 ) INDEX ColumnD 1 INDEX ColumnD 2 INDEX ColumnD 3 INDEX ColumnM 1 Cube(D 1 ,D 2 ), (D 2 ,D 3 ),(D 1 , D 3 ) 如何定义一个Cube? Cube Size 256KB固定大小 ZK Cluster • Cube on Transwarp Holodesk • Cube是OLAP分析的常用技术 create table store_sales tblproperties( ‘cache’=‘ram’, ‘holodesk.dimensions’=‘product, cities, time’ ) as select * from store_sales; 计算下沉到存储层 Compute and filters pushed down to storage layer
  • 17. 2015/7/22 17www.transwarp.io confidential 0.9 9.8 12.4 12.1 14.0 1.3 8.8 12.7 20.2 43.3 58.9 86.6 136.1 1.4 55.2 56.5 0 20 40 60 80 100 120 140 160 1 2 3 4 5 6 7 8 执行时间(秒) w/ cube w/o cube Holodesk Cube带来的性能加速 Operation SQL query q1 count select count(*) from store_sales q2 measure select sum(ss_sales_price) from store_sales q3 aggregation select sum(ss_sales_price) from store_sales group by ss_customer_sk q4 drill down select sum(ss_sales_price) from store_sales group by ss_sold_date_sk q5 drill down select sum(ss_sales_price) from store_sales group by ss_customer_sk, ss_sold_date_sk q6 slice select sum(ss_sales_price) from store_sales_r where ss_customer_sk=5000 group by ss_customer_sk,ss_sold_date_sk q7 dice select sum(ss_sales_price) from store_sales where ss_sold_date_sk between 2450629 and 2451816 group by ss_customer_sk q8 pivot select sum(ss_sales_price) from store_sales where ss_customer_sk > 5000 and ss_sold_date_sk between 2450629 and 2451816 group by ss_customer_sk,ss_sold_date_sk 40亿条记录 共500GB驻留内存 4台两路普通服务器 每台服务器 内存:256GB CPU:E5-2620v2 网络:万兆网络
  • 18. 2015/7/22 18www.transwarp.io confidential 为SSD设计专有格式 - Holodesk 1 W A 2 X B 3 Y C 4 Z D 5 O E 6 P F 7 Q G 8 R H Holodesk – A Columnar Store on SSD cache layer Spark 1 W A GLOBAL INDEX 2 X B Dictionary BITMAP INDEX FILTER BITMAP INDEX FILTER BITMAP INDEX FILTER 3 Y C 4 Z D BITMAP INDEX FILTER BITMAP INDEX FILTER BITMAP INDEX FILTER Dictionary 5 O E 6 P F BITMAP INDEX FILTER BITMAP INDEX FILTER BITMAP INDEX FILTER Dictionary 7 Q G 8 R H BITMAP INDEX FILTER BITMAP INDEX FILTER BITMAP INDEX FILTER Dictionary HDFS Storage Layer HDFS Text or ORC or Parquet Files Memory Tier SSD Tier • HDFS Storage Tier – 让应用程序来选择存储层 – Memory as storage tier – SSD Storage Tier • 但是,现有的Text以及行列混合(ORC or Parquet)等文件格式都 不足以利用SSD的高性能。 Executor Spark Context Executor Executor Executor Columnar Store APIColumnar Store APIColumnar Store APIColumnar Store API File System API CREATE TABLE t1 TBLPROPERTIES( "cache"=“SSD”, “filters”=“hashbucket(360):c1” ) AS SELECT * FROM src DISTRIBUTE BY c1; • Off-Heap • Columnar store • Secondary index • Table format/access • SSD as cache ZK Cluster
  • 19. 2015/7/22 19www.transwarp.io confidential 不同格式在SSD上的性能对比 测试项 格式 硬件介质 存储引擎 性能提升 text(disk) SequenceFile Hard Disk HDFS 基准 text(ssd) SequenceFile PCI-e SSD HDFS 1.5倍 orc(ssd) ORC File PCI-e SSD HDFS 4倍 holodesk(ssd) Columnar Store PCI-e SSD Holodesk 8倍 结论 • 采用文本格式,PCI-e SSD较磁盘仅带来的性能提升仅1.5倍 • 采用针对硬盘设计的行列混合ORC存储格式,在SSD上可比文本格式提升2.7倍 • 采用转为内存和SSD设计的Holodesk列式存储 • 比SSD上的ORC文件格式提升2倍; • 比SSD上的文本格式提升6倍 ; • 比硬盘上的文本格式提升8倍以上。 0 5 10 15 20 25 30 35 40 45 50 q5 q12 q17 q19 q22 q25 q42 q49 q51 q52 q55 q56 q58 q60 q66 q96 q98 q100 q101 q102 q103 q104 text(disk) text(ssd) orc(ssd) holodesk(ssd) 提升倍数 TPC-DS中I/O密集的测试集
  • 20. 2015/7/22 20www.transwarp.io confidential Cost Based Optimizer 20 Table A 100M Records kurt mary john smith 622523454095243 622550042034568 622544334568763 622534878982324 v_name Card_id 1 2 … … 9999999 10000000 No. Table B 100M records JOIN ON A.card_id=B.card_id Cost based optimizer Table size Immediate result size Data skew Value distribution selectivity Map Join Lookup Join Hash Join Query Plan Common Join Co-Group Join
  • 21. 2015/7/22 21www.transwarp.io confidential 与数据可视化工具良好对接  在数据可视化的过程中Spark扩展支持大量的可视化及报表生成工具,如 Tableau,SAP Business Objects, Oracle Business Intelligence等,使得基于大数据分析的商业决策更 易被理解和接受,从而将大数据的潜在价值最大化。  业务人员通过简单的拖拽既可定制个性化报表,跳过了数据准备的工作环节。
  • 22. 2015/7/22 22www.transwarp.io confidential 对R语言的完整支持 R package from Transwarp R – SQL Interface from Transwarp Tables Distributed Columnar Store on SSD Statistics Library Machine Learning Library Files Hadoop Distributed File System R – Spark Interface from Transwarp Spark RDD Resilient Distributed Dataset in Memory Call parallelized algorithms Call SQL call sequential algorithm for distributed dataset 算法名称 TDH MLlib Min/Max YES YES Mean/Variance YES YES Normalization YES YES Standard scaling YES YES Correlation YES YES Histogram YES NO Bining YES NO Percentile YES NO Median YES NO Boxplot YES NO Screen YES NO Cardnality YES NO Logistic Regression YES YES Naive Bayes YES YES SVM YES YES KMeans YES YES Collaborative Filtering YES YES Linear Regression YES YES Ridge Regression YES YES Lasso Regression YES YES GLM YES NO DecisionTree YES YES Apriori YES NO Asocciation rules YES NO Gradient Boosted Trees YES NO Random Forest YES NO Deep Learning YES NO R Studio
  • 23. 2015/7/22 23www.transwarp.io confidential TRANSWARP © 2014 应用与实践 星环信息科技(上海)有限公司
  • 25. 2015/7/22 25www.transwarp.io confidential 物联网传感器数据分析 Kafka SQL aggregation Outlier detection batch @ t+1batch @ t 报警 data mining on streams 100k records/s/node 1KB/record transwarp stream 0 2 4 6 8 1 3 5 7 9 … … table_per_day Ad-hoc Analysis using ANSI SQL Data mining using R transwarp inceptor Columnar Store on SSD Predicting using CFD Algorithms … …
  • 27. 2015/7/22 27www.transwarp.io confidential 统计类应用:商圈人群密度分析 ID 名称 ID 名称 ID 名称 1 五角场 6 徐家汇 11 大柏树 2 浦东建材市场 7 静安寺-南京路-人民广场 12 娄山关路 3 金沙江路中环路口 8 虹莘路 13 新世界 4 漕河泾 9 金沙江路祁连山路 14 长寿路 5 中山公园 10 陆家嘴 • 实时刷卡信息(来自银联) • 定义商圈 • 商圈聚类模型分析与选择 • 模型拟合 • 动态商圈区域即时呈现,收缩变化一目了然 • 二级商圈的挖掘 • 人群密度趋势研判
  • 28. 2015/7/22 28www.transwarp.io confidential 基于流的垃圾短信分类 特征提取 朴素贝叶斯模型预测 SVM模型预测 在线并发数据挖掘 基于Transwarp Data Hub的实时垃圾 短信分析报警系统 N Y 报警Kafka 训练离线模型 分词 报警 过 滤 器 短消息 短消息 短消息 短消息
  • 29. 2015/7/22 29www.transwarp.io confidential 金融实时交易风险评估系统 • Logistic regression • Decision tree • Random forest • Cost sensitive LR • SVM 交易数据交易数据 交易数据 聚类/ 分类 检测 直接交易 正常 可疑 正常交易 可疑交易 交易时间、 地点、金额、 商家等信息 神经网络模型 每 笔 交 易
  • 30. 2015/7/22 30www.transwarp.io confidential 持卡人行为分析应用  训练数据采样某银行 2012年的04~09半年 的交易流水  总共约2亿条记录, 506万个独立持卡人, 数据大小约80GB  并行360度用户画像 在2分钟内完成对506 万独立持卡人的画像 消费频繁度 消费水平 美食爱好 旅游 爱好 体育爱好 电子爱好 IT爱好年轻活力 男性 女性 商人 开车一族 电话达人 差旅人士
  • 31. 2015/7/22 31www.transwarp.io confidential 内部服务接 口 平 台 数 据 O 域 BOSS 系 统 Gn信令 业务订购 使用行为 数据 Mc信令 通信详单 营帐资料 渠道数据 政企数据 网络 覆盖数据 GIS 地图服务 LTE信令 Inceptor SQL 编译解析器 流量运营平台 SPARK集群 自助分析平台 SPARK集群 经营分析系统 M/R集群 渠道运营平台 M/R集群 … 客户标签库 在线数据 查询服务 Hyperbase 基于位置的 实时事件营销 Stream集群 八大数据源 新增 4TB/天 Flume FTP OverHDFS 分 布 式 消 息 队 列 RabbitMQ OrSocket CLI 命令行接口 外部服务接口 PL/SQL JDBC/ODBC REST 编程接口 文件接口 JAVA 编程接口 权限访问控制 SSD 数据流程 运营商的大数据运营中心 Data source • 8 data sources including network signaling, billing records, CRM, and subscription behaviors, etc. • 4TB added every day. Applications 13 analytic applications including: • Targeted data plan • Network optimization • Location-based ads • Customer analysis … Deployed Cluster • 20 server nodes • 5x faster than 4 mini- computer + DB2 cluster 统一资源调度和管理YARN 统一的大数据存储平台HDFS 流 量 经 营 平 台
  • 32. 2015/7/22 32www.transwarp.io confidential Typical Case: Streaming in Intelligent Transportation System Inceptor Hyperbase Real time database • Real time picture serving for road segments • Legacy applications • Real time road condition • Average speed estimation • Regulation Check … … • Traffic info online serving • Traffic pattern mining Streaming Cluster Inceptor Kafka Distributed Message Queue Result tables stored in hyperbase Deployed for ITS of Shandong Province in China End to end latency is < 2 seconds, streaming cluster with >30 nodes Message cluster with >10 nodes >30 nodes 30 million events/day, 10000 events/second in rush hours
  • 33. 2015/7/22 33www.transwarp.io confidential Transwarp Data Hub 核心优势 无限水平扩展 系统可线性扩充存储容量或提高处理性能,只需要简单的向集群中 增加机器,无需停机。有效解决企业由于数据增长导致的处理性能 缓慢或频繁迁移数据的问题。 统一数据处理平台 改进的YARN资源管理框架,可在同一份数据集上运行多种计算框架, 动态创建SQL统计、数据挖掘、机器学习、流处理等计算集群,满 足企业多部门资源统一管理的需求。 高速SQL分析 Inceptor交互式内存分析引擎,同时支持SQL’99和R语言,满足数 据交互式分析和挖掘需求,加快企业决策速度。内置改进后的 Apache Spark,SQL执行性能比Apache Hadoop 快10倍左右。 灵活数据处理 Hyperbase实时数据库支持结构化、半结构化、非结构化等多种类 型数据的OLTP在线存储、OLAP检索、全文搜索、图分析和批处理 统计业务等全方位需求。 实时流计算 Stream分布式实时流处理引擎提供强大的流计算表达能力,可支持 复杂的实时处理逻辑,满足企业实时告警、风险控制、在线统计和 挖掘等应用需求。 超高性价比 采用普通商用服务器构建集群,最大程度降低成本;内置Erasure Code先进编码技术,提供两倍存储效率和两倍容错能力;高效支持 内存/闪存/硬盘混合存储,可提供最佳性价比存储配置。 Transwarp Proprietary 流处理 引擎 Stream NoSQL数据库 搜索、图计算 Hyperbase Transwarp Manager 交互式内存分析 数据挖掘 Inceptor including Apache Spark 资源管理 YARN (内置Transwarp Extension) 优化存储 HDFS2 (内置Transwarp Erasure Code) 批处理 Pig 批处理框架 Map/Reduce2 协作服务 Zookeeper 机器学习 Mahout 工作流 Oozie 日志采集 Flume 全文搜索 Elastic Search 数据集成 Sqoop Apache Projects