SlideShare a Scribd company logo
1 of 106
Download to read offline
1	
  ©	
  Cloudera,	
  Inc.	
  All	
  rights	
  reserved.	
  
	
  
Hadoop技术最前沿资讯报告	
  
和Cloudera大数据产品介绍	
  
	
  	
  
Kai	
  X.	
  Miao	
  (苗凯翔),	
  Vice	
  President@Cloudera	
  
2	
  ©	
  Cloudera,	
  Inc.	
  All	
  rights	
  reserved.	
  
PresentaCon	
  Content
• IntroducCon	
  -­‐	
  Create	
  Value	
  from	
  Big	
  Data	
  
• Hadoop	
  Technology	
  Ecosystem	
  
• About	
  Cloudera	
  
• Cloudera	
  Enterprise	
  Data	
  Hub	
  (EDH)	
  
• Cloudera	
  Services	
  	
  
• Conclusion	
  	
  
3	
  ©	
  Cloudera,	
  Inc.	
  All	
  rights	
  reserved.	
  
数据价值挖掘
体量大
速度快
多样性
价值密度低
	
  
	
  
日志	
  
社交数据	
  
用户行为	
  
机器数据	
  
图片	
  
音频	
  
视频	
  
传感器	
  
运营数据	
  
…	
  
	
  
Value	
  
-  更好地理解并服务客户	
  
-  精细化运营管理	
  
-  个性化医疗健康服务	
  
-  公共事业服务	
  
-  安全和合规性检查
-  用户标签	
  
-  行为分析	
  
-  文本分析	
  
-  情感分析	
  
-  图片分析	
  
-  音频分析	
  
-  轨迹分析	
  
-  …	
  
4	
  ©	
  Cloudera,	
  Inc.	
  All	
  rights	
  reserved.	
  
Hadoop	
  Technology	
  Ecosystem
HDFS	
  
MapReduce,	
  Spark	
  
YARN	
  
Distributed	
  Storage	
  
Distributed	
  Processing	
  
Distributed	
  Scheduling	
  
Sqoop	
  Flume	
  Chukwa	
  
Data	
  IntegraCon	
  
Data	
  Access	
  
Data	
  Storage	
  
Data	
  SerializaCon	
  
Data	
  Intelligence	
  	
  
Java	
  Virtual	
  Machines	
  
OperaCng	
  System	
  (RedHat,	
  Ubuntu,	
  Windows)	
  
Pig	
   Hive	
  
HBase	
  
Cassandra	
  
HCatalog	
  
Lucene/Solr	
  
Ka_a	
  
	
  	
  	
  	
  	
  Samza	
  
Avro	
  
Thri`	
  
Mahout	
  
Zookeeper	
  Oozie	
  Ambari	
  
Management,	
  Monitoring,	
  OrchistraCon	
  
Impala	
  
Spark	
  Streaming	
  
SparkSQL	
  
Spark	
  MLLib	
  
Parquet	
  
Storm	
  
Hive	
  over	
  Spark	
  
GraphX	
  
5	
  ©	
  Cloudera,	
  Inc.	
  All	
  rights	
  reserved.	
  
About	
  Cloudera	
  
创立 成立于2008,企业级Hadoop产品提供商	
  
员工数量 超过900名	
  
全球支持 24x7	
  全球支持	
  
	
   创新的主动支持和预测支持项目	
  
客户群 全行业客户(金融、电信、零售、能源、互联网、媒体等)	
  
	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
   	
  	
  	
  	
  	
  	
  	
  	
  	
  各行业的顶尖企业都有Cloudera	
  Enterprise部署	
  
强大的产业链 数百个生态链合作伙伴;	
  Cloudera	
  Connect	
  Program	
  (CCP)	
  
培训和认证 超过100,000管理员、开发者等受训;最有价值的大数据证书	
  
开源领导者 Hadoop及其相关生态项目的绝对领导者,和Intel合作加速	
  
	
   企业数据中心的革新	
  
Cloudera中国 2014年12月成立,上海是大中华区总部,负责产品培训、	
  
	
   专业技术服务和产品支持,在北京和广州有本地支持	
  
6	
  ©	
  Cloudera,	
  Inc.	
  All	
  rights	
  reserved.	
  
Cloudera和Hadoop生态
•  Cloudera是Hadoop项目的最大贡献者,同时也是No.1的Hadoop发行版提供商	
  
•  Hadoop平台标准化的领导者	
  
• 数据采集 –	
  Flume,	
  Sqoop	
  
• 数据存储 –	
  HDFS,	
  HBase,	
  Avro,	
  Parquet	
  
• 数据处理	
  –	
  MapReduce,	
  Spark,	
  Hive	
  
• 数据分析	
  –	
  Impala,	
  Solr
	
  
JIRA	
  ContribuCons,	
  Source:	
  ApacheJIRA	
  
January	
  2012	
  –	
  February	
  2015	
  
52%	
  
Hortonworks	
  
IBM	
  
MapR	
  
Microso`	
  
Pivotal	
  
Databricks	
  
Projects	
  Included:	
  
	
  
Accumulo	
  
Avro	
  
Bigtop	
  
Crunch	
  
Flume	
  
Hadoop	
  Core	
  	
  
HBase	
  
Hive	
  
Ka_a	
  
	
  
Mahout	
  
Oozie	
  
Pig	
  
Solr	
  
Spark	
  
Sqoop	
  
Tez	
  
ZooKeeper	
  
7	
  ©	
  Cloudera,	
  Inc.	
  All	
  rights	
  reserved.	
  
CDH凝聚Cloudera在开源的贡献
•  Cloudera有89位Hadoop以及相关生态的Commioers,涵盖:	
  
• Hadoop,	
  HBase,	
  Hive,	
  Spark,	
  Lucene/Solr,	
  Flume,	
  Sqoop等项目	
  
•  Cloudera提供了最多的企业级Hadoop功能	
  
• HDFS/YARN	
  HA,	
  Hadoop	
  Secure	
  CommunicaCon,	
  HDFS	
  Short-­‐Circuit,	
  HDFS	
  
Caching,	
  HDFS	
  Transparent	
  EncrypCon	
  
• HBase	
  snapshots,	
  HBase	
  mulC-­‐tenancy	
  
• HiveServer	
  2	
  (for	
  SQL	
  service),	
  Hive-­‐on-­‐Spark	
  
• Spark	
  Streaming	
  exactly-­‐once,	
  Spark	
  Shuffle	
  OpCmizaCon	
  
• Solr	
  +	
  Hadoop	
  IntegraCon	
  
• ……	
  
8	
  ©	
  Cloudera,	
  Inc.	
  All	
  rights	
  reserved.	
  
Cloudera产品和服务
•  Cloudera	
  Enterprise	
  
- 	
  Cloudera提供了100%开源的,开放标准的Apache	
  Hadoop发行版(CDH)	
  
-  让Hadoop真正进入企业级应用的Cloudera	
  Manager和Cloudera	
  Navigator	
  
-  提供虚拟化和云化大数据方案的Cloudera	
  Director	
  
•  业内最权威的Hadoop技能培训和认证	
  
•  深耕于开源社区的专业技术支持团队和产品支持团队	
  
Cloudera	
  Enterprise	
  
	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  按年订阅
Hadoop	
  
认证	
  
培训
专业技术	
  
咨询与服务
产品支持
9	
  ©	
  Cloudera,	
  Inc.	
  All	
  rights	
  reserved.	
  
Cloudera	
  Enterprise	
  Data	
  Hub	
  (EDH)
System	
  and	
  Data	
  Management	
  
Process	
  
Ingest	
  
Sqoop,	
  Flume,	
  
Ka_a	
  
Transform	
  
MapReduce,	
  
Hive,	
  Pig,	
  Spark	
  
Discover	
  
AnalyCc	
  Database	
  
Impala	
  
Search	
  
Solr	
  
Model	
  
Machine	
  Learning	
  
R,	
  Spark	
  Mllib,	
  
Mahout	
  
Serve	
  
NoSQL	
  Database	
  
HBase	
  
Streaming	
  
Spark	
  Streaming	
  
Unlimited	
  Storage	
  HDFS,	
  HBase	
  
YARN,	
  Cloudera	
  Manager	
  
Cloudera	
  Navigator	
  
Deployment	
  
Flexibility	
  
On-­‐Premises	
  
Appliances	
  
Engineered	
  Systems	
  
Public	
  Cloud	
  
Private	
  Cloud	
  
Hybrid	
  Cloud	
  
完善的企业安全策略	
  
•  身份认证,授权,审计,数
据安全	
  
•  数据可管理性	
  
开放标准	
  
•  100%开源Hadoop及其相关
组件	
  
•  3rd标准的软件集成	
  
•  开放API	
  	
  
•  标准云服务集成	
  
统一平台	
  
•  数据导入导出	
  
•  可扩展存储	
  
•  多样化的处理引擎	
  
•  安全	
  
•  资源管理	
  
•  元数据管理	
  
	
  
10	
  ©	
  Cloudera,	
  Inc.	
  All	
  rights	
  reserved.	
  
The	
  Open	
  Source	
  Plasorm	
  -­‐	
  CDH	
  
11	
  ©	
  Cloudera,	
  Inc.	
  All	
  rights	
  reserved.	
  
CDH
•  CDH	
  
- 全球最流行的Hadoop发行版	
  
- 最完整且稳定的版本,经过严格的行业检验	
  
- 具有最快的更新,更多新的功能	
  
- 方便开发者和集成商使用Hadoop	
  
•  和其他一些Hadoop发行版提供商对比	
  
- Cloudera做Hadoop开发的,其他厂商仅是做Hadoop集成或CDH集成	
  
- 和Hadoop	
  trunk最快的同步,能保证业务的前向兼容性;其他厂商在
Hadoop上做的定制优化或修复,无法保证兼容性	
  
- 所有组件的开发和专业支持能力,其他厂商也仅仅跟随Cloudera包含的版
本进行集成,缺乏问题修复和专业支持能力	
  
12	
  ©	
  Cloudera,	
  Inc.	
  All	
  rights	
  reserved.	
  
HDFS
分布式⽂文件系统
	
  
灵活性	
   多样化数据的统一存储	
  
	
  
可扩展性	
   良好的线性可扩展性	
  
高容错性	
   设计之初就考虑了高容错性	
  
	
  
开放性	
   存储的数据格式和内容完全可见	
  
适合⼤大⽂文件的顺序读写, 写一
次读多次	
  
Enterprise Data Hub
Security	
  and	
  AdministraCon	
  
Process	
  
Unlimited	
  Storage	
  
Discover	
   Model	
   Serve	
  
13	
  ©	
  Cloudera,	
  Inc.	
  All	
  rights	
  reserved.	
  
Apache	
  HBase
构建在分布式存储上的NoSQL数据库	
  
和HDFS紧密结合,适合高并发
随机读写
具有分布式存储的所有优点	
  
灵活性	
   多样化数据的统一存储	
  
可扩展性	
   良好的线性可扩展性	
  
开放性	
   存储的数据格式和内容完全可见	
  
+	
  在线数据服务
Enterprise Data Hub
Security	
  and	
  AdministraCon	
  
Unlimited	
  Storage	
  
Process	
   Discover	
   Model	
   Serve	
  
14	
  ©	
  Cloudera,	
  Inc.	
  All	
  rights	
  reserved.	
  
Apache	
  Ka_a	
  
•  每个节点称为 Broker	
  
•  数据以 Topics方式写入Ka_a	
  
•  每一个Topic都可以被分片	
  
•  分片分布在Broker上	
  
•  分片可以有多个副本,其中一个
为Leader	
  	
  
•  Producer,	
  Consumer都与parCCon
直接进行数据交换	
  
Broker	
  1	
   Broker	
  2	
   Broker	
  3	
  
ParCCon	
  1	
  
(Leader)	
  
ParCCon	
  2	
  
ParCCon	
  3	
  
ParCCon	
  2	
  
(Leader)	
  
ParCCon	
  1	
  
ParCCon	
  3	
  
ParCCon	
  3	
  
(Leader)	
  
ParCCon	
  1	
  
ParCCon	
  2	
  
Producer	
   Producer	
  
Consumer	
  Consumer	
  
Ka_a	
  Cluster	
  
高性能分布式消息总线	
  
与Hadoop紧密结合
15	
  ©	
  Cloudera,	
  Inc.	
  All	
  rights	
  reserved.	
  
Ka_a	
  +	
  Apache	
  Flume	
  for	
  ETL	
  
•  Ka_a	
  可以被配置为	
  Flume	
  的Channel	
  
•  Flume	
  Sources	
  和	
  Sinks	
  可以配置成Ka_a的Consumer和Producer	
  
Flume	
  Sources	
  Consume	
  from	
  
Ka5a:	
  
Write	
  data	
  to	
  HDFS,	
  HBase,	
  or	
  Search	
  
Flume	
  Sinks	
  Write	
  to	
  Ka5a:	
  
Read	
  from	
  logs,	
  files,	
  jms,	
  hop,	
  rpc,	
  thri`,	
  
etc	
  and	
  write	
  events	
  to	
  Ka_a	
  
16	
  ©	
  Cloudera,	
  Inc.	
  All	
  rights	
  reserved.	
  
多样的工作引擎
•  批处理引擎(MapReduce,	
  Hive,	
  Spark) -­‐ 适合长时间的数据处理作业,高
度成熟可靠	
  
•  实时数据处理(Spark	
  Streaming)-­‐	
  实时的数据同时,异常检测,预测分析等	
  
•  自助BI分析/交互式SQL(Impala)– 准实时的分析作业,高效的数据探索式
分析,高并发的自助BI功能	
  
•  搜索(Cloudera	
  Search)	
  -­‐	
  快速的跨应用数据搜索能力	
  
•  数据挖掘(Spark	
  Mllib,	
  R,	
  Mahout)-­‐ 适合数据分析人员的快速模型创建,迭
代	
  
•  在线服务(HBase)-­‐ 提供实时的数据服务能力	
  
17	
  ©	
  Cloudera,	
  Inc.	
  All	
  rights	
  reserved.	
  
交互式分析引擎Impala
构建于HDFS上的原生的分析型SQL	
  
易用性	
   利用现有的SQL语法,和绝大多
数BI工具完美集成	
  
高并发	
   为高并发的随机分析而优化,
用C++编写	
  
	
  
交互性	
   提供交互式的体验	
  
	
  
原生	
   和Hadoop栈深度融合	
  
	
  
Enterprise Data Hub
Security	
  and	
  AdministraCon	
  
Unlimited	
  Storage	
  
Process	
   Discover	
   Model	
   Serve	
  
18	
  ©	
  Cloudera,	
  Inc.	
  All	
  rights	
  reserved.	
  
Apache	
  Spark
适合数据科学家的分布式内存计算引擎
灵活	
   多种接口,多种算法	
  
	
  
高效	
   内存计算,适合迭代是计算	
  
	
  
易用	
   好用且丰富的API	
  
	
  
安全集成	
   和数据平台的其他功能无缝集成	
  
适合批处理、流计算以及迭代
式计算	
  
Enterprise Data Hub
Security	
  and	
  AdministraCon	
  
Unlimited	
  Storage	
  
Process	
   Discover	
   Model	
   Serve	
  
19	
  ©	
  Cloudera,	
  Inc.	
  All	
  rights	
  reserved.	
  
SQL的实现途径
•  Hive是一个SQL解析和优化层,
底层引擎可以是MapReduce或
是Spark	
  
•  SparkSQL是Spark生态系统的一
个SQL解析和优化层,也需要借
助于Spark引擎	
  
•  Impala就是一个原生的SQL解析、
优化以及内存执行引擎,直接
操纵HDFS
Unlimited	
  Storage	
  HDFS	
  
MapReduce	
   Impala	
  Spark	
  
Hive	
  
Spark	
  
SparkSQL	
  
20	
  ©	
  Cloudera,	
  Inc.	
  All	
  rights	
  reserved.	
  
数据处理和分析
•  多样化的SQL解决方案	
  
• 不同的需求需要不同的技术	
  
• 互补而不是替代
实时监控
和分析	
  
交互式分析和探
索式分析	
  
批处理	
  
时延要求	
  
<	
  秒级	
   >	
  数秒到分钟	
   >	
  几十分钟以上	
  
数据源	
  
21	
  ©	
  Cloudera,	
  Inc.	
  All	
  rights	
  reserved.	
  
交互式SQL性能
0	
  
50	
  
100	
  
150	
  
200	
  
250	
  
300	
  
350	
  
Impala	
   Spark	
  SQL	
   Presto	
   Hive-­‐on-­‐Tez	
  
Time	
  (in	
  seconds)	
  
Single	
  User	
  vs	
  10	
  User	
  Response	
  Time/Impala	
  	
  
Times	
  Faster	
  
(Lower	
  bars	
  =	
  beoer)	
  	
  
Single	
  User,	
  5	
  
10	
  Users,	
  11	
  
Single	
  User,	
  25	
  
10	
  Users,	
  120	
  
10	
  Users,	
  302	
  
10	
  Users,	
  202	
  
Single	
  User,	
  37	
  
Single	
  User,	
  77	
  
5.0x	
  
10.6x	
  
7.4x	
  
27.4x	
  
15.4x	
  
18.3x	
  
Independent	
  valida,on	
  by	
  IBM	
  Research	
  SQL-­‐on-­‐Hadoop	
  VLDB	
  paper:	
  
“Impala’s	
  database	
  architecture	
  provides	
  significant	
  performance	
  gains”	
  
	
  
22	
  ©	
  Cloudera,	
  Inc.	
  All	
  rights	
  reserved.	
  
Cloudera	
  Search
大数据平台内的搜索引擎	
  
易用性	
   实现了企业内数据平台的搜索引擎	
  
	
  
标准化	
   基于Solr的标准搜索实现	
  
	
  
灵活性	
   实现了多种索引的构建方式	
  
	
  
安全和集成	
   和Cloudera企业级功能的紧密集成	
  
|	
   Search	
  
所有人都知道怎么搜索	
  
Enterprise Data Hub
Security	
  and	
  AdministraCon	
  
Unlimited	
  Storage	
  
Process	
   Discover	
   Model	
   Serve	
  
23	
  ©	
  Cloudera,	
  Inc.	
  All	
  rights	
  reserved.	
  
实时搜索
HDFS	
  
Online	
  Streaming	
  Data	
   End	
  User	
  Client	
  App	
  (e.g.	
  
Hue)	
  
Flume	
  
Raw,	
  filtered,	
  or	
  
annotated	
  data	
  
SolrCloud	
  Cluster(s)	
  
Indexed	
  data	
  
MapReduce	
  Batch	
  Indexing	
  w/	
  
Morphlines	
  
GoLive	
  updates	
  
HBase	
  
Cluster	
  
NRT	
  ReplicaCon	
  
Events	
  indexed	
  
w/	
  Morphlines	
  
OLTP	
  Data	
  
Cloudera	
  Manager	
  
Search	
  queries	
  
NRT	
  Data	
  indexed	
  
w/	
  Morphlines	
  
24	
  ©	
  Cloudera,	
  Inc.	
  All	
  rights	
  reserved.	
  
实时数据处理
25	
  ©	
  Cloudera,	
  Inc.	
  All	
  rights	
  reserved.	
  
企业消息总线
26	
  ©	
  Cloudera,	
  Inc.	
  All	
  rights	
  reserved.	
  
Hue
•  专门为Hadoop打造的用户界面	
  
• HDFS的浏览以及管理	
  
• HBase的管理	
  
• 作业流设计,作业提交以及管理	
  
• SQL操作前端	
  
• 定制化的搜索前端	
  
• 访问权限配置界面
27	
  ©	
  Cloudera,	
  Inc.	
  All	
  rights	
  reserved.	
  
Security	
  Infrastructure	
  in	
  Cloudera	
  
Enterprise	
  –	
  Apache	
  Sentry	
  &	
  
Cloudera	
  Navigator	
  
28	
  ©	
  Cloudera,	
  Inc.	
  All	
  rights	
  reserved.	
  
安全的挑战
•  越来越多的开发人员和业务人员会使用大数据平台	
  
•  企业数据平台正成为黑客的主要目标	
  
•  Hadoop及衍生的众多项目缺乏统一的安全解决方案	
  
•  传统的应用层安全方案难以胜任新平台	
  
• 平台有多种接口给用户使用	
  
• 传统方案中各应用系统相对独立	
  
•  用户一旦突破应用层安全,数据平台就完全暴露	
  
• 数据没有任何保护	
  
• 访问没有任何限制
29	
  ©	
  Cloudera,	
  Inc.	
  All	
  rights	
  reserved.	
  
全面的安全管控	
  
Apache	
  Sentry,	
  HDFS	
  EncrypCon,	
  Cloudera	
  Navigator,	
  Key	
  Trustee
•  数据平台的安全不可或缺:	
  
- 多样化的数据导入方式	
  
- 多种引擎的协同工作	
  
- 多业务的并发	
  
- 多用户的访问	
  
- 和企业的基础设施集成	
  
- 符合行业的安全审查	
  
1.	
  Perimeter	
  Standards-­‐based	
  AuthenCcaCon	
  
Security	
  and	
  AdministraCon	
  
Unlimited	
  Storage	
  
Process	
   Discover	
   Model	
   Serve	
  
2.	
  Access	
  Unified	
  Role-­‐based	
  AuthorizaCon	
  
4.	
  Data	
  EncrypCon	
  &	
  Key	
  Management	
  
3.	
  Visibility	
  AudiCng	
  &	
  Governance	
  
30	
  ©	
  Cloudera,	
  Inc.	
  All	
  rights	
  reserved.	
  
安全技术架构	
  
认证,	
  授权,	
  审计,	
  以及行业监管规范	
  –	
  同一用户接口	
  
Perimeter	
  
限制什么样的用户可
以访问集群
	
  
	
  
	
  
Technical	
  Concepts:	
  
AuthenCcaCon	
  
Network	
  isolaCon	
  
	
  
Access	
  
定义用户或者应用可
以访问什么数据	
  
	
  
	
  
	
  
Technical	
  Concepts:	
  
Permissions	
  
AuthorizaCon	
  
	
  
Data	
  
敏感数据保护以防止
为授权的访问
	
  
	
  
Technical	
  Concepts:	
  
EncrypCon,	
  TokenizaCon,	
  
Data	
  masking	
  
	
  
Visibility	
  
数据从什么地方来以
及数据是怎么被用的
	
  
	
  
	
  
Technical	
  Concepts:	
  
AudiCng	
  
Lineage	
  
	
  
Cloudera	
  Manager	
   Apache	
  Sentry	
   Cloudera	
  Navigator	
  
Navigator	
  Encrypt	
  &	
  Key	
  
Trustee	
  |	
  Partners	
  
31	
  ©	
  Cloudera,	
  Inc.	
  All	
  rights	
  reserved.	
  
安全技术架构	
  
AuthenCcaCon,	
  AuthorizaCon,	
  Audit,	
  and	
  Compliance	
  
Perimeter	
  
Guarding	
  access	
  to	
  
the	
  cluster	
  itself	
  
	
  
	
  
	
  
Technical	
  Concepts:	
  
AuthenCcaCon	
  
Network	
  isolaCon	
  
	
  
Access	
  
Defining	
  what	
  users	
  
and	
  applicaCons	
  can	
  
do	
  with	
  data	
  
	
  
	
  
Technical	
  Concepts:	
  
Permissions	
  
AuthorizaCon	
  
	
  
Data	
  
ProtecCng	
  data	
  in	
  the	
  
cluster	
  from	
  
unauthorized	
  visibility	
  
	
  
	
  
Technical	
  Concepts:	
  
EncrypCon,	
  TokenizaCon,	
  
Data	
  masking	
  
	
  
Visibility	
  
ReporCng	
  on	
  where	
  
data	
  came	
  from	
  and	
  
how	
  it’s	
  being	
  used	
  
	
  
	
  
Technical	
  Concepts:	
  
AudiCng	
  
Lineage	
  
	
  
Cloudera	
  Manager	
   Apache	
  Sentry	
   Cloudera	
  Navigator	
  
Navigator	
  Encrypt	
  &	
  Key	
  
Trustee	
  |	
  Partners	
  
32	
  ©	
  Cloudera,	
  Inc.	
  All	
  rights	
  reserved.	
  
多层次的安全
•  多层级的身份认证(Cloudera	
  Manager,	
  Kerberos,	
  AD,	
  Hue)	
  
• 管理平台,运维人员,客户端,BI工具	
  
•  统一的授权访问控制(Apache	
  Sentry)	
  
• 在平台上提供统一的访问安全控制策略	
  
•  数据保护(HDFS	
  At-­‐Rest	
  EncrypCon,	
  Navigator	
  Encrypt,	
  Navigator	
  KeyTrustee)	
  
• On-­‐the-­‐wire和at-­‐rest数据保护,并内置有Key	
  Management方案	
  
•  全面的审计(Cloudera	
  Navigator)	
  
• 不管以什么方式进行访问集群,都会得到审计
33	
  ©	
  Cloudera,	
  Inc.	
  All	
  rights	
  reserved.	
  
外围安全需求
让⽤用户⾃自由选择需要的计算模块(例如	
  Impala,	
  
Spark)	
  
任何计算模块拥有统⼀一的安全设置	
  
实现已有的安全标准:	
  AcCve	
  Directory	
  和Kerberos	
  
验证
Guarding access to the
cluster itself
InfoSec Concept:
Authentication
Cloudera	
  Manager
34	
  ©	
  Cloudera,	
  Inc.	
  All	
  rights	
  reserved.	
  
Cloudera	
  Manager提供自动化用户验证	
  
支持AD	
  Kerberos	
  	
  
单点登录	
  
Kerberos	
  
配置向导	
  
支持配置多KDC	
  
用户验证和监控信息	
  
•  用户直接通过AD进行单点登录
•  Hadoop所有服务统一接受AD Kerberos验证
•  用户对Hadoop服务的访问权限由通过AD Groups控制
•  通过向导自动为当前集群配置Kerberos,简化繁琐的手动操作,避免各种可
能的错误流程
•  自动配置和调整多KDC协调工作
•  当Kerberos生效后,自动通过CM监控Kerberos验证状态
35	
  ©	
  Cloudera,	
  Inc.	
  All	
  rights	
  reserved.	
  
访问授权需求
提供⽤用户所需要的细粒度权限	
  
集中化管理所有服务的⽤用户权限	
  
使用构建在AD上的基于角色控制的
用户授权模型	
  
授权
Defining what users and
applications can do with
data
InfoSec Concept:
Authorization
Apache	
  Sentry
36	
  ©	
  Cloudera,	
  Inc.	
  All	
  rights	
  reserved.	
  
可视化权限管理	
  
37	
  ©	
  Cloudera,	
  Inc.	
  All	
  rights	
  reserved.	
  
数据审计视图需求
帮助用户理解报表数据的血缘关系,
并找到更多相似数据	
  
遵循企业在审计,数据分类和生命周
期管理的统一策略	
  
集中化的审计平台,自动数据发现,
自动血缘关系管理	
  
审计视图
告诉⽤用户数据从何⽽而来以及如何被
使⽤用
InfoSec Concept:
审计
Cloudera Navigator
38	
  ©	
  Cloudera,	
  Inc.	
  All	
  rights	
  reserved.	
  
为什么需要Cloudera	
  Navigator	
  
38
Cloudera企业版处理大量数据的需求	
  
§  数据规模大	
  
§  数据源种类复杂	
  –	
  结构化/非结构化数据	
  
§  数据敏感性级别多	
  
1
多用户处理数据的需求	
  
§  管理员以及合规官员	
  
§  分析员以及数据科学家	
  
§  商务用户	
  
2
数据有效控制与处理的需求	
  
§  对数据平台的可视化与管理	
  
§  数据发现与探索	
  
3
39	
  ©	
  Cloudera,	
  Inc.	
  All	
  rights	
  reserved.	
  
Cloudera数据审计和生命周期管理平台	
  
Cloudera	
  Navigator	
  
Hadoop平台上唯一的端到端数据	
  
审计解决方案。	
  
最大程度降低安全风险,保证和企业安
全审计策略兼容	
  
	
  
独有能力:	
  
• 数据审计	
  
• 数据血缘管理	
  
• Hadoop元数据标记和发现	
  
• 数据生命周期	
  
40	
  ©	
  Cloudera,	
  Inc.	
  All	
  rights	
  reserved.	
  
数据安全需求
对重要数据进⾏行额外安全保护	
  
加密敏感数据,完善的密钥管理服务,从源头防
范数据泄露风险	
  
和企业已有的HSM整合,作为密钥管理基础架构
的一部分	
  
数据保护
Protecting data in the cluster
from unauthorized visibility
InfoSec Concept:
合规性
Navigator	
  Encrypt	
  &	
  	
  
Key	
  Trustee	
  
41	
  ©	
  Cloudera,	
  Inc.	
  All	
  rights	
  reserved.	
  
Navigator	
  Encrypt/KeyTrustee	
  (Gazzang)
•  Navigator	
  Encrypt	
  
• 全面高效的数据保护,Linux文件系统以下	
  
• 硬件指令加速(AES-­‐NI)	
  
• 存储节点上的加解密方案	
  
•  Navigator	
  KeyTrustee	
  
• 集中化的秘钥管理	
  
• 灵活的部署方式	
  
•  on-­‐premise或者SaaS	
  
42	
  ©	
  Cloudera,	
  Inc.	
  All	
  rights	
  reserved.	
  
在上层应用和文件系统中实现透明加
密层	
  
• 合规性	
  
• 无限数据扩展	
  
• 超高性能:采用Intel硬件指令集优化	
  
• 可选重点内容加密	
  
• Navigator管理服务器对密钥管理	
  
Cloudera数据透明加密	
  
Applica'ons/Processes
File  System
Process-­‐Based  ACLs
File-­‐Level  Encryp'on
Blocks
Storage
Users
Key  Manager
43	
  ©	
  Cloudera,	
  Inc.	
  All	
  rights	
  reserved.	
  
使用者视图
44	
  ©	
  Cloudera,	
  Inc.	
  All	
  rights	
  reserved.	
  
认证和授权
45	
  ©	
  Cloudera,	
  Inc.	
  All	
  rights	
  reserved.	
  
认证和授权
HiveServer2
AuthN
LDAP Kerberos
AuthZ
Identity	
  
Management
KDC
SentryBinding
Sentry	
  Service
Policy	
  Definition/Retrieval
Enforcement
Group
Group	
  Mapping
HadoopUserGroupMapping
LocalGroupMapping Shell LDAP
46	
  ©	
  Cloudera,	
  Inc.	
  All	
  rights	
  reserved.	
  
数据保护
•  底层文件系统的数据保护 (Navigator	
  Encrypt,	
  Navigator	
  KeyTrustee)	
  
• 临时文件,缓存到本地的中间计算结果,配置文件以及元数据文件	
  
•  HDFS文件的保护(HDFS	
  Data-­‐At-­‐Rest	
  EncrypCon,	
  Navigator	
  KeyTrustee)	
  
• 只能保护HDFS的文件或目录数据	
  
•  网络传输的安全性(TCP	
  over	
  SSL)	
  
• 基于SSL的节点间网络通信
47	
  ©	
  Cloudera,	
  Inc.	
  All	
  rights	
  reserved.	
  
Cloudera	
  Navigator
•  全面的审计功能	
  
•  对HDFS、Impala、Hive、HBase和Sentry的审计追踪提供集中式的配置管理接口 	
  
•  查看用户/用户组对HDFS、Impala、Hive和HBase的访问权限以保证对隐私及合规的正确
配置 	
  
•  数据发现和探索	
  
•  快速检索相关数据,加速数据发现流程 	
  
•  自动发现元数据并允许用户自定义可定制化标签与注释,便于数据追踪与归类 	
  
•  数据溯源	
  
•  帮助用户直观理解数据集的上下游血脉关系,验证数据源头与数据演变过程 	
  
•  可以导出数据溯源信息到其他的溯源信息管理系统中	
  
•  生命周期管理	
  
•  定义并自动化复杂的数据生命周期管理工作,包括分类,保留及加解密策略 – 一切都
基于Navigator丰富的元数据管理能力
48	
  ©	
  Cloudera,	
  Inc.	
  All	
  rights	
  reserved.	
  
49	
  ©	
  Cloudera,	
  Inc.	
  All	
  rights	
  reserved.	
  
Most	
  powerful	
  Hadoop	
  plasorm	
  
Management	
  –	
  Cloudera	
  Manager	
  
50	
  ©	
  Cloudera,	
  Inc.	
  All	
  rights	
  reserved.	
  
系统管理平台	
  
Cloudera	
  Manager
•  Cloudera	
  Manager	
  – 专注于
企业管理平台,而不只是一
个集群管理工具	
  
- 基于角色的管理视图	
  
- 丰富且可定制化的监控图表展现	
  
- LDAP/Kerberos/SNMP/Rest	
  API集成	
  
- 零宕机安装和升级	
  
- 复制和灾备	
  
- 多租户资源管理	
  
- 自动化的运营和诊断报告	
  
- 开放API可以集成第三方工具	
  
- ……
51	
  ©	
  Cloudera,	
  Inc.	
  All	
  rights	
  reserved.	
  
一个工具搞定全部运维管理	
  
Hadoop运维管理的复杂性:	
  
+
部署和配置	
   监控	
   工作流	
   事件和警告	
   日志搜索	
   故障诊断	
   运维报表	
   集群活动监控	
  
DIY方式的运维管理
对比Cloudera
“在第三方客户调查中显示,超过95%的客户希望使用统一的端到端管理工具对Hadoop集群进行维护管理,而不是被迫学习多
种开源工具用于不同类型的管理”
52	
  ©	
  Cloudera,	
  Inc.	
  All	
  rights	
  reserved.	
  
简化的故障诊断流程	
  
Cloudera	
  Manager最大程度提高故障诊断效率	
  
注意到系统任务失败,集群停止服务
在TaskTracker界面中定位找到故障任务
借助Ganglia调查服务,主机,网络的各种监控指标,
帮助查找故障原因
尝试找到合适的HEAP MEMORY设置大小
更新设置,分发到所有节点,暂时中断服务,重启整
个集群
故障原因:
TaskTracker Heap
Memeory设置过低
1
小时
2
小时
1
小时
30
分钟
收到CM警告:任务运行时间长于预期
在CM中自动定位并高亮显示故障任务
自动对TaskTracker节点做健康检查,找到故障原因	
  
用系统推荐的设置值更新集群
重启单独的TaskTracker,集群服务不会中断
故障原因:
TaskTracker Heap
Memeory设置过低
5
分钟
3
分钟
2
分钟
5
分钟
通过CLOUDERA MANAGER
4.5 小时
15 分钟
非Cloudera平台故障诊断
53	
  ©	
  Cloudera,	
  Inc.	
  All	
  rights	
  reserved.	
  
滚动重启和升级
54	
  ©	
  Cloudera,	
  Inc.	
  All	
  rights	
  reserved.	
  
集群灾备
55	
  ©	
  Cloudera,	
  Inc.	
  All	
  rights	
  reserved.	
  
配置历史	
  
56	
  ©	
  Cloudera,	
  Inc.	
  All	
  rights	
  reserved.	
  
版本回滚	
  
57	
  ©	
  Cloudera,	
  Inc.	
  All	
  rights	
  reserved.	
  
智能的配置警告	
  
58	
  ©	
  Cloudera,	
  Inc.	
  All	
  rights	
  reserved.	
  
智能决策	
  
配置过期需要重启	
  
客户端配置过期	
  
59	
  ©	
  Cloudera,	
  Inc.	
  All	
  rights	
  reserved.	
  
全局时间线控制方便诊断	
  
极方便的全局时间线控制	
  
60	
  ©	
  Cloudera,	
  Inc.	
  All	
  rights	
  reserved.	
  
启用Kerberos	
  
61	
  ©	
  Cloudera,	
  Inc.	
  All	
  rights	
  reserved.	
  
启用Kerberos	
  
62	
  ©	
  Cloudera,	
  Inc.	
  All	
  rights	
  reserved.	
  
启用Kerberos	
  
63	
  ©	
  Cloudera,	
  Inc.	
  All	
  rights	
  reserved.	
  
启用Kerberos	
  
64	
  ©	
  Cloudera,	
  Inc.	
  All	
  rights	
  reserved.	
  
通过Cloudera	
  Manager管理用户自定义服务	
  
hps://github.com/cloudera/cm_ext/
wiki	
  
65	
  ©	
  Cloudera,	
  Inc.	
  All	
  rights	
  reserved.	
  
Cloudera	
  Manager	
  Rest	
  API	
  
66	
  ©	
  Cloudera,	
  Inc.	
  All	
  rights	
  reserved.	
  
多租户管理
•  在多用户的环境下共享相同的系统或程序组件,且仍可确保各用户间数据、
配置甚至计算资源的隔离性。	
  
• 各租户的资源保障	
  
• 租户间的细粒度的安全隔离	
  
• 租户资源请求的快速响应	
  
• 租户资源使用的报告	
  
•  多租户的优势	
  
• 数据共享	
  
• 方便运营	
  
• 提高资源使用率	
  
67	
  ©	
  Cloudera,	
  Inc.	
  All	
  rights	
  reserved.	
  
多租户的挑战
•  开源版本已经实现的	
  
• YARN的资源管理平台,可以实现对MapReduce、Spark的动态资源管理	
  
• 基于Queue的资源抽象描述	
  
• 基于Queue的用户权限控制	
  
•  挑战	
  
• 只支持批处理的引擎	
  
• 对有时延要求租户的支持	
  
• 统一的权限控制模型	
  
• 没有对租户资源使用的详细报告	
  
68	
  ©	
  Cloudera,	
  Inc.	
  All	
  rights	
  reserved.	
  
Cloudera平台的多租户
•  资源隔离和管理	
  
• 保障租户对服务质量的要求,且有效利用集群的资源	
  
•  安全和管治	
  
• Cloudera平台提供了从身份验证、授权、审计和数据安全的全面保护,确
保租户之间的隔离性	
  
•  资源使用报告	
  
• 统计租户对资源的使用要求,优化租户的资源分配	
  
69	
  ©	
  Cloudera,	
  Inc.	
  All	
  rights	
  reserved.	
  
资源管理
•  资源划分	
  
• 动态资源划分	
  
•  按需给租户提供满足服务质量的资源保障	
  
•  有效利用集群资源	
  
• 静态资源划分	
  
•  满足关键负载的作业保障	
  
•  配额管理	
  
• 磁盘空间配额	
  
• 文件、目录数量配额,以优化文件系统元数据
70	
  ©	
  Cloudera,	
  Inc.	
  All	
  rights	
  reserved.	
  
静态资源管理
•  通过Linux	
  cgroup来静态划分各服务所占用的资源	
  
• 支持HBase,	
  HDFS,	
  Implala,	
  YARN	
  
•  保障关键作业的资源占用
YARN	
  
30%
HBase	
  
20%
HDFS	
  
30%
Impala	
  
20%
Product	
  
2
Mkt	
  
1
Developer	
  
3
71	
  ©	
  Cloudera,	
  Inc.	
  All	
  rights	
  reserved.	
  
静态资源管理配置
72	
  ©	
  Cloudera,	
  Inc.	
  All	
  rights	
  reserved.	
  
HBase内部的资源管理
•  对某个用户、某张表或某个表空间的访问进行限制(Throoling)	
  
•  将HBase上的作业按类型进行调度	
  
• 分析或查询	
  
• 读或写
73	
  ©	
  Cloudera,	
  Inc.	
  All	
  rights	
  reserved.	
  
动态资源管理
•  基于YARN的资源管理框架可以实现MapReduce,	
  Spark以及Impala对资源的共
享	
  
• 通过Llama实现Impala和YARN资源的集成	
  
• 按租户的资源使用状况定期调整资源分配策略	
  
YARN/Impala	
  
50%
Product	
  
1
Business	
  
3
Developer	
  
2
Impala	
  
4
YARN/Impala	
  
50%
Product	
  
1
Business	
  
1
Developer	
  
4
Impala	
  
4
Weekday Weekend
74	
  ©	
  Cloudera,	
  Inc.	
  All	
  rights	
  reserved.	
  
资源使用状况统计
•  租户对于资源的历史使用统计和趋势,以更好满足企业内部的Showback和
Chargeback模式
75	
  ©	
  Cloudera,	
  Inc.	
  All	
  rights	
  reserved.	
  
Bring	
  Cloudera	
  Plasorm	
  to	
  Cloud	
  –	
  
Cloudera	
  Director	
  
76	
  ©	
  Cloudera,	
  Inc.	
  All	
  rights	
  reserved.	
  
部署的灵活性	
  
安全与管理	
  
无限分布式存储	
  
批处理	
   数据发现	
   建模	
   在线服务	
  
部署灵活性	
  
On-Premises
Appliances
Engineered Systems
公有云
私有云
混合云
77	
  ©	
  Cloudera,	
  Inc.	
  All	
  rights	
  reserved.	
  
Cloudera: 将CDH带到云端	
  
可移植性:	
  多种云端部署选项	
  
灵活性:定价和支持	
  
选择:快速增长的生态系统	
  
私有云:	
   Physical	
  
公有云:	
  
•  通过标准Cloudera	
  Support提供支持
•  与云计算平台提供商合作,按使用量付费的定价模式
拥抱迅速增长的云计算生态系统
*
*
* Scheduled for Roadmap
78	
  ©	
  Cloudera,	
  Inc.	
  All	
  rights	
  reserved.	
  
云端自动化部署Hadoop集群	
  
Cloudera	
  Director	
  
业内第一个可移植,自服务型的部署和管
理企业级Hadoop集群解决方案	
  
	
  
独有特性:	
  
• 动态集群生命周期管理	
  
• 云端整体视图	
  
• 多集群资源占用可视化监控	
  
• 用于按资源计费的使用量报告	
  
79	
  ©	
  Cloudera,	
  Inc.	
  All	
  rights	
  reserved.	
  
Create	
  EC2	
  Instance	
  Template	
  
80	
  ©	
  Cloudera,	
  Inc.	
  All	
  rights	
  reserved.	
  
Add	
  Cluster	
  
81	
  ©	
  Cloudera,	
  Inc.	
  All	
  rights	
  reserved.	
  
Grow	
  Cluster	
  
82	
  ©	
  Cloudera,	
  Inc.	
  All	
  rights	
  reserved.	
  
Ensure	
  Customer	
  Success	
  –	
  
Industry-­‐Leading	
  Support	
  
83	
  ©	
  Cloudera,	
  Inc.	
  All	
  rights	
  reserved.	
  
Cloudera技术支持
•  专业服务	
  
•  近百人的专业技术支持团队	
  
•  丰富的知识库	
  
•  基于大数据技术的预测支持及主动支持	
  
•  严格的问题修复流程
84	
  ©	
  Cloudera,	
  Inc.	
  All	
  rights	
  reserved.	
  
专业服务
•  预定义的企业服务内容	
  
•  驻场架构师和专人技术支持
集群部署及
调优
数据导入
及ETL指
导
数据分析
指导
安全指导
生产环境
就绪
85	
  ©	
  Cloudera,	
  Inc.	
  All	
  rights	
  reserved.	
  
Cloudera客户支持中心(CSI)
86	
  ©	
  Cloudera,	
  Inc.	
  All	
  rights	
  reserved.	
  
预测、主动技术支持
•  利用大数据平台技术,在客户集群还没发生问题之前就可以得到主动的预警	
  
•  付费客户可以定期向Cloudera支持中心发送集群诊断包以获取主动支持
ANALYTIC	
  
SQL	
  
IMPALA	
  
SEARCH	
  
ENGINE	
  
SOLR	
  
	
  	
  	
  	
  资源管理	
   YARN	
  
	
  
文件系统 在线NOSQL	
  
HBASE	
  
SYSTEM	
  
MANAGEMENT	
  
CLOUDERA	
  MANAGER	
  
存储各种类型数据	
  
批处理	
  
MAPREDUCE	
  
HDFS	
  
	
  	
  	
  	
  	
  	
  	
  	
  3RD	
  PARTY	
  APPS	
   TABLEAU	
  
基于Cloudera的EDH构建	
  Cloudera	
  Manager	
  
日志文件	
  
客户节点数据	
  
集群描述	
  
命令输出	
  
知识库	
  
CRM数据	
  
支持记录	
  
Apache邮件列表	
  
社区论坛	
  
分析	
  
SQL	
  
IMPALA	
  
搜索引擎	
  
SOLR	
  
硬件配置	
  
Ingest	
  &	
  Consolidate	
  
87	
  ©	
  Cloudera,	
  Inc.	
  All	
  rights	
  reserved.	
  
严格的问题修复过程
Cloudera	
  工
程师修复问
题并进行测
试	
  
客户发现并
通过系统报
告问题	
  
Cloudera	
  工
程师重现问
题	
  
Cloudera	
  在
Apache报告
JIRA并提交
补丁	
  
Cloudera	
  
commier	
  审
查并提交补
丁到开源社
区	
  
Cloudera	
  把
补丁放到下
一个版本发
布	
  
Cloudera	
  给
客户提供补
丁程序	
  
客户通过
Cloudera的无
宕机滚动升
级打补丁	
  
客户升级
Cloudera版本	
  
88	
  ©	
  Cloudera,	
  Inc.	
  All	
  rights	
  reserved.	
  
完善的产业链合作伙伴
Data	
  
Systems	
  
Enterprise	
  Data	
  Hub	
  
Security	
  and	
  AdministraCon	
  
Unlimited	
  Storage	
  
Process	
   Discover	
   Model	
   Serve	
  
ApplicaCons	
  
System	
  IntegraCon	
  
Infrastructure	
  
Hundreds	
  of	
  partners	
  
ensure	
  compaCbility	
  with	
  exisCng	
  
investments,	
  lower	
  skill	
  barriers,	
  and	
  
help	
  maximize	
  value	
  from	
  your	
  data.	
  OperaConal	
  
Tools	
  
89	
  ©	
  Cloudera,	
  Inc.	
  All	
  rights	
  reserved.	
  
全行业客户
Financial	
  &	
  	
  
Business	
  Services	
  
Telecom	
  
Technology	
  
Healthcare	
  
Life	
  Sciences	
  
Media	
  
Retail	
  
Consumer	
  
Energy	
  
Public	
  Sector	
  
90	
  ©	
  Cloudera,	
  Inc.	
  All	
  rights	
  reserved.	
  
总结
•  Cloudera	
  Enterprise	
  
- 专注于开源Hadoop的开发,保护用户的投资(Open	
  Standard)	
  
- 最具创新的Hadoop发行版 (InnovaCon)	
  
- 最好用的企业数据平台(Usability)	
  
ü 活跃的Cloudera社区	
  
ü 一站式的管理平台	
  
- 最完善的安全架构(Security)	
  
- 方便集成(IntegraCon)	
  
- 全面可扩展(Extensibility)	
  
- 最专业的、可持续的技术支持	
  
91	
  ©	
  Cloudera,	
  Inc.	
  All	
  rights	
  reserved.	
  
与Apache开源项目比	
  
1	
  
集成性:包含了20多个开源项目,组
件版本的兼容,解决了组件内部的配
置和组件间的配置集成	
  
2	
  
管理性:自动化的安装部署;智能的
配置优化;超级易用的监控诊断;企
业级的管理能力;基础设施的集成	
  
3	
  
安全性:全面的安全技术架构;独有
的主数据管理能力帮助用户快速发现
数据并理解数据处理流程	
  
4	
  
技术支持:开源项目的发布周期不定,
Cloudera会定期发布问题修复版,并
提供快速的问题修复;同时开源项目
有时会破坏一些兼容性	
  
92	
  ©	
  Cloudera,	
  Inc.	
  All	
  rights	
  reserved.	
  
与社区版对比	
  
Cloudera	
  Express	
   Cloudera	
  Enterprise	
  
平台核心	
   CDH	
   CDH	
   包含数据采集、存储、处理和分析等组件	
  
管理性	
   基本的安装、部署、监控、
告警等管理功能	
  
还包含一系列企业级功能:	
  
配置历史修改和回退	
  
平台运营历史报告	
  
零宕机重启、升级	
  
备份和复制	
  
定期诊断等等	
  
1.  不需要花大把的时间去查看由于配置修
改导致的性能下降	
  
2.  降低关键业务宕机的风险	
  
3.  定期的诊断快照缩短解决问题的周期	
  
4.  无意的数据损坏	
  
安全性	
   有限的、松散的安全特性	
   自动化的Kerberos部署	
  
统一访问权限控制	
  
全面的审计	
  
整体的数据保护解决方案	
  
1.  发现恶意的访问	
  
2.  防止系统管理员直接通过底层文件系统
去读取敏感数据	
  
数据治理	
   无	
   集群元数据的管理	
  
数据溯源	
  
1.  理解集群中有什么数据,快速发现数据	
  
2.  数据的依赖关系,理解报表依赖的数据
源	
  
技术支持	
   无	
   主动的集群诊断、产品支持团队、	
  
客户可以访问的知识库、专业技术服务	
  
定期的平台缺陷通知、路线图	
  
1.  需要花费大量的时间来优化集群来满足
业务需求	
  
2.  系统持续稳定运行的技术保障	
  
93	
  ©	
  Cloudera,	
  Inc.	
  All	
  rights	
  reserved.	
  
与闭源厂商对比	
  
闭源平台	
   Cloudera	
  Enterprise	
  
平台核心	
   Unknown	
   CDH	
   闭源的组件或者功能缺乏和开源的持
续兼容;闭源特性没有社区支持增加
了用户使用代价	
  
管理性	
   基本的安装、部署、监控、告警等
管理功能	
  
业界最好用,完全为Hadoop而开发的管
理工具Cloudera	
  Manager	
  
安全性	
   有限的、松散的安全特性	
   全面的安全解决方案,业界唯一一个符
合PCI	
  (Payment	
  Card	
  Industry)安全标准
的平台	
  
数据治理	
   无	
   集群元数据的管理	
  
数据溯源	
  
技术支持	
   有但不可持续	
   专业的产品支持团队,严格的问题修复
流程,主动的集群诊断和预测支持	
  
94	
  ©	
  Cloudera,	
  Inc.	
  All	
  rights	
  reserved.	
  
版本和服务
•  免费版(Cloudera	
  Express)和按年订阅的付费版(Cloudera	
  Enterprise)	
  
•  免费版包含CDH和功能受限的Cloudera	
  Manager	
  
•  付费版可以使用Cloudera	
  Enterprise的所有功能,但根据可以享受的服务内容
不一样	
  
- Basic	
  EdiCon:只提供Hadoop核心和Cloudera	
  Director的服务	
  
- Flex	
  EdiCon:HBase/Search/Impala/Spark/Navigator选择其一	
  
- Data	
  Hub	
  EdiCon:所有组件都有服务提供	
  
•  Basic	
  EdiCon只有5x8或7x24的标准支持	
  
•  Flex	
  EdiCon和Data	
  Hub	
  EdiCon有5x8或7x24	
  Premium支持可选
95	
  ©	
  Cloudera,	
  Inc.	
  All	
  rights	
  reserved.	
  
许可证模式	
  
•  Cloudera不提供永久的许可证	
  
•  Cloudera产品采取的是按年订阅许可证模式,假设用户订阅了三年的,则具
体的付费方式根据客户要求:	
  
• 一次性付费	
  
• 按三年平均,分三次付	
  
• 第一年可以付大部分费用,后两年以维保的名义付费	
  
•  订阅期结束之后,如果用户不再续订,则原有的功能都可以继续使用(包括
付费版才有的功能)	
  
•  订阅期结束之后,如果用户需要续订,则视为一次新的订阅期,此次订阅的
价格会视前次订阅的周期和本次订阅的周期酌情考虑	
  
96	
  ©	
  Cloudera,	
  Inc.	
  All	
  rights	
  reserved.	
  
迅速体验
•  Cloudera	
  Express	
  – 完全免费	
  
- 全功能数据平台(CDH),无存储容量和节点数限制	
  
- 一站式的管理工具(Cloudera	
  Manager)	
  
- 获取社区支持Cloudera	
  Community	
  
•  Cloudera	
  Enterprise	
  Trial	
  
- 企业版60天的试用	
  
- 获取试用版许可证,得到专业的技术支持	
  
•  Cloudera	
  Live	
  
- 在线的数据分析体验(Hue,Tableau,Zoomdata,Trifacta)
97	
  ©	
  Cloudera,	
  Inc.	
  All	
  rights	
  reserved.	
  
资源
•  Cloudera	
  Product	
  -­‐	
  
hop://www.cloudera.com/content/cloudera/en/downloads.html	
  
•  Cloudera	
  Live	
  -­‐	
  
hop://www.cloudera.com/content/cloudera/en/products-­‐and-­‐services/
cloudera-­‐live.html	
  
•  Cloudera	
  Community	
  -­‐	
  hop://community.cloudera.com/	
  
•  Cloudera	
  DocumentaCon	
  -­‐	
  
hop://www.cloudera.com/content/cloudera/en/documentaCon.html	
  
98	
  ©	
  Cloudera,	
  Inc.	
  All	
  rights	
  reserved.	
  
企业级数据平台
•  稳定性	
  
-  严格的测试	
  
-  被客户和开发者证明	
  
-  开源的模式	
  
•  易用性	
  
-  标准的API(Java,	
  SQL,	
  Python,	
  Rest)	
  
-  标准的工具集成(MS,	
  Qlikview,	
  Tableau,	
  Teradata,	
  
Netezza,	
  Quest…)	
  
-  一站式管理解决方案	
  
•  安全性	
  
-  企业安全标准集成	
  
-  统一的访问安全控制	
  
-  全面的数据保护,密钥管理	
  
•  可管理性	
  
-  部署、管理、监控、警告	
  
•  可治理性	
  
-  数据溯源	
  
-  数据发现	
  
-  数据生命周期管理	
  
•  灵活性	
  
-  不同的问题可以有不同的技术选择	
  
•  性能	
  
-  高吞吐的NoSQL存储	
  
-  原生的大规模数据处理引擎	
  
-  内存计算	
  
-  为X86平台做的原生优化	
  
99	
  ©	
  Cloudera,	
  Inc.	
  All	
  rights	
  reserved.	
  
Thank	
  you	
  
kmiao@cloudera.com	
  
100	
  ©	
  Cloudera,	
  Inc.	
  All	
  rights	
  reserved.	
  
Backup
101	
  ©	
  Cloudera,	
  Inc.	
  All	
  rights	
  reserved.	
  
灵活的版本选择(1)
CLOUDERA	
  
EXPRESS
CLOUDERA	
  ENTERPRISE	
  
	
  
Basic	
  Edigon	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  Flex	
  Edigon	
  	
  	
  	
  	
  	
  	
  	
  	
  Data	
  Hub	
  Edigon
许可证 免费 按年订阅
100%	
  开源的数据存储及处理平台(CDH)
Hadoop,	
  Flume,	
  HBase,	
  Hcatalog,	
  Hive,	
  Hue,	
  Impala,	
  
Mahout,	
  Oozie,	
  Pig,	
  Cloudera	
  Search,	
  Sentry,	
  Spark,	
  
Sqoop,	
  Whirr,	
  Zookeeper	
  
✔	
   ✔ ✔ ✔
系统管理平台(Cloudera	
  Manager)
集群部署和配置 ✔	
   ✔ ✔ ✔
服务管理 ✔ ✔ ✔ ✔
服务和主机监控 ✔ ✔ ✔ ✔
安全管理 ✔ ✔ ✔ ✔
诊断(日志搜索、事件) ✔ ✔ ✔ ✔
扩展和Rest	
  API ✔ ✔ ✔ ✔
滚动升级和重启 ✔ ✔ ✔
102	
  ©	
  Cloudera,	
  Inc.	
  All	
  rights	
  reserved.	
  
灵活的版本选择(2)
CLOUDERA	
  
EXPRESS
CLOUDERA	
  ENTERPRISE	
  
	
  
Basic	
  Edigon	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  Flex	
  Edigon	
  	
  	
  	
  	
  	
  	
  	
  	
  Data	
  Hub	
  Edigon
AD/Kerberos集成	
   ✔ ✔ ✔
SNMP支持	
   ✔ ✔ ✔
LDAP集成	
   ✔ ✔ ✔
参数配置历史和回滚 ✔ ✔ ✔
运营报告生成 ✔ ✔ ✔
定期诊断 ✔ ✔ ✔
自动化复制和灾备 ✔ ✔ ✔
103	
  ©	
  Cloudera,	
  Inc.	
  All	
  rights	
  reserved.	
  
灵活的版本选择(3)
CLOUDERA	
  
EXPRESS
CLOUDERA	
  ENTERPRISE	
  
	
  
Basic	
  Edigon	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  Flex	
  Edigon	
  	
  	
  	
  	
  	
  	
  	
  	
  Data	
  Hub	
  Edigon
产品售后服务覆盖	
  
Hadoop核心	
   ✔ ✔ ✔
Cloudera	
  Director	
   ✔ ✔ ✔
Online	
  NoSQL	
  RDBMS	
  (HBase)	
  
只能选择一种
组件提供支持
✔
交互式SQL	
  (Impala)	
   ✔
交互式数据分析 (Apache	
  Spark)	
   ✔
搜索引擎 (Cloudera	
  Search)	
   ✔
审计、数据发现、溯源、加解密、密钥管理 	
  
(Cloudera	
  Navigator)	
  
✔
敏捷部署模块
Cloudera	
  Director ✔ ✔ ✔ ✔
104	
  ©	
  Cloudera,	
  Inc.	
  All	
  rights	
  reserved.	
  
灵活的版本选择(4)
CLOUDERA	
  
EXPRESS
CLOUDERA	
  ENTERPRISE	
  
	
  
Basic	
  Edigon	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  Flex	
  Edigon	
  	
  	
  	
  	
  	
  	
  	
  	
  Data	
  Hub	
  Edigon
服务内容	
  
专职支持团队	
   ✔ ✔ ✔
主动技术指导	
   ✔ ✔ ✔
预测性问题分析	
   ✔ ✔ ✔
全面的知识库	
   ✔
✔
✔
产品解决方案和指南	
   ✔ ✔ ✔
客户需求纳入新产品路线图	
   ✔ ✔ ✔
5	
  x	
  8	
  或	
  7	
  x	
  24小时标准服务	
   ✔ ✔ ✔
增强服务* ✔ ✔
* 5x8或7x24服务时间内,对于严重的产品问题,15分钟内有响应
105	
  ©	
  Cloudera,	
  Inc.	
  All	
  rights	
  reserved.	
  
Cloudera	
  Commioers	
  by	
  Apache	
  Project	
  
89	
  total	
  seats,	
  67	
  PMC*	
  seats	
  (Page	
  1	
  of	
  2)	
  
Project	
   Founder(s)	
  Employed	
  By:	
   Commioers	
   Names	
  (PMC	
  Members	
  in	
  blue)	
  
Accumulo	
   NSA	
   3	
   Mike	
  Drob,	
  Sean	
  Busbey,	
  Bill	
  Havanki	
  
Avro	
  	
   Cloudera	
   5	
   Doug	
  Cu|ng	
  (Founder),	
  Tom	
  White,	
  Jeff	
  Hammerbacher,	
  Philip	
  Zeyliger,	
  Ryan	
  Blue	
  
Bigtop	
   Cloudera	
  -­‐>	
  Pivotal	
   9	
   Andrew	
  Bayer,	
  Eli	
  Collins,	
  Patrick	
  Hunt,	
  Tom	
  White,	
  Stephen	
  Chu,	
  Sean	
  Mackrory,	
  Michael	
  Stack,	
  Anatoli	
  
Fomenko,	
  Mark	
  Grover	
  
Crunch	
  	
   Cloudera	
   3	
   Josh	
  Wills	
  (VP/PMC	
  Chair/Founder),	
  Brock	
  Noland,	
  Tom	
  White	
  
Flume	
   Cloudera	
   10	
   Andrew	
  Bayer,	
  Hari	
  Shreedharan,	
  Brock	
  Noland,	
  Jarek	
  Jarcec	
  Cecho,	
  Henry	
  Robinson,	
  Jon	
  Hsieh	
  (Project	
  
Founder),	
  Mike	
  Percy,	
  Patrick	
  Hunt,	
  Prasad	
  Mujumdar,	
  Wolfgang	
  Hoschek	
  
Hadoop	
  Core	
   Independent/Yahoo!	
  -­‐>	
  Cloudera	
   14	
   Doug	
  Cu|ng	
  (Project	
  Founder),	
  Tom	
  White,	
  Todd	
  Lipcon,	
  Patrick	
  Hunt,	
  Eli	
  Collins,	
  Aaron	
  Myers,	
  Michael	
  
Stack,	
  Colin	
  McCabe,	
  Andrew	
  Wang,	
  Karthik	
  Kambatla,	
  Harsh	
  Chouraria,	
  Sandy	
  Ryza,	
  Robert	
  Kanter,	
  
Yongjun	
  Zhang	
  
HBase	
  	
   Powerset	
  -­‐>	
  Cloudera	
   10	
   Michael	
  Stack	
  (Project	
  Co-­‐founder/VP/PMC	
  Chair),	
  Todd	
  Lipcon,	
  Jon	
  Hsieh,	
  Lars	
  George,	
  Jean-­‐Daniel	
  
Cryans,	
  Jimmy	
  Xiang,	
  Maoeo	
  Bertozzi,	
  Gregory	
  Chanan,	
  Misty	
  Stanley-­‐Jones,	
  Sean	
  Busbey	
  
Hive	
  	
   Facebook	
  -­‐>	
  Cloudera/Qubole	
   5	
   Xuefu	
  Zhang,	
  Brock	
  Noland,	
  Prasad	
  Mujumdar,	
  Szehen	
  Ho,	
  Chao	
  Sun	
  
*	
  PMC	
  =	
  Project	
  Management	
  Commioee;	
  	
  
guides	
  project	
  roadmap	
  and	
  direcCon	
  
Cloudera	
  -­‐	
  ConfidenCal	
  
106	
  ©	
  Cloudera,	
  Inc.	
  All	
  rights	
  reserved.	
  
Cloudera	
  Commioers	
  by	
  Apache	
  Project	
  
89	
  total	
  seats,	
  67	
  PMC*	
  seats	
  (Page	
  2	
  of	
  2)	
  
*	
  PMC	
  =	
  Project	
  Management	
  Commioee;	
  	
  
guides	
  project	
  roadmap	
  and	
  direcCon	
  
Project	
   Founder(s)	
  Employed	
  By:	
   Commioers	
   Names	
  (PMC	
  Members	
  are	
  in	
  blue)	
  
Lucene/Solr	
   Independent	
  -­‐>	
  Cloudera	
   6	
   Doug	
  Cu|ng	
  (Founder),	
  Mark	
  Miller	
  (VP/PMC	
  Chair),	
  Yonick	
  Seeley,	
  Erick	
  Erickson,	
  Wolfgang	
  Hoschek,	
  
Greg	
  Chanan	
  
Mahout	
   Independent	
   1	
   Sean	
  Owen	
  
Oozie	
   Yahoo!	
  	
   2	
   Harsh	
  Chouraria,	
  Robert	
  Kanter	
  
Pig	
   Yahoo!	
  -­‐>	
  Hortonworks	
   2	
   Santhosh	
  Srinivasan,	
  Xuefu	
  Zhang	
  
Spark	
   QuanCfind	
  -­‐>	
  Cloudera	
   2	
   Imran	
  Rashid,	
  Sean	
  Owen	
  
Sqoop	
  	
   Cloudera	
  -­‐>	
  Independent	
   9	
   Andrew	
  Bayer,	
  Jarek	
  Jarcec	
  Cecho,	
  Jon	
  Hsieh,	
  Kathleen	
  Ting,	
  Patrick	
  Hunt,	
  Tom	
  White,	
  Hari	
  Shreedharan,	
  
Abe	
  Elmahrek,	
  Gwen	
  Shapira	
  
Whirr	
  	
   Cloudera	
   6	
   Tom	
  White	
  (Founder),	
  Lars	
  George,	
  Patrick	
  Hunt,	
  Andrew	
  Bayer	
  (VP/PMC	
  Chair),	
  Andrei	
  Savu,	
  Graham	
  Gear	
  
ZooKeeper	
   Yahoo!	
  -­‐>	
  Cloudera	
   2	
   Patrick	
  Hunt	
  (Founder),	
  Henry	
  Robinson	
  
Cloudera	
  -­‐	
  ConfidenCal	
  

More Related Content

What's hot

Track A-3 Enterprise Data Lake in Action - 搭建「活」的企業 Big Data 生態架構
Track A-3 Enterprise Data Lake in Action - 搭建「活」的企業 Big Data 生態架構Track A-3 Enterprise Data Lake in Action - 搭建「活」的企業 Big Data 生態架構
Track A-3 Enterprise Data Lake in Action - 搭建「活」的企業 Big Data 生態架構Etu Solution
 
2016-07-12 Introduction to Big Data Platform Security
2016-07-12 Introduction to Big Data Platform Security2016-07-12 Introduction to Big Data Platform Security
2016-07-12 Introduction to Big Data Platform SecurityJazz Yao-Tsung Wang
 
Azure Data Lake 簡介
Azure Data Lake 簡介Azure Data Lake 簡介
Azure Data Lake 簡介Herman Wu
 
Introduction to K8S Big Data SIG
Introduction to K8S Big Data SIGIntroduction to K8S Big Data SIG
Introduction to K8S Big Data SIGJazz Yao-Tsung Wang
 
Hadoop 生態系十年回顧與未來展望
Hadoop 生態系十年回顧與未來展望Hadoop 生態系十年回顧與未來展望
Hadoop 生態系十年回顧與未來展望Jazz Yao-Tsung Wang
 
Hadoop大数据实践经验
Hadoop大数据实践经验Hadoop大数据实践经验
Hadoop大数据实践经验Schubert Zhang
 
翟艳堂:腾讯大规模Hadoop集群实践
翟艳堂:腾讯大规模Hadoop集群实践翟艳堂:腾讯大规模Hadoop集群实践
翟艳堂:腾讯大规模Hadoop集群实践hdhappy001
 
Hadoop 2.0 之古往今來
Hadoop 2.0 之古往今來Hadoop 2.0 之古往今來
Hadoop 2.0 之古往今來Wei-Yu Chen
 
罗李:构建一个跨机房的Hadoop集群
罗李:构建一个跨机房的Hadoop集群罗李:构建一个跨机房的Hadoop集群
罗李:构建一个跨机房的Hadoop集群hdhappy001
 
選擇正確的Solution 來建置現代化的雲端資料倉儲
選擇正確的Solution 來建置現代化的雲端資料倉儲選擇正確的Solution 來建置現代化的雲端資料倉儲
選擇正確的Solution 來建置現代化的雲端資料倉儲Herman Wu
 
Cloudera企业数据中枢平台
Cloudera企业数据中枢平台Cloudera企业数据中枢平台
Cloudera企业数据中枢平台Jianwei Li
 
Data Engineering in Taiwan: PAST, NOW and FUTURE
Data Engineering in Taiwan: PAST, NOW and FUTUREData Engineering in Taiwan: PAST, NOW and FUTURE
Data Engineering in Taiwan: PAST, NOW and FUTUREJazz Yao-Tsung Wang
 
2014-10-17 探析台灣巨量資料產業供應鏈串聯現況
2014-10-17 探析台灣巨量資料產業供應鏈串聯現況2014-10-17 探析台灣巨量資料產業供應鏈串聯現況
2014-10-17 探析台灣巨量資料產業供應鏈串聯現況Jazz Yao-Tsung Wang
 
Hadoop Deployment Model @ OSDC.TW
Hadoop Deployment Model @ OSDC.TWHadoop Deployment Model @ OSDC.TW
Hadoop Deployment Model @ OSDC.TWJazz Yao-Tsung Wang
 
数据科学分析协作平台CDSW
数据科学分析协作平台CDSW数据科学分析协作平台CDSW
数据科学分析协作平台CDSWJianwei Li
 
云计算技术与应用
云计算技术与应用云计算技术与应用
云计算技术与应用Yang Guanjun
 

What's hot (20)

Track A-3 Enterprise Data Lake in Action - 搭建「活」的企業 Big Data 生態架構
Track A-3 Enterprise Data Lake in Action - 搭建「活」的企業 Big Data 生態架構Track A-3 Enterprise Data Lake in Action - 搭建「活」的企業 Big Data 生態架構
Track A-3 Enterprise Data Lake in Action - 搭建「活」的企業 Big Data 生態架構
 
2016-07-12 Introduction to Big Data Platform Security
2016-07-12 Introduction to Big Data Platform Security2016-07-12 Introduction to Big Data Platform Security
2016-07-12 Introduction to Big Data Platform Security
 
Azure Data Lake 簡介
Azure Data Lake 簡介Azure Data Lake 簡介
Azure Data Lake 簡介
 
Introduction to K8S Big Data SIG
Introduction to K8S Big Data SIGIntroduction to K8S Big Data SIG
Introduction to K8S Big Data SIG
 
Hadoop 生態系十年回顧與未來展望
Hadoop 生態系十年回顧與未來展望Hadoop 生態系十年回顧與未來展望
Hadoop 生態系十年回顧與未來展望
 
Hadoop大数据实践经验
Hadoop大数据实践经验Hadoop大数据实践经验
Hadoop大数据实践经验
 
翟艳堂:腾讯大规模Hadoop集群实践
翟艳堂:腾讯大规模Hadoop集群实践翟艳堂:腾讯大规模Hadoop集群实践
翟艳堂:腾讯大规模Hadoop集群实践
 
When R meet Hadoop
When R meet HadoopWhen R meet Hadoop
When R meet Hadoop
 
Hadoop 2.0 之古往今來
Hadoop 2.0 之古往今來Hadoop 2.0 之古往今來
Hadoop 2.0 之古往今來
 
罗李:构建一个跨机房的Hadoop集群
罗李:构建一个跨机房的Hadoop集群罗李:构建一个跨机房的Hadoop集群
罗李:构建一个跨机房的Hadoop集群
 
Hadoop 介紹 20141024
Hadoop 介紹 20141024Hadoop 介紹 20141024
Hadoop 介紹 20141024
 
選擇正確的Solution 來建置現代化的雲端資料倉儲
選擇正確的Solution 來建置現代化的雲端資料倉儲選擇正確的Solution 來建置現代化的雲端資料倉儲
選擇正確的Solution 來建置現代化的雲端資料倉儲
 
Cloudera企业数据中枢平台
Cloudera企业数据中枢平台Cloudera企业数据中枢平台
Cloudera企业数据中枢平台
 
Data Engineering in Taiwan: PAST, NOW and FUTURE
Data Engineering in Taiwan: PAST, NOW and FUTUREData Engineering in Taiwan: PAST, NOW and FUTURE
Data Engineering in Taiwan: PAST, NOW and FUTURE
 
Life of Big Data Technologies
Life of Big Data TechnologiesLife of Big Data Technologies
Life of Big Data Technologies
 
2014-10-17 探析台灣巨量資料產業供應鏈串聯現況
2014-10-17 探析台灣巨量資料產業供應鏈串聯現況2014-10-17 探析台灣巨量資料產業供應鏈串聯現況
2014-10-17 探析台灣巨量資料產業供應鏈串聯現況
 
Hadoop Deployment Model @ OSDC.TW
Hadoop Deployment Model @ OSDC.TWHadoop Deployment Model @ OSDC.TW
Hadoop Deployment Model @ OSDC.TW
 
数据科学分析协作平台CDSW
数据科学分析协作平台CDSW数据科学分析协作平台CDSW
数据科学分析协作平台CDSW
 
Hadoop.TW : Now and Future
Hadoop.TW : Now and FutureHadoop.TW : Now and Future
Hadoop.TW : Now and Future
 
云计算技术与应用
云计算技术与应用云计算技术与应用
云计算技术与应用
 

Viewers also liked

Track B-3 解構大數據架構 - 大數據系統的伺服器與網路資源規劃
Track B-3 解構大數據架構 - 大數據系統的伺服器與網路資源規劃Track B-3 解構大數據架構 - 大數據系統的伺服器與網路資源規劃
Track B-3 解構大數據架構 - 大數據系統的伺服器與網路資源規劃Etu Solution
 
大數據運算媒體業案例分享 (Big Data Compute Case Sharing for Media Industry)
大數據運算媒體業案例分享 (Big Data Compute Case Sharing for Media Industry)大數據運算媒體業案例分享 (Big Data Compute Case Sharing for Media Industry)
大數據運算媒體業案例分享 (Big Data Compute Case Sharing for Media Industry)Amazon Web Services
 
Track A-2 基於 Spark 的數據分析
Track A-2 基於 Spark 的數據分析Track A-2 基於 Spark 的數據分析
Track A-2 基於 Spark 的數據分析Etu Solution
 
豆瓣数据架构实践
豆瓣数据架构实践豆瓣数据架构实践
豆瓣数据架构实践Xupeng Yun
 
Hadoop, the Apple of Our Eyes (這些年,我們一起追的 Hadoop)
Hadoop, the Apple of Our Eyes (這些年,我們一起追的 Hadoop)Hadoop, the Apple of Our Eyes (這些年,我們一起追的 Hadoop)
Hadoop, the Apple of Our Eyes (這些年,我們一起追的 Hadoop)Kuo-Chun Su
 
Cloudera 助力台灣大數據產業的發展
Cloudera 助力台灣大數據產業的發展Cloudera 助力台灣大數據產業的發展
Cloudera 助力台灣大數據產業的發展Etu Solution
 
Big Data Tornado - 2015 台灣 Big Data 企業經典應用案例分享
Big Data Tornado - 2015 台灣 Big Data 企業經典應用案例分享Big Data Tornado - 2015 台灣 Big Data 企業經典應用案例分享
Big Data Tornado - 2015 台灣 Big Data 企業經典應用案例分享Etu Solution
 
Strata Beijing - Deep Learning in Production on Spark
Strata Beijing - Deep Learning in Production on SparkStrata Beijing - Deep Learning in Production on Spark
Strata Beijing - Deep Learning in Production on SparkAdam Gibson
 
Big data大数据presentation1
Big data大数据presentation1Big data大数据presentation1
Big data大数据presentation1Johnson Zhu
 
Scala introduction
Scala introductionScala introduction
Scala introductionvito jeng
 
Big Data Taiwan 2014 Opening: Converge . Discover . Monetize
Big Data Taiwan 2014 Opening: Converge . Discover . MonetizeBig Data Taiwan 2014 Opening: Converge . Discover . Monetize
Big Data Taiwan 2014 Opening: Converge . Discover . MonetizeEtu Solution
 
Big Data Taiwan 2014 Track2-2: Informatica Big Data Solution
Big Data Taiwan 2014 Track2-2: Informatica Big Data SolutionBig Data Taiwan 2014 Track2-2: Informatica Big Data Solution
Big Data Taiwan 2014 Track2-2: Informatica Big Data SolutionEtu Solution
 
翻轉醫療-人類基因大數據解密
翻轉醫療-人類基因大數據解密翻轉醫療-人類基因大數據解密
翻轉醫療-人類基因大數據解密Chung-Tsai Su
 
The Innovative Service Platform for Small and Medium Manufacturing Company (中文)
The Innovative Service Platform for Small and Medium Manufacturing Company (中文)The Innovative Service Platform for Small and Medium Manufacturing Company (中文)
The Innovative Service Platform for Small and Medium Manufacturing Company (中文)Hatio, Lab.
 
Storm特性
Storm特性Storm特性
Storm特性zyh
 
大鱼架构演进
大鱼架构演进大鱼架构演进
大鱼架构演进Jun Liu
 
Track C-2 洞見未來 - Tableau 創造大數據新價值
Track C-2 洞見未來 - Tableau 創造大數據新價值Track C-2 洞見未來 - Tableau 創造大數據新價值
Track C-2 洞見未來 - Tableau 創造大數據新價值Etu Solution
 
何謂大數據
何謂大數據何謂大數據
何謂大數據kngchn
 
智慧應用與物聯網發展趨勢 (A Development Trend of Smart Applications and IoT)
智慧應用與物聯網發展趨勢 (A Development Trend of Smart Applications and IoT)智慧應用與物聯網發展趨勢 (A Development Trend of Smart Applications and IoT)
智慧應用與物聯網發展趨勢 (A Development Trend of Smart Applications and IoT)William Liang
 

Viewers also liked (20)

Track B-3 解構大數據架構 - 大數據系統的伺服器與網路資源規劃
Track B-3 解構大數據架構 - 大數據系統的伺服器與網路資源規劃Track B-3 解構大數據架構 - 大數據系統的伺服器與網路資源規劃
Track B-3 解構大數據架構 - 大數據系統的伺服器與網路資源規劃
 
大數據運算媒體業案例分享 (Big Data Compute Case Sharing for Media Industry)
大數據運算媒體業案例分享 (Big Data Compute Case Sharing for Media Industry)大數據運算媒體業案例分享 (Big Data Compute Case Sharing for Media Industry)
大數據運算媒體業案例分享 (Big Data Compute Case Sharing for Media Industry)
 
Track A-2 基於 Spark 的數據分析
Track A-2 基於 Spark 的數據分析Track A-2 基於 Spark 的數據分析
Track A-2 基於 Spark 的數據分析
 
豆瓣数据架构实践
豆瓣数据架构实践豆瓣数据架构实践
豆瓣数据架构实践
 
Hadoop, the Apple of Our Eyes (這些年,我們一起追的 Hadoop)
Hadoop, the Apple of Our Eyes (這些年,我們一起追的 Hadoop)Hadoop, the Apple of Our Eyes (這些年,我們一起追的 Hadoop)
Hadoop, the Apple of Our Eyes (這些年,我們一起追的 Hadoop)
 
Cloudera 助力台灣大數據產業的發展
Cloudera 助力台灣大數據產業的發展Cloudera 助力台灣大數據產業的發展
Cloudera 助力台灣大數據產業的發展
 
Big Data Tornado - 2015 台灣 Big Data 企業經典應用案例分享
Big Data Tornado - 2015 台灣 Big Data 企業經典應用案例分享Big Data Tornado - 2015 台灣 Big Data 企業經典應用案例分享
Big Data Tornado - 2015 台灣 Big Data 企業經典應用案例分享
 
Strata Beijing - Deep Learning in Production on Spark
Strata Beijing - Deep Learning in Production on SparkStrata Beijing - Deep Learning in Production on Spark
Strata Beijing - Deep Learning in Production on Spark
 
Big data大数据presentation1
Big data大数据presentation1Big data大数据presentation1
Big data大数据presentation1
 
Scala introduction
Scala introductionScala introduction
Scala introduction
 
Big Data Taiwan 2014 Opening: Converge . Discover . Monetize
Big Data Taiwan 2014 Opening: Converge . Discover . MonetizeBig Data Taiwan 2014 Opening: Converge . Discover . Monetize
Big Data Taiwan 2014 Opening: Converge . Discover . Monetize
 
Big Data Taiwan 2014 Track2-2: Informatica Big Data Solution
Big Data Taiwan 2014 Track2-2: Informatica Big Data SolutionBig Data Taiwan 2014 Track2-2: Informatica Big Data Solution
Big Data Taiwan 2014 Track2-2: Informatica Big Data Solution
 
翻轉醫療-人類基因大數據解密
翻轉醫療-人類基因大數據解密翻轉醫療-人類基因大數據解密
翻轉醫療-人類基因大數據解密
 
大數據的基本概念(上)
大數據的基本概念(上)大數據的基本概念(上)
大數據的基本概念(上)
 
The Innovative Service Platform for Small and Medium Manufacturing Company (中文)
The Innovative Service Platform for Small and Medium Manufacturing Company (中文)The Innovative Service Platform for Small and Medium Manufacturing Company (中文)
The Innovative Service Platform for Small and Medium Manufacturing Company (中文)
 
Storm特性
Storm特性Storm特性
Storm特性
 
大鱼架构演进
大鱼架构演进大鱼架构演进
大鱼架构演进
 
Track C-2 洞見未來 - Tableau 創造大數據新價值
Track C-2 洞見未來 - Tableau 創造大數據新價值Track C-2 洞見未來 - Tableau 創造大數據新價值
Track C-2 洞見未來 - Tableau 創造大數據新價值
 
何謂大數據
何謂大數據何謂大數據
何謂大數據
 
智慧應用與物聯網發展趨勢 (A Development Trend of Smart Applications and IoT)
智慧應用與物聯網發展趨勢 (A Development Trend of Smart Applications and IoT)智慧應用與物聯網發展趨勢 (A Development Trend of Smart Applications and IoT)
智慧應用與物聯網發展趨勢 (A Development Trend of Smart Applications and IoT)
 

Similar to Track A-1: Cloudera 大數據產品和技術最前沿資訊報告

2015中国软件技术大会-开放云介绍
2015中国软件技术大会-开放云介绍2015中国软件技术大会-开放云介绍
2015中国软件技术大会-开放云介绍Li Jiansheng
 
高科技產業資料分析解決方案 Hare DB
高科技產業資料分析解決方案 Hare DB高科技產業資料分析解決方案 Hare DB
高科技產業資料分析解決方案 Hare DBEtu Solution
 
Easier and Faster for hbase in HadoopCon 2014
Easier and Faster for hbase in HadoopCon 2014Easier and Faster for hbase in HadoopCon 2014
Easier and Faster for hbase in HadoopCon 2014Hubert Fan Chiang
 
Qcon2013 罗李 - hadoop在阿里
Qcon2013 罗李 - hadoop在阿里Qcon2013 罗李 - hadoop在阿里
Qcon2013 罗李 - hadoop在阿里li luo
 
Hadoop development in China Mobile Research Institute
Hadoop development in China Mobile Research InstituteHadoop development in China Mobile Research Institute
Hadoop development in China Mobile Research InstituteXu Wang
 
Bigdata introduction
Bigdata introductionBigdata introduction
Bigdata introductionTechwiser
 
Oracle db 12c 加速企业转型之十大功能
Oracle db 12c 加速企业转型之十大功能Oracle db 12c 加速企业转型之十大功能
Oracle db 12c 加速企业转型之十大功能Ethan M. Liu
 
Hadoop的典型应用与企业化之路 for HBTC 2012
Hadoop的典型应用与企业化之路 for HBTC 2012Hadoop的典型应用与企业化之路 for HBTC 2012
Hadoop的典型应用与企业化之路 for HBTC 2012James Chen
 
王涛:基于Cloudera impala的非关系型数据库sql执行引擎
王涛:基于Cloudera impala的非关系型数据库sql执行引擎王涛:基于Cloudera impala的非关系型数据库sql执行引擎
王涛:基于Cloudera impala的非关系型数据库sql执行引擎hdhappy001
 
云梯的多Namenode和跨机房之路
云梯的多Namenode和跨机房之路云梯的多Namenode和跨机房之路
云梯的多Namenode和跨机房之路li luo
 
Paas研究介绍
Paas研究介绍Paas研究介绍
Paas研究介绍snakebbf
 
吕潇 星环科技大数据技术探索与应用实践
吕潇 星环科技大数据技术探索与应用实践吕潇 星环科技大数据技术探索与应用实践
吕潇 星环科技大数据技术探索与应用实践jins0618
 
架設Hadoop叢集以及mapreduce開發環境
架設Hadoop叢集以及mapreduce開發環境架設Hadoop叢集以及mapreduce開發環境
架設Hadoop叢集以及mapreduce開發環境Phate334
 
What could hadoop do for us
What could hadoop do for us What could hadoop do for us
What could hadoop do for us Simon Hsu
 
阿里云Hadoop在云上的最佳实践
阿里云Hadoop在云上的最佳实践阿里云Hadoop在云上的最佳实践
阿里云Hadoop在云上的最佳实践dragoncaol
 
Hadoop con 2015 hadoop enables enterprise data lake
Hadoop con 2015   hadoop enables enterprise data lakeHadoop con 2015   hadoop enables enterprise data lake
Hadoop con 2015 hadoop enables enterprise data lakeJames Chen
 
hicloud PaaS 雲創平台 for java developer
hicloud PaaS 雲創平台 for java developerhicloud PaaS 雲創平台 for java developer
hicloud PaaS 雲創平台 for java developerhicloud-paas
 
Divein ceph objectstorage-cephchinacommunity-meetup
Divein ceph objectstorage-cephchinacommunity-meetupDivein ceph objectstorage-cephchinacommunity-meetup
Divein ceph objectstorage-cephchinacommunity-meetupJiaying Ren
 
Etu DW Offload 解放資料倉儲的運算效能
Etu DW Offload 解放資料倉儲的運算效能Etu DW Offload 解放資料倉儲的運算效能
Etu DW Offload 解放資料倉儲的運算效能Etu Solution
 
0527 asus cloud day 開放。引領數位內容進軍國際 – 華碩雲端市集
0527 asus cloud day 開放。引領數位內容進軍國際 – 華碩雲端市集0527 asus cloud day 開放。引領數位內容進軍國際 – 華碩雲端市集
0527 asus cloud day 開放。引領數位內容進軍國際 – 華碩雲端市集ASUSCloud
 

Similar to Track A-1: Cloudera 大數據產品和技術最前沿資訊報告 (20)

2015中国软件技术大会-开放云介绍
2015中国软件技术大会-开放云介绍2015中国软件技术大会-开放云介绍
2015中国软件技术大会-开放云介绍
 
高科技產業資料分析解決方案 Hare DB
高科技產業資料分析解決方案 Hare DB高科技產業資料分析解決方案 Hare DB
高科技產業資料分析解決方案 Hare DB
 
Easier and Faster for hbase in HadoopCon 2014
Easier and Faster for hbase in HadoopCon 2014Easier and Faster for hbase in HadoopCon 2014
Easier and Faster for hbase in HadoopCon 2014
 
Qcon2013 罗李 - hadoop在阿里
Qcon2013 罗李 - hadoop在阿里Qcon2013 罗李 - hadoop在阿里
Qcon2013 罗李 - hadoop在阿里
 
Hadoop development in China Mobile Research Institute
Hadoop development in China Mobile Research InstituteHadoop development in China Mobile Research Institute
Hadoop development in China Mobile Research Institute
 
Bigdata introduction
Bigdata introductionBigdata introduction
Bigdata introduction
 
Oracle db 12c 加速企业转型之十大功能
Oracle db 12c 加速企业转型之十大功能Oracle db 12c 加速企业转型之十大功能
Oracle db 12c 加速企业转型之十大功能
 
Hadoop的典型应用与企业化之路 for HBTC 2012
Hadoop的典型应用与企业化之路 for HBTC 2012Hadoop的典型应用与企业化之路 for HBTC 2012
Hadoop的典型应用与企业化之路 for HBTC 2012
 
王涛:基于Cloudera impala的非关系型数据库sql执行引擎
王涛:基于Cloudera impala的非关系型数据库sql执行引擎王涛:基于Cloudera impala的非关系型数据库sql执行引擎
王涛:基于Cloudera impala的非关系型数据库sql执行引擎
 
云梯的多Namenode和跨机房之路
云梯的多Namenode和跨机房之路云梯的多Namenode和跨机房之路
云梯的多Namenode和跨机房之路
 
Paas研究介绍
Paas研究介绍Paas研究介绍
Paas研究介绍
 
吕潇 星环科技大数据技术探索与应用实践
吕潇 星环科技大数据技术探索与应用实践吕潇 星环科技大数据技术探索与应用实践
吕潇 星环科技大数据技术探索与应用实践
 
架設Hadoop叢集以及mapreduce開發環境
架設Hadoop叢集以及mapreduce開發環境架設Hadoop叢集以及mapreduce開發環境
架設Hadoop叢集以及mapreduce開發環境
 
What could hadoop do for us
What could hadoop do for us What could hadoop do for us
What could hadoop do for us
 
阿里云Hadoop在云上的最佳实践
阿里云Hadoop在云上的最佳实践阿里云Hadoop在云上的最佳实践
阿里云Hadoop在云上的最佳实践
 
Hadoop con 2015 hadoop enables enterprise data lake
Hadoop con 2015   hadoop enables enterprise data lakeHadoop con 2015   hadoop enables enterprise data lake
Hadoop con 2015 hadoop enables enterprise data lake
 
hicloud PaaS 雲創平台 for java developer
hicloud PaaS 雲創平台 for java developerhicloud PaaS 雲創平台 for java developer
hicloud PaaS 雲創平台 for java developer
 
Divein ceph objectstorage-cephchinacommunity-meetup
Divein ceph objectstorage-cephchinacommunity-meetupDivein ceph objectstorage-cephchinacommunity-meetup
Divein ceph objectstorage-cephchinacommunity-meetup
 
Etu DW Offload 解放資料倉儲的運算效能
Etu DW Offload 解放資料倉儲的運算效能Etu DW Offload 解放資料倉儲的運算效能
Etu DW Offload 解放資料倉儲的運算效能
 
0527 asus cloud day 開放。引領數位內容進軍國際 – 華碩雲端市集
0527 asus cloud day 開放。引領數位內容進軍國際 – 華碩雲端市集0527 asus cloud day 開放。引領數位內容進軍國際 – 華碩雲端市集
0527 asus cloud day 開放。引領數位內容進軍國際 – 華碩雲端市集
 

More from Etu Solution

終歸:分群消費者x多元商機的實現
終歸:分群消費者x多元商機的實現終歸:分群消費者x多元商機的實現
終歸:分群消費者x多元商機的實現Etu Solution
 
歡迎回來:全面圖譜,金融 3.0 顧客行銷新視界
歡迎回來:全面圖譜,金融 3.0 顧客行銷新視界歡迎回來:全面圖譜,金融 3.0 顧客行銷新視界
歡迎回來:全面圖譜,金融 3.0 顧客行銷新視界Etu Solution
 
猜你喜歡:虛實並進,贏在全通路
猜你喜歡:虛實並進,贏在全通路猜你喜歡:虛實並進,贏在全通路
猜你喜歡:虛實並進,贏在全通路Etu Solution
 
投客所好:互聯內外,啟動投信藍海數據戰
投客所好:互聯內外,啟動投信藍海數據戰投客所好:互聯內外,啟動投信藍海數據戰
投客所好:互聯內外,啟動投信藍海數據戰Etu Solution
 
致詞歡迎:Big Data 無所不在,Data Technology 無 C 不歡
致詞歡迎:Big Data 無所不在,Data Technology 無 C 不歡致詞歡迎:Big Data 無所不在,Data Technology 無 C 不歡
致詞歡迎:Big Data 無所不在,Data Technology 無 C 不歡Etu Solution
 
啟程:Data Technology 的待客之道
啟程:Data Technology 的待客之道啟程:Data Technology 的待客之道
啟程:Data Technology 的待客之道Etu Solution
 
Track C-1 大數據時代的產品 ─ 創新與洞察決策
Track C-1 大數據時代的產品 ─ 創新與洞察決策Track C-1 大數據時代的產品 ─ 創新與洞察決策
Track C-1 大數據時代的產品 ─ 創新與洞察決策Etu Solution
 
Track C-3 Let's Play Marketing - 瘋創意 玩推薦 就該這樣搞行銷
Track C-3 Let's Play Marketing - 瘋創意 玩推薦 就該這樣搞行銷Track C-3 Let's Play Marketing - 瘋創意 玩推薦 就該這樣搞行銷
Track C-3 Let's Play Marketing - 瘋創意 玩推薦 就該這樣搞行銷Etu Solution
 
Track B-1 建構新世代的智慧數據平台
Track B-1 建構新世代的智慧數據平台Track B-1 建構新世代的智慧數據平台
Track B-1 建構新世代的智慧數據平台Etu Solution
 
Data without Boundaries - 圍繞第一方數據,找到商業驅動力
Data without Boundaries - 圍繞第一方數據,找到商業驅動力Data without Boundaries - 圍繞第一方數據,找到商業驅動力
Data without Boundaries - 圍繞第一方數據,找到商業驅動力Etu Solution
 
Data Leaders in Action - 資料價值領袖風範與關鍵行動
Data Leaders in Action - 資料價值領袖風範與關鍵行動Data Leaders in Action - 資料價值領袖風範與關鍵行動
Data Leaders in Action - 資料價值領袖風範與關鍵行動Etu Solution
 
Opening: Big Data+
Opening: Big Data+Opening: Big Data+
Opening: Big Data+Etu Solution
 
數位媒體的客戶洞察行銷術
數位媒體的客戶洞察行銷術數位媒體的客戶洞察行銷術
數位媒體的客戶洞察行銷術Etu Solution
 
Hadoop Big Data 成功案例分享
Hadoop Big Data 成功案例分享Hadoop Big Data 成功案例分享
Hadoop Big Data 成功案例分享Etu Solution
 
打造一個讓企業賣更多的「氣象大數據平台服務」
打造一個讓企業賣更多的「氣象大數據平台服務」打造一個讓企業賣更多的「氣象大數據平台服務」
打造一個讓企業賣更多的「氣象大數據平台服務」Etu Solution
 
那些你知道的,但還沒看過的 Big Data 風景
那些你知道的,但還沒看過的 Big Data 風景那些你知道的,但還沒看過的 Big Data 風景
那些你知道的,但還沒看過的 Big Data 風景Etu Solution
 
Big Data Taiwan 2014 Track1-1: 群體智慧‧想像無限 ─ 精準推薦解決方案
Big Data Taiwan 2014 Track1-1: 群體智慧‧想像無限 ─ 精準推薦解決方案Big Data Taiwan 2014 Track1-1: 群體智慧‧想像無限 ─ 精準推薦解決方案
Big Data Taiwan 2014 Track1-1: 群體智慧‧想像無限 ─ 精準推薦解決方案Etu Solution
 
Big Data Taiwan 2014 Track2-3: QlikView 與 Big Data ─ 從 Big Data 裡獲取重要信息
Big Data Taiwan 2014 Track2-3: QlikView 與 Big Data ─ 從 Big Data 裡獲取重要信息Big Data Taiwan 2014 Track2-3: QlikView 與 Big Data ─ 從 Big Data 裡獲取重要信息
Big Data Taiwan 2014 Track2-3: QlikView 與 Big Data ─ 從 Big Data 裡獲取重要信息Etu Solution
 
Big Data Taiwan 2014 Track2-1: SAP 善用足跡,預測未來 - 全方位的行銷視野
Big Data Taiwan 2014 Track2-1: SAP 善用足跡,預測未來 - 全方位的行銷視野Big Data Taiwan 2014 Track2-1: SAP 善用足跡,預測未來 - 全方位的行銷視野
Big Data Taiwan 2014 Track2-1: SAP 善用足跡,預測未來 - 全方位的行銷視野Etu Solution
 
Big Data Taiwan 2014 Keynote 4: Monetize Enterprise Data – Big Data 在台灣的經典應用與行動
Big Data Taiwan 2014 Keynote 4: Monetize Enterprise Data – Big Data 在台灣的經典應用與行動Big Data Taiwan 2014 Keynote 4: Monetize Enterprise Data – Big Data 在台灣的經典應用與行動
Big Data Taiwan 2014 Keynote 4: Monetize Enterprise Data – Big Data 在台灣的經典應用與行動Etu Solution
 

More from Etu Solution (20)

終歸:分群消費者x多元商機的實現
終歸:分群消費者x多元商機的實現終歸:分群消費者x多元商機的實現
終歸:分群消費者x多元商機的實現
 
歡迎回來:全面圖譜,金融 3.0 顧客行銷新視界
歡迎回來:全面圖譜,金融 3.0 顧客行銷新視界歡迎回來:全面圖譜,金融 3.0 顧客行銷新視界
歡迎回來:全面圖譜,金融 3.0 顧客行銷新視界
 
猜你喜歡:虛實並進,贏在全通路
猜你喜歡:虛實並進,贏在全通路猜你喜歡:虛實並進,贏在全通路
猜你喜歡:虛實並進,贏在全通路
 
投客所好:互聯內外,啟動投信藍海數據戰
投客所好:互聯內外,啟動投信藍海數據戰投客所好:互聯內外,啟動投信藍海數據戰
投客所好:互聯內外,啟動投信藍海數據戰
 
致詞歡迎:Big Data 無所不在,Data Technology 無 C 不歡
致詞歡迎:Big Data 無所不在,Data Technology 無 C 不歡致詞歡迎:Big Data 無所不在,Data Technology 無 C 不歡
致詞歡迎:Big Data 無所不在,Data Technology 無 C 不歡
 
啟程:Data Technology 的待客之道
啟程:Data Technology 的待客之道啟程:Data Technology 的待客之道
啟程:Data Technology 的待客之道
 
Track C-1 大數據時代的產品 ─ 創新與洞察決策
Track C-1 大數據時代的產品 ─ 創新與洞察決策Track C-1 大數據時代的產品 ─ 創新與洞察決策
Track C-1 大數據時代的產品 ─ 創新與洞察決策
 
Track C-3 Let's Play Marketing - 瘋創意 玩推薦 就該這樣搞行銷
Track C-3 Let's Play Marketing - 瘋創意 玩推薦 就該這樣搞行銷Track C-3 Let's Play Marketing - 瘋創意 玩推薦 就該這樣搞行銷
Track C-3 Let's Play Marketing - 瘋創意 玩推薦 就該這樣搞行銷
 
Track B-1 建構新世代的智慧數據平台
Track B-1 建構新世代的智慧數據平台Track B-1 建構新世代的智慧數據平台
Track B-1 建構新世代的智慧數據平台
 
Data without Boundaries - 圍繞第一方數據,找到商業驅動力
Data without Boundaries - 圍繞第一方數據,找到商業驅動力Data without Boundaries - 圍繞第一方數據,找到商業驅動力
Data without Boundaries - 圍繞第一方數據,找到商業驅動力
 
Data Leaders in Action - 資料價值領袖風範與關鍵行動
Data Leaders in Action - 資料價值領袖風範與關鍵行動Data Leaders in Action - 資料價值領袖風範與關鍵行動
Data Leaders in Action - 資料價值領袖風範與關鍵行動
 
Opening: Big Data+
Opening: Big Data+Opening: Big Data+
Opening: Big Data+
 
數位媒體的客戶洞察行銷術
數位媒體的客戶洞察行銷術數位媒體的客戶洞察行銷術
數位媒體的客戶洞察行銷術
 
Hadoop Big Data 成功案例分享
Hadoop Big Data 成功案例分享Hadoop Big Data 成功案例分享
Hadoop Big Data 成功案例分享
 
打造一個讓企業賣更多的「氣象大數據平台服務」
打造一個讓企業賣更多的「氣象大數據平台服務」打造一個讓企業賣更多的「氣象大數據平台服務」
打造一個讓企業賣更多的「氣象大數據平台服務」
 
那些你知道的,但還沒看過的 Big Data 風景
那些你知道的,但還沒看過的 Big Data 風景那些你知道的,但還沒看過的 Big Data 風景
那些你知道的,但還沒看過的 Big Data 風景
 
Big Data Taiwan 2014 Track1-1: 群體智慧‧想像無限 ─ 精準推薦解決方案
Big Data Taiwan 2014 Track1-1: 群體智慧‧想像無限 ─ 精準推薦解決方案Big Data Taiwan 2014 Track1-1: 群體智慧‧想像無限 ─ 精準推薦解決方案
Big Data Taiwan 2014 Track1-1: 群體智慧‧想像無限 ─ 精準推薦解決方案
 
Big Data Taiwan 2014 Track2-3: QlikView 與 Big Data ─ 從 Big Data 裡獲取重要信息
Big Data Taiwan 2014 Track2-3: QlikView 與 Big Data ─ 從 Big Data 裡獲取重要信息Big Data Taiwan 2014 Track2-3: QlikView 與 Big Data ─ 從 Big Data 裡獲取重要信息
Big Data Taiwan 2014 Track2-3: QlikView 與 Big Data ─ 從 Big Data 裡獲取重要信息
 
Big Data Taiwan 2014 Track2-1: SAP 善用足跡,預測未來 - 全方位的行銷視野
Big Data Taiwan 2014 Track2-1: SAP 善用足跡,預測未來 - 全方位的行銷視野Big Data Taiwan 2014 Track2-1: SAP 善用足跡,預測未來 - 全方位的行銷視野
Big Data Taiwan 2014 Track2-1: SAP 善用足跡,預測未來 - 全方位的行銷視野
 
Big Data Taiwan 2014 Keynote 4: Monetize Enterprise Data – Big Data 在台灣的經典應用與行動
Big Data Taiwan 2014 Keynote 4: Monetize Enterprise Data – Big Data 在台灣的經典應用與行動Big Data Taiwan 2014 Keynote 4: Monetize Enterprise Data – Big Data 在台灣的經典應用與行動
Big Data Taiwan 2014 Keynote 4: Monetize Enterprise Data – Big Data 在台灣的經典應用與行動
 

Track A-1: Cloudera 大數據產品和技術最前沿資訊報告

  • 1. 1  ©  Cloudera,  Inc.  All  rights  reserved.     Hadoop技术最前沿资讯报告   和Cloudera大数据产品介绍       Kai  X.  Miao  (苗凯翔),  Vice  President@Cloudera  
  • 2. 2  ©  Cloudera,  Inc.  All  rights  reserved.   PresentaCon  Content • IntroducCon  -­‐  Create  Value  from  Big  Data   • Hadoop  Technology  Ecosystem   • About  Cloudera   • Cloudera  Enterprise  Data  Hub  (EDH)   • Cloudera  Services     • Conclusion    
  • 3. 3  ©  Cloudera,  Inc.  All  rights  reserved.   数据价值挖掘 体量大 速度快 多样性 价值密度低     日志   社交数据   用户行为   机器数据   图片   音频   视频   传感器   运营数据   …     Value   -  更好地理解并服务客户   -  精细化运营管理   -  个性化医疗健康服务   -  公共事业服务   -  安全和合规性检查 -  用户标签   -  行为分析   -  文本分析   -  情感分析   -  图片分析   -  音频分析   -  轨迹分析   -  …  
  • 4. 4  ©  Cloudera,  Inc.  All  rights  reserved.   Hadoop  Technology  Ecosystem HDFS   MapReduce,  Spark   YARN   Distributed  Storage   Distributed  Processing   Distributed  Scheduling   Sqoop  Flume  Chukwa   Data  IntegraCon   Data  Access   Data  Storage   Data  SerializaCon   Data  Intelligence     Java  Virtual  Machines   OperaCng  System  (RedHat,  Ubuntu,  Windows)   Pig   Hive   HBase   Cassandra   HCatalog   Lucene/Solr   Ka_a            Samza   Avro   Thri`   Mahout   Zookeeper  Oozie  Ambari   Management,  Monitoring,  OrchistraCon   Impala   Spark  Streaming   SparkSQL   Spark  MLLib   Parquet   Storm   Hive  over  Spark   GraphX  
  • 5. 5  ©  Cloudera,  Inc.  All  rights  reserved.   About  Cloudera   创立 成立于2008,企业级Hadoop产品提供商   员工数量 超过900名   全球支持 24x7  全球支持     创新的主动支持和预测支持项目   客户群 全行业客户(金融、电信、零售、能源、互联网、媒体等)                                                    各行业的顶尖企业都有Cloudera  Enterprise部署   强大的产业链 数百个生态链合作伙伴;  Cloudera  Connect  Program  (CCP)   培训和认证 超过100,000管理员、开发者等受训;最有价值的大数据证书   开源领导者 Hadoop及其相关生态项目的绝对领导者,和Intel合作加速     企业数据中心的革新   Cloudera中国 2014年12月成立,上海是大中华区总部,负责产品培训、     专业技术服务和产品支持,在北京和广州有本地支持  
  • 6. 6  ©  Cloudera,  Inc.  All  rights  reserved.   Cloudera和Hadoop生态 •  Cloudera是Hadoop项目的最大贡献者,同时也是No.1的Hadoop发行版提供商   •  Hadoop平台标准化的领导者   • 数据采集 –  Flume,  Sqoop   • 数据存储 –  HDFS,  HBase,  Avro,  Parquet   • 数据处理  –  MapReduce,  Spark,  Hive   • 数据分析  –  Impala,  Solr   JIRA  ContribuCons,  Source:  ApacheJIRA   January  2012  –  February  2015   52%   Hortonworks   IBM   MapR   Microso`   Pivotal   Databricks   Projects  Included:     Accumulo   Avro   Bigtop   Crunch   Flume   Hadoop  Core     HBase   Hive   Ka_a     Mahout   Oozie   Pig   Solr   Spark   Sqoop   Tez   ZooKeeper  
  • 7. 7  ©  Cloudera,  Inc.  All  rights  reserved.   CDH凝聚Cloudera在开源的贡献 •  Cloudera有89位Hadoop以及相关生态的Commioers,涵盖:   • Hadoop,  HBase,  Hive,  Spark,  Lucene/Solr,  Flume,  Sqoop等项目   •  Cloudera提供了最多的企业级Hadoop功能   • HDFS/YARN  HA,  Hadoop  Secure  CommunicaCon,  HDFS  Short-­‐Circuit,  HDFS   Caching,  HDFS  Transparent  EncrypCon   • HBase  snapshots,  HBase  mulC-­‐tenancy   • HiveServer  2  (for  SQL  service),  Hive-­‐on-­‐Spark   • Spark  Streaming  exactly-­‐once,  Spark  Shuffle  OpCmizaCon   • Solr  +  Hadoop  IntegraCon   • ……  
  • 8. 8  ©  Cloudera,  Inc.  All  rights  reserved.   Cloudera产品和服务 •  Cloudera  Enterprise   -   Cloudera提供了100%开源的,开放标准的Apache  Hadoop发行版(CDH)   -  让Hadoop真正进入企业级应用的Cloudera  Manager和Cloudera  Navigator   -  提供虚拟化和云化大数据方案的Cloudera  Director   •  业内最权威的Hadoop技能培训和认证   •  深耕于开源社区的专业技术支持团队和产品支持团队   Cloudera  Enterprise                                                                                        按年订阅 Hadoop   认证   培训 专业技术   咨询与服务 产品支持
  • 9. 9  ©  Cloudera,  Inc.  All  rights  reserved.   Cloudera  Enterprise  Data  Hub  (EDH) System  and  Data  Management   Process   Ingest   Sqoop,  Flume,   Ka_a   Transform   MapReduce,   Hive,  Pig,  Spark   Discover   AnalyCc  Database   Impala   Search   Solr   Model   Machine  Learning   R,  Spark  Mllib,   Mahout   Serve   NoSQL  Database   HBase   Streaming   Spark  Streaming   Unlimited  Storage  HDFS,  HBase   YARN,  Cloudera  Manager   Cloudera  Navigator   Deployment   Flexibility   On-­‐Premises   Appliances   Engineered  Systems   Public  Cloud   Private  Cloud   Hybrid  Cloud   完善的企业安全策略   •  身份认证,授权,审计,数 据安全   •  数据可管理性   开放标准   •  100%开源Hadoop及其相关 组件   •  3rd标准的软件集成   •  开放API     •  标准云服务集成   统一平台   •  数据导入导出   •  可扩展存储   •  多样化的处理引擎   •  安全   •  资源管理   •  元数据管理    
  • 10. 10  ©  Cloudera,  Inc.  All  rights  reserved.   The  Open  Source  Plasorm  -­‐  CDH  
  • 11. 11  ©  Cloudera,  Inc.  All  rights  reserved.   CDH •  CDH   - 全球最流行的Hadoop发行版   - 最完整且稳定的版本,经过严格的行业检验   - 具有最快的更新,更多新的功能   - 方便开发者和集成商使用Hadoop   •  和其他一些Hadoop发行版提供商对比   - Cloudera做Hadoop开发的,其他厂商仅是做Hadoop集成或CDH集成   - 和Hadoop  trunk最快的同步,能保证业务的前向兼容性;其他厂商在 Hadoop上做的定制优化或修复,无法保证兼容性   - 所有组件的开发和专业支持能力,其他厂商也仅仅跟随Cloudera包含的版 本进行集成,缺乏问题修复和专业支持能力  
  • 12. 12  ©  Cloudera,  Inc.  All  rights  reserved.   HDFS 分布式⽂文件系统   灵活性   多样化数据的统一存储     可扩展性   良好的线性可扩展性   高容错性   设计之初就考虑了高容错性     开放性   存储的数据格式和内容完全可见   适合⼤大⽂文件的顺序读写, 写一 次读多次   Enterprise Data Hub Security  and  AdministraCon   Process   Unlimited  Storage   Discover   Model   Serve  
  • 13. 13  ©  Cloudera,  Inc.  All  rights  reserved.   Apache  HBase 构建在分布式存储上的NoSQL数据库   和HDFS紧密结合,适合高并发 随机读写 具有分布式存储的所有优点   灵活性   多样化数据的统一存储   可扩展性   良好的线性可扩展性   开放性   存储的数据格式和内容完全可见   +  在线数据服务 Enterprise Data Hub Security  and  AdministraCon   Unlimited  Storage   Process   Discover   Model   Serve  
  • 14. 14  ©  Cloudera,  Inc.  All  rights  reserved.   Apache  Ka_a   •  每个节点称为 Broker   •  数据以 Topics方式写入Ka_a   •  每一个Topic都可以被分片   •  分片分布在Broker上   •  分片可以有多个副本,其中一个 为Leader     •  Producer,  Consumer都与parCCon 直接进行数据交换   Broker  1   Broker  2   Broker  3   ParCCon  1   (Leader)   ParCCon  2   ParCCon  3   ParCCon  2   (Leader)   ParCCon  1   ParCCon  3   ParCCon  3   (Leader)   ParCCon  1   ParCCon  2   Producer   Producer   Consumer  Consumer   Ka_a  Cluster   高性能分布式消息总线   与Hadoop紧密结合
  • 15. 15  ©  Cloudera,  Inc.  All  rights  reserved.   Ka_a  +  Apache  Flume  for  ETL   •  Ka_a  可以被配置为  Flume  的Channel   •  Flume  Sources  和  Sinks  可以配置成Ka_a的Consumer和Producer   Flume  Sources  Consume  from   Ka5a:   Write  data  to  HDFS,  HBase,  or  Search   Flume  Sinks  Write  to  Ka5a:   Read  from  logs,  files,  jms,  hop,  rpc,  thri`,   etc  and  write  events  to  Ka_a  
  • 16. 16  ©  Cloudera,  Inc.  All  rights  reserved.   多样的工作引擎 •  批处理引擎(MapReduce,  Hive,  Spark) -­‐ 适合长时间的数据处理作业,高 度成熟可靠   •  实时数据处理(Spark  Streaming)-­‐  实时的数据同时,异常检测,预测分析等   •  自助BI分析/交互式SQL(Impala)– 准实时的分析作业,高效的数据探索式 分析,高并发的自助BI功能   •  搜索(Cloudera  Search)  -­‐  快速的跨应用数据搜索能力   •  数据挖掘(Spark  Mllib,  R,  Mahout)-­‐ 适合数据分析人员的快速模型创建,迭 代   •  在线服务(HBase)-­‐ 提供实时的数据服务能力  
  • 17. 17  ©  Cloudera,  Inc.  All  rights  reserved.   交互式分析引擎Impala 构建于HDFS上的原生的分析型SQL   易用性   利用现有的SQL语法,和绝大多 数BI工具完美集成   高并发   为高并发的随机分析而优化, 用C++编写     交互性   提供交互式的体验     原生   和Hadoop栈深度融合     Enterprise Data Hub Security  and  AdministraCon   Unlimited  Storage   Process   Discover   Model   Serve  
  • 18. 18  ©  Cloudera,  Inc.  All  rights  reserved.   Apache  Spark 适合数据科学家的分布式内存计算引擎 灵活   多种接口,多种算法     高效   内存计算,适合迭代是计算     易用   好用且丰富的API     安全集成   和数据平台的其他功能无缝集成   适合批处理、流计算以及迭代 式计算   Enterprise Data Hub Security  and  AdministraCon   Unlimited  Storage   Process   Discover   Model   Serve  
  • 19. 19  ©  Cloudera,  Inc.  All  rights  reserved.   SQL的实现途径 •  Hive是一个SQL解析和优化层, 底层引擎可以是MapReduce或 是Spark   •  SparkSQL是Spark生态系统的一 个SQL解析和优化层,也需要借 助于Spark引擎   •  Impala就是一个原生的SQL解析、 优化以及内存执行引擎,直接 操纵HDFS Unlimited  Storage  HDFS   MapReduce   Impala  Spark   Hive   Spark   SparkSQL  
  • 20. 20  ©  Cloudera,  Inc.  All  rights  reserved.   数据处理和分析 •  多样化的SQL解决方案   • 不同的需求需要不同的技术   • 互补而不是替代 实时监控 和分析   交互式分析和探 索式分析   批处理   时延要求   <  秒级   >  数秒到分钟   >  几十分钟以上   数据源  
  • 21. 21  ©  Cloudera,  Inc.  All  rights  reserved.   交互式SQL性能 0   50   100   150   200   250   300   350   Impala   Spark  SQL   Presto   Hive-­‐on-­‐Tez   Time  (in  seconds)   Single  User  vs  10  User  Response  Time/Impala     Times  Faster   (Lower  bars  =  beoer)     Single  User,  5   10  Users,  11   Single  User,  25   10  Users,  120   10  Users,  302   10  Users,  202   Single  User,  37   Single  User,  77   5.0x   10.6x   7.4x   27.4x   15.4x   18.3x   Independent  valida,on  by  IBM  Research  SQL-­‐on-­‐Hadoop  VLDB  paper:   “Impala’s  database  architecture  provides  significant  performance  gains”    
  • 22. 22  ©  Cloudera,  Inc.  All  rights  reserved.   Cloudera  Search 大数据平台内的搜索引擎   易用性   实现了企业内数据平台的搜索引擎     标准化   基于Solr的标准搜索实现     灵活性   实现了多种索引的构建方式     安全和集成   和Cloudera企业级功能的紧密集成   |   Search   所有人都知道怎么搜索   Enterprise Data Hub Security  and  AdministraCon   Unlimited  Storage   Process   Discover   Model   Serve  
  • 23. 23  ©  Cloudera,  Inc.  All  rights  reserved.   实时搜索 HDFS   Online  Streaming  Data   End  User  Client  App  (e.g.   Hue)   Flume   Raw,  filtered,  or   annotated  data   SolrCloud  Cluster(s)   Indexed  data   MapReduce  Batch  Indexing  w/   Morphlines   GoLive  updates   HBase   Cluster   NRT  ReplicaCon   Events  indexed   w/  Morphlines   OLTP  Data   Cloudera  Manager   Search  queries   NRT  Data  indexed   w/  Morphlines  
  • 24. 24  ©  Cloudera,  Inc.  All  rights  reserved.   实时数据处理
  • 25. 25  ©  Cloudera,  Inc.  All  rights  reserved.   企业消息总线
  • 26. 26  ©  Cloudera,  Inc.  All  rights  reserved.   Hue •  专门为Hadoop打造的用户界面   • HDFS的浏览以及管理   • HBase的管理   • 作业流设计,作业提交以及管理   • SQL操作前端   • 定制化的搜索前端   • 访问权限配置界面
  • 27. 27  ©  Cloudera,  Inc.  All  rights  reserved.   Security  Infrastructure  in  Cloudera   Enterprise  –  Apache  Sentry  &   Cloudera  Navigator  
  • 28. 28  ©  Cloudera,  Inc.  All  rights  reserved.   安全的挑战 •  越来越多的开发人员和业务人员会使用大数据平台   •  企业数据平台正成为黑客的主要目标   •  Hadoop及衍生的众多项目缺乏统一的安全解决方案   •  传统的应用层安全方案难以胜任新平台   • 平台有多种接口给用户使用   • 传统方案中各应用系统相对独立   •  用户一旦突破应用层安全,数据平台就完全暴露   • 数据没有任何保护   • 访问没有任何限制
  • 29. 29  ©  Cloudera,  Inc.  All  rights  reserved.   全面的安全管控   Apache  Sentry,  HDFS  EncrypCon,  Cloudera  Navigator,  Key  Trustee •  数据平台的安全不可或缺:   - 多样化的数据导入方式   - 多种引擎的协同工作   - 多业务的并发   - 多用户的访问   - 和企业的基础设施集成   - 符合行业的安全审查   1.  Perimeter  Standards-­‐based  AuthenCcaCon   Security  and  AdministraCon   Unlimited  Storage   Process   Discover   Model   Serve   2.  Access  Unified  Role-­‐based  AuthorizaCon   4.  Data  EncrypCon  &  Key  Management   3.  Visibility  AudiCng  &  Governance  
  • 30. 30  ©  Cloudera,  Inc.  All  rights  reserved.   安全技术架构   认证,  授权,  审计,  以及行业监管规范  –  同一用户接口   Perimeter   限制什么样的用户可 以访问集群       Technical  Concepts:   AuthenCcaCon   Network  isolaCon     Access   定义用户或者应用可 以访问什么数据         Technical  Concepts:   Permissions   AuthorizaCon     Data   敏感数据保护以防止 为授权的访问     Technical  Concepts:   EncrypCon,  TokenizaCon,   Data  masking     Visibility   数据从什么地方来以 及数据是怎么被用的       Technical  Concepts:   AudiCng   Lineage     Cloudera  Manager   Apache  Sentry   Cloudera  Navigator   Navigator  Encrypt  &  Key   Trustee  |  Partners  
  • 31. 31  ©  Cloudera,  Inc.  All  rights  reserved.   安全技术架构   AuthenCcaCon,  AuthorizaCon,  Audit,  and  Compliance   Perimeter   Guarding  access  to   the  cluster  itself         Technical  Concepts:   AuthenCcaCon   Network  isolaCon     Access   Defining  what  users   and  applicaCons  can   do  with  data       Technical  Concepts:   Permissions   AuthorizaCon     Data   ProtecCng  data  in  the   cluster  from   unauthorized  visibility       Technical  Concepts:   EncrypCon,  TokenizaCon,   Data  masking     Visibility   ReporCng  on  where   data  came  from  and   how  it’s  being  used       Technical  Concepts:   AudiCng   Lineage     Cloudera  Manager   Apache  Sentry   Cloudera  Navigator   Navigator  Encrypt  &  Key   Trustee  |  Partners  
  • 32. 32  ©  Cloudera,  Inc.  All  rights  reserved.   多层次的安全 •  多层级的身份认证(Cloudera  Manager,  Kerberos,  AD,  Hue)   • 管理平台,运维人员,客户端,BI工具   •  统一的授权访问控制(Apache  Sentry)   • 在平台上提供统一的访问安全控制策略   •  数据保护(HDFS  At-­‐Rest  EncrypCon,  Navigator  Encrypt,  Navigator  KeyTrustee)   • On-­‐the-­‐wire和at-­‐rest数据保护,并内置有Key  Management方案   •  全面的审计(Cloudera  Navigator)   • 不管以什么方式进行访问集群,都会得到审计
  • 33. 33  ©  Cloudera,  Inc.  All  rights  reserved.   外围安全需求 让⽤用户⾃自由选择需要的计算模块(例如  Impala,   Spark)   任何计算模块拥有统⼀一的安全设置   实现已有的安全标准:  AcCve  Directory  和Kerberos   验证 Guarding access to the cluster itself InfoSec Concept: Authentication Cloudera  Manager
  • 34. 34  ©  Cloudera,  Inc.  All  rights  reserved.   Cloudera  Manager提供自动化用户验证   支持AD  Kerberos     单点登录   Kerberos   配置向导   支持配置多KDC   用户验证和监控信息   •  用户直接通过AD进行单点登录 •  Hadoop所有服务统一接受AD Kerberos验证 •  用户对Hadoop服务的访问权限由通过AD Groups控制 •  通过向导自动为当前集群配置Kerberos,简化繁琐的手动操作,避免各种可 能的错误流程 •  自动配置和调整多KDC协调工作 •  当Kerberos生效后,自动通过CM监控Kerberos验证状态
  • 35. 35  ©  Cloudera,  Inc.  All  rights  reserved.   访问授权需求 提供⽤用户所需要的细粒度权限   集中化管理所有服务的⽤用户权限   使用构建在AD上的基于角色控制的 用户授权模型   授权 Defining what users and applications can do with data InfoSec Concept: Authorization Apache  Sentry
  • 36. 36  ©  Cloudera,  Inc.  All  rights  reserved.   可视化权限管理  
  • 37. 37  ©  Cloudera,  Inc.  All  rights  reserved.   数据审计视图需求 帮助用户理解报表数据的血缘关系, 并找到更多相似数据   遵循企业在审计,数据分类和生命周 期管理的统一策略   集中化的审计平台,自动数据发现, 自动血缘关系管理   审计视图 告诉⽤用户数据从何⽽而来以及如何被 使⽤用 InfoSec Concept: 审计 Cloudera Navigator
  • 38. 38  ©  Cloudera,  Inc.  All  rights  reserved.   为什么需要Cloudera  Navigator   38 Cloudera企业版处理大量数据的需求   §  数据规模大   §  数据源种类复杂  –  结构化/非结构化数据   §  数据敏感性级别多   1 多用户处理数据的需求   §  管理员以及合规官员   §  分析员以及数据科学家   §  商务用户   2 数据有效控制与处理的需求   §  对数据平台的可视化与管理   §  数据发现与探索   3
  • 39. 39  ©  Cloudera,  Inc.  All  rights  reserved.   Cloudera数据审计和生命周期管理平台   Cloudera  Navigator   Hadoop平台上唯一的端到端数据   审计解决方案。   最大程度降低安全风险,保证和企业安 全审计策略兼容     独有能力:   • 数据审计   • 数据血缘管理   • Hadoop元数据标记和发现   • 数据生命周期  
  • 40. 40  ©  Cloudera,  Inc.  All  rights  reserved.   数据安全需求 对重要数据进⾏行额外安全保护   加密敏感数据,完善的密钥管理服务,从源头防 范数据泄露风险   和企业已有的HSM整合,作为密钥管理基础架构 的一部分   数据保护 Protecting data in the cluster from unauthorized visibility InfoSec Concept: 合规性 Navigator  Encrypt  &     Key  Trustee  
  • 41. 41  ©  Cloudera,  Inc.  All  rights  reserved.   Navigator  Encrypt/KeyTrustee  (Gazzang) •  Navigator  Encrypt   • 全面高效的数据保护,Linux文件系统以下   • 硬件指令加速(AES-­‐NI)   • 存储节点上的加解密方案   •  Navigator  KeyTrustee   • 集中化的秘钥管理   • 灵活的部署方式   •  on-­‐premise或者SaaS  
  • 42. 42  ©  Cloudera,  Inc.  All  rights  reserved.   在上层应用和文件系统中实现透明加 密层   • 合规性   • 无限数据扩展   • 超高性能:采用Intel硬件指令集优化   • 可选重点内容加密   • Navigator管理服务器对密钥管理   Cloudera数据透明加密   Applica'ons/Processes File  System Process-­‐Based  ACLs File-­‐Level  Encryp'on Blocks Storage Users Key  Manager
  • 43. 43  ©  Cloudera,  Inc.  All  rights  reserved.   使用者视图
  • 44. 44  ©  Cloudera,  Inc.  All  rights  reserved.   认证和授权
  • 45. 45  ©  Cloudera,  Inc.  All  rights  reserved.   认证和授权 HiveServer2 AuthN LDAP Kerberos AuthZ Identity   Management KDC SentryBinding Sentry  Service Policy  Definition/Retrieval Enforcement Group Group  Mapping HadoopUserGroupMapping LocalGroupMapping Shell LDAP
  • 46. 46  ©  Cloudera,  Inc.  All  rights  reserved.   数据保护 •  底层文件系统的数据保护 (Navigator  Encrypt,  Navigator  KeyTrustee)   • 临时文件,缓存到本地的中间计算结果,配置文件以及元数据文件   •  HDFS文件的保护(HDFS  Data-­‐At-­‐Rest  EncrypCon,  Navigator  KeyTrustee)   • 只能保护HDFS的文件或目录数据   •  网络传输的安全性(TCP  over  SSL)   • 基于SSL的节点间网络通信
  • 47. 47  ©  Cloudera,  Inc.  All  rights  reserved.   Cloudera  Navigator •  全面的审计功能   •  对HDFS、Impala、Hive、HBase和Sentry的审计追踪提供集中式的配置管理接口   •  查看用户/用户组对HDFS、Impala、Hive和HBase的访问权限以保证对隐私及合规的正确 配置   •  数据发现和探索   •  快速检索相关数据,加速数据发现流程   •  自动发现元数据并允许用户自定义可定制化标签与注释,便于数据追踪与归类   •  数据溯源   •  帮助用户直观理解数据集的上下游血脉关系,验证数据源头与数据演变过程   •  可以导出数据溯源信息到其他的溯源信息管理系统中   •  生命周期管理   •  定义并自动化复杂的数据生命周期管理工作,包括分类,保留及加解密策略 – 一切都 基于Navigator丰富的元数据管理能力
  • 48. 48  ©  Cloudera,  Inc.  All  rights  reserved.  
  • 49. 49  ©  Cloudera,  Inc.  All  rights  reserved.   Most  powerful  Hadoop  plasorm   Management  –  Cloudera  Manager  
  • 50. 50  ©  Cloudera,  Inc.  All  rights  reserved.   系统管理平台   Cloudera  Manager •  Cloudera  Manager  – 专注于 企业管理平台,而不只是一 个集群管理工具   - 基于角色的管理视图   - 丰富且可定制化的监控图表展现   - LDAP/Kerberos/SNMP/Rest  API集成   - 零宕机安装和升级   - 复制和灾备   - 多租户资源管理   - 自动化的运营和诊断报告   - 开放API可以集成第三方工具   - ……
  • 51. 51  ©  Cloudera,  Inc.  All  rights  reserved.   一个工具搞定全部运维管理   Hadoop运维管理的复杂性:   + 部署和配置   监控   工作流   事件和警告   日志搜索   故障诊断   运维报表   集群活动监控   DIY方式的运维管理 对比Cloudera “在第三方客户调查中显示,超过95%的客户希望使用统一的端到端管理工具对Hadoop集群进行维护管理,而不是被迫学习多 种开源工具用于不同类型的管理”
  • 52. 52  ©  Cloudera,  Inc.  All  rights  reserved.   简化的故障诊断流程   Cloudera  Manager最大程度提高故障诊断效率   注意到系统任务失败,集群停止服务 在TaskTracker界面中定位找到故障任务 借助Ganglia调查服务,主机,网络的各种监控指标, 帮助查找故障原因 尝试找到合适的HEAP MEMORY设置大小 更新设置,分发到所有节点,暂时中断服务,重启整 个集群 故障原因: TaskTracker Heap Memeory设置过低 1 小时 2 小时 1 小时 30 分钟 收到CM警告:任务运行时间长于预期 在CM中自动定位并高亮显示故障任务 自动对TaskTracker节点做健康检查,找到故障原因   用系统推荐的设置值更新集群 重启单独的TaskTracker,集群服务不会中断 故障原因: TaskTracker Heap Memeory设置过低 5 分钟 3 分钟 2 分钟 5 分钟 通过CLOUDERA MANAGER 4.5 小时 15 分钟 非Cloudera平台故障诊断
  • 53. 53  ©  Cloudera,  Inc.  All  rights  reserved.   滚动重启和升级
  • 54. 54  ©  Cloudera,  Inc.  All  rights  reserved.   集群灾备
  • 55. 55  ©  Cloudera,  Inc.  All  rights  reserved.   配置历史  
  • 56. 56  ©  Cloudera,  Inc.  All  rights  reserved.   版本回滚  
  • 57. 57  ©  Cloudera,  Inc.  All  rights  reserved.   智能的配置警告  
  • 58. 58  ©  Cloudera,  Inc.  All  rights  reserved.   智能决策   配置过期需要重启   客户端配置过期  
  • 59. 59  ©  Cloudera,  Inc.  All  rights  reserved.   全局时间线控制方便诊断   极方便的全局时间线控制  
  • 60. 60  ©  Cloudera,  Inc.  All  rights  reserved.   启用Kerberos  
  • 61. 61  ©  Cloudera,  Inc.  All  rights  reserved.   启用Kerberos  
  • 62. 62  ©  Cloudera,  Inc.  All  rights  reserved.   启用Kerberos  
  • 63. 63  ©  Cloudera,  Inc.  All  rights  reserved.   启用Kerberos  
  • 64. 64  ©  Cloudera,  Inc.  All  rights  reserved.   通过Cloudera  Manager管理用户自定义服务   hps://github.com/cloudera/cm_ext/ wiki  
  • 65. 65  ©  Cloudera,  Inc.  All  rights  reserved.   Cloudera  Manager  Rest  API  
  • 66. 66  ©  Cloudera,  Inc.  All  rights  reserved.   多租户管理 •  在多用户的环境下共享相同的系统或程序组件,且仍可确保各用户间数据、 配置甚至计算资源的隔离性。   • 各租户的资源保障   • 租户间的细粒度的安全隔离   • 租户资源请求的快速响应   • 租户资源使用的报告   •  多租户的优势   • 数据共享   • 方便运营   • 提高资源使用率  
  • 67. 67  ©  Cloudera,  Inc.  All  rights  reserved.   多租户的挑战 •  开源版本已经实现的   • YARN的资源管理平台,可以实现对MapReduce、Spark的动态资源管理   • 基于Queue的资源抽象描述   • 基于Queue的用户权限控制   •  挑战   • 只支持批处理的引擎   • 对有时延要求租户的支持   • 统一的权限控制模型   • 没有对租户资源使用的详细报告  
  • 68. 68  ©  Cloudera,  Inc.  All  rights  reserved.   Cloudera平台的多租户 •  资源隔离和管理   • 保障租户对服务质量的要求,且有效利用集群的资源   •  安全和管治   • Cloudera平台提供了从身份验证、授权、审计和数据安全的全面保护,确 保租户之间的隔离性   •  资源使用报告   • 统计租户对资源的使用要求,优化租户的资源分配  
  • 69. 69  ©  Cloudera,  Inc.  All  rights  reserved.   资源管理 •  资源划分   • 动态资源划分   •  按需给租户提供满足服务质量的资源保障   •  有效利用集群资源   • 静态资源划分   •  满足关键负载的作业保障   •  配额管理   • 磁盘空间配额   • 文件、目录数量配额,以优化文件系统元数据
  • 70. 70  ©  Cloudera,  Inc.  All  rights  reserved.   静态资源管理 •  通过Linux  cgroup来静态划分各服务所占用的资源   • 支持HBase,  HDFS,  Implala,  YARN   •  保障关键作业的资源占用 YARN   30% HBase   20% HDFS   30% Impala   20% Product   2 Mkt   1 Developer   3
  • 71. 71  ©  Cloudera,  Inc.  All  rights  reserved.   静态资源管理配置
  • 72. 72  ©  Cloudera,  Inc.  All  rights  reserved.   HBase内部的资源管理 •  对某个用户、某张表或某个表空间的访问进行限制(Throoling)   •  将HBase上的作业按类型进行调度   • 分析或查询   • 读或写
  • 73. 73  ©  Cloudera,  Inc.  All  rights  reserved.   动态资源管理 •  基于YARN的资源管理框架可以实现MapReduce,  Spark以及Impala对资源的共 享   • 通过Llama实现Impala和YARN资源的集成   • 按租户的资源使用状况定期调整资源分配策略   YARN/Impala   50% Product   1 Business   3 Developer   2 Impala   4 YARN/Impala   50% Product   1 Business   1 Developer   4 Impala   4 Weekday Weekend
  • 74. 74  ©  Cloudera,  Inc.  All  rights  reserved.   资源使用状况统计 •  租户对于资源的历史使用统计和趋势,以更好满足企业内部的Showback和 Chargeback模式
  • 75. 75  ©  Cloudera,  Inc.  All  rights  reserved.   Bring  Cloudera  Plasorm  to  Cloud  –   Cloudera  Director  
  • 76. 76  ©  Cloudera,  Inc.  All  rights  reserved.   部署的灵活性   安全与管理   无限分布式存储   批处理   数据发现   建模   在线服务   部署灵活性   On-Premises Appliances Engineered Systems 公有云 私有云 混合云
  • 77. 77  ©  Cloudera,  Inc.  All  rights  reserved.   Cloudera: 将CDH带到云端   可移植性:  多种云端部署选项   灵活性:定价和支持   选择:快速增长的生态系统   私有云:   Physical   公有云:   •  通过标准Cloudera  Support提供支持 •  与云计算平台提供商合作,按使用量付费的定价模式 拥抱迅速增长的云计算生态系统 * * * Scheduled for Roadmap
  • 78. 78  ©  Cloudera,  Inc.  All  rights  reserved.   云端自动化部署Hadoop集群   Cloudera  Director   业内第一个可移植,自服务型的部署和管 理企业级Hadoop集群解决方案     独有特性:   • 动态集群生命周期管理   • 云端整体视图   • 多集群资源占用可视化监控   • 用于按资源计费的使用量报告  
  • 79. 79  ©  Cloudera,  Inc.  All  rights  reserved.   Create  EC2  Instance  Template  
  • 80. 80  ©  Cloudera,  Inc.  All  rights  reserved.   Add  Cluster  
  • 81. 81  ©  Cloudera,  Inc.  All  rights  reserved.   Grow  Cluster  
  • 82. 82  ©  Cloudera,  Inc.  All  rights  reserved.   Ensure  Customer  Success  –   Industry-­‐Leading  Support  
  • 83. 83  ©  Cloudera,  Inc.  All  rights  reserved.   Cloudera技术支持 •  专业服务   •  近百人的专业技术支持团队   •  丰富的知识库   •  基于大数据技术的预测支持及主动支持   •  严格的问题修复流程
  • 84. 84  ©  Cloudera,  Inc.  All  rights  reserved.   专业服务 •  预定义的企业服务内容   •  驻场架构师和专人技术支持 集群部署及 调优 数据导入 及ETL指 导 数据分析 指导 安全指导 生产环境 就绪
  • 85. 85  ©  Cloudera,  Inc.  All  rights  reserved.   Cloudera客户支持中心(CSI)
  • 86. 86  ©  Cloudera,  Inc.  All  rights  reserved.   预测、主动技术支持 •  利用大数据平台技术,在客户集群还没发生问题之前就可以得到主动的预警   •  付费客户可以定期向Cloudera支持中心发送集群诊断包以获取主动支持 ANALYTIC   SQL   IMPALA   SEARCH   ENGINE   SOLR          资源管理   YARN     文件系统 在线NOSQL   HBASE   SYSTEM   MANAGEMENT   CLOUDERA  MANAGER   存储各种类型数据   批处理   MAPREDUCE   HDFS                  3RD  PARTY  APPS   TABLEAU   基于Cloudera的EDH构建  Cloudera  Manager   日志文件   客户节点数据   集群描述   命令输出   知识库   CRM数据   支持记录   Apache邮件列表   社区论坛   分析   SQL   IMPALA   搜索引擎   SOLR   硬件配置   Ingest  &  Consolidate  
  • 87. 87  ©  Cloudera,  Inc.  All  rights  reserved.   严格的问题修复过程 Cloudera  工 程师修复问 题并进行测 试   客户发现并 通过系统报 告问题   Cloudera  工 程师重现问 题   Cloudera  在 Apache报告 JIRA并提交 补丁   Cloudera   commier  审 查并提交补 丁到开源社 区   Cloudera  把 补丁放到下 一个版本发 布   Cloudera  给 客户提供补 丁程序   客户通过 Cloudera的无 宕机滚动升 级打补丁   客户升级 Cloudera版本  
  • 88. 88  ©  Cloudera,  Inc.  All  rights  reserved.   完善的产业链合作伙伴 Data   Systems   Enterprise  Data  Hub   Security  and  AdministraCon   Unlimited  Storage   Process   Discover   Model   Serve   ApplicaCons   System  IntegraCon   Infrastructure   Hundreds  of  partners   ensure  compaCbility  with  exisCng   investments,  lower  skill  barriers,  and   help  maximize  value  from  your  data.  OperaConal   Tools  
  • 89. 89  ©  Cloudera,  Inc.  All  rights  reserved.   全行业客户 Financial  &     Business  Services   Telecom   Technology   Healthcare   Life  Sciences   Media   Retail   Consumer   Energy   Public  Sector  
  • 90. 90  ©  Cloudera,  Inc.  All  rights  reserved.   总结 •  Cloudera  Enterprise   - 专注于开源Hadoop的开发,保护用户的投资(Open  Standard)   - 最具创新的Hadoop发行版 (InnovaCon)   - 最好用的企业数据平台(Usability)   ü 活跃的Cloudera社区   ü 一站式的管理平台   - 最完善的安全架构(Security)   - 方便集成(IntegraCon)   - 全面可扩展(Extensibility)   - 最专业的、可持续的技术支持  
  • 91. 91  ©  Cloudera,  Inc.  All  rights  reserved.   与Apache开源项目比   1   集成性:包含了20多个开源项目,组 件版本的兼容,解决了组件内部的配 置和组件间的配置集成   2   管理性:自动化的安装部署;智能的 配置优化;超级易用的监控诊断;企 业级的管理能力;基础设施的集成   3   安全性:全面的安全技术架构;独有 的主数据管理能力帮助用户快速发现 数据并理解数据处理流程   4   技术支持:开源项目的发布周期不定, Cloudera会定期发布问题修复版,并 提供快速的问题修复;同时开源项目 有时会破坏一些兼容性  
  • 92. 92  ©  Cloudera,  Inc.  All  rights  reserved.   与社区版对比   Cloudera  Express   Cloudera  Enterprise   平台核心   CDH   CDH   包含数据采集、存储、处理和分析等组件   管理性   基本的安装、部署、监控、 告警等管理功能   还包含一系列企业级功能:   配置历史修改和回退   平台运营历史报告   零宕机重启、升级   备份和复制   定期诊断等等   1.  不需要花大把的时间去查看由于配置修 改导致的性能下降   2.  降低关键业务宕机的风险   3.  定期的诊断快照缩短解决问题的周期   4.  无意的数据损坏   安全性   有限的、松散的安全特性   自动化的Kerberos部署   统一访问权限控制   全面的审计   整体的数据保护解决方案   1.  发现恶意的访问   2.  防止系统管理员直接通过底层文件系统 去读取敏感数据   数据治理   无   集群元数据的管理   数据溯源   1.  理解集群中有什么数据,快速发现数据   2.  数据的依赖关系,理解报表依赖的数据 源   技术支持   无   主动的集群诊断、产品支持团队、   客户可以访问的知识库、专业技术服务   定期的平台缺陷通知、路线图   1.  需要花费大量的时间来优化集群来满足 业务需求   2.  系统持续稳定运行的技术保障  
  • 93. 93  ©  Cloudera,  Inc.  All  rights  reserved.   与闭源厂商对比   闭源平台   Cloudera  Enterprise   平台核心   Unknown   CDH   闭源的组件或者功能缺乏和开源的持 续兼容;闭源特性没有社区支持增加 了用户使用代价   管理性   基本的安装、部署、监控、告警等 管理功能   业界最好用,完全为Hadoop而开发的管 理工具Cloudera  Manager   安全性   有限的、松散的安全特性   全面的安全解决方案,业界唯一一个符 合PCI  (Payment  Card  Industry)安全标准 的平台   数据治理   无   集群元数据的管理   数据溯源   技术支持   有但不可持续   专业的产品支持团队,严格的问题修复 流程,主动的集群诊断和预测支持  
  • 94. 94  ©  Cloudera,  Inc.  All  rights  reserved.   版本和服务 •  免费版(Cloudera  Express)和按年订阅的付费版(Cloudera  Enterprise)   •  免费版包含CDH和功能受限的Cloudera  Manager   •  付费版可以使用Cloudera  Enterprise的所有功能,但根据可以享受的服务内容 不一样   - Basic  EdiCon:只提供Hadoop核心和Cloudera  Director的服务   - Flex  EdiCon:HBase/Search/Impala/Spark/Navigator选择其一   - Data  Hub  EdiCon:所有组件都有服务提供   •  Basic  EdiCon只有5x8或7x24的标准支持   •  Flex  EdiCon和Data  Hub  EdiCon有5x8或7x24  Premium支持可选
  • 95. 95  ©  Cloudera,  Inc.  All  rights  reserved.   许可证模式   •  Cloudera不提供永久的许可证   •  Cloudera产品采取的是按年订阅许可证模式,假设用户订阅了三年的,则具 体的付费方式根据客户要求:   • 一次性付费   • 按三年平均,分三次付   • 第一年可以付大部分费用,后两年以维保的名义付费   •  订阅期结束之后,如果用户不再续订,则原有的功能都可以继续使用(包括 付费版才有的功能)   •  订阅期结束之后,如果用户需要续订,则视为一次新的订阅期,此次订阅的 价格会视前次订阅的周期和本次订阅的周期酌情考虑  
  • 96. 96  ©  Cloudera,  Inc.  All  rights  reserved.   迅速体验 •  Cloudera  Express  – 完全免费   - 全功能数据平台(CDH),无存储容量和节点数限制   - 一站式的管理工具(Cloudera  Manager)   - 获取社区支持Cloudera  Community   •  Cloudera  Enterprise  Trial   - 企业版60天的试用   - 获取试用版许可证,得到专业的技术支持   •  Cloudera  Live   - 在线的数据分析体验(Hue,Tableau,Zoomdata,Trifacta)
  • 97. 97  ©  Cloudera,  Inc.  All  rights  reserved.   资源 •  Cloudera  Product  -­‐   hop://www.cloudera.com/content/cloudera/en/downloads.html   •  Cloudera  Live  -­‐   hop://www.cloudera.com/content/cloudera/en/products-­‐and-­‐services/ cloudera-­‐live.html   •  Cloudera  Community  -­‐  hop://community.cloudera.com/   •  Cloudera  DocumentaCon  -­‐   hop://www.cloudera.com/content/cloudera/en/documentaCon.html  
  • 98. 98  ©  Cloudera,  Inc.  All  rights  reserved.   企业级数据平台 •  稳定性   -  严格的测试   -  被客户和开发者证明   -  开源的模式   •  易用性   -  标准的API(Java,  SQL,  Python,  Rest)   -  标准的工具集成(MS,  Qlikview,  Tableau,  Teradata,   Netezza,  Quest…)   -  一站式管理解决方案   •  安全性   -  企业安全标准集成   -  统一的访问安全控制   -  全面的数据保护,密钥管理   •  可管理性   -  部署、管理、监控、警告   •  可治理性   -  数据溯源   -  数据发现   -  数据生命周期管理   •  灵活性   -  不同的问题可以有不同的技术选择   •  性能   -  高吞吐的NoSQL存储   -  原生的大规模数据处理引擎   -  内存计算   -  为X86平台做的原生优化  
  • 99. 99  ©  Cloudera,  Inc.  All  rights  reserved.   Thank  you   kmiao@cloudera.com  
  • 100. 100  ©  Cloudera,  Inc.  All  rights  reserved.   Backup
  • 101. 101  ©  Cloudera,  Inc.  All  rights  reserved.   灵活的版本选择(1) CLOUDERA   EXPRESS CLOUDERA  ENTERPRISE     Basic  Edigon                    Flex  Edigon                  Data  Hub  Edigon 许可证 免费 按年订阅 100%  开源的数据存储及处理平台(CDH) Hadoop,  Flume,  HBase,  Hcatalog,  Hive,  Hue,  Impala,   Mahout,  Oozie,  Pig,  Cloudera  Search,  Sentry,  Spark,   Sqoop,  Whirr,  Zookeeper   ✔   ✔ ✔ ✔ 系统管理平台(Cloudera  Manager) 集群部署和配置 ✔   ✔ ✔ ✔ 服务管理 ✔ ✔ ✔ ✔ 服务和主机监控 ✔ ✔ ✔ ✔ 安全管理 ✔ ✔ ✔ ✔ 诊断(日志搜索、事件) ✔ ✔ ✔ ✔ 扩展和Rest  API ✔ ✔ ✔ ✔ 滚动升级和重启 ✔ ✔ ✔
  • 102. 102  ©  Cloudera,  Inc.  All  rights  reserved.   灵活的版本选择(2) CLOUDERA   EXPRESS CLOUDERA  ENTERPRISE     Basic  Edigon                    Flex  Edigon                  Data  Hub  Edigon AD/Kerberos集成   ✔ ✔ ✔ SNMP支持   ✔ ✔ ✔ LDAP集成   ✔ ✔ ✔ 参数配置历史和回滚 ✔ ✔ ✔ 运营报告生成 ✔ ✔ ✔ 定期诊断 ✔ ✔ ✔ 自动化复制和灾备 ✔ ✔ ✔
  • 103. 103  ©  Cloudera,  Inc.  All  rights  reserved.   灵活的版本选择(3) CLOUDERA   EXPRESS CLOUDERA  ENTERPRISE     Basic  Edigon                    Flex  Edigon                  Data  Hub  Edigon 产品售后服务覆盖   Hadoop核心   ✔ ✔ ✔ Cloudera  Director   ✔ ✔ ✔ Online  NoSQL  RDBMS  (HBase)   只能选择一种 组件提供支持 ✔ 交互式SQL  (Impala)   ✔ 交互式数据分析 (Apache  Spark)   ✔ 搜索引擎 (Cloudera  Search)   ✔ 审计、数据发现、溯源、加解密、密钥管理   (Cloudera  Navigator)   ✔ 敏捷部署模块 Cloudera  Director ✔ ✔ ✔ ✔
  • 104. 104  ©  Cloudera,  Inc.  All  rights  reserved.   灵活的版本选择(4) CLOUDERA   EXPRESS CLOUDERA  ENTERPRISE     Basic  Edigon                    Flex  Edigon                  Data  Hub  Edigon 服务内容   专职支持团队   ✔ ✔ ✔ 主动技术指导   ✔ ✔ ✔ 预测性问题分析   ✔ ✔ ✔ 全面的知识库   ✔ ✔ ✔ 产品解决方案和指南   ✔ ✔ ✔ 客户需求纳入新产品路线图   ✔ ✔ ✔ 5  x  8  或  7  x  24小时标准服务   ✔ ✔ ✔ 增强服务* ✔ ✔ * 5x8或7x24服务时间内,对于严重的产品问题,15分钟内有响应
  • 105. 105  ©  Cloudera,  Inc.  All  rights  reserved.   Cloudera  Commioers  by  Apache  Project   89  total  seats,  67  PMC*  seats  (Page  1  of  2)   Project   Founder(s)  Employed  By:   Commioers   Names  (PMC  Members  in  blue)   Accumulo   NSA   3   Mike  Drob,  Sean  Busbey,  Bill  Havanki   Avro     Cloudera   5   Doug  Cu|ng  (Founder),  Tom  White,  Jeff  Hammerbacher,  Philip  Zeyliger,  Ryan  Blue   Bigtop   Cloudera  -­‐>  Pivotal   9   Andrew  Bayer,  Eli  Collins,  Patrick  Hunt,  Tom  White,  Stephen  Chu,  Sean  Mackrory,  Michael  Stack,  Anatoli   Fomenko,  Mark  Grover   Crunch     Cloudera   3   Josh  Wills  (VP/PMC  Chair/Founder),  Brock  Noland,  Tom  White   Flume   Cloudera   10   Andrew  Bayer,  Hari  Shreedharan,  Brock  Noland,  Jarek  Jarcec  Cecho,  Henry  Robinson,  Jon  Hsieh  (Project   Founder),  Mike  Percy,  Patrick  Hunt,  Prasad  Mujumdar,  Wolfgang  Hoschek   Hadoop  Core   Independent/Yahoo!  -­‐>  Cloudera   14   Doug  Cu|ng  (Project  Founder),  Tom  White,  Todd  Lipcon,  Patrick  Hunt,  Eli  Collins,  Aaron  Myers,  Michael   Stack,  Colin  McCabe,  Andrew  Wang,  Karthik  Kambatla,  Harsh  Chouraria,  Sandy  Ryza,  Robert  Kanter,   Yongjun  Zhang   HBase     Powerset  -­‐>  Cloudera   10   Michael  Stack  (Project  Co-­‐founder/VP/PMC  Chair),  Todd  Lipcon,  Jon  Hsieh,  Lars  George,  Jean-­‐Daniel   Cryans,  Jimmy  Xiang,  Maoeo  Bertozzi,  Gregory  Chanan,  Misty  Stanley-­‐Jones,  Sean  Busbey   Hive     Facebook  -­‐>  Cloudera/Qubole   5   Xuefu  Zhang,  Brock  Noland,  Prasad  Mujumdar,  Szehen  Ho,  Chao  Sun   *  PMC  =  Project  Management  Commioee;     guides  project  roadmap  and  direcCon   Cloudera  -­‐  ConfidenCal  
  • 106. 106  ©  Cloudera,  Inc.  All  rights  reserved.   Cloudera  Commioers  by  Apache  Project   89  total  seats,  67  PMC*  seats  (Page  2  of  2)   *  PMC  =  Project  Management  Commioee;     guides  project  roadmap  and  direcCon   Project   Founder(s)  Employed  By:   Commioers   Names  (PMC  Members  are  in  blue)   Lucene/Solr   Independent  -­‐>  Cloudera   6   Doug  Cu|ng  (Founder),  Mark  Miller  (VP/PMC  Chair),  Yonick  Seeley,  Erick  Erickson,  Wolfgang  Hoschek,   Greg  Chanan   Mahout   Independent   1   Sean  Owen   Oozie   Yahoo!     2   Harsh  Chouraria,  Robert  Kanter   Pig   Yahoo!  -­‐>  Hortonworks   2   Santhosh  Srinivasan,  Xuefu  Zhang   Spark   QuanCfind  -­‐>  Cloudera   2   Imran  Rashid,  Sean  Owen   Sqoop     Cloudera  -­‐>  Independent   9   Andrew  Bayer,  Jarek  Jarcec  Cecho,  Jon  Hsieh,  Kathleen  Ting,  Patrick  Hunt,  Tom  White,  Hari  Shreedharan,   Abe  Elmahrek,  Gwen  Shapira   Whirr     Cloudera   6   Tom  White  (Founder),  Lars  George,  Patrick  Hunt,  Andrew  Bayer  (VP/PMC  Chair),  Andrei  Savu,  Graham  Gear   ZooKeeper   Yahoo!  -­‐>  Cloudera   2   Patrick  Hunt  (Founder),  Henry  Robinson   Cloudera  -­‐  ConfidenCal