1. 1
Data Leaders in Action
資料價值領袖風範與關鍵行動
以 Data Lake 為例
Fred Chiang
CEO, Etu
June 16, 2015
2. 2
Data Lake
企業資料湖泊
+10 Y
OLAP/Discovery
資料分析/資料探索
Data Warehouse
企業資料倉儲
20+ Y
OLAP
資料分析
Big Data 應用的發展,您怎麼看?
Database
關聯式資料庫
30+ Y
OLTP
資料交易
3. 3
Bottled Water vs. Data Lake
思維
事先定義、照表取用
隨需取用,動態探索
特點
淨化、包裝過,容量少、犧牲細節
匯聚、有機生態、胃納量大、不犧牲細節
比喻
Data Mart 必須要事先定義好 Data
Model 才能進行分析
取用結構化好的 Impala/Hive/HBase 入庫資料
來進行分析或查詢,不需事先定義 Data Model
DM
Schema-on-Write
Schema-on-Read
* Data Lake 概念,源自 Pentaho CTO James Dixon 的部落格文章《Pentaho, Hadoop, and Data Lakes》(Oct. 14, 2010)
4. 4
Are you a
Thinker Doer
or
Photo source: https://www.flickr.com/photos/internetarchivebookimages/14597983267
價值領導思考
關鍵行動執行
5. 5
Business people want Hadoop for
value from big data and
for insights from analytics
Technical users want Hadoop to
scale, extend older systems,
and leverage exotic data
Big Data Thinker Doer
Thinker
Doer
Hadoop,
an Opportunity
for Innovation*
*TDWI Best Practices Report: Hadoop in the Enterprise (Q2, 2015)
創新來自思考與執行雙軌
89%
• Business people ≠ Thinker
• Technical user ≠ Doer
7. 7
Thinker 的 Data Lake
Thinking
about
光分析 RDB/EDW 的資料已經無法滿足需求
要更了解客戶,我們需要加上行為資料
競爭力
RDB/EDW 的運算速度被增長的資料拖慢
需要更彈性靈活的入庫資料取用,以便縮短分析所需的時間
我們要儘可能加快決策速度,分析自然不能慢
反應力
RDB/EDW 的擴充成本居高不下
運算科技持續進步,新架構帶來更高的 ROI
變革力
RDB/EDW 的垂直擴充架構受限
8. 8
Doer 的 Data Lake
Analytics with STAT / DM / ML / EDA
Doing
in
Ad-hoc Query
Data Visualization
High Volume Concurrent Query
+ Methodology
+ Professional Service
10. 10
Data Lake 相關攤位與演講
展示攤位
④
Etu Data Lake
演講場次
Keynote 4 (原 3)
Big Data Tornado
2015 台灣 Big Data 企業經典應用案例分享
Speaker: Etu 營運長 陳育杰
Track A-3
Enterprise Data Lake in Action
搭建「活」的企業 Big Data 生態架構
Speaker: Etu 首席架構師 王耀聰
Powered by Etu Manager