SlideShare a Scribd company logo
1 of 30
Download to read offline
DataCon.TW 2019 Opening
Data Engineering in Taiwan:
PAST, NOW and FUTURE
Jazz Yao-Tsung Wang
Initiator and Chair of Taiwan Data Engineering Association
Co-Founder of Taiwan Hadoop User Group
Shared at 2019-09-06 DataCon.TW 2019
@ NTUH International Convention Center
1.
Opening
開幕式
Before we start DataCon.TW 2019 ….
2
3
風雨生信心 Faith Grows Amid Storms
4
2018-10-03
What the Cloudera and Hortonworks merger means
Will you still believe
after DataCon.TW 2019
??
2019-08-06
HPE acquires the business assets of MapR2018-08-02
Arm acquires Treasure Data
to set the stage for IoT transformation
5
Hit the bottom yet?
https://www.facebook.com/photo.php?fbid=10205989049499660&set=a.3351956552057&type=3&theater
6
Data Talents are moving to Cloud Providers
“解讀雲端大數據新趨勢 ”, Jazz Yao-Tsung Wang, 2018-05-16 @ iThome Cloud Summit 2018
https://www.slideshare.net/jazzwang/ss-97231624/19
7
https://goo.gl/xY5nrJ
https://tw.voicetube.com/videos/22050
人生課題 心懷感恩 40s is the new 30s ?!
沒有妳(你)們的支持,就沒有今日的盛況!
Thanks for your support ~ DataCon.TW 2019 Committees
8
協會秘書長 Angie Chang 協會常務理事 Anna Yen
情義相挺小編 Kai-Ting Kao ASF member
葉祐欣 Evans Ye
超人氣講師 郭二文
ErhWen Kuo
協會秘書 徐薇妮 Winnie
協會常務理事
Bryan Yang
感謝今年的贊助商,讓年會創 600 人票房紀錄
Big Thanks to DataCon.TW 2019 Sponsors!!
9
2.
台灣 大數據 十年回顧
與未來展望
Data Engineering in Taiwan:
PAST, NOW and FUTURE
10
資料工程
11
Source: http://blog.evocator.org/2010/04/hype-chasm.html
2010 半導體
Semiconductor
2012 電信
Telecom
2012 電商
eCommerce
2015 金融
Finance
2018 製造
Manufactory
2008 萌芽
2014 零售
Retail
2015 支付
Mobile Payment
2015 遊戲
Gaming
2016 廣告
AdTech
Data-driven
Adoption Trend
in Taiwan
基於我的職涯
與產業觀察
This is based on
my personal
experience
2016 封裝
Assembly / IC
12
“Gold mine” model of Data-driven Adoption Project
Source: “Big Data Projet Management the Body of Knowledge (BDPMBOK)”, Jazz Wang, 2015-12-09 Big Data Conference
https://www.slideshare.net/jazzwang/big-data-projet-management-the-body-of-knowledge-bdpmbok/12
Gold Mine
(Data)
Royalty
(Access Right)
Fineness of Gold
(Value of Data)
Refinery
(Data Platform)
TCO
(Total cost of ownership)
Global Gold Price
(Value to Customer)
13
“Six Thinking Hats” of Data-driven Adoption Project
Source: “Big Data Projet Management the Body of Knowledge (BDPMBOK)”, Jazz Wang, 2015-12-09 Big Data Conference
https://www.slideshare.net/jazzwang/big-data-projet-management-the-body-of-knowledge-bdpmbok/12
14
2010~2014 半導體 Semiconductor
Source: https://www.ithome.com.tw/news/92290
2000年,廠內開始蒐集機臺製程資料並分析
但跑一次分析就得要花上一個星期。
2011年之後,透過大資料分析技術,才明顯改善。
一個台積電12吋晶圓廠,每秒約產出100萬筆資料
每片晶圓完成需歷經千道製程,監測百萬筆資料
台積電在半導體大資料分析上,
主要包含了五個大資料應用範疇:
● 機臺控制(Tool Control)
● 機臺健康(Tool Healthy)
● 機臺生產力(Tool Productivity)
● 品質控管(Quality Control)
● 人員生產力(People Productivity)
15
商務問題 Problem
良率改善 Yield Rate Improvement → 機臺匹配 → 健康診斷
降低營運成本 OPEX ↓
數據驅動 Data-Driven? Yes
資料來源 Data Source
內部資料 Internal Data
資料型態 Variety: Sensor , Image, Log
法規限制 Legality
擁有權 Ownership: Yes
處理權 Process Right: Yes
使用權 Access Right: Yes
含金度 Fineness
可靠度 Veracity: High (6 sigma)
內含答案: Yes (根據以前機台經驗推論)
平台架構 Platform
架構 Lambda Architecture (資料先落地整理後再分析)
技術挑戰: (生) High Data Write Throughput
(析) 多變量 Multivariate -- too many columns
維運成本 TCO
人: 開發 Dev | 維運 Ops | 分析 Analysis | 決策 Expert
流程: 蒐集資料 → 前處理(整理) → 分析 → 建模/預測 → 反饋
技術: Hadoop/HBase → SPSS/SAS/R
永續條件: TCO << Diff of Lost(Yield Rate)
16
High Level Date Pipeline in Semiconductor
Source: “製造業生產歷程全方位整合查詢與探勘的規劃心法 ”, Jazz Wang, 2015-05-20
https://www.slideshare.net/jazzwang/20150520-final
“
過去 20奈米 時代可以用 Lambda Architecture
資料落地後才做計算分析
現在進行式:預防性維護
Now: Predictive maintenance
(更多近況留待 智慧製造 Keynote 講者分享 ...)
那 5 奈米製程 時代,資料通量與容量倍增,
網路/儲存/運算的比例與物理極限
是否會再次受到挑戰呢?
也許該改用 Streaming Processing?
17
反思
FUTURE ?
18
2011 ~ 2014 電信 Telecom Use Case Example
北區
路由
南區
路由
DUP
DUP
Header
Header
HBase
MapReduce
Billing
Report
Query
UI
19
商務問題 Problem
數據用量 Billing for data network
數據驅動 Data-Driven? Yes
資料來源 Data Source
內部資料 Internal Data
資料型態 Variety: Packet Header
法規限制 Legality
擁有權 Ownership: No (Ex. Packet Payload)
處理權 Process Right: Yes
使用權 Access Right: Yes
含金度 Fineness
可靠度 Veracity: High
內含答案: Yes
平台架構 Platform
架構 Lambda Architecture (資料先落地整理後再查詢/報表)
技術挑戰: (生) High Data Write Throughput
(算) High Volume Data Aggregation by Key
維運成本 TCO
人: 開發 Dev | 維運 Ops
流程: 蒐集資料 → 前處理(整理) → 查詢系統 / 帳單報表
技術: Hadoop/HBase
永續條件: TCO << Revenue(Data Network)
2011 ~ 2014 電信 Telecom
“
過去 3G/4G 時代可以用 Lambda Architecture
資料落地後才做計算分析
但未來 5G 時代呢?資料通量更高了~
若要落地儲存,磁碟容量的寫入壓力更大
同樣的需求,或許改用 Streaming Processing
用 Kappa Architecture 比較有 C/P 值?
其次,5G 時代是否有其他
更具挑戰性的商務問題呢?
20
反思
FUTURE ?
21
商務問題 Problem
商品推薦 Recommendation / 再行銷 Retargeting
數據驅動 Data-Driven? Yes
資料來源 Data Source
內部資料 Internal Data
資料型態 Variety: Web Server Access Log
法規限制 Legality
擁有權 Ownership: ?? (Ex. 購物紀錄)
處理權 Process Right: Yes
使用權 Access Right: Yes
含金度 Fineness
可靠度 Veracity: High (實名制 - 購物紀錄)
內含答案: Yes (購物喜好 - 隨時間變化)
平台架構 Platform
架構 Lambda Architecture
技術挑戰: (生) High Data Write Throughput
(算) High Volume Data Aggregation by Key
維運成本 TCO
人: 開發 Dev | 維運 Ops
流程: Cookie 日誌 → 前處理(整理) → 推薦引擎 → 商品版位
技術: Hadoop/Mahout
永續條件: TCO << Profit(Convert Rate)
電商/零售 eCommerce / Retail
22
商務問題 Problem
增加開戶數 Account Opening | 導購金融商品
客戶洞察 Customer 360
數據驅動 Data-Driven? Yes
資料來源 Data Source
內部資料 Internal Data → 異業結盟 → 交換外部資料
資料型態 Variety: 紙捲資料, 網銀日誌, etc.
法規限制 Legality
擁有權 Ownership: ?? (Ex. 金融交易紀錄)
處理權 Process Right: Yes
使用權 Access Right: Maybe (視開戶時是否同意聯合行銷)
含金度 Fineness
可靠度 Veracity: High (實名制 - 登入網銀後的瀏覽行為)
內含答案: Yes (投資偏好/特徵 - 隨人生階段變化)
平台架構 Platform
架構 Lambda Architecture
技術挑戰: (析) Data warehouse offload
維運成本 TCO
人: 開發 Dev | 維運 Ops
流程: 日誌 → 前處理(整理) → 資料倉儲 → 分析建模 → BI
技術: Hadoop/Hive/Sqoop/SAS/Impala
永續條件: TCO << LTV (Lifetime Value)
金融 Finance @ 2015~2016 (更多近況留待 數位金融 Keynote 講者分享 ...)
23
商務問題 Problem
增加點擊率 CTR | 透過即時競價 RTB 來取得超額利潤
受眾洞察 Audience 360 (DMP)
數據驅動 Data-Driven? Yes
資料來源 Data Source
內部資料 Internal Data → 外部資料 External (Ex. Google)
資料型態 Variety: RTB 平台服務日誌 Log (with Cookie)
法規限制 Legality
擁有權 Ownership: Maybe (Ex. 跨站瀏覽紀錄 - GDPR)
處理權 Process Right: Yes
使用權 Access Right: Maybe (視是否同意存 Cookie)
含金度 Fineness
可靠度 Veracity: Low (匿名制 - 靠 Tracking Pixel Cookie)
內含答案: Maybe (購物偏好/特徵 - 隨時間變化 - 銷售漏斗)
平台架構 Platform
架構 Lambda Architecture → Kappa Architecture
技術挑戰: (析) Cardianlity - 匿名受眾數量過高
維運成本 TCO
人: 開發 Dev | 維運 Ops | 廣告操盤手
流程: 日誌 → 前處理(整理) → 競價引擎 → 廣告成效報表
技術: Spark/NoSQL/Kafka/Machine Learning
永續條件: TCO << Profit
數位行銷 廣告 AdTech @ 2016~2018
How about the FUTURE?
很快談了過去式與現在進行式
那未來式會是什麼?
24
25
老實說,我也說不準... 只能給些可能的方向/線索
Source: “Big Data Industry Insights”, Gartner, 2015-01-27
http://www.gartner.com/webinar/2931518
2015
Gartner
US
26
Source: IEK Trends, 2019-09-05
http://iektrends.iek.org.tw/Client/page.aspx?page_id=5
27
Source: IEK Trends, 2019-09-05
http://iektrends.iek.org.tw/Client/page.aspx?page_id=5
28
人文溫度 / 剛需市場 / 智慧醫療?AI + Robot + 長照?
29
商務問題 Problem
病患洞察 Patient 360
數據驅動 Data-Driven? Yes
資料來源 Data Source
外部資料 External Data
資料型態 Variety: 財務 Financial (X12) / 病例 Clinical (HL7)
法規限制 Legality
擁有權 Ownership: No
處理權 Process Right: Yes
使用權 Access Right: Maybe (視病患是否同意)
含金度 Fineness
可靠度 Veracity: Medium (生態系破碎/髒資料/重複資料)
內含答案: Maybe (看應用目的)
平台架構 Platform
架構 Lambda Architecture
技術挑戰: (資安) Data Right Management (PCI/HIPAA)
維運成本 TCO
人: 開發 Dev | 維運 Ops
流程: 日誌 → 前處理(整理) → Data Lake → Marketplace
技術: Spark/Hive/Ranger
永續條件: TCO << Profit of Business Model
醫療支付 Healthcare Payment
Q & A
歡迎掃描 QR Code 填寫年會 Keynote 滿意度調查
30

More Related Content

What's hot

Track A-1: Cloudera 大數據產品和技術最前沿資訊報告
Track A-1: Cloudera 大數據產品和技術最前沿資訊報告Track A-1: Cloudera 大數據產品和技術最前沿資訊報告
Track A-1: Cloudera 大數據產品和技術最前沿資訊報告Etu Solution
 
Hadoop 與 SQL 的甜蜜連結
Hadoop 與 SQL 的甜蜜連結Hadoop 與 SQL 的甜蜜連結
Hadoop 與 SQL 的甜蜜連結James Chen
 
Azure Data Lake 簡介
Azure Data Lake 簡介Azure Data Lake 簡介
Azure Data Lake 簡介Herman Wu
 
美团数据平台之Kafka应用实践和优化
美团数据平台之Kafka应用实践和优化美团数据平台之Kafka应用实践和优化
美团数据平台之Kafka应用实践和优化confluent
 
唯品会大数据实践 Sacc pub
唯品会大数据实践 Sacc pub唯品会大数据实践 Sacc pub
唯品会大数据实践 Sacc pubChao Zhu
 
2014-10-17 探析台灣巨量資料產業供應鏈串聯現況
2014-10-17 探析台灣巨量資料產業供應鏈串聯現況2014-10-17 探析台灣巨量資料產業供應鏈串聯現況
2014-10-17 探析台灣巨量資料產業供應鏈串聯現況Jazz Yao-Tsung Wang
 
京东实时消息队列JDQ技术实践与探索
京东实时消息队列JDQ技术实践与探索京东实时消息队列JDQ技术实践与探索
京东实时消息队列JDQ技术实践与探索confluent
 
Track A-3 Enterprise Data Lake in Action - 搭建「活」的企業 Big Data 生態架構
Track A-3 Enterprise Data Lake in Action - 搭建「活」的企業 Big Data 生態架構Track A-3 Enterprise Data Lake in Action - 搭建「活」的企業 Big Data 生態架構
Track A-3 Enterprise Data Lake in Action - 搭建「活」的企業 Big Data 生態架構Etu Solution
 
Mesos-based Data Infrastructure @ Douban
Mesos-based Data Infrastructure @ DoubanMesos-based Data Infrastructure @ Douban
Mesos-based Data Infrastructure @ DoubanZhong Bo Tian
 
Realtime analytics with Flink and Druid
Realtime analytics with Flink and DruidRealtime analytics with Flink and Druid
Realtime analytics with Flink and DruidErhwen Kuo
 
翟艳堂:腾讯大规模Hadoop集群实践
翟艳堂:腾讯大规模Hadoop集群实践翟艳堂:腾讯大规模Hadoop集群实践
翟艳堂:腾讯大规模Hadoop集群实践hdhappy001
 
Hadoop大数据实践经验
Hadoop大数据实践经验Hadoop大数据实践经验
Hadoop大数据实践经验Schubert Zhang
 
王龙:百度数据库架构演变与设计
王龙:百度数据库架构演变与设计王龙:百度数据库架构演变与设计
王龙:百度数据库架构演变与设计YANGL *
 
淺談物聯網巨量資料挑戰 - Jazz 王耀聰 (2016/3/17 於鴻海內湖) 免費講座
淺談物聯網巨量資料挑戰 - Jazz 王耀聰 (2016/3/17 於鴻海內湖) 免費講座淺談物聯網巨量資料挑戰 - Jazz 王耀聰 (2016/3/17 於鴻海內湖) 免費講座
淺談物聯網巨量資料挑戰 - Jazz 王耀聰 (2016/3/17 於鴻海內湖) 免費講座NTC.im(Notch Training Center)
 
Qcon2013 罗李 - hadoop在阿里
Qcon2013 罗李 - hadoop在阿里Qcon2013 罗李 - hadoop在阿里
Qcon2013 罗李 - hadoop在阿里li luo
 
運用MMLSpark 來加速Spark 上 機器學習專案
運用MMLSpark 來加速Spark 上機器學習專案運用MMLSpark 來加速Spark 上機器學習專案
運用MMLSpark 來加速Spark 上 機器學習專案Herman Wu
 
罗李:构建一个跨机房的Hadoop集群
罗李:构建一个跨机房的Hadoop集群罗李:构建一个跨机房的Hadoop集群
罗李:构建一个跨机房的Hadoop集群hdhappy001
 

What's hot (20)

Track A-1: Cloudera 大數據產品和技術最前沿資訊報告
Track A-1: Cloudera 大數據產品和技術最前沿資訊報告Track A-1: Cloudera 大數據產品和技術最前沿資訊報告
Track A-1: Cloudera 大數據產品和技術最前沿資訊報告
 
Hadoop 與 SQL 的甜蜜連結
Hadoop 與 SQL 的甜蜜連結Hadoop 與 SQL 的甜蜜連結
Hadoop 與 SQL 的甜蜜連結
 
Azure Data Lake 簡介
Azure Data Lake 簡介Azure Data Lake 簡介
Azure Data Lake 簡介
 
Hadoop.TW : Now and Future
Hadoop.TW : Now and FutureHadoop.TW : Now and Future
Hadoop.TW : Now and Future
 
美团数据平台之Kafka应用实践和优化
美团数据平台之Kafka应用实践和优化美团数据平台之Kafka应用实践和优化
美团数据平台之Kafka应用实践和优化
 
唯品会大数据实践 Sacc pub
唯品会大数据实践 Sacc pub唯品会大数据实践 Sacc pub
唯品会大数据实践 Sacc pub
 
When R meet Hadoop
When R meet HadoopWhen R meet Hadoop
When R meet Hadoop
 
2014-10-17 探析台灣巨量資料產業供應鏈串聯現況
2014-10-17 探析台灣巨量資料產業供應鏈串聯現況2014-10-17 探析台灣巨量資料產業供應鏈串聯現況
2014-10-17 探析台灣巨量資料產業供應鏈串聯現況
 
京东实时消息队列JDQ技术实践与探索
京东实时消息队列JDQ技术实践与探索京东实时消息队列JDQ技术实践与探索
京东实时消息队列JDQ技术实践与探索
 
Track A-3 Enterprise Data Lake in Action - 搭建「活」的企業 Big Data 生態架構
Track A-3 Enterprise Data Lake in Action - 搭建「活」的企業 Big Data 生態架構Track A-3 Enterprise Data Lake in Action - 搭建「活」的企業 Big Data 生態架構
Track A-3 Enterprise Data Lake in Action - 搭建「活」的企業 Big Data 生態架構
 
Mesos-based Data Infrastructure @ Douban
Mesos-based Data Infrastructure @ DoubanMesos-based Data Infrastructure @ Douban
Mesos-based Data Infrastructure @ Douban
 
Life of Big Data Technologies
Life of Big Data TechnologiesLife of Big Data Technologies
Life of Big Data Technologies
 
Realtime analytics with Flink and Druid
Realtime analytics with Flink and DruidRealtime analytics with Flink and Druid
Realtime analytics with Flink and Druid
 
翟艳堂:腾讯大规模Hadoop集群实践
翟艳堂:腾讯大规模Hadoop集群实践翟艳堂:腾讯大规模Hadoop集群实践
翟艳堂:腾讯大规模Hadoop集群实践
 
Hadoop大数据实践经验
Hadoop大数据实践经验Hadoop大数据实践经验
Hadoop大数据实践经验
 
王龙:百度数据库架构演变与设计
王龙:百度数据库架构演变与设计王龙:百度数据库架构演变与设计
王龙:百度数据库架构演变与设计
 
淺談物聯網巨量資料挑戰 - Jazz 王耀聰 (2016/3/17 於鴻海內湖) 免費講座
淺談物聯網巨量資料挑戰 - Jazz 王耀聰 (2016/3/17 於鴻海內湖) 免費講座淺談物聯網巨量資料挑戰 - Jazz 王耀聰 (2016/3/17 於鴻海內湖) 免費講座
淺談物聯網巨量資料挑戰 - Jazz 王耀聰 (2016/3/17 於鴻海內湖) 免費講座
 
Qcon2013 罗李 - hadoop在阿里
Qcon2013 罗李 - hadoop在阿里Qcon2013 罗李 - hadoop在阿里
Qcon2013 罗李 - hadoop在阿里
 
運用MMLSpark 來加速Spark 上 機器學習專案
運用MMLSpark 來加速Spark 上機器學習專案運用MMLSpark 來加速Spark 上機器學習專案
運用MMLSpark 來加速Spark 上 機器學習專案
 
罗李:构建一个跨机房的Hadoop集群
罗李:构建一个跨机房的Hadoop集群罗李:构建一个跨机房的Hadoop集群
罗李:构建一个跨机房的Hadoop集群
 

Similar to Data Engineering in Taiwan: PAST, NOW and FUTURE

選擇正確的Solution 來建置現代化的雲端資料倉儲
選擇正確的Solution 來建置現代化的雲端資料倉儲選擇正確的Solution 來建置現代化的雲端資料倉儲
選擇正確的Solution 來建置現代化的雲端資料倉儲Herman Wu
 
逻辑数据编织 – 构建先进的现代企业数据架构
逻辑数据编织 – 构建先进的现代企业数据架构逻辑数据编织 – 构建先进的现代企业数据架构
逻辑数据编织 – 构建先进的现代企业数据架构Denodo
 
《数据库发展研究报告-解读(2023年)》.pdf
《数据库发展研究报告-解读(2023年)》.pdf《数据库发展研究报告-解读(2023年)》.pdf
《数据库发展研究报告-解读(2023年)》.pdfmarkmind
 
如何快速实现数据编织架构
如何快速实现数据编织架构如何快速实现数据编织架构
如何快速实现数据编织架构Denodo
 
IT445_Week_11.pdf
IT445_Week_11.pdfIT445_Week_11.pdf
IT445_Week_11.pdfAiondBdkpt
 
Modernising Data Architecture for Data Driven Insights (Chinese)
Modernising Data Architecture for Data Driven Insights (Chinese)Modernising Data Architecture for Data Driven Insights (Chinese)
Modernising Data Architecture for Data Driven Insights (Chinese)Denodo
 
Delta Lake Architecture: Delta Lake + Apache Spark Structured Streaming
Delta Lake Architecture: Delta Lake + Apache Spark Structured StreamingDelta Lake Architecture: Delta Lake + Apache Spark Structured Streaming
Delta Lake Architecture: Delta Lake + Apache Spark Structured StreamingXiao Li
 
課程1 1:雲端運算初探
課程1 1:雲端運算初探課程1 1:雲端運算初探
課程1 1:雲端運算初探vaemon
 
Big Data, NoSQL, and MongoDB
Big Data, NoSQL, and MongoDBBig Data, NoSQL, and MongoDB
Big Data, NoSQL, and MongoDBMonster Supreme
 
淺談 Kubernetes於大數據生態系的相關開發近況
淺談 Kubernetes於大數據生態系的相關開發近況淺談 Kubernetes於大數據生態系的相關開發近況
淺談 Kubernetes於大數據生態系的相關開發近況inwin stack
 
Hadoop Big Data 成功案例分享
Hadoop Big Data 成功案例分享Hadoop Big Data 成功案例分享
Hadoop Big Data 成功案例分享Etu Solution
 
Oracle db 12c 加速企业转型之十大功能
Oracle db 12c 加速企业转型之十大功能Oracle db 12c 加速企业转型之十大功能
Oracle db 12c 加速企业转型之十大功能Ethan M. Liu
 
Hadoop development in China Mobile Research Institute
Hadoop development in China Mobile Research InstituteHadoop development in China Mobile Research Institute
Hadoop development in China Mobile Research InstituteXu Wang
 
High Throughput Computing Technologies
High Throughput Computing TechnologiesHigh Throughput Computing Technologies
High Throughput Computing TechnologiesJazz Yao-Tsung Wang
 
Big Data 101 一 一個充滿意圖與關聯世界的具體實現
Big Data 101 一 一個充滿意圖與關聯世界的具體實現Big Data 101 一 一個充滿意圖與關聯世界的具體實現
Big Data 101 一 一個充滿意圖與關聯世界的具體實現Fred Chiang
 
Trinity BDM - 橋接傳統與未來
Trinity BDM - 橋接傳統與未來Trinity BDM - 橋接傳統與未來
Trinity BDM - 橋接傳統與未來Etu Solution
 

Similar to Data Engineering in Taiwan: PAST, NOW and FUTURE (20)

Hadoop 介紹 20141024
Hadoop 介紹 20141024Hadoop 介紹 20141024
Hadoop 介紹 20141024
 
選擇正確的Solution 來建置現代化的雲端資料倉儲
選擇正確的Solution 來建置現代化的雲端資料倉儲選擇正確的Solution 來建置現代化的雲端資料倉儲
選擇正確的Solution 來建置現代化的雲端資料倉儲
 
逻辑数据编织 – 构建先进的现代企业数据架构
逻辑数据编织 – 构建先进的现代企业数据架构逻辑数据编织 – 构建先进的现代企业数据架构
逻辑数据编织 – 构建先进的现代企业数据架构
 
《数据库发展研究报告-解读(2023年)》.pdf
《数据库发展研究报告-解读(2023年)》.pdf《数据库发展研究报告-解读(2023年)》.pdf
《数据库发展研究报告-解读(2023年)》.pdf
 
如何快速实现数据编织架构
如何快速实现数据编织架构如何快速实现数据编织架构
如何快速实现数据编织架构
 
IT445_Week_11.pdf
IT445_Week_11.pdfIT445_Week_11.pdf
IT445_Week_11.pdf
 
Modernising Data Architecture for Data Driven Insights (Chinese)
Modernising Data Architecture for Data Driven Insights (Chinese)Modernising Data Architecture for Data Driven Insights (Chinese)
Modernising Data Architecture for Data Driven Insights (Chinese)
 
Delta Lake Architecture: Delta Lake + Apache Spark Structured Streaming
Delta Lake Architecture: Delta Lake + Apache Spark Structured StreamingDelta Lake Architecture: Delta Lake + Apache Spark Structured Streaming
Delta Lake Architecture: Delta Lake + Apache Spark Structured Streaming
 
Hadoop
HadoopHadoop
Hadoop
 
課程1 1:雲端運算初探
課程1 1:雲端運算初探課程1 1:雲端運算初探
課程1 1:雲端運算初探
 
雲端技術的新趨勢
雲端技術的新趨勢雲端技術的新趨勢
雲端技術的新趨勢
 
Big Data, NoSQL, and MongoDB
Big Data, NoSQL, and MongoDBBig Data, NoSQL, and MongoDB
Big Data, NoSQL, and MongoDB
 
淺談 Kubernetes於大數據生態系的相關開發近況
淺談 Kubernetes於大數據生態系的相關開發近況淺談 Kubernetes於大數據生態系的相關開發近況
淺談 Kubernetes於大數據生態系的相關開發近況
 
Emc keynote 1130 1200
Emc keynote 1130 1200Emc keynote 1130 1200
Emc keynote 1130 1200
 
Hadoop Big Data 成功案例分享
Hadoop Big Data 成功案例分享Hadoop Big Data 成功案例分享
Hadoop Big Data 成功案例分享
 
Oracle db 12c 加速企业转型之十大功能
Oracle db 12c 加速企业转型之十大功能Oracle db 12c 加速企业转型之十大功能
Oracle db 12c 加速企业转型之十大功能
 
Hadoop development in China Mobile Research Institute
Hadoop development in China Mobile Research InstituteHadoop development in China Mobile Research Institute
Hadoop development in China Mobile Research Institute
 
High Throughput Computing Technologies
High Throughput Computing TechnologiesHigh Throughput Computing Technologies
High Throughput Computing Technologies
 
Big Data 101 一 一個充滿意圖與關聯世界的具體實現
Big Data 101 一 一個充滿意圖與關聯世界的具體實現Big Data 101 一 一個充滿意圖與關聯世界的具體實現
Big Data 101 一 一個充滿意圖與關聯世界的具體實現
 
Trinity BDM - 橋接傳統與未來
Trinity BDM - 橋接傳統與未來Trinity BDM - 橋接傳統與未來
Trinity BDM - 橋接傳統與未來
 

Data Engineering in Taiwan: PAST, NOW and FUTURE

  • 1. DataCon.TW 2019 Opening Data Engineering in Taiwan: PAST, NOW and FUTURE Jazz Yao-Tsung Wang Initiator and Chair of Taiwan Data Engineering Association Co-Founder of Taiwan Hadoop User Group Shared at 2019-09-06 DataCon.TW 2019 @ NTUH International Convention Center
  • 2. 1. Opening 開幕式 Before we start DataCon.TW 2019 …. 2
  • 4. 4 2018-10-03 What the Cloudera and Hortonworks merger means Will you still believe after DataCon.TW 2019 ?? 2019-08-06 HPE acquires the business assets of MapR2018-08-02 Arm acquires Treasure Data to set the stage for IoT transformation
  • 5. 5 Hit the bottom yet? https://www.facebook.com/photo.php?fbid=10205989049499660&set=a.3351956552057&type=3&theater
  • 6. 6 Data Talents are moving to Cloud Providers “解讀雲端大數據新趨勢 ”, Jazz Yao-Tsung Wang, 2018-05-16 @ iThome Cloud Summit 2018 https://www.slideshare.net/jazzwang/ss-97231624/19
  • 8. 沒有妳(你)們的支持,就沒有今日的盛況! Thanks for your support ~ DataCon.TW 2019 Committees 8 協會秘書長 Angie Chang 協會常務理事 Anna Yen 情義相挺小編 Kai-Ting Kao ASF member 葉祐欣 Evans Ye 超人氣講師 郭二文 ErhWen Kuo 協會秘書 徐薇妮 Winnie 協會常務理事 Bryan Yang
  • 10. 2. 台灣 大數據 十年回顧 與未來展望 Data Engineering in Taiwan: PAST, NOW and FUTURE 10 資料工程
  • 11. 11 Source: http://blog.evocator.org/2010/04/hype-chasm.html 2010 半導體 Semiconductor 2012 電信 Telecom 2012 電商 eCommerce 2015 金融 Finance 2018 製造 Manufactory 2008 萌芽 2014 零售 Retail 2015 支付 Mobile Payment 2015 遊戲 Gaming 2016 廣告 AdTech Data-driven Adoption Trend in Taiwan 基於我的職涯 與產業觀察 This is based on my personal experience 2016 封裝 Assembly / IC
  • 12. 12 “Gold mine” model of Data-driven Adoption Project Source: “Big Data Projet Management the Body of Knowledge (BDPMBOK)”, Jazz Wang, 2015-12-09 Big Data Conference https://www.slideshare.net/jazzwang/big-data-projet-management-the-body-of-knowledge-bdpmbok/12 Gold Mine (Data) Royalty (Access Right) Fineness of Gold (Value of Data) Refinery (Data Platform) TCO (Total cost of ownership) Global Gold Price (Value to Customer)
  • 13. 13 “Six Thinking Hats” of Data-driven Adoption Project Source: “Big Data Projet Management the Body of Knowledge (BDPMBOK)”, Jazz Wang, 2015-12-09 Big Data Conference https://www.slideshare.net/jazzwang/big-data-projet-management-the-body-of-knowledge-bdpmbok/12
  • 14. 14 2010~2014 半導體 Semiconductor Source: https://www.ithome.com.tw/news/92290 2000年,廠內開始蒐集機臺製程資料並分析 但跑一次分析就得要花上一個星期。 2011年之後,透過大資料分析技術,才明顯改善。 一個台積電12吋晶圓廠,每秒約產出100萬筆資料 每片晶圓完成需歷經千道製程,監測百萬筆資料 台積電在半導體大資料分析上, 主要包含了五個大資料應用範疇: ● 機臺控制(Tool Control) ● 機臺健康(Tool Healthy) ● 機臺生產力(Tool Productivity) ● 品質控管(Quality Control) ● 人員生產力(People Productivity)
  • 15. 15 商務問題 Problem 良率改善 Yield Rate Improvement → 機臺匹配 → 健康診斷 降低營運成本 OPEX ↓ 數據驅動 Data-Driven? Yes 資料來源 Data Source 內部資料 Internal Data 資料型態 Variety: Sensor , Image, Log 法規限制 Legality 擁有權 Ownership: Yes 處理權 Process Right: Yes 使用權 Access Right: Yes 含金度 Fineness 可靠度 Veracity: High (6 sigma) 內含答案: Yes (根據以前機台經驗推論) 平台架構 Platform 架構 Lambda Architecture (資料先落地整理後再分析) 技術挑戰: (生) High Data Write Throughput (析) 多變量 Multivariate -- too many columns 維運成本 TCO 人: 開發 Dev | 維運 Ops | 分析 Analysis | 決策 Expert 流程: 蒐集資料 → 前處理(整理) → 分析 → 建模/預測 → 反饋 技術: Hadoop/HBase → SPSS/SAS/R 永續條件: TCO << Diff of Lost(Yield Rate)
  • 16. 16 High Level Date Pipeline in Semiconductor Source: “製造業生產歷程全方位整合查詢與探勘的規劃心法 ”, Jazz Wang, 2015-05-20 https://www.slideshare.net/jazzwang/20150520-final
  • 17. “ 過去 20奈米 時代可以用 Lambda Architecture 資料落地後才做計算分析 現在進行式:預防性維護 Now: Predictive maintenance (更多近況留待 智慧製造 Keynote 講者分享 ...) 那 5 奈米製程 時代,資料通量與容量倍增, 網路/儲存/運算的比例與物理極限 是否會再次受到挑戰呢? 也許該改用 Streaming Processing? 17 反思 FUTURE ?
  • 18. 18 2011 ~ 2014 電信 Telecom Use Case Example 北區 路由 南區 路由 DUP DUP Header Header HBase MapReduce Billing Report Query UI
  • 19. 19 商務問題 Problem 數據用量 Billing for data network 數據驅動 Data-Driven? Yes 資料來源 Data Source 內部資料 Internal Data 資料型態 Variety: Packet Header 法規限制 Legality 擁有權 Ownership: No (Ex. Packet Payload) 處理權 Process Right: Yes 使用權 Access Right: Yes 含金度 Fineness 可靠度 Veracity: High 內含答案: Yes 平台架構 Platform 架構 Lambda Architecture (資料先落地整理後再查詢/報表) 技術挑戰: (生) High Data Write Throughput (算) High Volume Data Aggregation by Key 維運成本 TCO 人: 開發 Dev | 維運 Ops 流程: 蒐集資料 → 前處理(整理) → 查詢系統 / 帳單報表 技術: Hadoop/HBase 永續條件: TCO << Revenue(Data Network) 2011 ~ 2014 電信 Telecom
  • 20. “ 過去 3G/4G 時代可以用 Lambda Architecture 資料落地後才做計算分析 但未來 5G 時代呢?資料通量更高了~ 若要落地儲存,磁碟容量的寫入壓力更大 同樣的需求,或許改用 Streaming Processing 用 Kappa Architecture 比較有 C/P 值? 其次,5G 時代是否有其他 更具挑戰性的商務問題呢? 20 反思 FUTURE ?
  • 21. 21 商務問題 Problem 商品推薦 Recommendation / 再行銷 Retargeting 數據驅動 Data-Driven? Yes 資料來源 Data Source 內部資料 Internal Data 資料型態 Variety: Web Server Access Log 法規限制 Legality 擁有權 Ownership: ?? (Ex. 購物紀錄) 處理權 Process Right: Yes 使用權 Access Right: Yes 含金度 Fineness 可靠度 Veracity: High (實名制 - 購物紀錄) 內含答案: Yes (購物喜好 - 隨時間變化) 平台架構 Platform 架構 Lambda Architecture 技術挑戰: (生) High Data Write Throughput (算) High Volume Data Aggregation by Key 維運成本 TCO 人: 開發 Dev | 維運 Ops 流程: Cookie 日誌 → 前處理(整理) → 推薦引擎 → 商品版位 技術: Hadoop/Mahout 永續條件: TCO << Profit(Convert Rate) 電商/零售 eCommerce / Retail
  • 22. 22 商務問題 Problem 增加開戶數 Account Opening | 導購金融商品 客戶洞察 Customer 360 數據驅動 Data-Driven? Yes 資料來源 Data Source 內部資料 Internal Data → 異業結盟 → 交換外部資料 資料型態 Variety: 紙捲資料, 網銀日誌, etc. 法規限制 Legality 擁有權 Ownership: ?? (Ex. 金融交易紀錄) 處理權 Process Right: Yes 使用權 Access Right: Maybe (視開戶時是否同意聯合行銷) 含金度 Fineness 可靠度 Veracity: High (實名制 - 登入網銀後的瀏覽行為) 內含答案: Yes (投資偏好/特徵 - 隨人生階段變化) 平台架構 Platform 架構 Lambda Architecture 技術挑戰: (析) Data warehouse offload 維運成本 TCO 人: 開發 Dev | 維運 Ops 流程: 日誌 → 前處理(整理) → 資料倉儲 → 分析建模 → BI 技術: Hadoop/Hive/Sqoop/SAS/Impala 永續條件: TCO << LTV (Lifetime Value) 金融 Finance @ 2015~2016 (更多近況留待 數位金融 Keynote 講者分享 ...)
  • 23. 23 商務問題 Problem 增加點擊率 CTR | 透過即時競價 RTB 來取得超額利潤 受眾洞察 Audience 360 (DMP) 數據驅動 Data-Driven? Yes 資料來源 Data Source 內部資料 Internal Data → 外部資料 External (Ex. Google) 資料型態 Variety: RTB 平台服務日誌 Log (with Cookie) 法規限制 Legality 擁有權 Ownership: Maybe (Ex. 跨站瀏覽紀錄 - GDPR) 處理權 Process Right: Yes 使用權 Access Right: Maybe (視是否同意存 Cookie) 含金度 Fineness 可靠度 Veracity: Low (匿名制 - 靠 Tracking Pixel Cookie) 內含答案: Maybe (購物偏好/特徵 - 隨時間變化 - 銷售漏斗) 平台架構 Platform 架構 Lambda Architecture → Kappa Architecture 技術挑戰: (析) Cardianlity - 匿名受眾數量過高 維運成本 TCO 人: 開發 Dev | 維運 Ops | 廣告操盤手 流程: 日誌 → 前處理(整理) → 競價引擎 → 廣告成效報表 技術: Spark/NoSQL/Kafka/Machine Learning 永續條件: TCO << Profit 數位行銷 廣告 AdTech @ 2016~2018
  • 24. How about the FUTURE? 很快談了過去式與現在進行式 那未來式會是什麼? 24
  • 25. 25 老實說,我也說不準... 只能給些可能的方向/線索 Source: “Big Data Industry Insights”, Gartner, 2015-01-27 http://www.gartner.com/webinar/2931518 2015 Gartner US
  • 26. 26 Source: IEK Trends, 2019-09-05 http://iektrends.iek.org.tw/Client/page.aspx?page_id=5
  • 27. 27 Source: IEK Trends, 2019-09-05 http://iektrends.iek.org.tw/Client/page.aspx?page_id=5
  • 28. 28 人文溫度 / 剛需市場 / 智慧醫療?AI + Robot + 長照?
  • 29. 29 商務問題 Problem 病患洞察 Patient 360 數據驅動 Data-Driven? Yes 資料來源 Data Source 外部資料 External Data 資料型態 Variety: 財務 Financial (X12) / 病例 Clinical (HL7) 法規限制 Legality 擁有權 Ownership: No 處理權 Process Right: Yes 使用權 Access Right: Maybe (視病患是否同意) 含金度 Fineness 可靠度 Veracity: Medium (生態系破碎/髒資料/重複資料) 內含答案: Maybe (看應用目的) 平台架構 Platform 架構 Lambda Architecture 技術挑戰: (資安) Data Right Management (PCI/HIPAA) 維運成本 TCO 人: 開發 Dev | 維運 Ops 流程: 日誌 → 前處理(整理) → Data Lake → Marketplace 技術: Spark/Hive/Ranger 永續條件: TCO << Profit of Business Model 醫療支付 Healthcare Payment
  • 30. Q & A 歡迎掃描 QR Code 填寫年會 Keynote 滿意度調查 30