SlideShare a Scribd company logo
1 of 52
Download to read offline
Hadoop 生態系
十年回顧與未來發展
Jazz Yao-Tsung Wang
<http://about.me/jazzwang>
2016/12/05 Big Data Innovation Summit 2016 P. 1
About Me
• 王耀聰 Jazz Wang
• 現任 TenMax Data Architect
• 前 Etu Manager 產品協理
• Hadoop.TW 共同創辦人
• 連八屆 Hadoop 社群年會總召
• Hadoop The Definitive Guide 譯者 (2e, 3e, 4e)
• Hadoop Operations 譯者 (1e)
• 自由軟體愛好者 / 推廣者 / 開發者
• http://about.me/jazzwang - slideshare, github, etc.
2016/12/05 P. 2Big Data Innovation Summit 2016
2016/12/05 Big Data Innovation Summit 2016 P. 3
Hadoop 滿十歲~在台灣也推滿八年~
2006 年 2 月 2008 年 4 月
~$ whois hadoop.tw
Domain Name: hadoop.tw
Record created on 2008-04-28 (YYYY-MM-DD)
Hadoop 生態系十年間已成長到 25+ 個專案
2016/12/05 Big Data Innovation Summit 2016 P. 4
http://www.slideshare.net/cloudera/apache-hadoop-at-10-59397028
樂見:持續成長的生態系
隱憂:碎片化與重疊性
長江後浪推前浪
前浪死在沙灘上
避免過於技術導向,原本我比較想講的故事…
2016/12/05 Big Data Innovation Summit 2016 P. 5
Big Data
Hadoop 生態系 在台灣的十年興衰
如果您想了解技術演進,推薦閱讀:
2016/12/05 Big Data Innovation Summit 2016 P. 6
http://www.infoq.com/cn/articles/hadoop-ten-years-interpretation-and-development-forecast
Agenda
• 趨勢篇 Trend / Roadmap
• 企業導入 Hadoop 生態系的四個階段
• 社群篇 People / Community Insight
• 用數據看台灣 Hadoop 生態系的社群流轉
• 需求:台灣 Hadoop 近五年的職缺需求成長趨勢
• 供給:從 Hadoop.TW 到台灣資料工程社群
• 應用篇 Process / Use Cases
• 笑看台灣 Hadoop / Big Data 發展的十年興衰
• 需求:台灣 Hadoop 應用場景的變遷
• 供給:台灣 Hadoop 生態系供應商的變遷
• 技術篇 Technology
• Hadoop 3.0 的未來發展
2016/12/05 P. 7Big Data Innovation Summit 2016
Lesson Learn #1:
未來十年「數據變現力」才是決勝關鍵!
- 2014 - 陳昇瑋:企業是否需要導入 Big Data ,有無判斷準則?
- 2015 - 方法論:導入 Big Data 的六頂思考帽 (黃金模型)
- 2016 - 核心動機:不管技術怎麼變,重點是能否將數據變現
2016/12/05 Big Data Innovation Summit 2016 P. 8
2016 年剛好是”跨越鴻溝”的時間點
2016/12/05 Big Data Innovation Summit 2016 P. 9
企業導入 Hadoop 生態系的四個階段
2016/12/05 Big Data Innovation Summit 2016 P. 10
專案規劃
大數據
平台建置
大數據
平台資安
大數據
品質管制
台灣只有極少數
創新者在這個位置
Innovators
台灣開始有一些追隨者在這個位置
Early Majority
但往往問題是“剛開始蒐集數據”或
”剛開始思考如何讓數據產生價值”
台灣只有少數
先行者在這個位置
Early Adopters
與台灣 Hadoop 生態系的導入現況
導入 Hadoop 生態系到底是想要?還是需要?
2016/12/05 Big Data Innovation Summit 2016 P. 11
Open Data資料集
分析資料的合法性
資料鑑價?
個資法
商業模式
金礦
開採權
含金度
提煉廠 分析平台與工具軟體 SMAQ
開採成本 總擁有成本 軟硬體投資
國際金價 提供給客戶的價值 產品通路
Lesson Learn #2:
使用統計還是大數據,取決於資料特徵
2016/12/05 Big Data Innovation Summit 2016 P. 12
• 2014 - 陳昇瑋:企業是否需要導入 Big Data ,有無判斷準則?
http://www.cbdio.com/BigData/2015-10/12/content_3949024_all.htm
Objective
Function
Sample
Rate
取樣少數就有效果
請用統計
取樣多數會有效果
請用串流演算法
非得全算才有效果
請用批次框架
容許固定誤差
計算 TopK
到訪 URL
盡可能精準
對每個訪客
貼標籤
https://goo.gl/2KK7w0
Cardinality
Volume
Smart Data
Big Data 專案規劃的六頂思考帽
• 問題一:組織想要解決什麼商業問題 ?? ( Value )
可以用資料解決嗎 ?? ( 降低成本 or 增加收益 )
• 問題二:這些資料哪些是內部資料 ?? 哪些是外部資料??
該如何獲得 ?? 有哪些型態 ?? ( Variety )
• 問題三:分析這些資料是否合乎法規需求 ??
有無需要事先聲明的保護條款 ?? ( Legality )
• 問題四:驗證答案真的在這堆資料裡 ?? 資料是否可靠 ??
需要多少資料才能找到答案 ?? ( Volume , Veracity )
• 問題五:挑選合理的資料處理/分析平台 – 人、流程、技術
定義多快找到答案才能解決商業問題 ( Velocity )
• 問題六:定義效益評量指標 ( 怎麼算 ROI ?? 或 KPI 是什麼 ?? )
持續改善的時程藍圖 ( Validation , Roadmap )
2016/12/05 Big Data Innovation Summit 2016 P. 13
專案規劃
大數據平台建置的三個面向
2016/12/05 Big Data Innovation Summit 2016 P. 14
影片
自訂
Flume
HDFS
Map
Reduce
Hive
(Cold)
Mobile
App
照片
錄音
日誌檔 Log
網頁 HTML
交換檔
XML, Json
syslog
FTP
Scribe
Fluentd HBase
File Input /
Output
Format
FS
Shell
Web
HDFS
Thrift
Java
API
Pig
Mahout
Oozie
Impala
(Warm)
Sqoop
生 流 蒐 存 取 算 析 用 看
資料源 網路協定 前處理 儲存方式 存取方式 資料處理 資料分析 視覺化 解讀
變
行動
Engineer
(電機)
Network
(網通)
System
Admin
DBA
(資管)
Programmer
(資工)
Analyst
(統計)
Decision
Maker
企業內部的人力資源盤點 People
處理巨量資料的常見流程 Process
處理巨量資料的技術盤點 Technology
大數據
平台建置
若您對大數據專案規劃與平台建置有興趣…
2016/12/05 Big Data Innovation Summit 2016 P. 15
http://www.ithome.com.tw/news/101577
2015 年演講錄影 - https://youtu.be/o8zbNM_6K68
如果您對大數據平台資安現況有興趣…
2016/12/05 Big Data Innovation Summit 2016 P. 16
簡報檔 - https://goo.gl/mOcf96
HadoopCon 2016 演講錄影 - https://youtu.be/UJrhN7D5PD8
Agenda
• 趨勢篇 Trend / Roadmap
• 企業導入 Hadoop 生態系的四個階段
• 社群篇 People / Community Insight
• 用數據看台灣 Hadoop 生態系的社群流轉
• 需求:台灣 Hadoop 近五年的職缺需求成長趨勢
• 供給:從 Hadoop.TW 到台灣資料工程社群
• 應用篇 Process / Use Cases
• 笑看台灣 Hadoop / Big Data 發展的十年興衰
• 需求:台灣 Hadoop 應用場景的變遷
• 供給:台灣 Hadoop 生態系供應商的變遷
• 技術篇 Technology
• Hadoop 3.0 的未來發展
2016/12/05 P. 17Big Data Innovation Summit 2016
Lesson Learn #3:
資工資科新解~人格特質與商業模式迥異
- Data Engineer – Vendor Site – 基礎建設 – 銷售週期長 – 仰賴雄厚的資本
- Data Scientist – User Site – 領域知識 – 銷售週期短 – 仰賴創新與想像力
2016/12/05 Big Data Innovation Summit 2016 P. 18
資料工程
產品銷售週期長,需系統思維
喜歡解決不同客戶問題、懂得廣但不專
資料科學
產品銷售週期短,需領域知識
擅長找因果關聯,想像力強
設計 Data Pipeline 輔助商業決策
未來數據驅動的數位企業
需要對資料有手感的員工
產●銷●人●發●財
若你是企業 HR 或獵人頭顧問,
對手現況與潛力人才的數據資料其實藏在某些地方
2016/12/05 Big Data Innovation Summit 2016 P. 19
智慧製造
數位行銷 網路新創
數位金融以人為本
人是技術的載體
需求:台灣 Hadoop 近五年的職缺需求成長趨勢
• 資料來源:訂閱 Indeed 通知,台灣出現 Hadoop 的職缺
• 時間範圍:
• 2013/02/07~2016/12/03
2016/12/05 Big Data Innovation Summit 2016 P. 20
http://www.indeed.com/jobtrends/q-Hadoop.html
http://tw.indeed.com/jobs?q=Hadoop&l=Taiwan
以下是使用 Small Data
搭配統計技能就能達成的洞察
關鍵在於有沒想到使用外部資料
台灣 Hadoop 職缺的敘述統計結果
• 總信件量:839 則 ( 將 Gmail 匯出成 mbox 格式,再用 Python 分析)
• 總徵才量:2,179 個職缺
• 總徵才公司量:304 間 ( 尚未去除同義詞)
2016/12/05 Big Data Innovation Summit 2016 P. 21
台灣 Hadoop 徵才公司排行榜
2016/12/05 Big Data Innovation Summit 2016 P. 22
需要將同義詞
彙整在一起
台灣新蛋
台積電
願景網訊
PChome
HTC
愛爾達
關貿網路
台灣 Hadoop 職缺歷史趨勢圖
2016/12/05 Big Data Innovation Summit 2016 P. 23
台灣 Hadoop 徵才月份分析
2016/12/05 Big Data Innovation Summit 2016 P. 24
供給:從 Hadoop.TW 到台灣資料工程社群
• Hadoop.TW 社群有兩份資料可以分析
• Hadoop.TW Forum – since 2009 年 11 月
• Hadoop.TW 臉書粉絲團 – since 2012 年 3 月
• Hadoop.TW Forum 質量排行榜 (第一期)
• 總註冊人數:14829 位
• 活躍帳戶數:730 位(至少發過一篇討論文章) - 僅佔 4.9 %
• 文章總數: 6946 篇
• 主題總數: 1724 則 – 平均每個主題有 4 篇討論文章往返
• http://forum.hadoop.tw/memberlist.php?sk=d&sd=d
2016/12/05 Big Data Innovation Summit 2016 P. 25
這 730 位就是很好的獵才口袋名單
Hadoop.TW 臉書粉絲團 (第二期)
• 資料來源:粉絲團會員列表
• Hadoop.TW 臉書粉絲團共有 4813 名成員(@2016-12-03)
• Facebook Graph API 並沒有提供加入粉絲團的日期欄位
• 只好靠 HTML 的內容去解析加入日期、工作地點與學校
2016/12/05 Big Data Innovation Summit 2016 P. 26
加入時間
學校
任職公司
Hadoop.TW 臉書粉絲團「量」的分析
• 2013 年也曾分享過跨不同臉書粉絲團的 SNA 分析
• http://www.slideshare.net/jazzwang/ss-50602379
• 若要更好的獵才口袋名單,可做以下「質」的分析
• 找出曾經於粉絲團發文(post)、回文(comment)、按讚(like)的成員
• 使用以上資料建立成員與成員之間的關聯強度
2016/12/05 Big Data Innovation Summit 2016 P. 27
Hadoop.TW 臉書粉絲團成長曲線圖
2016/12/05 Big Data Innovation Summit 2016 P. 28
2016 年的成長量
已明顯趨緩
Hadoop.TW 臉書粉絲團依月份分析
2016/12/05 Big Data Innovation Summit 2016 P. 29
Hadoop.TW 臉書粉絲團依地理位置分析
2016/12/05 Big Data Innovation Summit 2016 P. 30
成員主要還是集中
在北台灣
台北
新竹
台中
台南 高雄
恰巧與台灣的
產業聚落相符
Hadoop.TW 臉書粉絲團依公司別分析
2016/12/05 Big Data Innovation Summit 2016 P. 31
資料還需要將
同義詞彙整在一起
趨勢科技
中研院
中華電信
知意圖
雅虎
工研院
遠傳電信
Hadoop.TW 臉書粉絲團依學校別分析
2016/12/05 Big Data Innovation Summit 2016 P. 32
資料還需要將
同義詞彙整在一起
台大
交大
成大
台科大
清華
台灣具國際認證的 Hadoop 生態系專才分析
• 需求:找出台灣通過 Cloudera (CCDH/CCAH) 認證的人數
• 資料來源:通過認證者會被加入一個 LinkedIn 隱藏群組
• 取得方法:
• 2015-05-12 起,LinkedIn 將開發者的 API 權限做了大幅度限縮
• 目前只能透過 LinkedIn 的搜尋介面才能取得名單
• 查詢結果:
• 目前台灣只有 62 位 Cloudera 認證登錄於 LinkedIn 上
2016/12/05 Big Data Innovation Summit 2016 P. 33
LinkedIn Advanced People Search
• 全美有 3837 位認證專才
• Cloudera (119),Apple ( 79)
Cognizant (68),eBay (55)
Hortonworks (47)
• 產業別
• IT、軟體、網路、金融服務與國防太空
2016/12/05 Big Data Innovation Summit 2016 P. 34
Agenda
• 趨勢篇 Trend / Roadmap
• 企業導入 Hadoop 生態系的四個階段
• 社群篇 People / Community Insight
• 用數據看台灣 Hadoop 生態系的社群流轉
• 需求:台灣 Hadoop 近五年的職缺需求成長趨勢
• 供給:從 Hadoop.TW 到台灣資料工程社群
• 應用篇 Process / Use Cases
• 笑看台灣 Hadoop / Big Data 發展的十年興衰
• 需求:台灣 Hadoop 應用場景的變遷
• 供給:台灣 Hadoop 生態系供應商的變遷
• 技術篇 Technology
• Hadoop 3.0 的未來發展
2016/12/05 P. 35Big Data Innovation Summit 2016
Lesson Learn #4:
Hadoop 應用已跨多產業,但台灣數位空洞令人憂心
2016/12/05 Big Data Innovation Summit 2016 P. 36
• 需求方:台灣產業導入 Hadoop 生態系的大略順序
• 電信 (2012) → 電商/零售/遊戲/內容 → 金融/製造/廣告 (2015)
• 供給方:從獨立新創,漸回歸系統整合(SI)商與代理商
“Big Data Industry Insights”, Gartner, 2015-01-27
http://www.gartner.com/webinar/2931518
Q: 全球不同產業對
Big Data 的需求與
投資排行榜?
通訊/媒體 > 醫療 > 交通 > 教育 > 保險 > 電力
> 銀行 > 零售 > 政府 > 製造
跟
台
灣
的
市
場
對
照
?
CUSTOMER NEEDS : BUSINESS PROBLEM
客戶想解決的商務問題是什麼?
“Big Data Industry Insights”, Gartner, 2015-01-27
http://www.gartner.com/webinar/2931518 39
CUSTOMER NEEDS : BUSINESS PROBLEM (1)
全球銀行業想要解決的首要問題….
“Big Data Industry Insights”, Gartner, 2015-01-27
http://www.gartner.com/webinar/2931518
1. 提升風險管理
2. 強化客戶體驗
3. 精準市場行銷
40
CUSTOMER NEEDS : BUSINESS PROBLEM (2)
全球保險業想要解決的首要問題….
“Big Data Industry Insights”, Gartner, 2015-01-27
http://www.gartner.com/webinar/2931518
1. 強化客戶體驗
2. 提升風險管理
3. 降低營運成本
41
CUSTOMER NEEDS : BUSINESS PROBLEM (3)
全球製造業想要解決的首要問題….
“Big Data Industry Insights”, Gartner, 2015-01-27
http://www.gartner.com/webinar/2931518
1. 提升製程效率
2. 降低成本支出
3. 強化客戶體驗
42
反思:大數據恐無法單獨形成產業,
但會是跨產業應用的基石
2016/12/05 Big Data Innovation Summit 2016 P. 43
• 2014 年曾分享「探析台灣巨量資料產業供應鏈串聯現況」
• http://www.slideshare.net/jazzwang/20141017
以電子發票為例
Hadoop 生態系將繼續扮演「數據驅動」的基石
• 2015 年 Gartner 讓 Big Data 從 Hype Cycle 畢業
• 2016 年漸漸體會到 Hadoop / Big Data 不是一個產業 (Industry),
比較接近是滿足「數據驅動」需求的垂直領域 (Vertical) 。
• 數位時代的商業需求:O2O 線上線下消費行為的虛實整合
• 縱使技術不斷演化,可預期 Hadoop 生態系仍會繼續存在。
2016/12/05 Big Data Innovation Summit 2016 P. 44
隱憂:台灣 Hadoop 生態系供應商日益式微
• 隱憂:
• 經濟不景氣與人才虹吸效應,台灣具技能的高手傾向外移海外
• 本土需求短期內將僅能靠系統整合商與國際大廠代理商來滿足
• 雖然系統整合商與代理商變多,但單一廠商的專業人力卻逐漸下滑
• 應對:人才培育與 Intern 職缺媒合、經驗分享與傳承
• 台灣資料科學協會 - http://foundation.datasci.tw/
• 那「資料工程」呢? - 「台灣資料工程協會」預備成立中
• 串聯 Hadoop.TW, Spark.TW, Flink.TW, Fluentd.TW 等本土社群
2016/12/05 Big Data Innovation Summit 2016 P. 45
臺灣資料
工程協會
Agenda
• 趨勢篇 Trend / Roadmap
• 企業導入 Hadoop 生態系的四個階段
• 社群篇 People / Community Insight
• 用數據看台灣 Hadoop 生態系的社群流轉
• 需求:台灣 Hadoop 近五年的職缺需求成長趨勢
• 供給:從 Hadoop.TW 到台灣資料工程社群
• 應用篇 Process / Use Cases
• 笑看台灣 Hadoop / Big Data 發展的十年興衰
• 需求:台灣 Hadoop 應用場景的變遷
• 供給:台灣 Hadoop 生態系供應商的變遷
• 技術篇 Technology
• Hadoop 3.0 的未來發展
2016/12/05 P. 46Big Data Innovation Summit 2016
Lesson Learn #5:
Spark 可能取代 MapReduce,HCFS 暫無法取代 HDFS
Big Data Innovation Summit 2016 P. 47
• Hadoop 生態系大致可分成
• 儲存層 Storage – HDFS vs. HCFS
• 中介管理層 Middleware – Mesos vs. YARN
• 運算引擎層 Computing Engine – Spark vs. MapReduce
• 應用層 Application – Ex. Hive / Kylin / Mahout …. etc
• 儲存層
• HDFS ( Hadoop Distribued File System )
• HCFS ( Hadoop Compatible File System )
• AWS S3 (s3://)
• Windows Azure Storage (was://)
• Google Cloud Storage
• Ceph ( ceph:// )
• Lustre …. etc
2016/12/05
Hadoop 3.0 Beta 釋出
2016/12/05 Big Data Innovation Summit 2016 P. 48
HCFS 頻譜
P. 49
Erasure CodingReplication
HDFS-HC
(Hadoop 3.0)
< Phase 1 >
< Phase 2 >
< Phase 3 >
適合小檔案
適合大檔案
儲存
效率佳
台數少時
可靠度佳
HCFS 為何暫時難以取代 HDFS
• 應用場景:Feature of Use Case
• Datawarehouse offload 大檔為主的特徵
• 資料在地性: Data Locality
• 原生 Hadoop 的精神是善用縮短儲存與運算距離的優勢
• 一旦將儲存與運算拆成兩座,效能上會有一定程度的衝擊
• 整合測試:Integration Test
• 當 Storage 層改變時,運算引擎的邏輯是否有對應的程式碼?
• 當運算引擎改變時,應用層的邏輯是否有對應的程式碼?
• 安全支援:Hadoop Security
• 當使用 Kerberos 與 Sentry 時,HCFS 的相容性如何?
• 更往上層,未來討論 Data Governance,同樣有相容性的疑慮
2016/12/05 Big Data Innovation Summit 2016 P. 50
今天未能涵蓋的技術趨勢
• 機器學習
• Hivemall 進入 Apache Incubate
• 串流運算
• Spark Streaming, Flink, Kafka Stream …
• SQL on Hadoop
• OLAP – Apache Kylin
2016/12/05 Big Data Innovation Summit 2016 P. 51
結語
Lesson Learn #1:
未來十年「數據變現力」才是決勝關鍵!
Lesson Learn #2:
使用統計還是大數據,取決於資料特徵!
Lesson Learn #3:
資工資科新解~人格特質與商業模式迥異
Lesson Learn #4:
應用已跨多產業,但數位空洞令人憂心!
Lesson Learn #5:
Spark 可能取代 MapReduce,HCFS 暫無法取代 HDFS
2016/12/05 Big Data Innovation Summit 2016 P. 52

More Related Content

What's hot

淺談台灣巨量資料產業發展現況
淺談台灣巨量資料產業發展現況淺談台灣巨量資料產業發展現況
淺談台灣巨量資料產業發展現況Jazz Yao-Tsung Wang
 
Big Data Taiwan 2014 Track1-3: Big Data, Big Challenge — Splunk 幫你解決 Big Data...
Big Data Taiwan 2014 Track1-3: Big Data, Big Challenge — Splunk 幫你解決 Big Data...Big Data Taiwan 2014 Track1-3: Big Data, Big Challenge — Splunk 幫你解決 Big Data...
Big Data Taiwan 2014 Track1-3: Big Data, Big Challenge — Splunk 幫你解決 Big Data...Etu Solution
 
淺談物聯網巨量資料挑戰 - Jazz 王耀聰 (2016/3/17 於鴻海內湖) 免費講座
淺談物聯網巨量資料挑戰 - Jazz 王耀聰 (2016/3/17 於鴻海內湖) 免費講座淺談物聯網巨量資料挑戰 - Jazz 王耀聰 (2016/3/17 於鴻海內湖) 免費講座
淺談物聯網巨量資料挑戰 - Jazz 王耀聰 (2016/3/17 於鴻海內湖) 免費講座NTC.im(Notch Training Center)
 
2016-07-12 Introduction to Big Data Platform Security
2016-07-12 Introduction to Big Data Platform Security2016-07-12 Introduction to Big Data Platform Security
2016-07-12 Introduction to Big Data Platform SecurityJazz Yao-Tsung Wang
 
2015-05-20 製造業生產歷程全方位整合查詢與探勘的規劃心法
2015-05-20 製造業生產歷程全方位整合查詢與探勘的規劃心法2015-05-20 製造業生產歷程全方位整合查詢與探勘的規劃心法
2015-05-20 製造業生產歷程全方位整合查詢與探勘的規劃心法Jazz Yao-Tsung Wang
 
Hadoop 與 SQL 的甜蜜連結
Hadoop 與 SQL 的甜蜜連結Hadoop 與 SQL 的甜蜜連結
Hadoop 與 SQL 的甜蜜連結James Chen
 
Hadoop 2.0 之古往今來
Hadoop 2.0 之古往今來Hadoop 2.0 之古往今來
Hadoop 2.0 之古往今來Wei-Yu Chen
 
Data Engineering in Taiwan: PAST, NOW and FUTURE
Data Engineering in Taiwan: PAST, NOW and FUTUREData Engineering in Taiwan: PAST, NOW and FUTURE
Data Engineering in Taiwan: PAST, NOW and FUTUREJazz Yao-Tsung Wang
 
Full Stack Monitoring with Prometheus and Grafana (Updated)
Full Stack Monitoring with Prometheus and Grafana (Updated)Full Stack Monitoring with Prometheus and Grafana (Updated)
Full Stack Monitoring with Prometheus and Grafana (Updated)Jazz Yao-Tsung Wang
 
Track A-1: Cloudera 大數據產品和技術最前沿資訊報告
Track A-1: Cloudera 大數據產品和技術最前沿資訊報告Track A-1: Cloudera 大數據產品和技術最前沿資訊報告
Track A-1: Cloudera 大數據產品和技術最前沿資訊報告Etu Solution
 
翟艳堂:腾讯大规模Hadoop集群实践
翟艳堂:腾讯大规模Hadoop集群实践翟艳堂:腾讯大规模Hadoop集群实践
翟艳堂:腾讯大规模Hadoop集群实践hdhappy001
 
罗李:构建一个跨机房的Hadoop集群
罗李:构建一个跨机房的Hadoop集群罗李:构建一个跨机房的Hadoop集群
罗李:构建一个跨机房的Hadoop集群hdhappy001
 
Hadoop大数据实践经验
Hadoop大数据实践经验Hadoop大数据实践经验
Hadoop大数据实践经验Schubert Zhang
 
Azure HDInsight 介紹
Azure HDInsight 介紹Azure HDInsight 介紹
Azure HDInsight 介紹Herman Wu
 
Track A-3 Enterprise Data Lake in Action - 搭建「活」的企業 Big Data 生態架構
Track A-3 Enterprise Data Lake in Action - 搭建「活」的企業 Big Data 生態架構Track A-3 Enterprise Data Lake in Action - 搭建「活」的企業 Big Data 生態架構
Track A-3 Enterprise Data Lake in Action - 搭建「活」的企業 Big Data 生態架構Etu Solution
 
那些你知道的,但還沒看過的 Big Data 風景 ─ 致 Hadooper
那些你知道的,但還沒看過的 Big Data 風景 ─ 致 Hadooper那些你知道的,但還沒看過的 Big Data 風景 ─ 致 Hadooper
那些你知道的,但還沒看過的 Big Data 風景 ─ 致 HadooperFred Chiang
 
唯品会大数据实践 Sacc pub
唯品会大数据实践 Sacc pub唯品会大数据实践 Sacc pub
唯品会大数据实践 Sacc pubChao Zhu
 

What's hot (20)

淺談台灣巨量資料產業發展現況
淺談台灣巨量資料產業發展現況淺談台灣巨量資料產業發展現況
淺談台灣巨量資料產業發展現況
 
Life of Big Data Technologies
Life of Big Data TechnologiesLife of Big Data Technologies
Life of Big Data Technologies
 
Big Data Taiwan 2014 Track1-3: Big Data, Big Challenge — Splunk 幫你解決 Big Data...
Big Data Taiwan 2014 Track1-3: Big Data, Big Challenge — Splunk 幫你解決 Big Data...Big Data Taiwan 2014 Track1-3: Big Data, Big Challenge — Splunk 幫你解決 Big Data...
Big Data Taiwan 2014 Track1-3: Big Data, Big Challenge — Splunk 幫你解決 Big Data...
 
淺談物聯網巨量資料挑戰 - Jazz 王耀聰 (2016/3/17 於鴻海內湖) 免費講座
淺談物聯網巨量資料挑戰 - Jazz 王耀聰 (2016/3/17 於鴻海內湖) 免費講座淺談物聯網巨量資料挑戰 - Jazz 王耀聰 (2016/3/17 於鴻海內湖) 免費講座
淺談物聯網巨量資料挑戰 - Jazz 王耀聰 (2016/3/17 於鴻海內湖) 免費講座
 
2016-07-12 Introduction to Big Data Platform Security
2016-07-12 Introduction to Big Data Platform Security2016-07-12 Introduction to Big Data Platform Security
2016-07-12 Introduction to Big Data Platform Security
 
2015-05-20 製造業生產歷程全方位整合查詢與探勘的規劃心法
2015-05-20 製造業生產歷程全方位整合查詢與探勘的規劃心法2015-05-20 製造業生產歷程全方位整合查詢與探勘的規劃心法
2015-05-20 製造業生產歷程全方位整合查詢與探勘的規劃心法
 
Hadoop 與 SQL 的甜蜜連結
Hadoop 與 SQL 的甜蜜連結Hadoop 與 SQL 的甜蜜連結
Hadoop 與 SQL 的甜蜜連結
 
Hadoop 2.0 之古往今來
Hadoop 2.0 之古往今來Hadoop 2.0 之古往今來
Hadoop 2.0 之古往今來
 
Data Engineering in Taiwan: PAST, NOW and FUTURE
Data Engineering in Taiwan: PAST, NOW and FUTUREData Engineering in Taiwan: PAST, NOW and FUTURE
Data Engineering in Taiwan: PAST, NOW and FUTURE
 
大數據
大數據大數據
大數據
 
Full Stack Monitoring with Prometheus and Grafana (Updated)
Full Stack Monitoring with Prometheus and Grafana (Updated)Full Stack Monitoring with Prometheus and Grafana (Updated)
Full Stack Monitoring with Prometheus and Grafana (Updated)
 
Track A-1: Cloudera 大數據產品和技術最前沿資訊報告
Track A-1: Cloudera 大數據產品和技術最前沿資訊報告Track A-1: Cloudera 大數據產品和技術最前沿資訊報告
Track A-1: Cloudera 大數據產品和技術最前沿資訊報告
 
Hadoop 介紹 20141024
Hadoop 介紹 20141024Hadoop 介紹 20141024
Hadoop 介紹 20141024
 
翟艳堂:腾讯大规模Hadoop集群实践
翟艳堂:腾讯大规模Hadoop集群实践翟艳堂:腾讯大规模Hadoop集群实践
翟艳堂:腾讯大规模Hadoop集群实践
 
罗李:构建一个跨机房的Hadoop集群
罗李:构建一个跨机房的Hadoop集群罗李:构建一个跨机房的Hadoop集群
罗李:构建一个跨机房的Hadoop集群
 
Hadoop大数据实践经验
Hadoop大数据实践经验Hadoop大数据实践经验
Hadoop大数据实践经验
 
Azure HDInsight 介紹
Azure HDInsight 介紹Azure HDInsight 介紹
Azure HDInsight 介紹
 
Track A-3 Enterprise Data Lake in Action - 搭建「活」的企業 Big Data 生態架構
Track A-3 Enterprise Data Lake in Action - 搭建「活」的企業 Big Data 生態架構Track A-3 Enterprise Data Lake in Action - 搭建「活」的企業 Big Data 生態架構
Track A-3 Enterprise Data Lake in Action - 搭建「活」的企業 Big Data 生態架構
 
那些你知道的,但還沒看過的 Big Data 風景 ─ 致 Hadooper
那些你知道的,但還沒看過的 Big Data 風景 ─ 致 Hadooper那些你知道的,但還沒看過的 Big Data 風景 ─ 致 Hadooper
那些你知道的,但還沒看過的 Big Data 風景 ─ 致 Hadooper
 
唯品会大数据实践 Sacc pub
唯品会大数据实践 Sacc pub唯品会大数据实践 Sacc pub
唯品会大数据实践 Sacc pub
 

Similar to Hadoop 生態系十年回顧與未來展望

那些你知道的,但還沒看過的 Big Data 風景
那些你知道的,但還沒看過的 Big Data 風景那些你知道的,但還沒看過的 Big Data 風景
那些你知道的,但還沒看過的 Big Data 風景Etu Solution
 
淺談台灣巨量資料產業供應鏈串聯現況
淺談台灣巨量資料產業供應鏈串聯現況淺談台灣巨量資料產業供應鏈串聯現況
淺談台灣巨量資料產業供應鏈串聯現況Jazz Yao-Tsung Wang
 
台灣 Hadoop Big Data 2014 趨勢預測與企業策略藍圖
台灣 Hadoop Big Data 2014 趨勢預測與企業策略藍圖台灣 Hadoop Big Data 2014 趨勢預測與企業策略藍圖
台灣 Hadoop Big Data 2014 趨勢預測與企業策略藍圖Etu Solution
 
IT445_Week_11.pdf
IT445_Week_11.pdfIT445_Week_11.pdf
IT445_Week_11.pdfAiondBdkpt
 
How Enterprises Leverage Data to Overcome Business Challenges During Coronavirus
How Enterprises Leverage Data to Overcome Business Challenges During CoronavirusHow Enterprises Leverage Data to Overcome Business Challenges During Coronavirus
How Enterprises Leverage Data to Overcome Business Challenges During CoronavirusDenodo
 
逻辑数据编织 – 构建先进的现代企业数据架构
逻辑数据编织 – 构建先进的现代企业数据架构逻辑数据编织 – 构建先进的现代企业数据架构
逻辑数据编织 – 构建先进的现代企业数据架构Denodo
 
如何快速实现数据编织架构
如何快速实现数据编织架构如何快速实现数据编织架构
如何快速实现数据编织架构Denodo
 
資料價值 — 一位資料產品經理的視野
資料價值 — 一位資料產品經理的視野資料價值 — 一位資料產品經理的視野
資料價值 — 一位資料產品經理的視野Fred Chiang
 
數據驅動的創新行動方案—中小企業數位轉型與人力資本策略 (摩方人力資本銀行20190627)
數據驅動的創新行動方案—中小企業數位轉型與人力資本策略 (摩方人力資本銀行20190627)數據驅動的創新行動方案—中小企業數位轉型與人力資本策略 (摩方人力資本銀行20190627)
數據驅動的創新行動方案—中小企業數位轉型與人力資本策略 (摩方人力資本銀行20190627)張大明 Ta-Ming Chang
 
Leverage Modern Enterprise Architecture To Speed Up Work Resumption
Leverage Modern Enterprise Architecture To Speed Up Work ResumptionLeverage Modern Enterprise Architecture To Speed Up Work Resumption
Leverage Modern Enterprise Architecture To Speed Up Work ResumptionDenodo
 
Way to big date 資策會李進寶所長 20120620
Way to big date 資策會李進寶所長 20120620Way to big date 資策會李進寶所長 20120620
Way to big date 資策會李進寶所長 20120620Lawrence Huang
 
Hadoop Big Data 成功案例分享
Hadoop Big Data 成功案例分享Hadoop Big Data 成功案例分享
Hadoop Big Data 成功案例分享Etu Solution
 
Data without Boundaries - 圍繞第一方數據,找到商業驅動力
Data without Boundaries - 圍繞第一方數據,找到商業驅動力Data without Boundaries - 圍繞第一方數據,找到商業驅動力
Data without Boundaries - 圍繞第一方數據,找到商業驅動力Etu Solution
 
Bigdata bizoppor
Bigdata bizopporBigdata bizoppor
Bigdata bizopporAccenture
 
Modernising Data Architecture for Data Driven Insights (Chinese)
Modernising Data Architecture for Data Driven Insights (Chinese)Modernising Data Architecture for Data Driven Insights (Chinese)
Modernising Data Architecture for Data Driven Insights (Chinese)Denodo
 
Big Data 現象,以及現象中的我們
Big Data 現象,以及現象中的我們Big Data 現象,以及現象中的我們
Big Data 現象,以及現象中的我們Fred Chiang
 

Similar to Hadoop 生態系十年回顧與未來展望 (20)

那些你知道的,但還沒看過的 Big Data 風景
那些你知道的,但還沒看過的 Big Data 風景那些你知道的,但還沒看過的 Big Data 風景
那些你知道的,但還沒看過的 Big Data 風景
 
淺談台灣巨量資料產業供應鏈串聯現況
淺談台灣巨量資料產業供應鏈串聯現況淺談台灣巨量資料產業供應鏈串聯現況
淺談台灣巨量資料產業供應鏈串聯現況
 
台灣 Hadoop Big Data 2014 趨勢預測與企業策略藍圖
台灣 Hadoop Big Data 2014 趨勢預測與企業策略藍圖台灣 Hadoop Big Data 2014 趨勢預測與企業策略藍圖
台灣 Hadoop Big Data 2014 趨勢預測與企業策略藍圖
 
IT445_Week_11.pdf
IT445_Week_11.pdfIT445_Week_11.pdf
IT445_Week_11.pdf
 
How Enterprises Leverage Data to Overcome Business Challenges During Coronavirus
How Enterprises Leverage Data to Overcome Business Challenges During CoronavirusHow Enterprises Leverage Data to Overcome Business Challenges During Coronavirus
How Enterprises Leverage Data to Overcome Business Challenges During Coronavirus
 
逻辑数据编织 – 构建先进的现代企业数据架构
逻辑数据编织 – 构建先进的现代企业数据架构逻辑数据编织 – 构建先进的现代企业数据架构
逻辑数据编织 – 构建先进的现代企业数据架构
 
如何快速实现数据编织架构
如何快速实现数据编织架构如何快速实现数据编织架构
如何快速实现数据编织架构
 
資料價值 — 一位資料產品經理的視野
資料價值 — 一位資料產品經理的視野資料價值 — 一位資料產品經理的視野
資料價值 — 一位資料產品經理的視野
 
數據驅動的創新行動方案—中小企業數位轉型與人力資本策略 (摩方人力資本銀行20190627)
數據驅動的創新行動方案—中小企業數位轉型與人力資本策略 (摩方人力資本銀行20190627)數據驅動的創新行動方案—中小企業數位轉型與人力資本策略 (摩方人力資本銀行20190627)
數據驅動的創新行動方案—中小企業數位轉型與人力資本策略 (摩方人力資本銀行20190627)
 
Leverage Modern Enterprise Architecture To Speed Up Work Resumption
Leverage Modern Enterprise Architecture To Speed Up Work ResumptionLeverage Modern Enterprise Architecture To Speed Up Work Resumption
Leverage Modern Enterprise Architecture To Speed Up Work Resumption
 
Way to big date 資策會李進寶所長 20120620
Way to big date 資策會李進寶所長 20120620Way to big date 資策會李進寶所長 20120620
Way to big date 資策會李進寶所長 20120620
 
Datablau Overall.pdf
Datablau Overall.pdfDatablau Overall.pdf
Datablau Overall.pdf
 
Hadoop
HadoopHadoop
Hadoop
 
Hadoop Big Data 成功案例分享
Hadoop Big Data 成功案例分享Hadoop Big Data 成功案例分享
Hadoop Big Data 成功案例分享
 
Data without Boundaries - 圍繞第一方數據,找到商業驅動力
Data without Boundaries - 圍繞第一方數據,找到商業驅動力Data without Boundaries - 圍繞第一方數據,找到商業驅動力
Data without Boundaries - 圍繞第一方數據,找到商業驅動力
 
Bigdata bizoppor
Bigdata bizopporBigdata bizoppor
Bigdata bizoppor
 
Modernising Data Architecture for Data Driven Insights (Chinese)
Modernising Data Architecture for Data Driven Insights (Chinese)Modernising Data Architecture for Data Driven Insights (Chinese)
Modernising Data Architecture for Data Driven Insights (Chinese)
 
Ptmind
PtmindPtmind
Ptmind
 
Big Data Communities in Taiwan
Big Data Communities in TaiwanBig Data Communities in Taiwan
Big Data Communities in Taiwan
 
Big Data 現象,以及現象中的我們
Big Data 現象,以及現象中的我們Big Data 現象,以及現象中的我們
Big Data 現象,以及現象中的我們
 

Hadoop 生態系十年回顧與未來展望

  • 1. Hadoop 生態系 十年回顧與未來發展 Jazz Yao-Tsung Wang <http://about.me/jazzwang> 2016/12/05 Big Data Innovation Summit 2016 P. 1
  • 2. About Me • 王耀聰 Jazz Wang • 現任 TenMax Data Architect • 前 Etu Manager 產品協理 • Hadoop.TW 共同創辦人 • 連八屆 Hadoop 社群年會總召 • Hadoop The Definitive Guide 譯者 (2e, 3e, 4e) • Hadoop Operations 譯者 (1e) • 自由軟體愛好者 / 推廣者 / 開發者 • http://about.me/jazzwang - slideshare, github, etc. 2016/12/05 P. 2Big Data Innovation Summit 2016
  • 3. 2016/12/05 Big Data Innovation Summit 2016 P. 3 Hadoop 滿十歲~在台灣也推滿八年~ 2006 年 2 月 2008 年 4 月 ~$ whois hadoop.tw Domain Name: hadoop.tw Record created on 2008-04-28 (YYYY-MM-DD)
  • 4. Hadoop 生態系十年間已成長到 25+ 個專案 2016/12/05 Big Data Innovation Summit 2016 P. 4 http://www.slideshare.net/cloudera/apache-hadoop-at-10-59397028 樂見:持續成長的生態系 隱憂:碎片化與重疊性 長江後浪推前浪 前浪死在沙灘上
  • 5. 避免過於技術導向,原本我比較想講的故事… 2016/12/05 Big Data Innovation Summit 2016 P. 5 Big Data Hadoop 生態系 在台灣的十年興衰
  • 6. 如果您想了解技術演進,推薦閱讀: 2016/12/05 Big Data Innovation Summit 2016 P. 6 http://www.infoq.com/cn/articles/hadoop-ten-years-interpretation-and-development-forecast
  • 7. Agenda • 趨勢篇 Trend / Roadmap • 企業導入 Hadoop 生態系的四個階段 • 社群篇 People / Community Insight • 用數據看台灣 Hadoop 生態系的社群流轉 • 需求:台灣 Hadoop 近五年的職缺需求成長趨勢 • 供給:從 Hadoop.TW 到台灣資料工程社群 • 應用篇 Process / Use Cases • 笑看台灣 Hadoop / Big Data 發展的十年興衰 • 需求:台灣 Hadoop 應用場景的變遷 • 供給:台灣 Hadoop 生態系供應商的變遷 • 技術篇 Technology • Hadoop 3.0 的未來發展 2016/12/05 P. 7Big Data Innovation Summit 2016
  • 8. Lesson Learn #1: 未來十年「數據變現力」才是決勝關鍵! - 2014 - 陳昇瑋:企業是否需要導入 Big Data ,有無判斷準則? - 2015 - 方法論:導入 Big Data 的六頂思考帽 (黃金模型) - 2016 - 核心動機:不管技術怎麼變,重點是能否將數據變現 2016/12/05 Big Data Innovation Summit 2016 P. 8
  • 10. 企業導入 Hadoop 生態系的四個階段 2016/12/05 Big Data Innovation Summit 2016 P. 10 專案規劃 大數據 平台建置 大數據 平台資安 大數據 品質管制 台灣只有極少數 創新者在這個位置 Innovators 台灣開始有一些追隨者在這個位置 Early Majority 但往往問題是“剛開始蒐集數據”或 ”剛開始思考如何讓數據產生價值” 台灣只有少數 先行者在這個位置 Early Adopters 與台灣 Hadoop 生態系的導入現況
  • 11. 導入 Hadoop 生態系到底是想要?還是需要? 2016/12/05 Big Data Innovation Summit 2016 P. 11 Open Data資料集 分析資料的合法性 資料鑑價? 個資法 商業模式 金礦 開採權 含金度 提煉廠 分析平台與工具軟體 SMAQ 開採成本 總擁有成本 軟硬體投資 國際金價 提供給客戶的價值 產品通路
  • 12. Lesson Learn #2: 使用統計還是大數據,取決於資料特徵 2016/12/05 Big Data Innovation Summit 2016 P. 12 • 2014 - 陳昇瑋:企業是否需要導入 Big Data ,有無判斷準則? http://www.cbdio.com/BigData/2015-10/12/content_3949024_all.htm Objective Function Sample Rate 取樣少數就有效果 請用統計 取樣多數會有效果 請用串流演算法 非得全算才有效果 請用批次框架 容許固定誤差 計算 TopK 到訪 URL 盡可能精準 對每個訪客 貼標籤 https://goo.gl/2KK7w0 Cardinality Volume Smart Data
  • 13. Big Data 專案規劃的六頂思考帽 • 問題一:組織想要解決什麼商業問題 ?? ( Value ) 可以用資料解決嗎 ?? ( 降低成本 or 增加收益 ) • 問題二:這些資料哪些是內部資料 ?? 哪些是外部資料?? 該如何獲得 ?? 有哪些型態 ?? ( Variety ) • 問題三:分析這些資料是否合乎法規需求 ?? 有無需要事先聲明的保護條款 ?? ( Legality ) • 問題四:驗證答案真的在這堆資料裡 ?? 資料是否可靠 ?? 需要多少資料才能找到答案 ?? ( Volume , Veracity ) • 問題五:挑選合理的資料處理/分析平台 – 人、流程、技術 定義多快找到答案才能解決商業問題 ( Velocity ) • 問題六:定義效益評量指標 ( 怎麼算 ROI ?? 或 KPI 是什麼 ?? ) 持續改善的時程藍圖 ( Validation , Roadmap ) 2016/12/05 Big Data Innovation Summit 2016 P. 13 專案規劃
  • 14. 大數據平台建置的三個面向 2016/12/05 Big Data Innovation Summit 2016 P. 14 影片 自訂 Flume HDFS Map Reduce Hive (Cold) Mobile App 照片 錄音 日誌檔 Log 網頁 HTML 交換檔 XML, Json syslog FTP Scribe Fluentd HBase File Input / Output Format FS Shell Web HDFS Thrift Java API Pig Mahout Oozie Impala (Warm) Sqoop 生 流 蒐 存 取 算 析 用 看 資料源 網路協定 前處理 儲存方式 存取方式 資料處理 資料分析 視覺化 解讀 變 行動 Engineer (電機) Network (網通) System Admin DBA (資管) Programmer (資工) Analyst (統計) Decision Maker 企業內部的人力資源盤點 People 處理巨量資料的常見流程 Process 處理巨量資料的技術盤點 Technology 大數據 平台建置
  • 15. 若您對大數據專案規劃與平台建置有興趣… 2016/12/05 Big Data Innovation Summit 2016 P. 15 http://www.ithome.com.tw/news/101577 2015 年演講錄影 - https://youtu.be/o8zbNM_6K68
  • 16. 如果您對大數據平台資安現況有興趣… 2016/12/05 Big Data Innovation Summit 2016 P. 16 簡報檔 - https://goo.gl/mOcf96 HadoopCon 2016 演講錄影 - https://youtu.be/UJrhN7D5PD8
  • 17. Agenda • 趨勢篇 Trend / Roadmap • 企業導入 Hadoop 生態系的四個階段 • 社群篇 People / Community Insight • 用數據看台灣 Hadoop 生態系的社群流轉 • 需求:台灣 Hadoop 近五年的職缺需求成長趨勢 • 供給:從 Hadoop.TW 到台灣資料工程社群 • 應用篇 Process / Use Cases • 笑看台灣 Hadoop / Big Data 發展的十年興衰 • 需求:台灣 Hadoop 應用場景的變遷 • 供給:台灣 Hadoop 生態系供應商的變遷 • 技術篇 Technology • Hadoop 3.0 的未來發展 2016/12/05 P. 17Big Data Innovation Summit 2016
  • 18. Lesson Learn #3: 資工資科新解~人格特質與商業模式迥異 - Data Engineer – Vendor Site – 基礎建設 – 銷售週期長 – 仰賴雄厚的資本 - Data Scientist – User Site – 領域知識 – 銷售週期短 – 仰賴創新與想像力 2016/12/05 Big Data Innovation Summit 2016 P. 18 資料工程 產品銷售週期長,需系統思維 喜歡解決不同客戶問題、懂得廣但不專 資料科學 產品銷售週期短,需領域知識 擅長找因果關聯,想像力強 設計 Data Pipeline 輔助商業決策
  • 20. 需求:台灣 Hadoop 近五年的職缺需求成長趨勢 • 資料來源:訂閱 Indeed 通知,台灣出現 Hadoop 的職缺 • 時間範圍: • 2013/02/07~2016/12/03 2016/12/05 Big Data Innovation Summit 2016 P. 20 http://www.indeed.com/jobtrends/q-Hadoop.html http://tw.indeed.com/jobs?q=Hadoop&l=Taiwan 以下是使用 Small Data 搭配統計技能就能達成的洞察 關鍵在於有沒想到使用外部資料
  • 21. 台灣 Hadoop 職缺的敘述統計結果 • 總信件量:839 則 ( 將 Gmail 匯出成 mbox 格式,再用 Python 分析) • 總徵才量:2,179 個職缺 • 總徵才公司量:304 間 ( 尚未去除同義詞) 2016/12/05 Big Data Innovation Summit 2016 P. 21
  • 22. 台灣 Hadoop 徵才公司排行榜 2016/12/05 Big Data Innovation Summit 2016 P. 22 需要將同義詞 彙整在一起 台灣新蛋 台積電 願景網訊 PChome HTC 愛爾達 關貿網路
  • 23. 台灣 Hadoop 職缺歷史趨勢圖 2016/12/05 Big Data Innovation Summit 2016 P. 23
  • 24. 台灣 Hadoop 徵才月份分析 2016/12/05 Big Data Innovation Summit 2016 P. 24
  • 25. 供給:從 Hadoop.TW 到台灣資料工程社群 • Hadoop.TW 社群有兩份資料可以分析 • Hadoop.TW Forum – since 2009 年 11 月 • Hadoop.TW 臉書粉絲團 – since 2012 年 3 月 • Hadoop.TW Forum 質量排行榜 (第一期) • 總註冊人數:14829 位 • 活躍帳戶數:730 位(至少發過一篇討論文章) - 僅佔 4.9 % • 文章總數: 6946 篇 • 主題總數: 1724 則 – 平均每個主題有 4 篇討論文章往返 • http://forum.hadoop.tw/memberlist.php?sk=d&sd=d 2016/12/05 Big Data Innovation Summit 2016 P. 25 這 730 位就是很好的獵才口袋名單
  • 26. Hadoop.TW 臉書粉絲團 (第二期) • 資料來源:粉絲團會員列表 • Hadoop.TW 臉書粉絲團共有 4813 名成員(@2016-12-03) • Facebook Graph API 並沒有提供加入粉絲團的日期欄位 • 只好靠 HTML 的內容去解析加入日期、工作地點與學校 2016/12/05 Big Data Innovation Summit 2016 P. 26 加入時間 學校 任職公司
  • 27. Hadoop.TW 臉書粉絲團「量」的分析 • 2013 年也曾分享過跨不同臉書粉絲團的 SNA 分析 • http://www.slideshare.net/jazzwang/ss-50602379 • 若要更好的獵才口袋名單,可做以下「質」的分析 • 找出曾經於粉絲團發文(post)、回文(comment)、按讚(like)的成員 • 使用以上資料建立成員與成員之間的關聯強度 2016/12/05 Big Data Innovation Summit 2016 P. 27
  • 28. Hadoop.TW 臉書粉絲團成長曲線圖 2016/12/05 Big Data Innovation Summit 2016 P. 28 2016 年的成長量 已明顯趨緩
  • 29. Hadoop.TW 臉書粉絲團依月份分析 2016/12/05 Big Data Innovation Summit 2016 P. 29
  • 30. Hadoop.TW 臉書粉絲團依地理位置分析 2016/12/05 Big Data Innovation Summit 2016 P. 30 成員主要還是集中 在北台灣 台北 新竹 台中 台南 高雄 恰巧與台灣的 產業聚落相符
  • 31. Hadoop.TW 臉書粉絲團依公司別分析 2016/12/05 Big Data Innovation Summit 2016 P. 31 資料還需要將 同義詞彙整在一起 趨勢科技 中研院 中華電信 知意圖 雅虎 工研院 遠傳電信
  • 32. Hadoop.TW 臉書粉絲團依學校別分析 2016/12/05 Big Data Innovation Summit 2016 P. 32 資料還需要將 同義詞彙整在一起 台大 交大 成大 台科大 清華
  • 33. 台灣具國際認證的 Hadoop 生態系專才分析 • 需求:找出台灣通過 Cloudera (CCDH/CCAH) 認證的人數 • 資料來源:通過認證者會被加入一個 LinkedIn 隱藏群組 • 取得方法: • 2015-05-12 起,LinkedIn 將開發者的 API 權限做了大幅度限縮 • 目前只能透過 LinkedIn 的搜尋介面才能取得名單 • 查詢結果: • 目前台灣只有 62 位 Cloudera 認證登錄於 LinkedIn 上 2016/12/05 Big Data Innovation Summit 2016 P. 33
  • 34. LinkedIn Advanced People Search • 全美有 3837 位認證專才 • Cloudera (119),Apple ( 79) Cognizant (68),eBay (55) Hortonworks (47) • 產業別 • IT、軟體、網路、金融服務與國防太空 2016/12/05 Big Data Innovation Summit 2016 P. 34
  • 35. Agenda • 趨勢篇 Trend / Roadmap • 企業導入 Hadoop 生態系的四個階段 • 社群篇 People / Community Insight • 用數據看台灣 Hadoop 生態系的社群流轉 • 需求:台灣 Hadoop 近五年的職缺需求成長趨勢 • 供給:從 Hadoop.TW 到台灣資料工程社群 • 應用篇 Process / Use Cases • 笑看台灣 Hadoop / Big Data 發展的十年興衰 • 需求:台灣 Hadoop 應用場景的變遷 • 供給:台灣 Hadoop 生態系供應商的變遷 • 技術篇 Technology • Hadoop 3.0 的未來發展 2016/12/05 P. 35Big Data Innovation Summit 2016
  • 36. Lesson Learn #4: Hadoop 應用已跨多產業,但台灣數位空洞令人憂心 2016/12/05 Big Data Innovation Summit 2016 P. 36 • 需求方:台灣產業導入 Hadoop 生態系的大略順序 • 電信 (2012) → 電商/零售/遊戲/內容 → 金融/製造/廣告 (2015) • 供給方:從獨立新創,漸回歸系統整合(SI)商與代理商
  • 37. “Big Data Industry Insights”, Gartner, 2015-01-27 http://www.gartner.com/webinar/2931518 Q: 全球不同產業對 Big Data 的需求與 投資排行榜?
  • 38. 通訊/媒體 > 醫療 > 交通 > 教育 > 保險 > 電力 > 銀行 > 零售 > 政府 > 製造 跟 台 灣 的 市 場 對 照 ?
  • 39. CUSTOMER NEEDS : BUSINESS PROBLEM 客戶想解決的商務問題是什麼? “Big Data Industry Insights”, Gartner, 2015-01-27 http://www.gartner.com/webinar/2931518 39
  • 40. CUSTOMER NEEDS : BUSINESS PROBLEM (1) 全球銀行業想要解決的首要問題…. “Big Data Industry Insights”, Gartner, 2015-01-27 http://www.gartner.com/webinar/2931518 1. 提升風險管理 2. 強化客戶體驗 3. 精準市場行銷 40
  • 41. CUSTOMER NEEDS : BUSINESS PROBLEM (2) 全球保險業想要解決的首要問題…. “Big Data Industry Insights”, Gartner, 2015-01-27 http://www.gartner.com/webinar/2931518 1. 強化客戶體驗 2. 提升風險管理 3. 降低營運成本 41
  • 42. CUSTOMER NEEDS : BUSINESS PROBLEM (3) 全球製造業想要解決的首要問題…. “Big Data Industry Insights”, Gartner, 2015-01-27 http://www.gartner.com/webinar/2931518 1. 提升製程效率 2. 降低成本支出 3. 強化客戶體驗 42
  • 43. 反思:大數據恐無法單獨形成產業, 但會是跨產業應用的基石 2016/12/05 Big Data Innovation Summit 2016 P. 43 • 2014 年曾分享「探析台灣巨量資料產業供應鏈串聯現況」 • http://www.slideshare.net/jazzwang/20141017 以電子發票為例
  • 44. Hadoop 生態系將繼續扮演「數據驅動」的基石 • 2015 年 Gartner 讓 Big Data 從 Hype Cycle 畢業 • 2016 年漸漸體會到 Hadoop / Big Data 不是一個產業 (Industry), 比較接近是滿足「數據驅動」需求的垂直領域 (Vertical) 。 • 數位時代的商業需求:O2O 線上線下消費行為的虛實整合 • 縱使技術不斷演化,可預期 Hadoop 生態系仍會繼續存在。 2016/12/05 Big Data Innovation Summit 2016 P. 44
  • 45. 隱憂:台灣 Hadoop 生態系供應商日益式微 • 隱憂: • 經濟不景氣與人才虹吸效應,台灣具技能的高手傾向外移海外 • 本土需求短期內將僅能靠系統整合商與國際大廠代理商來滿足 • 雖然系統整合商與代理商變多,但單一廠商的專業人力卻逐漸下滑 • 應對:人才培育與 Intern 職缺媒合、經驗分享與傳承 • 台灣資料科學協會 - http://foundation.datasci.tw/ • 那「資料工程」呢? - 「台灣資料工程協會」預備成立中 • 串聯 Hadoop.TW, Spark.TW, Flink.TW, Fluentd.TW 等本土社群 2016/12/05 Big Data Innovation Summit 2016 P. 45 臺灣資料 工程協會
  • 46. Agenda • 趨勢篇 Trend / Roadmap • 企業導入 Hadoop 生態系的四個階段 • 社群篇 People / Community Insight • 用數據看台灣 Hadoop 生態系的社群流轉 • 需求:台灣 Hadoop 近五年的職缺需求成長趨勢 • 供給:從 Hadoop.TW 到台灣資料工程社群 • 應用篇 Process / Use Cases • 笑看台灣 Hadoop / Big Data 發展的十年興衰 • 需求:台灣 Hadoop 應用場景的變遷 • 供給:台灣 Hadoop 生態系供應商的變遷 • 技術篇 Technology • Hadoop 3.0 的未來發展 2016/12/05 P. 46Big Data Innovation Summit 2016
  • 47. Lesson Learn #5: Spark 可能取代 MapReduce,HCFS 暫無法取代 HDFS Big Data Innovation Summit 2016 P. 47 • Hadoop 生態系大致可分成 • 儲存層 Storage – HDFS vs. HCFS • 中介管理層 Middleware – Mesos vs. YARN • 運算引擎層 Computing Engine – Spark vs. MapReduce • 應用層 Application – Ex. Hive / Kylin / Mahout …. etc • 儲存層 • HDFS ( Hadoop Distribued File System ) • HCFS ( Hadoop Compatible File System ) • AWS S3 (s3://) • Windows Azure Storage (was://) • Google Cloud Storage • Ceph ( ceph:// ) • Lustre …. etc 2016/12/05
  • 48. Hadoop 3.0 Beta 釋出 2016/12/05 Big Data Innovation Summit 2016 P. 48
  • 49. HCFS 頻譜 P. 49 Erasure CodingReplication HDFS-HC (Hadoop 3.0) < Phase 1 > < Phase 2 > < Phase 3 > 適合小檔案 適合大檔案 儲存 效率佳 台數少時 可靠度佳
  • 50. HCFS 為何暫時難以取代 HDFS • 應用場景:Feature of Use Case • Datawarehouse offload 大檔為主的特徵 • 資料在地性: Data Locality • 原生 Hadoop 的精神是善用縮短儲存與運算距離的優勢 • 一旦將儲存與運算拆成兩座,效能上會有一定程度的衝擊 • 整合測試:Integration Test • 當 Storage 層改變時,運算引擎的邏輯是否有對應的程式碼? • 當運算引擎改變時,應用層的邏輯是否有對應的程式碼? • 安全支援:Hadoop Security • 當使用 Kerberos 與 Sentry 時,HCFS 的相容性如何? • 更往上層,未來討論 Data Governance,同樣有相容性的疑慮 2016/12/05 Big Data Innovation Summit 2016 P. 50
  • 51. 今天未能涵蓋的技術趨勢 • 機器學習 • Hivemall 進入 Apache Incubate • 串流運算 • Spark Streaming, Flink, Kafka Stream … • SQL on Hadoop • OLAP – Apache Kylin 2016/12/05 Big Data Innovation Summit 2016 P. 51
  • 52. 結語 Lesson Learn #1: 未來十年「數據變現力」才是決勝關鍵! Lesson Learn #2: 使用統計還是大數據,取決於資料特徵! Lesson Learn #3: 資工資科新解~人格特質與商業模式迥異 Lesson Learn #4: 應用已跨多產業,但數位空洞令人憂心! Lesson Learn #5: Spark 可能取代 MapReduce,HCFS 暫無法取代 HDFS 2016/12/05 Big Data Innovation Summit 2016 P. 52