大資料趨勢介紹與相關使用技術

大資料簡介與相關使用技術
2016
Wei-Yu Chen 陳威宇
<wychen@nchc.org.tw>

About Me
• 陳威宇 Wei-Yu Chen
– wychen@nchc.org.tw
– Github https://github.com/waue0920
– slide http://www.slideshare.net/waue/presentations
• 愛好者 / 推廣者 / 開發者
– 大資料技術
– 自由軟體
• 經歷 –
– 成功大學電腦通訊研究所畢
– 台灣積體電路公司
– 國家高速網路與計算中心
2

Agenda
• 巨量資料之發展
• 大資料技術概念
• 大資料處理技術介紹
• Hadoop 喜蝦密
• Hadoop 和它的共犯結構們
• 結論
3

5
https://www.google.com/trends/explore#q=Cloud%20Computing%2C%20Big%20Data%2C%20Internet%20of%20Things%2C%20Deep%20learning%2C%20virtualization&cmpt=q&tz=Etc%2FGMT-8

資料星球爆炸了
6
http://www.twcloud.org.tw/Cloud/upload/newEpaper/201508272/index/10408-tech.pdf

讓專業的來
• Explaining Big Data
– 全盤簡介<8:32>
• What is Big Data and how does it work?
– 大數據之應用 < 1:33>
• TED : Kenneth Cukier: Big data is better data
– 大數據讓我們看見新、精準、不同 <15:55>
• 《遠見》319期 - 看見未來5分鐘
– 影片與文字報導 <2:25>
• 20150831中天新聞大數據無所不在！價格、促銷、分析數據預測消費
– 案例說明 <2:29>
• 淺談台灣巨量資料產業發展現況
– jazz wang’s slide on slide share
7

大資料技術概念
8
此章節部分投影片參考自 Jimmy Chung’s NCHC_Hadoop_tutorial
https://github.com/ogre0403/NCHC-Hadoop-Tutorial

運算為導向的計算機科學思維
• 有一個問題，找出一個答案
• 傳統的資料處理模式：集中式
• 讓電腦快一千倍，這個問題就解的出來
9
CPU
Memory
disk
CPU
Memory
disk
磁碟陣列

高速計算模型
10
• 原理：
資料和程式會載入到超
級多核心與記憶體的超
級電腦中運算
• 應用範圍：
動畫、氣象分析、密碼
破解
40GInfiniband
network
cpu
cpu
cpu
cpu
MEMMEM
MEMMEM
disk
disk
disk
disk
data
program
High Performance Computing

以資料為導向的計算機科學思維
• 有一堆資料，找出有用的情報
• 給我的資料多一千倍，這個問題才解得出來
• 以電腦翻譯為例：
– 傳統方法：字典 + 文法 + 例外
• 干货 vs. 乾貨 or 幹貨…
– 統計翻譯：比對同一文章之不同語語版本，建立統計
模式
• 以拼字校正為例：
– 傳統方法：建立字典
– Google法：看大家都怎麼打
11

用數據擊殺玩家的心-Riot Games 如何打造全球
六千萬人愛玩的《英雄聯盟》
12
╚ http://www.bnext.com.tw/article/view/id/40226
• 2009 /全球每月活躍玩家超過 6700 萬人/每天產生超過
5000 億筆以上遊戲數據 ; 26PB 資料了解玩家行為
• 好玩的遊戲不是信手拈來，一定與過去經驗和數據有關
• 數據就像是一把雙面刃
• 強調 Data informed，不是 Data driven

大資料面臨的3V挑戰 – 大快多
13
大資料
的3V
Volume (大)
資料量非常龐大，
單獨的表格、電腦主機
、資料庫無法存放
Velocity (快)
資料產生的速度太快
，以致於系統無法即時
提供反應。
Variety (多)
不同的來源、格式、
類型，資料內容又
包含了不需要的成份。Veracity
偏差、偽造、異常的
「dirty data」

解決Variety
14
大資料
的3V
Volume：
Velocity：
提供反應。
Variety：
包含了不需要的成份。

資料來源不夠〝乾淨〞
• 讀取資料、清洗資料
– 非常無趣，且通常要花掉專案80%的時間，但又會影
響到分析的成果
15

無法預期的資料格式與內容
• 使用需事先定義好資料格式的方式不再適合
– 資料庫表格
• 自我描述的資料格式
– Key/value 型式的資料格式
– XML檔案, JSON檔案
– NoSQL HBase資料庫
16

解決Velocity
17
大資料
的3V
Volume：
Velocity：
提供反應。
Variety：

即時性資料處理
• 對於即時資訊、訊號需要立馬提供反應
18
步驟1 步驟2 步驟3 步驟4
主機1 主機2 主機3
主機4 主機5

解決Volume
19
大資料
的3V
Volume：
Velocity：
提供反應。
Variety：

樣本 = 母體時代來臨
• 整體的資料搜集困難，導致統計學的發展
• 抽樣的隨機性決定統計的正確性
• 當樣本 = 母體，要用來處理的資料通常都很大
20

當資料多出1000倍
• 如何儲存這麼多的資料
– 1000億個網頁
– 每個網頁大小20KB
– 1000億個網頁 * 20KB = 2000TB
• 讀個檔案都要讀到天荒地老
– 硬碟讀取速度：50MB/sec
– 讀完全部的網頁：40000000 秒 = 460天
• 更不用想要去處理它
21

分散式運算架構
• 分散式運算架構 (分散式系統) = 分散式檔案系統 +
分散式運算
• 一台機器無法處理，就用多台機器同時處理
– 分散式系統
– 易於橫向擴充，scale-out
CPU
Memory
disk
CPU
Memory
disk
CPU
Memory
disk
CPU
Memory
disk
CPU
Memory
disk
CPU
Memory
disk
一個便當吃不飽，可
以吃二個

分散式檔案系統
• 移動運算到資料端比移動資料到運算端來的成本低
– 減少資料搬運
23
CPU
Memory
disk
磁碟陣
列

分散式運算方法：MapReduce
• 一個問題被分割之後而成的小問題。解決一個問題，
其實就是要解決其所有子問題。
• 分而治之，各個擊破
– 傳統方法
• 分而治之，”同時”各個擊破
– MapReduce
• Ｍap：解決每個子問題
• Reduce：將子問題的解答做匯總
• 針對key/value的資料類型做分析
24

台灣最熱衷的全民運動
25
•xx市10個選區，共100萬票，要算出每個候選人的得票數
Id：A151選
2號 Id：B257選
5號
號
次
票
數
1 1
1 1
3 1
… …
號
次
票
數
2 1
1 1
… …
號
次
票
數
3 1
2 1
1 1
號
次
票
數
1 1
3 1
3 …
號
次
票
數
3 1
2 1
3 1
監票人1
[負責1區]
監票人2
[負責2區]
監票人3
[負責3區]
監票人4
[負責4區]
監票人5
[負責5區]

號次票數
1 1
1 1
1 1
1 1
1 …
中選會
[負責全部的候選人]
號
次
票
數
5 1
1 1
7 1
… …
號
次
票
數
2 1
1 1
… …
號
次
票
數
5 1
2 1
1 1
號
次
票
數
1 1
5 1
3 …
號
次
票
數
4 1
2 1
6 1
由各投開票所送到中選會
號次票數
2 1
2 1
2 1
2 1
2 …
號次票數
3 1
3 1
3 1
3 1
3 …
26
號次總票數
1 187532
號次總票數
2 574821
號次總票數
3 237647

日誌分析 - Mapper
27
•(k1, v1)  list(k2, v2)

日誌分析 - Reducer
28
•(k2, list(v2))  (k3,v3)

大資料計算
29
10G switch
disk
MEM
cpu
disk
MEM
cpu
disk
MEM
cpu
data
program
data
program
aggregat
e
資料在地化運算後，再由統籌程式
整合，每筆資料都能在每台電腦上
獨立運算，可以減少資料在網路上
傳輸

凡事都有一個BUT
• 對已經存在的一大堆資料，提供一個有效的平行運算
機制
– 得到結果所需的時間不夠快
– 通常用在歷史資料分析
– 批次性處理
• 對於快速產生的資料無法立即回應
– 即時性處理
30

分散式系統的限制
• CAP定理 = 對分散式
計算系統來說，不可
能同時滿足以下三點
– 資料一致性：
[C]onsistency
• 所有節點訪問同一份
最新的數據副本
– 系統可用系：
[A]vailability
• 對數據更新具備高可
用性
– 分區容忍性：
[P]artition Tolerance
• 對通信的時限要求
31

本日最中肯
• 除非你的資料遇到 4V 問題的其中之一
– 量太大 : 單一檔案大小超過單一顆硬碟、傳統方法跑不動或慢到無法
接受
– 產生速度快 : 機台的新增日誌檔不斷湧入
– 種類多 : 政府opendata
– 有雜質 : fakedata generator
• 否則你不需要用到大資料技術之平行分散式運算來處理
– 演算法架構、程式碼需改寫
– 資料存放架構改變
– 需額外資料搬移過程
32
檔案太大，只是要找地方儲存 !
大檔案除了儲存外，還要有高效的
I/O throughput performance !
大檔案除了儲存外，還要分析運算 !
檔案並不大，只是需要平行運算加
速 !
一台主機，多顆硬碟串接 : NAS
多台主機之硬碟空間串接：GPFS / Lustre
平行運算加速技術：MPI / CUDA

結語
• 沒有可以通用解決所有問題的系統，你的問題是資料
量大?計算量大?
• 大資料的三個V說明目前大資料的三個現象
• 分散式系統為現今主流，但也有CAP定理限制
• 國網中心提供Hadoop平台與教育訓練，提供國內學
研界與政府機構使用
33

Everyone says : I am bigdata
35

Opensource Solution
http://www.dataguru.cn/article-6920-1.html
http://www.nextplatform.com/2015/02/22/flink-sparks-next-wave-of-distributed-data-processing/

開源大資料技術比一比
37

Agenda
• Hadoop 的興起
– 成功案例
– 捨我其誰
– 派系爭霸
– 自我介紹
• Hadoop 的挑戰
• Hadoop 的組織再造
– 1.0 到 2.0 進擊
39

Hadoop 讓你不用再重新作輪子
• 當你需要以下的特性
– 一次處理tera bytes等級以上的資料量
– 有軟硬體容錯機制
– 平行計算API
– 分散檔案系統
– 穩定發展中
– 免費、開放原始碼
– 許多相容的“擴充功能”相挺
• 請使用 Hadoop

自己打造一個分散式系統?
• 開發一個分散式系統很難
– 主機間如何溝通
– 系統的可靠性設計
– …
– 用人家寫好的很簡單
• Hadoop 生態系
– HDFS
– MapReduce
– HBase
– Hive…
41

Hadoop 興起篇
42
Figure source: https://practicalanalytics.wordpress.com/2011/11/06/explaining-hadoop-to-management-whats-the-big-data-deal/

Hadoop 案例一
Wal-Mart分析顧客商
品搜尋行為，找出超越
競爭對手的商機
43
延伸閱讀:

Hadoop 案例二
eBay用Hadoop拆解非
結構性巨量資料，降低
資料倉儲負載
44
延伸閱讀:
Hadoop在Yahoo！的應用
Hadoop在eBay的應用
Hadoop在百度的應用
Hadoop在Facebook的應用
Hadoop平臺上的海量資料排序
http://book.51cto.com/art/201110/298604.htm

Hadoop 案例三
Visa快速發現可疑交易，
1個月分析時間縮短成
13分鐘
45

Big Data 改變大公司，也改變你和我
46See : http://m.ltn.com.tw/news/life/breakingnews/1059524
See : http://tieba.baidu.com/p/3243853803
九州大學講師縄田健悟領導的研究團隊，發現一
份在2004年至2005年間進行的問卷，共有1萬多名
日本人和美國人參與調查，清楚記載了受試者的
血型、性格描述、對事物的好惡等答題資訊。
出題方是復旦大學社會科學資料研
究中心，他們在上海市範圍內找了
80個社區、3311個家庭，花了半年
時間入戶一對一答題。
1.男人越老越值錢?
2.另一半錢和長相都不重要?
3.教育程度接近時最和諧?
4.結婚前談個純純之愛?
5.婚前同居時間越長，對婚姻
滿意度越高?
6.教育程度越高幸福感越強?
7.人生真的需要"贏在起跑線上"?
8."拼爹"才能更上層樓?
1.女大三，抱金磚!
2.生活習慣、性格和智商
3.門當戶對才登對!
4.以結婚為前提交往!
5.試婚有必要!
6.願得一學霸，白首不相
離!
7.小時不了，大未必壞!
8."拼媽"更重要!

Why ! 大資料 = Hadoop ?
• 免費 ?
• 儲存大量資料 ?
• 安全 ?
• 平行分散式 ?
• 容錯?
47
可儲存大量資料的技術很多，重點在 : 運算
運算效率的核心在於 : data locality
Figure source: https://cvw.cac.cornell.edu/MapReduce/locality

Hadoop 的派系爭霸
48
• Hadoop 可比喻為 Linux kernel
– linux kernel : redhat, fedora, centos, debian,
ubuntu, .. Etc
• 所以 Hadoop 也有許多的 Distribution
– Apache Community Source ( 源頭)
– Cloudera = Cloudera Distribution Hadoop
– Intel = Intel Distribution for Hadoop
– Oracle = oracle big data appliance
– Hortonworks = Hortonworks Data Platform
– Microsoft HDInsight
– MapR

Hadoop 自我介紹
• Apache Hadoop software
– open-source software for reliable, scalable,
distributed computing
• 主要系統:
– Hadoop Distributed File System
• Self-healing high-bandwidth clustered storage
– MapReduce
• Distributed fault-tolerant resource management and
scheduling coupled with a scalable data programming
abstraction.
49

Hadoop 1.X
• hadoop 核心服務組成 :
– Namenode : 檔案空間管理[1~2個]
– Datanode :檔案空間儲存&I/O [1~n個]
– JobTracker : (Deprecated) 任務管理 [1~2個]
– TaskTracker : (Deprecated) 任務執行 [1~n個]
50
Figure source: http://www.slideshare.net/EdurekaIN/hadoop-20-architecture-hdfs-federation-namenode-high-availability
Namenode 掌管所有資
料的定址空間 ( 上限管
4000 nodes; 1千萬個
blocks 佔 3GB記憶體 )

Hadoop 1.X MapReduce
• 一個 Master (jobtracker)，多個 Worker (tasktracker)
• Data -> map -> (shuffle & sort ) -> reduce -> result
51
Figure source: https://www.cs.rutgers.edu/~pxk/417/notes/content/mapreduce.html

Hadoop 1.X 遇到的挑戰
52
我們希望事實上
儲存篇
(HDFS)
• 無論大小，通通進hdfs
• 資料可以任意修改
• 生產在用，當然要 High
Availability
• 一個 namenode 管理資料的定
址空間有限
• 檔案無法再修改
• Single Point Of Failure
運算篇
(MapReduce)
• 多種用法
• 圖形運算
• 及時運算
• 資源分配更精確更廣泛
• 只有 batch job
• 文字處理
• 每個batch job 都需讀所有的資
料、一起處理
• 只有一種用法 : Map -> Reduce

Hadoop 組織再造篇
53
Figure source: http://www.slideshare.net/martyhall/hadoop-tutorial-mapreduce-on-yarn-part-1-overview-and-installation/

HDFS 2.0 - Federation
• Federation
55

MapReduce 2.0 - YARN
• Yet Another Resource
Negotiator
• (JT, TT ) => (RM, NM,
AM)
• 可非 MapReduce 架構
=> Container
56

Hadoop 2.0 總體檢
57
我們希望事實上改進
儲存篇(HDFS)
• 無論大小，通通進hdfs
• 資料可以任意修改
• 生產在用，當然要
High Availability
• 一個 namenode 管理資
料的定址空間有限
• 檔案無法再修改
• Single Point Of Failure
可透過 federation 延
伸
非 2.0 改進目標
可透過 HA 機制
運算篇
(MapReduce)
• 多種用法
• 圖形運算
• 及時運算
• 資源分配更精確更廣
泛
• 只有 batch job
• 文字處理
• 每個batch job 都需讀所
有的資料、一起處理
• 只有一種用法 : Map ->
Reduce
realtime, interative,..
graphing,…
IN-Memory
container

彈性佈署-I
58
D1
2TB
CPU : 8 core
MEM : 32GB
D2
2TB
D3
2TB
D1
2TB
CPU : 8 core
MEM : 32GB
D2
2TB
D3
2TB
D1
2TB
CPU : 8 core
MEM : 32GB
D2
2TB
D3
2TB
D1
2TB
CPU : 8 core
MEM : 32GB
D2
2TB
D3
2TB
host1 host2 host3 host4
– NameNode : 檔案空間管理[1~2個]
– DataNode :檔案空間儲存&I/O [1~n個]
– ResourceManager : 資源管理 [1~2個]
– NodeManager: 任務執行 [1~n個]
NN
DN
RM
NM
DN NM DN NM DN NMNN RM
DN NM
ps: 示意圖，此圖謹說明重要服務，其他輔助服務如 journal node 等省略之

彈性佈署-II
59
D1
2TB
CPU : 8 core
MEM : 32GB
D2
2TB
D3
2TB
D1
2TB
CPU : 8 core
MEM : 32GB
D2
2TB
D3
2TB
D1
2TB
CPU : 8 core
MEM : 32GB
D2
2TB
D3
2TB
D1
2TB
CPU : 8 core
MEM : 32GB
D2
2TB
D3
2TB
host1 host2 host3 host4
– NameNode : 檔案空間管理[1~2個]
– DataNode :檔案空間儲存&I/O [1~n個]
– ResourceManager : 資源管理 [1~2個]
– NodeManager: 任務執行 [1~n個]
NN
DN
RM
NM
DN
DN NM DN NMNN RM
DN
NN RM
ps: 示意圖，此圖謹說明重要服務，其他輔助服務如 journal node 等省略之
HA

結語
• 大資料已非僅商業獲利武器，有更多應用貼近你我的
生活
• 大資料的重點非儲存，而是分析
• Hadoop 目前是大資料(batch)分析的主流，也是大
資料技術的入門磚
• Hadoop 已經演進到第二代，在基礎的條件下，添加
更多功能，有更多可期待性
60

Headfirst 之
Hadoop的共犯結構

一個生態系，各自表述
62
figure Source : http://aryannava.com/2014/02/19/apache-hadoop-ecosystem/hadoopecosystem/

等等，為何我們需要這些東東
• 接下來會遇到六
個Case，一起想
一想要怎麼解決
63
Hadoop EcoSystem

手工打造程式來做
用flume
問題
• 場景:
– 有上百個服務，運作在許多不同的機器中，每個服務
都產生超多的 log ，且需要被分析，我知道最後可以
放到hadoop中，可是….
• 問題:
– 我要如何送這些
源源不絕的資料
到hadoop?
• 解法:
64
figure Source : http://image.slidesharecdn.com/flume-120314204418-phpapp01/95/apache-flume-4-728.jpg?cb=1338404245

Apache Flume: Log 收集器
• 即時日誌收集系統
• 將分佈在不同節點、機器上的日誌收集到hdfs 中
• 不用寫程式: 僅定義config檔即可
65
Source
• netcat
• exec
• syslog
• spooldir
• seq
• http
• avro
Sink
• logger
• hdfs
• file_roll
• hbase
• solr
• avro
channel
• memory
• jdbc
• File
figure Source : https://flume.apache.org/FlumeUserGuide.html

 用 shell 硬把程式兜出來，放棄用 hadoop 了
 使用 PIG
 發憤圖強，廢寢忘食的研究…
問題 :
• 場景:
– 老闆要我統計組織內所有員工的平均工時。於是我取
得了全台灣的打卡紀錄檔(打卡鐘的log檔)，還跟人事
部門拿到了員工 id 對應表。這些資料量又多且大，我
想到要餵進去 Hadoop 的HDFS, .. 然後
• 問題:
– 為了寫MapReduce，開始學 Java, 物件導向, hadoop
API, … @@
• 解法:
66

有Pig後Map-Reduce簡單了！?
• Apache Pig用來處理大規模資料的高級查詢語言
• 適合操作大型半結構化數據集
• 比使用Java，C++等語言編寫大規模資料處理程式的
難度要小16倍，實現同樣的效果的代碼量也小20倍。
• Pig元件
– Pig Shell (Grunt)
– Pig Language (Latin)
– Libraries (Piggy Bank)
– UDF:使用者定義功能
67
figure Source : http://www.slideshare.net/ydn/hadoop-yahoo-internet-scale-data-processing

豬也會的程式設計
68
功能指令
讀取 LOAD
儲存 STORE
資料
處理
REGEX_EXTRACT, FILTER, FOREACH,
GROUP, JOIN, UNION, SPLIT, …
彙總
運算
AVG, COUNT, MAX, MIN, SIZE, …
數學
運算
ABS, RANDOM, ROUND, …
字串
處理
INDEXOF, SUBSTRING, REGEX
EXTRACT, …
Debug DUMP, DESCRIBE, EXPLAIN, ILLUSTRATE
HDFS cat, ls, cp, mkdir, …
$ pig –x
grunt> A = LOAD ‘file1’ AS (x, y, z);
grunt> B = FILTER A by y > 10000;
grunt> STORE B INTO ‘output’;

整型前的mapreduce code
69
nm dp Id Id dt hr
劉北 A1 A1 7/7 13
李中 B1 A1 7/8 12
王中 B2 A1 7/9 4
Java Code
Map-Reduce
A1 劉北 7/8 13
A1 劉北 7/9 12
A1 劉北 Jul 12.5

用pig 整形後
70
A1 北劉 12.5
LOAD
LOAD
FILTER
JOIN
GROUP
FOREACH
STORE
(nm, dp, id)
(nm, dp, id)
(id, dt, hr)
(nm, dp, id, id, dt, hr)
(group, {(nm, dp, id, id, dt, hr)})
(group, …., AVG(hr))
(dp,group, nm, hr)
Logical PlanPig Latin
A = LOAD 'file1.txt' using PigStorage(',') AS (nm, dp, id) ;
B = LOAD ‘file2.txt' using PigStorage(',') AS (id, dt, hr) ;
C = FILTER B by hr > 8;
D = JOIN C BY id, A BY id;
E = GROUP D BY A::id;
F = FOREACH E GENERATE group, $1.dp,$1.nm,
AVG($1.hr);
STORE F INTO '/tmp/pig_output/';
nm dp Id Id dt hr
劉北 A1 A1 7/7 13
李中 B1 A1 7/8 12
王中 B2 A1 7/9 4
Tips : 關鍵字大小寫有差；先用小量資料於
pig –x local 模式驗證；每行先配合dump or
illustrate看是否正確

問題 :
• 場景:
– 組織內有統一格式的出勤紀錄資料表，分散在全台各
縣市的各個部門的資料庫中。老闆要我蒐集全台的資
料統計所有員工的平均工時。DB內的table 都轉成csv
檔，並且餵進去 Hadoop 的HDFS了, ..
• 問題:
– 雖然我知道PIG可以降低MapReduce的門檻，但我還
是習慣 SQL 語法來實作，如果有一台超大又免費的DB
就好了…
• 解法:
71
 編列經費買台高效伺服器再裝個大容量的 sql server
 使用 Hive

Hadoop 也有 RDB 可以用 : Hive
• Hive = Hadoop的RDB
– 將結構化的資料檔案映射為資料庫表
– 提供SQL查詢功能( 轉譯SQL語法成
MapReduce程式)
• 適合：
– 有SQL 基礎的使用者且基本 SQL 能運算的事
• 特色：
– 可擴展、可自訂函數、容錯
• 限制：
– 執行時間較久
– 資料結構固定
– 無法修改
72

Hive 架構提供了..
• 介面
– CLI
– WebUI
– API
• JDBC and ODBC
• Thrift Server (hiveserver)
– 使遠端Client可用 API 執
行 HiveQL
• Metastore
– DB, table, partition…
73
figure Source : http://blog.cloudera.com/blog/2013/07/how-hiveserver2-brings-security-and-concurrency-to-apache-hive

現在換蜂也會的程式設計
74
$ hive
hive> create table A(x int, y int, z int)
hive> load data local inpath ‘file1 ’ into table A;
hive> select * from A where y>10000
hive> insert table B select *
from A where y>10000
figure Source : http://hortonworks.com/blog/stinger-phase-2-the-journey-to-100x-faster-hive/

用 Hive 整形後
75
A1 北劉 12.5
HiveQL
> create table A (nm String, dp String, id String)
> create table B (id String, dt Date, hr int)
> create table final (dp String, id String , nm String, avg float)
> load data inpath ‘file1’ into table A;
> load data inpath ‘file2’ into table B;
> Insert table final select a.id, collect_set(a.dp), collect_set(a.nm), avg(b.hr)
from a,b where b.hr > 8 and b.id = a.id group by a.id;
nm dp Id id dt hr
劉北 A1 A1 7/7 13
李中 B1 A1 7/8 12
王中 B2 A1 7/9 4
Tips : create table & load
data 建議用 tool 匯入資料
較不會錯

Hive和SQL 比較
Hive RDMS
查詢語法 HQL SQL
儲存體 HDFS
Raw Device or
Local FS
運算方法 MapReduce Excutor
延遲非常高低
處理數據規模大小
修改資料 NO YES
索引
Index, Bigmap
index…
複雜健全的索
引機制
76
Source : http://sishuok.com/forum/blogPost/list/6220.html

Pig vs Hive
77
Hive Pig
SQL-LIKE 語法 PigLatin
Yes/明確型 Schemas/
Types
Yes /隱含型
Yes Partitions No
Thrift Server No
Yes Web
Interface
No
Yes(limited) JDBC/ODBC No
No Hdsf 操作 Yes
Hive更適合於數
據倉庫的任務，
用於靜態的結構
及需要經常分析
的工作
Pig賦予開發人員
在Big Data中，具
備更多的靈活性，
並允許開發簡潔腳
本
Source : http://f.dataguru.cn/thread-33553-1-1.html

豬與蜜蜂兼得 : HCatalog
• 提供:
– Mapreduce, pig, hive 的讀寫"metastore”介面
– Command line 介面
78
figure Source : http://wiki.gurubee.net/pages/viewpage.action?pageId=26739793

問題 :
• 場景:
– 承前，長官反映一個月做一次統計太久，頻率要改成
一天一次以即時反應
• 問題:
– 每天都要將這麼多個資料表，各自轉成csv 再匯入
hdfs ，然後 load 到 hive 接著運算…，天都黑了
• 解法:
79
組織內有統一格式的出勤紀錄資料表，分散在全台各
縣市的各個部門的資料庫中。老闆要我蒐集全台的資
料統計所有員工的平均工時。DB內的table 都轉成csv
檔，並且餵進去 Hadoop 的HDFS了,
 找工讀生 ………..
 使用 sqoop ………

Sqoop : RDB 與 Hadoop 的橋樑
• Apache Sqoop = SQL to Hadoop
• 從..拿資料
– RDBMS
– Data warehources
– NoSQL
• 寫資料到..
– Hive
– Hbase
• 與 oozie 整合
– 可排程
80
figure Source : http://bigdataanalyticsnews.com/data-transfer-mysql-cassandra-using-sqoop/

Sqoop 使用方法
81
figure Source : http://hive.3du.me/slide.html

用 Hive + Sqoop 的微創整形手術
82
A1 北劉 12.5
HiveQL
> create …………
> load data inpath ‘file1’ into table A;
> load data inpath ‘file2’ into table B;
> Insert table final select a.id, collect_set(a.dp),
collect_set(a.nm), avg(b.hr) from a,b where b.hr
> 8 and b.id = a.id group by a.id;
nm dp Id id dt hr
劉北 A1 A1 7/7 13
李中 B1 A1 7/8 12
李中 B2 A1 7/9 4
HiveQL
> create …………
> Insert table final select a.id, collect_set(a.dp),
collect_set(a.nm), avg(b.hr) from a,b where b.hr > 8
and b.id = a.id group by a.id;

問題 :
• 場景:
– 自從知道 hive 的好用之後，所有以前 RDB 存不下、不
能存的東西，我通通都建成 hive 的DB, table 來存放，
搭配 sqoop 資料是還滿順的，不過…
• 問題:
– 即使沒有要做複雜運算，只是要取出某一行資料，總
是要等hive 處理很久很久
• 解法:
83
 邊唱韋禮安的歌邊慢慢等
 使用 Impala
 使用 HBase

關於impala 的兩三事
• 目的：解決批次化處理的時間延宕和存取資料速度不
方便
• Near-realtime 的 SQL 查詢工具
• 速度約比hive 快 6~ 60 倍
84
figure Source : http://blog.cloudera.com/blog/2013/05/cloudera-impala-1-0-its-here-its-real-its-already-the-standard-for-sql-on-hadoop/

NOSQL 資料庫 Hbase
• Hbase是參考谷歌BigTable建模的NoSQL
• 特性：
– 類似表格的資料結構 (Multi-Dimensional Map)
– 分散式
– 高可用性、高效能
– 很容易擴充容量及效能
• Why HBase：
– Random read/write hadoop 內的資料
85

Hbase “不是不是不是” 關聯式資料
• HBase並不是關聯式資料庫系統(RDBMS)
– 表格(Table)只有一個主要索引 (primary index) 即 row key.
– 不提供 SQL 語法 (如 join )
• 提供Java函式庫, 與 REST與Thrift等介面
• 利用 getRow(), Scan() 存取資料
– getRow()可以取得一筆row range的資料，同時也可以指定
版本(timestamp)
– Scan()可以取得整個表格的資料或是一組row range (設定
start key, end key)
• insert, update, delete 都是在塞資料
– Hbase 中的 insert 功能即 put ()
– 在同一cell 內重複put() => update;
– Delete() = 在該 cell 上貼上刪除的標籤
• Row Key design 是 hbase 設計重點中的重點
86

HBase 資料長相
• “Rowkey”, “column family”, “column
qualifier”, “timestamp”, “cell”
87
figure Source : http://www.slideshare.net/hanborq/h-base-introduction

問題 :
• 問題:
– 我的東西需要很多的統計分析方法、machine
learning, data mining 等，用 hive, pig 都不適用…
• 解法:
– Machine learning => Machout
– 統計分析 => Rhadoop
88

Mahout = 象夫
• Mahout = 可伸縮的機器學習演算法
• 用MapReduce實現了部分data mining算法
• 演算法分類如 : (各自提供多種經典演算法的實作 )
– 推薦引擎（Mahout中專指協同過濾式的推薦）
– 降維（Dimension Reduction
– 向量相似度（Vector Similarity）
– 分類演算法
– 群集演算法
– 模式探勘（Pattern Mining）
89
Regression
Recommenders
ClusteringClassification
Freq.
Pattern
Mining
Vector Similarity
Non-MR
Algorithms
Examples
Dimension
Reduction
Evolution
figure Source : http://www.slideshare.net/chaoyu0513/hit20130928-apache-mahout

處理大資料的R使用者有福了 : R hadoop
• R 是在統計領域上，鼎鼎大名的語言
• 主要用於統計分析、繪圖、資料探勘、矩陣計算
• R綜合典藏網 CRAN
– 像Perl 依樣的自由函式庫
• Revolution Rhadoop
– rmr2, rhdfs, rhbase …
90
figure Source : http://www.r-project.org/

問題 :
• 場景:
– 自從我學了 hadoop 的十八般武藝之後，已經設計了
很多用不同 ecosystem 做的 application 了，不過老
闆要我把 src txt-> { flume => MR => hive 或 pig =>
sqoop } -> dst DB，整段串起來在每天凌晨執行，活
要見人result 死要見屍 error message…
• 做法:
91
 用shell script 將整段兜起來 ………..
 使用 oozie ………

Hadoop 工作流程管理員 : oozie
• 把多個 job 組合到起來，從而完成更大型的任務
• 包含
– 控制流程 ( start, end, kill, fork, join )
– 動作 ( mapreduce/java/pig/hive )
• 不用寫 code ，用 xml 定義流程
92
figure Source : http://www.slideshare.net/martyhall/hadoop-tutorial-oozie

回顧
• ETL
– Apache Flume
– Apache Sqoop
• DB
– Apache Hbase
– Apache Hive
– Apache Impala
• Calculate
– Apache Pig
– Apache Mahout
– R Hadoop
• WorkFlow
– Apache OOZIE
94

Advice
• 在巨量資料領域中Hadoop是目前最多人使用的框架，
在這之上，你可以更聰明的使用它
• 資料不夠大時，難以發揮Hadoop大資料分析的效益
• 大數據人才:懂資工、統計還不夠，還要會說故事
– 一個能擔當資料科學的完整團隊，最好包括四種角色：
懂資訊科學的程式設計師、懂統計學的資料分析師、
懂圖像呈現，善於包裝傳達的圖像設計師與擁有產業
知識的專案推動者。(2014 年 4 月號《遠見雜誌》第 334 期)
• 小心別掉進陷阱裡，大數據專案失敗的八個理由
– (Yahoo)
95

Conclusion
96
如果你.... 請參考
想再回味一下讓專業的來
想知道大資料的VVV 大資料面臨的3V挑戰 – 大快多
在找用大資料技術的依據本日最中肯
想看大資料技術地圖開源大資料技術比一比
因為這理由，所以選擇了它 Hadoop 讓你不用再重新作輪子
在找讓Hadoop變更簡單、好
用的方法
Hadoop的共犯結構 - 全章節
找單位合作計畫、找機器運
算
請洽 NCHC

F&Q
1. mapreduce 看似跟階層管理架構相似，有何不同?
– 階層管理: 管理模式，MapReduce : 演算法
2. 如何自己動手玩?
– 燒成光碟讀取其中的 README.docx 開始
http://crawlzilla.nchc.org.tw/data/vagrant/nchc.iso
– 利用 vagrant vm 快速架設hadoop cluster
97

public class MyMR {
public class MyMapper extends Mapper<Object, Text, Text,
IntWritable> {
...
}
public class MyReducer extends Reducer<Text, IntWritable, Text,
IntWritable> {
...
}
public static void main(String[] args) throws Exception {
…
}
}
Java programming
╚ Programing prototype
Map Code
Reduce Code
Driver Code
99

Java programming
╚ Driver
Configuration conf = new Configuration();
Job job = new Job(conf, “New MR job");
job.setJarByClass(MyMR.class);
job.setMapperClass(MyMapper.class);
job.setReducerClass(MyReducer.class);
job.setOutputKeyClass(Text.class);
job.setOutputValueClass(IntWritable.class);
FileInputFormat.addInputPath(job, new Path(otherArgs[0]));
FileOutputFormat.setOutputPath(job, new Path(otherArgs[1]));
System.exit(job.waitForCompletion(true) ? 0 : 1);
Driver Code
Config Initialize
Job Initialize
Job setup
Input / output
setup
Job run
100

• Input / Output Format 設定
• 若使用預設的input/output format
– TextInputFormat/TextOutputFormat, 無需在Driver中設定
– 每一筆結果為輸出文件中的一行
– 每一行包含key/value，預設以tab分隔
– Key/value可為任意class, 但需在Driver中設定
• 若使用非預設的input/output format
– job.setInputFormatClass(SequenceFileInputFormat.class
);
– job.setOutputFormatClass(NullOutputFormat.class);
Java programming
╚ Driver / input & output format
101

• Input / Output Format 設定
• 若使用預設的input/output format
– TextInputFormat/TextOutputFormat, 無需在Driver中設定
– 每一筆結果為輸出文件中的一行
– 每一行包含key/value，預設以tab分隔
– Key/value可為任意class, 但需在Driver中設定
• 若使用非預設的input/output format
– job.setInputFormatClass(SequenceFileInputFormat.class
);
– job.setOutputFormatClass(NullOutputFormat.class);
Java programming
╚ Driver / input & output format
102

Java programming
╚ Mapper
103

Java programming
104
╚ Mapper / Realcase
public class WordCountMapper
extends Mapper< Object, Text , Text, IntWritable>{
public void map(Object key, Text value, Context context )
throws IOException, InterruptedException {
StringTokenizer itr = new StringTokenizer(value.toString());
IntWritable one = new IntWritable(1);
while (itr.hasMoreTokens()) {
Text word = new Text(itr.nextToken())
context.write(word, one);
}
}
}

Java programming
╚ Reducer
105

Java programming
╚ Reducer / Realcase
106
public class WordCountReducer
extends Reducer< Text, IntWritable , Text , IntWritable > {
public void reduce( Text key, Iterable< IntWritable > values, Context context)
throws IOException, InterruptedException {
int sum = 0;
IntWritable result = new IntWritable();
for (IntWritable val : values) { sum += val.get();
}
result.set(sum);
context.write(key, result);
}
}

大資料趨勢介紹與相關使用技術

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Similar to 大資料趨勢介紹與相關使用技術

Similar to 大資料趨勢介紹與相關使用技術 (20)

大資料趨勢介紹與相關使用技術