Big data, big challenge－ splunk 幫你解決 big data 議題帶來的挑戰

1
Big Data, Big Challenge－
Splunk 幫你解決 Big Data 議題
帶來的挑戰
精誠資訊 Splunk 產品經理陶靖霖

2
這年頭，大家都在談 Big Data

3
Big Data 其實仍是「資料處理」議題
Data
Input
Output
Processor
Storage
Information
所謂巨量資料，就是用現有的一般技術難以管理的大量數據
的集合野村綜合研究所

4
Big Data 其實仍是「資料處理」議題
生流存算用看

5
資料處理的難題是共通的
生流存算用看
我需要的資料從
哪裡來？
要怎麼收集資料？
資料收集能力？
資料格式的限制？
資料如何ETL？
資料如何正規化？
該如何呈現運算分析
結果？
該用什麼工具呈現？
需要客製開發嗎？
資料可否壓縮保存？
資料可否備份？
保存年限與生命週
期管理？
如何尋找與計算？
如何撰寫MR程式？
需要多久才能學會？
如何輸出運算結果？
如何與其他系統整
合？

6
Hadoop Ecosystems 已解決了部分難題
生流存算用看

7
使機器產生的資料可以
收集、儲存、分析、使用、呈現
並為使用者帶來應用價值

8
全球最佳 Big Data 創新應用公司

9
獲獎無數
Big Data
Innovator
2013 SIEM Magic Quadrant
LEADER
2012 Security Market Growth
#1 Worldwide
2012 IT Operations Market Growth
#3 Worldwide
Best SIEM North America
Best Enterprise
Security Solution EMEA
#1
Most
Innovative#4

10
Splunk 專注於機器資料的搜尋與分析

11
Splunk 可將機器資料化為智慧應用
結合外部資料來源
即時收集
即時索引
各式各樣型態的機器資料
日誌
效能指標
交易紀錄
訊息通知
使用者行為
Metadata
報表與分析
客製化
儀表板
即時監視
與告警
快速搜
尋
整合與介接
創造各式各樣應用案例
資安分析
系統維運
用戶行為
精準行銷
萬物聯網
商業分析

12
來看看 Splunk 如何應對
處理 Big Data 的難題
生流存算用看

13
• 利用既有的資料產生機制
– 只是常常在應用時發現缺東漏西
• 自行產生需要的資料
– 這件事情，還是得靠自己來
– 可以定製需要的資料與格式
• 若自行產生資料，哪些資料格式比較適合？
– 收集工具容易處理的資料格式優先使用
生流存算用看

14
Key-Value Pair (KVP) 很理想
• 欄位容易識別，易於 ETL
• 半結構化，不會受限於固定的資料結構

15
是個好選擇
• 欄位容易識別，易於 ETL
• 巢狀結構易於表現資料維度

16
也不錯
• 記得要有欄位名稱

17
資料產生的 Best Practices
建立具有可讀性的資料

18
資料產生的 Best Practices
• 用 Text 不要用 Binary
– 省去 parsing
• 別用 XML
– JSON 可讀性更高
• 避免一筆多行資料
• 使用可讀的
timestamp
• 不要使用 time offsets
• Timestamp 放最前面
• 留下 UUID 或 Session
ID
– 資料關連性
• 要考慮未來
– 資料價值、業務發展
– 可計算、可彙總的
• 分類分級

19
機器資料特性與類型
特性
時間序列，時間順序性
純文字格式(Plain Text)
內容產生後不再修改
日誌(Log/Event)
紀錄(Record)
封包資訊
工業設備訊號
感應器資料
資料庫內的資料
效能量測指標
Message/Queue
設定檔
點擊紀錄
系統畫面
STDOUT
API 輸出

20
用單一平臺收集各式機器資料
不用事先定義資料欄位，不用客製化連接器，不用資料庫，不需要事先過濾
Web logs
Log4J, JMS, JMX
.NET events
Code and scripts
Configurations
syslog
SNMP
netflow
Configurations
Audit/query
logs
Tables
Schemas
Hypervisor
Guest OS, Apps
Cloud
Configurations
syslog
File system
ps, iostat, top
Registry
Event logs
File system
sysinternals
Logfiles Configs Messages Traps
Alerts
Metrics Scripts TicketsChanges
UNIX平台
Linux/Unix
視窗平台
Windows
網路設備
Networking
資料庫
Databases
應用系統
Applications
虛擬化 & 雲端
Virtualization
Click-stream data
Shopping cart data
Online transaction
data
客戶使用資料
資料中心以外
其他資料
Manufacturing,
logistics…
CDRs & IPDRs
Power consumption
RFID data
GPS data
凡走過，必留下足跡 => Splunk 收集所有的足跡，進行問題追蹤、使用分析

21
• 資料的傳遞與收集需考量：
– 收集工具支援的資料收集管道
– 收集工具支援的資料類型
– 傳遞與收集的安全性、穩定性與效能
• 資料的 ETL (Extract, Transform, Load)
– 若使用前述資料格式或已結構化格式通常簡單
– 預處理的需求
生流存算用看

22
Splunk 能收集多種資料結構
結構化資料非結構化資料
關聯式
資料庫
半結構化資料
Log Email XM
L
聲音圖片影像
Extract
Metadata

23
Splunk 資料收集方式
彈性的資料收集方式，可使用代理程式或免用代理程式
perf
shell
code
Mounted File Systems
hostnamemount
syslog
TCP/UDP
WMI
Event Logs
Performance
Active
Directory
syslog compatible hosts
and network devices
Unix, Linux and Windows hosts
(NFS, CIFS, SMB…etc.)
Windows hosts DB Connection, SNMP, REST API,
STDOUT…etc.
Local File
Monitoring
log files
config files
dumps and trace files
Windows Inputs
Event Logs
performance counters
registry monitoring
Active Directory monitoring
virtual
host
Windows hosts
Scripted
Inputs
shell scripts
custom parsers
batch loading
免安裝代理程式 Splunk Forwarder

24
資料收集容錯能力
24
多重保障機制，讓資料能順利收集保存
壓縮與加密
日誌緩衝佇列
自動負載平衡
自動故障轉移
自動斷線重傳
匿名化個資遮罩
傳輸頻寬管理
分散式搜尋
Forwarder Forwarder Forwarder

25
• 資料的 ETL (Extract, Transform, Load)
– 若使用前述資料格式或已結構化格式比較簡單
– ETL 對預處理的需求
– 資料處理流程最花時間的大概就在這邊
• 資料的儲存與生命週期管理
– 視這些資料有多重要而定
– 巨量資料的備份與備援議題
生流存算用看

26
Splunk 能在資料收集後再欄位定義
• 可以依需求動態定義所需要的欄位
• 提供多種工具協助定義欄位
• 能自動識別多種資料格式：
– JSON, CSV, W3C…etc.

27
Data Schema 不再是限制

28
便利的欄位定義工具

29
也有 Hadoop 協助 ETL 的案例

30
Splunk 叢集確保資料高可用性
• 向 Hadoop 學習
• 資料高可用性
– 可自由設定 Replication
Factor 數
• Multi-site Clustering
– 跨資料中心備援
• 可自由橫向擴充
– 可達 PB 等級

31
資料生命週期管理
機器資料
Hot Buckets
滿了
同一個目錄
太多
Warm Buckets
更名
搬移
比較便宜的儲存空間
磁碟空間滿了
或
到達保存年限
搬移
離線儲存(例如磁帶櫃)
或
自動刪除過期日誌用完刪除
資料回復
倒回特定目錄就可以使用

32
• 學習曲線是重要考量
– 對企業來說，Time to Value 仍然很重要
– 人才搜尋或養成
• 時間與人力，都是成本
生流存算用看

33
Search your IT infrastructure
J2EE exception
Last 60 minutes
fail* password sshd
Last 30 minutes
Last 60 minutes
Last 3 hours
Last 24 hours
Last 7 days
All time
Last 24 hours
以關鍵字方式快速探索巨量資料

35
搜尋功能也滿足需求
• 關鍵字搜尋
• 欄位搜尋
• 正規表示式(Regular
Expression)搜尋
• 資料關連
• 子查詢與 Join
• 資料參照(Lookup)
• 資料加工處理
• 資料運算與統計
• 資料標記(Tag)與事件類型
(Event Type)管理
• 資料模型(Data Modeling)與樞
紐分析(Pivot)
• 預測分析 (Predictive Analysis)

36
Splunk 的 Map Reduce 作法
36
以分散式搜尋從各 Indexer 取出資料，並將結果交由 Search Head 彙整
分散式搜尋
Search Head
Map Reduce
Indexer Indexer Indexer Indexer

37
也可以跟 Hadoop 合作
匯入
瀏覽
匯出
利用 Splunk Hadoop Connect 與 Hadoop 交換資料
Splunk
Hadoop
Connect
HA Indexes
and Storage
Commodity
Servers
Hadoop
(MapReduce
& HDFS)
Report
and
analyze
Custom
dashboards
Monitor
and alert
Ad hoc
search

38
或乾脆讓 Hadoop 來計算
可完全與 Hadoop 整
合，運用 Hadoop
完成搜尋與計算
能夠立即為 Hadoop
的導入帶來效益
可直接使用已存在
Hadoop 內的資料
搜尋與探索視覺化儀表板分享分析
NoSQL and Other Data Stores
Hadoop Client Libraries Streaming Resource Libraries
保留 Splunk 全功能，
操作方式與 Splunk
完全相同

39
台灣唯一 Splunk 授權教育訓練中心
原廠證書
專業場地
原廠認證講師
原廠授權教材

40
• 資料的應用場景才是關鍵
– 新的技術需要創新思維
– 顧問很重要：專業領域與Big Data技術
• 運算結果的利用與整合
– 呈現？
– 偵測與發出訊息
– 與第三方系統介接
生流存算用看

41
機器資料可以拿來做什麼？
避險
節流
開源
日誌管理
資安稽核
法規遵循
個資法
ISO27001 / ISO20000
資安監控
資安事件分析
網站/App分析
使用者行為分析
Customer Insight
精準行銷
(CEM)用戶經驗管理
商業情報分析
Business Insight
IT 與系統狀態監控
效能與資源監控
應用系統管理/監控
故障查找排除
異常問題調查
資源規劃

42
Splunk 的應用橫跨 IT 與 Business 層面
• Splunk的應用領域
– 日常維運管理
– 資源與效能管理
– 資訊安全管理
– 市場分析與商業智慧
– …
Splunk 帶來「一份日誌，多重應用」的複合價值
Mush up
Web
Apps
網站管理
團隊
VPs of
Infrastruc
ture

43
適用於各種角色與應用的報表與儀表板
網站維運分析
應用系統管理商情分析
資安與法規遵循
LOB Owners/
Executives
Customer
Support
System
Administrator
IT 維運管理
Operations
Teams
Security
Analysts
IT
Executives
Development
Teams Auditors
Website/Business
Analysts
提供給 IT 與 Business 層面透徹的資料可視度與洞察力
稽核員
IT負責人
行銷與商
務分析人
員
業務負責人

44
Splunk Apps 讓你想怎麼用就怎麼用
超過 500 種 Apps 提供各種應用方式
REST API
XenApp
XenDesktop
Server,
Storage,
Network
Server
Virtualization
Operating
Systems
Infrastructure
Applications
Mobile
Applications
Cloud Services
Other Monitoring
Ticketing/Help
Desk
Custom Biz
Applications
SDKs
Web Framework

45
Splunk 提供客製化開發的彈性
REST API
Web Framework
開發人員可以利用熟悉的程式語言、SDK 介接其他系統或開發應用
Web
Framework
JAVA
JavaScript
Python
Data Models
Search
Extensibility
Modular Inputs
SDKsSimple XML
JavaScript
Django
Ruby
C#
PHP

46
ODBC driver 提供更多整合便利

47
透過 DB Connect 連結 RDBMS 以及 Hadoop 世界

48
Splunk 分別與 Hortonworks 與 Cloudera 合作

50
• Hadoop 缺乏原生工具，需要整合外部工具
• 手刻 vs. 工具的考量
– 熟悉程度、整合彈性、呈現方式
– 學習曲線、用途、時間成本…
• Data Visualization 是另外一門專門學科/藝術
– 訊息含量、美感、解讀能力…
生流存算用看

51
Splunk 內建多種圖表
不需要撰寫程式，即選即用

52
透過安裝 Apps 還可以擴充

54
Splunk 是完整的巨量資料解決方案
生流存算用看
完整成熟的解決方案，涵蓋巨量資料處理各階段會遭遇的挑戰
成熟穩定的資料
收集機制
完善的資料格式
處理能力
妥善的資料生命
週期管理
強大的資料搜尋
運算功能
貼心的 Hadoop
整合應用
開放彈性的資料
整合開發平台
優異便利的
資料視覺化工具

55
結論
Splunk & Hunk 是 Hadoop 的好朋友
Splunk 是優異的機器資料應用平台
從資料來源開始規劃，事半功倍
Big Data 議題不只是分散式或是計算的問題

Big data, big challenge－ splunk 幫你解決 big data 議題帶來的挑戰

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Similar to Big data, big challenge－ splunk 幫你解決 big data 議題帶來的挑戰

Similar to Big data, big challenge－ splunk 幫你解決 big data 議題帶來的挑戰 (20)

Big data, big challenge－ splunk 幫你解決 big data 議題帶來的挑戰

Editor's Notes