More Related Content Similar to 数据挖掘理论与实践 (20) 数据挖掘理论与实践2. 大纲
• 什么是数据挖掘?
• 数据挖掘有什么用?
• 数据挖掘的相关理论
• 数据挖掘的相关技术
• 数据挖掘的实际应用
4. 背景
• 数据挖掘 - - data mining
• 背景
– 数据
• 随着业务增长,急剧膨胀,
– GB、TB、PB、EB、ZB … …
• 数据足够,但无法利用,或利用率很低
• 数据孤岛、数据死角
• 数据复杂度、维度很高
• 需要使数据可见
• 数据 -》知识 -》决策
– 从每天海量的销售数据中发现商机!
5. 典型案例
• 电信
• 移动
– BASS(业务经营分析系统)
• 沃尔玛(since1980)
欺诈检测 客户关系管理 科学探索
信用等级 决策支持
趋势分析
联网审计 工程设计
市场预测 Spam检测
关联销售
8. Knowledge Discovery
& Data Mining…
More theory
Focused on More Presenting ,
based ,
extraction heuristic, assist to
focused on
patterns exploring, analysis or
testing
from data learning decision
hypotheses
Data Machine
Visualization Statistics
Mining Learning
Knowledge Discovery
11. OLAP
• 多维数据模型:
– 维度
• 维度属性
• 层级维度
• 时间维度
• ……
– 度量
• 度量值
• 度量值组
– 星形、雪花型
• OLAP的基本操作:
• 钻取(Drill-down、Roll-up、Drill-across、Drill-through)、
• 切片(Slice)
• 切块(Dice)以及旋转(Pivot)
12. 何谓ETL?
Extraction Transformation
Load
平面文件、xml、关系型数据库、excel、access,etc.
无法处理非结构化数据:文本、音频、视频等
13. 数据仓库与传统数据库的比较
• 大小
– 数据库-》数据集市-》数据仓库
• 数据仓库的大小会远远大于数据库的大小
– 历史数据
– 综合数据
– 计算数据
• 结构
– 数据库:二维平面
– 数据仓库:多维立体
14. 一些概念
• OLTP(On-line Transaction Processing)
• OLAP(On-line Analytical Processing)
• ETL(Extraction-Transformation-Load)
• DSS(Decision Support System)
• MDM(Master Data Management)KDD
(Knowledge-Discovery in Databases)
17. Design
• 业务分析调研
• 界定系统边界
• 确定主题域
• 概念模型设计
• 模型评估
• etc
18. Data Collection & Availability
• 数据收集
• 数据整理
• ETL(抽取,转换,装载)
• 数据从哪来?
– 数据库
– 财务报表
– Web站点 这数据也太多了,怎么办?
– 销售记录
围绕一个业务主题!
– 库存记录
– 账单
– ……
23. 统计分析
• 序列统计
• 概率论
• 回归分析
• 类别数据分析
• 模糊计算理论
• 基因算法
25. • 决策树(Decision Trees)
• 神经网络(Neural Network)
• 规则归纳法(Rules Induction)
• Logistic回归(Logistic Regression)
• ……
28. BOBI方案
Business Objects 商务智能解决方案
数据整合* 信息展现*
财务信息
数据仓库
Extract –Transform - Load 绩效管理(EPM)
决策者
销售信息 随机查询(ad*hoc) 管理者
“ETL”
分析门户 分析员
多维分析(OLAP)
… 业务员
Oracle
其他信息 SQL Server 固定报表
DB2
BOBJ TeraData
Data Integrator … BOE
商务智能平台
Slide 37 Confidential and proprietary. Copyright © 2005 Business Objects S.A. All rights reserved.
31. ETL
• DTS、SSIS
• OWB(Oracle Warehouse Builder)
• ODI(Oracle Data Integrator)
• Informatic PowerCenter
• AICloudETL
• DataStage
• Repository Explorer
• Beeload
• Kettle,Pentaho
• DataSpider
32. BI
• IBM Cognos
• Business Objects
• MicroStrategy
• Hyperion
• Business Objects (07年被SAP收购)
• SQL Server Analysis Server、Reporting
Services
• 润乾报表
33. Data Mining
• SAS(Statistical Analysis System)
• IBM QUEST
• SGI MineSet
• SPSS Clementine
• DBMiner
• Oracle Darwin
34. 相关领域
• Web mining
• Text mining
• Spatial data mining(空间数据挖掘)
• Social data mining
35. 开源的数据挖掘工具
• RapidMiner,http://rapid-i.com/
• Kettle,ETL工具,http://kettle.pentaho.com/
• Orange,http://www.ailab.si/orange
• R,统计分析,http://www.r-project.org
• Tanagra ,
• Weka,机器学习,http://eric.univ-lyon2.fr/wricco/tanagra
• KNIME,http://knime.org/
• Ggobi,可视化,http://www.ggobi.org/
• Gephi,可视化,http://gephi.org/
• Mahout, http://mahout.apache.org/
• Jhepwork,http://jwork.org/jhepwork/
• ……