当前位置：文档之家› 数据挖掘知识

数据挖掘知识

2014年12月18日5时6分
24
分类 VS 预测相同点
两者都需要构建模型来估计未知值
不同点
分类法主要是用来预测类标号（分类属性值）预测法主要是用来估计连续值（量化属性值
2014年12月18日5时6分
4
统计学与数据挖掘的区别
数据
样本数量不同（在统计学中样本数量大于30，则成为大样本）数据来源和质量不同数据挖掘既可以处理结构化数据，也可以处理非结构化和异型数据有些数据挖掘的分析方法是统计学中没有的，如强调实时分析（协同过滤）统计分析方法在对大规模数据处理时不能像数据挖掘那样采用神经网络、遗传算法等机器学习的方法模型（统计学） VS 模式（数据挖掘）统计建模强调模型的普适性，数据挖掘强调从数据中发现模式统计学强调模型，运算量居于次要地位数据挖掘的精华在于结果的未知性，强调探索性分析，与之对应的是算法而不是模型统计学：以数学为基础，每种方法有严格的证明体系（主成分分析，回归分析）数据挖掘：采用合理的算法，这些算法不全都有坚实的数学基础作支撑。
其中和是回归系数，可以根据给定的数据点，通过最小二乘法来求得
多元回归：Y = + 1X1 + 2 X2
线性回归的扩展，设计多个预测变量，可以用最小二乘法求得上式中的，1 和2
非线性回归：Y = + 1X1 + 2 X22+ 3
X33
对不呈线性依赖的数据建模使用多项式回归建模方法，然后进行变量变换，将非线性模型转换为线性模型，然后用最小二乘法求解
方法
模型（模式）
算法
方法论
2014年12月18日5时6分
5
怎么做数据挖掘？
数据挖掘一般流程
定义问题数据理解数据预处理建立模型实际挖掘工作评价和解释应用
各步骤之间互相影响、反复调整，形成一种螺旋式上升的过程
2014年12月18日5时6分 6
数据导入
数据预处理
模型挖掘
EP
1 2
(t pi
O pi )
2
2014年12月18日5时6分
18
优点
• 预测精度总的来说较高
• 健壮性好，训练样本中包含错误时也可正常工作
• 输出可能是离散值、连续值 • 对目标进行分类较快
缺点
• 训练（学习）时间长
• 蕴涵在学习的权中的符号含义很难理解 • 很难跟专业领域知识整合
决策树的生成包括两个阶样本中选择包含信息量最大的属性作为根节点其次，中间结点是该根节点出发的的所有子集中包含信息量最大的属性树的修剪识别并删除那些反映噪声或孤立点的分支
决策树的构建过程是一个递归的过程，所以需要确定停止条件，否则过程将不会结束。一种最直观的方式是当每个子节点只有一种类型的记录时停止，但是这样往往会使得树的节点过多，导致过拟合问题（Overfitting）。另一种可行的方法是当前节点中的记录数低于一个阀值，那么就停止分割，将记录中出现比例最大对应的分类作为当前叶节点的分类。
数据挖掘基本知识与算法介绍
数据应用部黄金宝 2014-5-16
2014年12月18日5时6分
1
目录
数据挖掘的基本概念数据挖掘流程数据挖掘的基本算法数据挖掘应用及演示案例
2014年12月18日5时6分
2
什么是数据挖掘？
存在太多数据挖掘的定义，但基本上有这样一种描述结构
To find / discover / extract / dredge / harvest 、、、 Interesting / novel / useful / implicit / actable / meaningful 、、、 Information / knowledge / patterns / trends / rules / anomalies 、、、
2014年12月18日5时6分
21
Bagging技术演示
boost技术演示
2014年12月18日5时6分
22
预测注：预测是构造和使用模型评估给定样本可能具有的属性或值空间. 常用的预测方法回归分析
神经网络
2014年12月18日5时6分
23
回归分析线性回归：Y = + X
2014年12月18日5时6分
17
2.感知机
感知机原理：神经元i的输入（神经元J输出）为
Ii
[w ij xj
i ]
作用函数为[0,1]型阶梯函数
Xj为神经元j的输入，wij是连接权值，神经元i的输出为
Oi f(I i )
设神经元i的期望输出为D,通过样本学习，修正权值，使得计算输出和期望输出之差尽可能小 3.BP神经网络（1）多层网络结构（不仅有输入、输出结点还有一层或多层隐结点，每一层连接都对应一个连接权值和结点阀值）（2）作用函数为(0，1)S型函数（3）误差公式为
它们同时输入神经元j，神经元的单输出用oj表示
特性2：输入类型：兴奋性和抑制性
生物神经元具有不同的突触性质和突触强度，其对输入的影响是使有些输入在神经元产生脉冲输出过程中所起的作用比另外一些输入更为重要。图(b)中对神经元的每一个输入都有一个加权系数wij，称为权重值，其正负模拟了生物神经元中突触的兴奋和抑制，其大
2014年12月18日5时6分
14
优点
• 算法简单，易理解
• 有坚实的数学理论支撑，同时有稳定的分类效率
缺点
• 模型假设的各属性之间相互独立，这个在实际应用中很
难实现
2014年12月18日5时6分
15
常用的分类方法——神经网络
神经网络是一组连接的输入/输出单元，每个连接都与一个权相连。在学习阶段，通过调整神经网络的权，使得能够预测输入样本的正确标号来学习。 1.MP模型每个神经元的状态只取0或1，分别代表抑制与兴奋，每个神经元的状态由MP方程决定：（其中Wi是权值，T是阀值，f(x)是作用函数） y f[ Wi x Ei T ] 1.[0,1]阶梯函数
2014年12月18日5时6分
19
其他的分类方法
Logistic回归
支持向量机（SVM） k-最临近分类(K-NN) 遗传算法粗糙集方法
2014年12月18日5时6分
20
提高分类法的准确性 Bagging技术和boosting技术都通过将T个学习得到的分类法C1,C2…CT组合起来，从而创造一个改进的分类法C* Bagging技术对训练集S进行T次迭代，每次通过放回取样选取样本集St，通过学习St得到分类法Ct 对于未知样本X，每个分类法返回其类预测，作为一票 C*统计得票，并将得票最高的预测赋予X Boosting技术每个分类Ct赋予一个权值 Ct的权值取决于分类准确率
student?
no no
yes yes
excellent no
fair yes
2014年12月18日5时6分
13
常用的分类方法——贝叶斯分类
贝叶斯分类利用统计学中的贝叶斯定理，来预测类成员的概率，即给定一个样本，计算该样本属于一个特定的类的概率。（假设每个属性之间都是相互独立的，并且每个属性对分类问题产生的影响都是一样的）算法过程; 1.待分类项X=(a1、a2、….an)，其中a为X的一个特征的属性 2.类别集合Y=(c1、c2、…cn),现在计算P(c1/X)、P(c2/X).. P(cn/X)
3
数据挖掘的理解
• 数据挖掘是指从数据库的大量数据中揭示出隐含的、先前未知的并有潜在价值的信息的非平凡过程。
要点一
• 数据挖掘是一种决策支持过程，它主要基于人工智能、机器学习、模式识别、统
要点二
计学、数据库、可视化技术等，高度自动
化地分析企业的数据，做出归纳性的推理，从中挖掘出潜在的模式，帮助决策者调整市场策略，减少风险，做出正确的决策。
2014年12月18日5时6分 9
分类（有监督的学习过程，根据训练数据集和类标号属性，构建模型来分类现
有数据，并用来分类新数据）
第一步，建立一个模型，描述预定数据类集和概念集
分类算法
训练数据集
分类规则
IF rank = ‘professor’ OR years > 6 THEN tenured = ‘yes’
应用决策树: 对未知样本进行分类
在决策树上对新样本从根结点开始，按照样本属性的取值，逐渐沿着决策树向下，直到叶节点，该叶节点代表的类就是新样本的类别
2014年12月18日5时6分 11
优点
• 决策树简单易理解，容易生成便于解释的规则
• 既能处理数值型属性，也能处理非数值型的属性 • 能在相对较短时间内对大量数据源作出可行且效果良好的结果（高
3根据贝叶斯定理P(ci/X)= P(X/ci)* P(ci)/ P(X)=
4.计算P(ck/X)= max(P(ci/X))=max(
P(aj/ci)* P(ci)/ P(X)
P(aj/ci)* P(ci)/ P(X))
5.对所有的类别P(X)是常数，故P(aj/ci)* P(ci）最大项对应的类别就是X所属类别
In massive data / large data set / large database / data warehouse 、、、
Wisdom Knowledge Information Data
2014年12月18日5时6分
Knowledge + experience Information + rules Data + context

e商务文档

数据挖掘知识

相关文档推荐：