(一)概述
为什么要数据挖掘(Data Mining)?
存在可以广泛使用的大量数据,并且迫切需要将数据转转换成有用的信息和知识
什么是数据挖掘?
数据挖掘(Data Mining)是指从大量数据中提取或“挖掘”知识。
对何种数据进行数据挖掘?
关系数据库、数据仓库、事务数据库
空间数据
超文本和多媒体数据
时间序列数据
流数据
(二)数据预处理
为什么要预处理数据?
为数据挖掘过程提供干净、准确、简洁的数据,提高数据挖掘的效率和准确性,是数据挖掘中非常重要的环节;
数据库和数据仓库中的原始数据可能存在以下问题:
定性数据需要数字化表示
不完整
含噪声
度量单位不同
维度高
数据的描述
度量数据的中心趋势:均值、加权均值、中位数、众数
度量数据的离散程度:全距、四分位数、方差、标准差
基本描述数据汇总的图形显示:直方图、散点图
度量数据的中心趋势
集中趋势:一组数据向其中心值靠拢的倾向和程度。
集中趋势测度:寻找数据水平的代表值或中心值。
常用的集中趋势的测度指标:
均值:
缺点:易受极端值的影响
中位数:对于不对称的数据,数据中心的一个较好度量是中位数
特点:对一组数据是唯一的。
不受极端值的影响。
众数:一组数据中出现次数最多的变量值。
特点:不受极端值的影响。
有的数据无众数或有多个众数。
度量数据的离散程度
反映各变量值远离其中心值的程度(离散程度),从另一个侧面说明了集中趋势测度值的代表程度。
常用指标:
全距(极差):全距也称极差,是一组数据的最大值与最小值之差。
R=最大值-最小值
组距分组数据可根据最高组上限-最低组下限计算。
受极端值的影响。
四分位距 (Inter-Quartilenge, IQR):等于上四分位数与下四分位数之差(q3-q1)
反映了中间50%数据的离散程度,数值越小说明中间的数据越集中。
不受极端值的影响。
可以用于衡量中位数的代表性。
四分位数:
把顺序排列的一组数据分割为四(若干相等)部分的分割点的数值。
分位数可以反映数据分布的相对位置(而不单单是中心位置)。
在实际应用中四分位数的计算方法并不统一(数据量大时这些方法差别不大)。
对原始数据:
SPSS中四分位数的位置为(n+1)/4, 2(n+1)/4, 3 (n+1)/4。
Excel中四分位数的位置分别为(n+3)/4, 2(n+1)/4,(3 n+1)/4。
如果四分位数的位置不是整数,则四分位数等于前后两个数的加权平均。
方差和标准差:方差是一组数据中各数值与其均值离差平方的平均数,标准差是方差正的平方根。
是反映定量数据离散程度的最常用的指标。
基本描述数据汇总的图形显示
直方图(Histogram):使人们能够看出这个数据的大体分布或“形状”
散点图
如何进行预处理
定性数据的数字化表示:
二值描述数据的数字化表示
例如:性别的取值为“男”和“女”,男→1,女→0
多值描述数据的数字化表示
例如:信誉度为“优”、“良”、“中”、“差”
第一种表示方法:优→1,良→2,中→3,差→4
第二种表示方法:
填充空缺值(不完整的数据):
忽略元组
人工填写
使用属性的均值
使用与给定元组属同一类的所有样本的属性均值
消除含噪声的数据:
分箱:
分箱前对记录集按目标属性值的大小进行排序
等深分箱法
等宽分箱法
用户自定义
分箱之后,按箱平均值平滑,按箱边界平滑
数据变换
最小-最大规范化
z-score规范化
小数定标
数据压缩
主成分分析(PCA)
特征选择
(三)数据分类
分类的定义
分类是指把数据样本映射到一个事先定义的类中的学习过程,即给定一组输入的属性向量及其对应的类,用基于归纳的学习算法得出分类。
分类问题使用的数据集格式:
描述属性的取值可以定性的数据,也可以是定量的数据;而类别属性的取值必须是定性的数据。
定量的数据是指在某一个区间或者无穷区间内取值是连续的,例如描述属性“Age”
定性的数据是指该属性的取值是不连续的,例如属性“Salary”和“Class”
获取数据
输入数据、对数据进行量化
预处理
去除噪声数据、对空缺值进行处理
数据变换、数据压缩
分类器设计
划分数据集、分类器构造、分类器测试
分类决策
对未知类标号的数据样本进行分类
决策树的基本概念
适用于定性取值属性、定量取值属性
采用自顶向下的递归方式产生一个类似于流程图的树结构
在根节点和各内部节点上选择合适的描述属性,并且根据该属性的不同取值向下建立分枝。
决策树的优点:
进行分类器设计时,决策树分类方法所需时间相对较少;
决策树的分类模型是树状结构,简单直观,比较符合人类的理解方式;
可以将决策树中到达每个叶节点的路径转换为IF—THEN形式的分类规则,这种形式更有利于理解。
决策树算法ID3
ID3只能处理定性取值属性;在选择根节点和各个内部节点上的分枝属性时,采用信息增益作为度量标准,选择具有最高信息增益的描述属性作为分枝属性
决策树算法C4.5
C4.5算法使用信息增益比来选择分枝属性,克服了ID3算法使用信息增益时偏向于取值较多的属性的不足;
C4.5既可以处理定性取值属性,也可以处理定量取值属性。
(四)数据聚类
聚类分析的定义
聚类分析是将物理的或者抽象的数据集合划分为多个类别的过程,聚类之后的每个类别中任意两个数据样本之间具有较高的相似度,而不同类别的数据样本之间具有较低的相似度
连续型属性的相似度计算方法
欧氏距离(Euclidean distance )
曼哈顿距离(Manhattan distance )
明考斯基距离(Minkowski distance )
二值离散型属性(二元变量)的相似度计算方法
对称的二值离散型属性是指属性取值为1或者0同等重要。
例如:性别就是一个对称的二值离散型属性
不对称的二值离散型属性是指属性取值为1或者0不是同等重要。
例如:血液的检查结果是不对称的二值离散型属性,阳性结果的重要程度高于阴性结果
多值离散型属性的相似度计算方法
分类变量的相似度
d 为数据集中的属性个数,u 为样本xi 和xj 取值相同的属性个数
对于包含混合类型属性的数据集的相似度通常有两种计算方法:
将属性按照类型分组,每个新的数据集中只包含一种类型的属性;之后对每个数据集进行单独的聚类分析
把混合类型的属性放在一起处理,进行一次聚类分析
k-means 聚类算法的基本概念
划分聚类方法对数据集进行聚类时包含三个要点:
选定某种距离作为数据样本间的相似性度量
选择评价聚类性能的准则函数
选择某个初始分类,之后用迭代的方法得到聚类结果,使得评价聚类的准则函数取得最优值 ∑=-=d 1k 2jk
ik j i )x x ()x ,x (d ∑=-=d
1k jk
ik j i x x )x ,x (d q /1d 1k q jk ik j i )
x x ()x ,x (d ∑=-=d
u d )x ,x (d j i -=
层次聚类方法的基本概念
层次聚类方法分为凝聚型层次聚类和分解型层次聚类。
凝聚型层次聚类按照自底向上的方式对数据集进行聚类,初始时将每个数据样本单独看作一个类别,之后按照某种相似性度量标准逐步将数据样本进行合并,直到所有的数据样本都属于同一个类别或者满足终止条件为止;
分解型层次聚类按照自顶向下的方式对数据集进行聚类,初始时将所有的数据样本归为一个类别,之后按照某种相似性度量标准逐步将数据样本分解为不同的类别,直到每个数据样本单独构成一个类别或者满足终止条件为止。
(五)关联规则
概述
关联规则(Association Rule Mining)挖掘是数据挖掘中最活跃的研究方法之一最早是由R.Agrawal等人提出的
其目的是为了发现超市交易数据库中不同商品之间的关联关系。
一个典型的关联规则的例子是:70%购买了牛奶的顾客将倾向于同时购买面包。
经典的关联规则挖掘算法:Apriori算法和FP-growth算法
(六)统计分析
●某企业希望通过增加广告支出,调整产品价格等措施来增加销售量
●企业需要确定销售量与广告支出、销售价格之间的定量关系
●确定以上定量关系的过程称为回归分析
●我们感兴趣的属性(销售量)称为因变量
●影响因变量变动的属性(广告支出、销售价格)称为自变量
●表示因变量和自变量之间定量关系的函数称为回归模型
●回归模型中只包含一个自变量时,称为一元回归模型,否则,称为多元回归
模型
●回归模型中的自变量只以一次方的形式出现时,称为线性回归模型,否则,
称为非线性回归模型
●主要研究多元线性回归模型
(七)人工神经网络
人工神经网络(artificial neural networks)是实现非解析关系预测的主要手段之一,它把系统看作一个黑匣子,不关心系统内部的数据变换,只关心系统的输入数据和输出数据。
梯度下降法
梯度下降法是一个最优化算法,常在机器学习和人工智能中用来进行递归性地逼近最小偏差。
梯度下降法的计算过程就是沿梯度下降的方向求解极小值(也可以沿梯度上升方向求解极大值)。