当前位置:文档之家› 第02章 数据仓库原理

第02章 数据仓库原理

数据仓库与数据挖掘
第2章 数据仓库原理
第2章 数据仓库原理
2.1多数据源问题 2.2 数据预处理 2.3 E-R模型 2.4 数据仓库的概念模型 2.5 数据仓库的逻辑模型 2.6数据仓库的物理模型
2.1多数据源问题
2.1多数据源问题 1、多数据源 数据仓库和数据挖掘的数据通常来自多种数据库或计算机应 用系统或数据文件、web页面。 2、多数据源在集成的问题 (1) 数据不一致:数据的不一致性主要指数据之间的矛盾性 和不相容性。如职务升迁了,但工资数据却没有改变 (2) 属性差异:性别属性有的取“男”/“女”,长度为2;有 的取“1”/“0”,长度为1。 (3) 数据重复:数据源中存在两条或多条完全相同的记录,或 者同一个数据冗余地存在于多个数据源中。比如,某人的身 份信息同时存在于常住人口和暂住人口数据库中。
第 11 页
2.2 数据预处理
① 等深分箱法:把数据集中的数据按照排列顺序分配到k个箱子 中(k=1,2,…,k)。
当k整除n时,令p=n/k,则每个箱子都有p个数据,即 第1个箱子的数据为:a1,a2,…,ap; 第2个箱子的数据为:ap+1,ap+2,…,a2p; 第k个箱子的数据为:an-p+1,an-p+2,…,an;
能的取值。
第9 页
2.2 数据预处理
3、数据噪声处理 数据噪声(Data Noise)
一种难于解释的数据剧烈变动,它导致一组数据中某些数据 与组内其它数据出现了极大的偏差。 ① 分箱(binning):把数据集中所有数据放入不同箱子(区间)的 过程称为分箱。 一个实数区间称为一个箱子(bin),它通常是连续型数据集中最 小值和最大值所包含的子区间。 如果一个实数属于某个子区间,就称把该实数放进了这个子区 间所代表的“箱子”。 分箱技术是一种简单而常用的数据预处理方法,也是一种连续 型数值的离散化方法。
第 10 页
2.2 数据预处理
(2) 分箱技术的步骤: ① 对数据集的数据进行排序; ② 确定箱子个数k、选定数据分箱的方法并对数据集中数据进行
分箱; ③ 选定处理箱子数据的方法,并对其重新赋值。
(3) 常用分箱方法 等深分箱、等宽分箱、自定义区间和最小熵分箱法。 (4)一般假设
箱子数为k,n(nk)个数据的数据集且按非减方式排序为 S={a1,a2,…,an),即ai[ a1, an]。
其中
显然,如果令NewMin=0, NewMax=1,则公式就是对原始数 据的无量纲化处理。
第 18 页
2.2 数据预处理
(2)零-均值规范化 零-均值规范化(z-score normalization)是根据属性值的平均
值和标准差进行规范化,即
其中, 为所有样本属性值的平均值,X为样本标准差。
解:A的最小值和最大值区间为[1, 11],k=4,子区间平均长 度 (11-1)/4=2.5,即
I1=[1, 3.5),I2=[3.5, 6),I3=[6, 8.5),I4=[8.5,11]。 按照等宽分箱法有B1={1, 2, 3, 3}, B2={ 4, 4, 5},
B3={6, 6, 7, 7, 8}, B4={ 9, 11}。
标准差也被称为标准偏差,或者实验标准差,简单来说,标准 差是一组数据平均值分散程度的一种度量。假设有一组数值 X₁,X₂,X₃,......Xn(皆为实数),其平均值(算术平均值)为 μ,公式为:
第 19 页
2.2 数据预处理
(3) 小数定标规范化 小数定标规范化(decimal scaling normalization)通过移动属
第 14 页
2.2 数据预处理
③ 用户自定义区间。当用户明确希望观察某些区间范围内的数 据分布时,可以根据实际需要自定义区间。
数据平滑:对每个箱子中数据进行单独重新赋值。 三种常见方法:按平均值、按边界值和按中值平滑。 ① 按平均值平滑。对同一个箱子中的数据求平均值,并用这个
平均值替代该箱子中的所有数据。 对于例2-3所得4个箱子,用这个方法平滑的结果为:
第 15 页
2.2 数据预处理
4、不平衡数据处理 (1) 过抽样(oversampling) 在样本集中通过增加少数类的样本来提高少数类样本的数量,
最简单的办法是复制少数类样本。 这种方法的缺点是引入了额外的训练数据,会延长构建分类器
所需要的时间,没有给少数类增加任何新的信息,而且可能 会导致过度拟合。 (2) 欠抽样(undersampling) 该方法通过减少多数类样本的数量来提高少数类样本在样本集 中的比例。最简单的方法是通过随机方法,去掉一些多数类 样本来减小多数类的规模。 这种方法的缺点是会丢失多数类样本的一些重要信息,已有的 信息利用得不够充分。
2.2.1 数据清洗 1、数据清洗(Data cleaning)
发现并纠正数据源,即原始数据中存在的问题或错误的过 程,包括检查数据一致性,处理无效值、填补缺失值,以及 过滤掉那些不符合要求的数据等。 (1) 属性的处理:对多数据源含义相同的属性进行重命名和 统一类型长度,选择设置主键和派生属性等处理。
第4 页
2.2 数据预处理
1、数据预处理(data preprocessing) 在多数据源集成为统一数据集之前进行的数据清洗、数据
变换、数据规约等数据处理过程。 2、预处理的目的
消除多数据源集成存在的问题,为数据仓库或数据挖掘提 供一个完整、干净、准确、且有针对性的数据集合。
第5 页
2.2 数据预处理
第 13 页
2.2 数据预处理
② 等宽分箱法。把数据集最小值和最大值形成的区间分为k个左 闭右开的子区间(最后一个除外)I1,I2,…,Ik。如果 ai Ij就把数据ai放入第j个箱子。
例2-2:设A={1, 2, 3, 3, 4, 4, 5, 6, 6, 7, 7, 8, 9,11}共14个 数据,请用等宽分箱法将其分成k=4个箱子。
第3 页
2.1多数据源问题
(4) 数据不完整:某些属性的值可能是缺失的,甚至是错误 的数据。用户在登记注册时通常输入昵称等作为姓名。 (5)噪声数据:噪声是指测量数据时遇到的随机或其它不确定 性因素,它导致被测量的数据产生了偏差或错误,称这种含 有偏差或错误的数据为噪声数据。 (6) 高维数据:为较全面的描述实体,原始数据通常都使用 了较多属性。比如,在常住人口数据库中,描述公民的基本 信息就有128个属性。 (7) 模式不统一:即将集成为单一数据集的多个数据源的模 式不同。比如,“常住人口数据”和“暂住人口数据”两张 表,前者有128个属性,后者也有98个属性。 (8) 数据不平衡:即数据集中某一类样本的数量明显少于其 它类型样本的数量。
在数据准备时只选择其中之一,或者选择属性X,或者选择它相 关的属性。
第8 页
2.2 数据预处理
2、空值的处理 对原始数据中没有登记或没有输入的属性值——空值,使
用某种对其进行补充或删除等预处理。 ① 人工填补:优点是能够得到比较真实的数据,但通常人力耗
费很大,而且速度较慢。 ② 忽略记录:即将有空值的记录删除。 ③ 忽略属性:删除具有空值的列。 ④ 使用默认值:用一个固定的常数unknown或者*来填补。 ⑤ 使用平均值:用所有非空非空值的平均值来填补。 ⑥ 使用预测值:用一定的预测方法,计算得到空值属性最有可
第7 页
2.2 数据预处理
③ 处理主键属性:为建立挖掘结果和原始数据之间的直接对应 关系的话,需要保留主键属性。
在数据仓库中通常还要引进一些代理关键字,即人工引入或派 生出来的关键字(详见3.4节)。
④ 派生新属性:由日期属性派生出年、季、月、周、日等多个 时间层次的时间属性。
⑤ 选择相关属性:如果属性X的值可以由另外一个或多个属性 值计算出来,称属性X和这些属性是相关的。
② 统一属性:确保多个数据源中对同一实体特征的描述是统一 的,包括属性的长度、类型,还有属性的值域。
数据源常住人口的性别属性名为XB,类型为字符串,长度为2 ,取值{“男”,“女”},暂住人口表属性名仍为XB,但长 度为1的字符,取值{“1”,“0”}。
在数据仓库中属性名统一为Sex,类型仍为字符,长度为1,其 属性的值域为{“1”,“0”}。
B1={1, 2, 3, 3}平滑结果为{2.25, 2.25, 2.25, 2.25} B2={ 4, 4, 5}平滑结果为{4.33, 4.33, 4.33} B3={6, 6, 7, 7, 8, 9} 平滑结果
{7.17, 7.17, 7.17, 7.17, 7.17, 7.17} B4={11}的平滑结果为{11}。
第 21 页
2.3 E-R模型
1、E-R模型中的基本概念
(1) 实体(Entity):客观存在并可相互区别的事物 。
(2) 属性(Attribute):描述实体的每一个特征。姓名、性别
第 12 页
2.2 数据预处理
例2-1:设A={1, 2, 3, 3, 4, 4, 5, 6, 6, 7, 7, 8, 9,11}共14个 数据, 请用等深分箱法将其分成k=4个箱子。
解:因为k=4,n=14,所以p=n/k=14/4=3,q=143*4=2。由于数据集A已排序,因此前2个箱放4个,后为2 个箱放3个数据。 第1个箱子B1={1, 2, 3, 3}, B2={ 4, 4, 5, 6,}, B3={6, 7, 7}, B4={8, 9, 11}。
第 17 页
2.2 数据预处理
(1) 最小-最大规范化 最小-最大规范化(MIN-MAX normalization)假设数据的取值
区间为[OldMin, OldMax],并把这个区间映射到新的取值区 间[NewMin, NewMax]。 这是一个线性变换过程,变量被映射到新区间的值通过下面的 公式计算得出。 x[OldMin, OldMax],唯一x’[NewMin, NewMax],
相关主题