当前位置：文档之家› 第02章数据仓库原理

第02章数据仓库原理

数据仓库与数据挖掘
第2章数据仓库原理
第2章数据仓库原理
2.1多数据源问题 2.2 数据预处理 2.3 E-R模型 2.4 数据仓库的概念模型 2.5 数据仓库的逻辑模型 2.6数据仓库的物理模型
2.1多数据源问题
2.1多数据源问题 1、多数据源数据仓库和数据挖掘的数据通常来自多种数据库或计算机应用系统或数据文件、web页面。 2、多数据源在集成的问题 (1) 数据不一致：数据的不一致性主要指数据之间的矛盾性和不相容性。如职务升迁了，但工资数据却没有改变 (2) 属性差异：性别属性有的取“男”/“女”,长度为2；有的取“1”/“0”，长度为1。 (3) 数据重复:数据源中存在两条或多条完全相同的记录，或者同一个数据冗余地存在于多个数据源中。比如，某人的身份信息同时存在于常住人口和暂住人口数据库中。
第 11 页
2.2 数据预处理
① 等深分箱法:把数据集中的数据按照排列顺序分配到k个箱子中(k=1,2,…,k)。
当k整除n时，令p=n/k，则每个箱子都有p个数据，即第1个箱子的数据为：a1，a2，…，ap；第2个箱子的数据为：ap+1，ap+2，…，a2p；第k个箱子的数据为：an-p+1，an-p+2，…，an；
能的取值。
第9 页
2.2 数据预处理
3、数据噪声处理数据噪声(Data Noise)
一种难于解释的数据剧烈变动，它导致一组数据中某些数据与组内其它数据出现了极大的偏差。 ① 分箱(binning)：把数据集中所有数据放入不同箱子(区间)的过程称为分箱。一个实数区间称为一个箱子(bin)，它通常是连续型数据集中最小值和最大值所包含的子区间。如果一个实数属于某个子区间，就称把该实数放进了这个子区间所代表的“箱子”。分箱技术是一种简单而常用的数据预处理方法，也是一种连续型数值的离散化方法。
第 10 页
2.2 数据预处理
(2) 分箱技术的步骤： ① 对数据集的数据进行排序； ② 确定箱子个数k、选定数据分箱的方法并对数据集中数据进行
分箱； ③ 选定处理箱子数据的方法，并对其重新赋值。
(3) 常用分箱方法等深分箱、等宽分箱、自定义区间和最小熵分箱法。 (4)一般假设
箱子数为k，n(nk)个数据的数据集且按非减方式排序为 S={a1,a2,…,an)，即ai[ a1, an]。
其中
显然，如果令NewMin=0, NewMax=1，则公式就是对原始数据的无量纲化处理。
第 18 页
2.2 数据预处理
（2）零-均值规范化零-均值规范化(z-score normalization)是根据属性值的平均
值和标准差进行规范化，即
其中，为所有样本属性值的平均值，X为样本标准差。
解：A的最小值和最大值区间为[1, 11]，k=4，子区间平均长度 (11-1)/4=2.5，即
I1=[1, 3.5),I2=[3.5, 6),I3=[6, 8.5)，I4=[8.5，11]。按照等宽分箱法有B1={1, 2, 3, 3}， B2={ 4, 4, 5}，
B3={6, 6, 7, 7, 8}， B4={ 9, 11}。
标准差也被称为标准偏差，或者实验标准差，简单来说，标准差是一组数据平均值分散程度的一种度量。假设有一组数值 X₁,X₂,X₃,......Xn（皆为实数），其平均值（算术平均值）为 μ，公式为:
第 19 页
2.2 数据预处理
(3) 小数定标规范化小数定标规范化(decimal scaling normalization)通过移动属
第 14 页
2.2 数据预处理
③ 用户自定义区间。当用户明确希望观察某些区间范围内的数据分布时，可以根据实际需要自定义区间。
数据平滑:对每个箱子中数据进行单独重新赋值。三种常见方法：按平均值、按边界值和按中值平滑。 ① 按平均值平滑。对同一个箱子中的数据求平均值，并用这个
平均值替代该箱子中的所有数据。对于例2-3所得4个箱子，用这个方法平滑的结果为：
第 15 页
2.2 数据预处理
4、不平衡数据处理 (1) 过抽样(oversampling) 在样本集中通过增加少数类的样本来提高少数类样本的数量，
最简单的办法是复制少数类样本。这种方法的缺点是引入了额外的训练数据，会延长构建分类器
所需要的时间，没有给少数类增加任何新的信息，而且可能会导致过度拟合。 (2) 欠抽样(undersampling) 该方法通过减少多数类样本的数量来提高少数类样本在样本集中的比例。最简单的方法是通过随机方法，去掉一些多数类样本来减小多数类的规模。这种方法的缺点是会丢失多数类样本的一些重要信息，已有的信息利用得不够充分。
2.2.1 数据清洗 1、数据清洗(Data cleaning)
发现并纠正数据源，即原始数据中存在的问题或错误的过程，包括检查数据一致性，处理无效值、填补缺失值，以及过滤掉那些不符合要求的数据等。 (1) 属性的处理：对多数据源含义相同的属性进行重命名和统一类型长度，选择设置主键和派生属性等处理。
第4 页
2.2 数据预处理
1、数据预处理(data preprocessing) 在多数据源集成为统一数据集之前进行的数据清洗、数据
变换、数据规约等数据处理过程。 2、预处理的目的
消除多数据源集成存在的问题，为数据仓库或数据挖掘提供一个完整、干净、准确、且有针对性的数据集合。
第5 页
2.2 数据预处理
第 13 页
2.2 数据预处理
② 等宽分箱法。把数据集最小值和最大值形成的区间分为k个左闭右开的子区间（最后一个除外）I1，I2，…，Ik。如果 ai Ij就把数据ai放入第j个箱子。
例2-2：设A={1, 2, 3, 3, 4, 4, 5, 6, 6, 7, 7, 8, 9,11}共14个数据，请用等宽分箱法将其分成k=4个箱子。
第3 页
2.1多数据源问题
(4) 数据不完整：某些属性的值可能是缺失的，甚至是错误的数据。用户在登记注册时通常输入昵称等作为姓名。 (5)噪声数据：噪声是指测量数据时遇到的随机或其它不确定性因素，它导致被测量的数据产生了偏差或错误，称这种含有偏差或错误的数据为噪声数据。 (6) 高维数据：为较全面的描述实体，原始数据通常都使用了较多属性。比如，在常住人口数据库中，描述公民的基本信息就有128个属性。 (7) 模式不统一：即将集成为单一数据集的多个数据源的模式不同。比如，“常住人口数据”和“暂住人口数据”两张表，前者有128个属性，后者也有98个属性。 (8) 数据不平衡：即数据集中某一类样本的数量明显少于其它类型样本的数量。
在数据准备时只选择其中之一，或者选择属性X，或者选择它相关的属性。
第8 页
2.2 数据预处理
2、空值的处理对原始数据中没有登记或没有输入的属性值——空值，使
用某种对其进行补充或删除等预处理。 ① 人工填补：优点是能够得到比较真实的数据，但通常人力耗
费很大，而且速度较慢。 ② 忽略记录：即将有空值的记录删除。 ③ 忽略属性：删除具有空值的列。 ④ 使用默认值：用一个固定的常数unknown或者*来填补。 ⑤ 使用平均值：用所有非空非空值的平均值来填补。 ⑥ 使用预测值：用一定的预测方法，计算得到空值属性最有可
第7 页
2.2 数据预处理
③ 处理主键属性：为建立挖掘结果和原始数据之间的直接对应关系的话，需要保留主键属性。
在数据仓库中通常还要引进一些代理关键字，即人工引入或派生出来的关键字(详见3.4节)。
④ 派生新属性：由日期属性派生出年、季、月、周、日等多个时间层次的时间属性。
⑤ 选择相关属性：如果属性X的值可以由另外一个或多个属性值计算出来，称属性X和这些属性是相关的。
② 统一属性：确保多个数据源中对同一实体特征的描述是统一的，包括属性的长度、类型，还有属性的值域。
数据源常住人口的性别属性名为XB，类型为字符串，长度为2 ，取值{“男”,“女”}，暂住人口表属性名仍为XB，但长度为1的字符，取值{“1”,“0”}。
在数据仓库中属性名统一为Sex，类型仍为字符，长度为1，其属性的值域为{“1”,“0”}。
B1={1, 2, 3, 3}平滑结果为{2.25, 2.25, 2.25, 2.25} B2={ 4, 4, 5}平滑结果为{4.33, 4.33, 4.33} B3={6, 6, 7, 7, 8, 9} 平滑结果
{7.17, 7.17, 7.17, 7.17, 7.17, 7.17} B4={11}的平滑结果为{11}。
第 21 页
2.3 E-R模型
1、E-R模型中的基本概念
(1) 实体(Entity)：客观存在并可相互区别的事物。
(2) 属性(Attribute)：描述实体的每一个特征。姓名、性别
第 12 页
2.2 数据预处理
例2-1：设A={1, 2, 3, 3, 4, 4, 5, 6, 6, 7, 7, 8, 9,11}共14个数据，请用等深分箱法将其分成k=4个箱子。
解：因为k=4，n=14，所以p=n/k=14/4=3，q=143*4=2。由于数据集A已排序，因此前2个箱放4个，后为2 个箱放3个数据。第1个箱子B1={1, 2, 3, 3}， B2={ 4, 4, 5, 6,}， B3={6, 7, 7}， B4={8, 9, 11}。
第 17 页
2.2 数据预处理
(1) 最小-最大规范化最小-最大规范化(MIN-MAX normalization)假设数据的取值
区间为[OldMin, OldMax]，并把这个区间映射到新的取值区间[NewMin, NewMax]。这是一个线性变换过程，变量被映射到新区间的值通过下面的公式计算得出。 x[OldMin, OldMax]，唯一x’[NewMin, NewMax]，

e商务文档

第02章数据仓库原理

相关文档推荐：

e商务文档

第02章 数据仓库原理

相关文档推荐：

第02章数据仓库原理