当前位置:文档之家› 数据处理与分析- 第二章

数据处理与分析- 第二章


宽,或者是否相对集中在单个点(如均值)附近。
最简单的散布度量是极差,即最大值和最小值之差 假设属性x具有m个值{x
1
range(x)=max(x)-min(x)=x(m)-x(1)
, x2 ,..., xm } ,其极差定义为:
方差是刻画波动大小的一个重要数字。方差 越小则波动越小,样本稳定性越好,下式中 与均值相差不会太大,值越大与均值越远。
中心趋势度量包括均值(mean)、中位数(median)、
位数极差(InterQuartiles Range, IQR)和方差
17
(variance)等。
Company Logo
2.2 数据统计特征
数据中心度量
均值 加权算术均值 中位值 截断均值 众数 中列数
18
Company Logo
2 5 2 5
网页链接 化合物结构
1
网络拓扑结构
11
Company Logo
2.1 数据及数据类型
有序数据:即具有跟时间或空间相关的属性,分序列 数据,时序数据,空间数据
序列数据:个体项的序列集合,如,字母序列,顾客购
物序列,web点击流,基因(DNA检查结果)等,这种序 列可以与时间有关,也可以无关
16
Company Logo
2.2 数据统计特征
数据统计又称为汇总统计,用单个数或数的小集合
来捕获大的数据集的各种属性特征。对于数据预处 理任务,人们希望知道关于数据的中心趋势和离散 程度特征。 众数(mode)和中列数(midrange)
数据离散程度度量包括四分位数(quartiles)、四分
GGTTCCGCCTTCAGCCCCGCGCC CGCAGGGCCCGCCCCGCGCCGTC GAGAAGGGCCCGCCTGGCGGGCG GGGGGAGGCGGGGCCGCCCGAGC CCAACCGAGTCCGACCAGGTGCC CCCTCTGCTCGGCCTAGACCTGA GCTCATTAGGCGGCAGCGGACAG GCCAAGTAGAACACGCGAAGCGC TGGGCTGCCTGCTGCGACCAGGG
数据处理与分析
第二章 数据预处理
计算机技术与应用系
目录
2.1 数据及数据类型 2.2 数据统计特性 2.3 数据预处理 2.4
weka中的数据预处理
2
Company Logo
2.1 数据及数据类型

相关概念

数据
狭义:数字 。 广义:数据对象及其属性的集合,其表现形式可以是数字、符 号、文字、图像或是计算机代码等等。
数 据 集
4
Company Logo
2.1 数据及数据类型
属性类型
属性类型
分类的 (定性的)
标称
描述
例子
操作
其属性值只提供足够的信 颜色、性别、产品 众数、熵、 息以区分对象。这种属性 编号 列联相关。 值没有实际意义。
序数
其属性值提供足够的信息 成绩等级 ( 优、良、 中值、百分 以区分对象的序。 中 、 及 格 、 不 及 位、秩相关、 格 ) ,年级,职称, 符号检验。 学历 其属性值之间的差是有意 日历日期、摄氏温 均值、标准 义的。 度 差 其属性值之间的差和比率 长度、时间和速度 几何平均、 都是有意义的。 调和平均、 百分比变差
通话级别 市话 市话+国内长途(含国内IP) 市话+国际长途(含国际IP) 市话+国际长途(含国际IP) 市话+国际长途(含国际IP) ︰
通话总费用 16352 27891 63124 53057 80827 ︰
… … … … … … …
N2201100 2518
C1400483 商业客户 9358 N2200489 商业客户 5555 32210261 96 D1400473 7444 ︰ 大客户 大客户 ︰
15.22 16.22
2.7 2.2
1.2 1.1
9
Company Logo
2.1 数据及数据类型
记录数据
文本数据(是数据矩阵的特殊情况):文档用词向量表示
每个词是向量的一个分量(属性) 每个分量的值是对应词在文档中出现的次数
timeout season
coach
game
score
team
• 众数 (Mode) :统计学名词,在统计分布上具有明
显集中趋势点的数值,代表数据的一般水平(众数 可以不存在或多于一个)。 • 定义:是一组数据中出现次数最多的数值,叫众数, 有时众数在一组数中有好几个。众数是在一组数据 中,出现次数最多的数据,是一组数据中的原数据, 而不是相应的次数。如: • 一组数据中的众数不止一个,如数据2、3、-1、2、 1、3中,2、3都出现了两次,它们都是这组数据 中的众数。
12
Company Logo
时序数据(也称时态序列):是记录数据的扩充,是序
列数据的特殊情况,每个记录里包含一个与这个记录相关的时间属性,同一 指标按时间顺序记录的数据项,各个时间段的值具有可比性。比如,商品的 消费季节,顾客的消费周期或偏好等。
项/事件
时序元素
13
Company Logo
2.1 数据及数据类型
15
Company Logo
2.2 数据统计特征
正态分布是许多统计方法的理论基础。检验、方差分析、相关和回归分
析等多种统计方法均要求分析的指标服从正态分布。许多统计方法虽然 不要求分析指标服从正态分布,但相应的统计量在大样本时近似正态分 布,因而大样本时这些统计推断方法也是以正态分布为理论基础的. 正态分布(Normal distribution)是一种概率分布。正态分布是具有两 个参数μ和σ^2的连续型随机变量的分布,第一参数μ是遵从正态分布的 随机变量的均值,第二个参数σ^2是此随机变量的方差,所以正态分布 记作N(μ,σ^2 )。遵从正态分布的随机变量的概率规律为取 μ邻近的值 的概率大 ,而取离μ越远的值的概率越小;σ越小,分布越集中在μ附近, σ越大,分布越分散。
• 截断均值的计算方法: • 1.p=40,则p/2=20,即从两端要除去总数据个数
的20%个数 • 2.总数为6个,6*20%=1.2,即两边各除去1个 数据 • 3.剩下中间的4个数据为: {2,3,4,5} • 4.计算这四个数的均值为(2+3+4+5)/4=3.5
23
Company Logo
方差(variance)定义如下:
m 1 2 2 var iance( x) s x ( x x ) m 1 i 1
26
Company Logo
2.2 数据统计特征
数据离散程度度量还包括四分位数(quartiles)、四分位
8
Company Logo
2.1 数据及数据类型
记录数据
数据矩阵

如果一个数据集簇中的所有数据对象都具有相同的数值 属性集,则数据对象可以看作多维空间中的点,其中每 个维代表描述对象的一个不同属性。 数据集可以用一个m× n的矩阵表示,其中m行,一个对 象一行;n列,一个属性一列。
Projection of x Load 10.23 12.65 Projection of y load 5.27 6.25 Distance Load Thickness
有序数据 空间数据
其重要特点是空间自相关性,即 物理上靠近的对象趋向于在其他 方面的相似,如靠近的地区气温 和降水量等很接近,包含涉及空 间的数据,地理信息系统、医学 影像等。
14
Company Logo
目录
2.1 数据及数据类型 2.2 数据统计特性 2.3 数据预处理 2.4
weka中的数据预处理
24
Company Logo
• 中列数(midrange):在统计中指的是数据集里
最大值和最小值的算术平均。 • 如以下集合: • 1,3,7,9,0,3,5 • 它的中列数即为(0+9)/2 = 4.5
25
Company Logo
2.2 数据统计特征
数据散布程度度量
极差和方差是值集的散布度量,表明属性值是否散布很

集合中每个值与一个权值相关联。权值反映对应值的 显著性、重要性或出现频率。在这种情况下,使用加
权算术均值(weighted arithmetic mean):
x
w x
i 1 N
N
i i
w
i 1
i
w1 x1 w2 x2 wN x N w1 w2 wN
20
7
Company Logo
2.1 数据及数据类型
记录数据
事务数据(Transaction
Data)是一种特殊类型的记录数 据,其中每个记录涉及一个项的集合。
事务数据事例
事务ID
T100 T200 …
商品的ID列表
Bread, Milk, Beer Soda, cup, Diaper …
典型的事务数据如超市零售数据,顾客一次购物所购买的 商品的集合就构成一个事务,而购买的商品就是项。这种 类型的数据也称作购物篮数据(Market Basket Data),因 为记录中的每一项都是一位顾客“购物篮”中购买的商品。


属性

(也称为特征、维或字段),是指一个对象的某方面性质或特性。 一个对象通过若干属性来刻画。

数据集

数据对象的集合(同特征或同属性)
3
Company Logo
2.1 数据及数据类型
案例:包含电信客户信息的样本数据集
属性 对象
客户编号
客户类别 大客户
行业大类 采矿业和一般制造 业 批发和零售业 批发和零售业 科学教育和文化卫 生 房地产和建筑业 ︰
相关主题