当前位置：文档之家› 数据挖掘第二章——认识数据(1)2

数据挖掘第二章——认识数据(1)2

▪ 一般认为，数据是对客观现象计量的结果。
▪ 按照对事物计量的精确程度，可将所采用的计量尺度由低级到高级分为四个层次：
▪ 定类尺度(Nominal Level) ▪ 定序尺度(Ordinal Level) ▪ 定距尺度(Interval Level) ▪ 定比尺度(Ratio Level)
定类尺度
▪ 定类尺度（列名尺度）：按照事物的某种属性对其进行平行的分类或分组。
▪ 例：人口的性别（男、女）；企业的所有制性质（国有、集体、私营等）
▪ 计量层次最低 ▪ 对事物进行平行的分类 ▪ 各类别可以指定数字代码表示 ▪ 具有=或的数学特性 ▪ 数据表现为“类别”
定类尺度
▪ 定类尺度只测度了事物之间的类别差，而对各类之间的其他差别却无法从中得知，因此各类地位相同，顺序可以任意改变。
2.25
5678 9
QU 位置
39 4
6.75
QL 780 (850 780) 0.25 QU 1250 (1500 1250) 0.75
797.5
1437.5
四分位数的例子（数值型数据）
▪ 9个家庭的人均月收入数据
▪ 原始数据: 1500 750 780 1080 850 960 2000 1250 1630 ▪ 排序: 750 780 850 960 1080 1250 1500 1630 2000
离散 vs. 连续属性
▪ Discrete Attribute
▪ 一个有限的或可数无限集值 ▪ E.g., zip codes，the set of words in a collection of documents
▪ 有时,表示为整数变量 ▪ 注: 二元属性是离散属性的一个特殊情况
▪ Continuous Attribute
甲城市户数 (户) 累计频数
非常不满意
24
24
不满意
108
132
一般
93
225
满意
45
270
非常满意
30
300
合计
300
—
解：QL位置= (300)/4 =75 QU位置 =(3×300)/4 =225
从累计频数看， QL在“ 不满意”这一组别中； QU在 “一般”这一组别中
四分位数为 QL = 不满意 QU = 一般
▪ e.g., gender ▪ 非对称Asymmetric binary: 非同等重要
▪ e.g., 医疗检查 (positive vs. negative) ▪ 惯例Convention: assign 1 to most important
outcome (e.g., HIV positive) ▪ 顺序的 Ordinal
一个众数原始数据:
659855
多于一个众数原始数据: 25 28 28 36 42 42
众数的例子
例某城市居民关注广告类型的频数分布
广告类型
人数(人) 比例频率(%)
商品广告
112
0.560
56.0
服务广告
51
0.255
25.5
金融广告
9
0.045
4.5
房地产广告
16
0.080
8.0
招生招聘广告
四种计量尺度的比较
四种计量尺度的比较
定类尺度定序尺度定距尺度定比尺度
分类（＝，≠ ）
√
√
√
√
排序（ < ，> )
√
√
√
间距（ + ，- ）
√
√
比值（ × ，÷）
√
“√”表示该尺度所具有的特性
四种计量尺度的区别与联系
▪ 高层次的计量尺度具有低层次计量尺度的全部特性，但反之不行
▪ 可将高层次计量尺度的计量结果转换为低层次计量尺度的计量结果，但不能反过来
属性类型
▪ 名词性Nominal:类别,状态, or “名目”
▪ Hair_color = {auburn, black, blond, brown, grey, red, white}
▪ 婚姻状态, 职业occupation, ID numbers, zip codes ▪ 二元
▪ 只有2个状态的名词性属性 (0 and 1) ▪ 对称二元Symmetric binary: 同样重要的两相
▪ 对事物分类的同时给出各类别的顺序 ▪ 比定类尺度精确 ▪ 不仅可以测度类别差（分类），还可以测
度次序差（比较优劣或排序） ▪ 数据表现为“类别”，但有序
定序尺度
▪ 无法测出类别之间的准确差值 ▪ 该尺度的计量结果只能排序，不能进行算
术运算。 ▪ 具有>或<的数学特性
定距尺度
▪ 定距尺度（间隔尺度）：是对事物类别或次序之间间距的测度。
集中趋势 (Central tendency)
▪ 一组数据向其中心值靠拢的倾向和程度 ▪ 测度集中趋势就是寻找数据一般水平的代表值或
中心值 ▪ 不同类型的数据用不同的集中趋势测度值 ▪ 低层次数据的集中趋势测度值适用于高层次的测
量数据，反过来，高层次数据的集中趋势测度值并不适用于低层次的测量数据
▪ 对定类尺度的计量结果，可以且只能计算每一类别中各元素个体出现的频数 (frequency)。
▪ 对事物进行分类时，必须符合穷尽(exhaustive) 和互斥(mutually exclusive)要求。
定序尺度
▪ 定序尺度（顺序尺度）：是对事物之间等级或顺序差别的一种测度。
▪ 例：产品等级（一等品、二等品…）；考试成绩（优、良、中、可、差）
特性
定比尺度
▪ 定比尺度（比率尺度）：是能够测算两个测度值之间比值的一种计量尺度。
▪ 例：职工月收入；企业产值；公制的距离、重量
▪ 与定距尺度属于同一层次，计量结果也表现为数值；
▪ 除了具有其他三种计量尺度的全部特点外，还具有可计算两个测度值之间比值的特点；
▪ “0”表示“没有”，即它有一固定的绝对 “零点”，因此它可进行加、减、乘、除运算（而定距尺度只可进行加减运算）
▪ 属性值为实数 ▪ E.g., temperature, height, or weight
▪ 实际上，实值只能使用有限位数进行测量和代表 ▪ 连续属性通常表示为浮点变量
数据概述
数据的计量与类型
▪ 数据的计量尺度 ▪ 数据的类型 ▪ 数据的表现形式
数据的计量尺度
▪ 数据的计量尺度（Levels of Measurement）
3n 4
方法2：较准确算法
QL 位置
n 1 4
QU 位置
3(n 1) 4
四分位数
方法3：
Q位置
n 1 2
2
1
▪ 其中[ ]表示中位数的位置取整。这样计算出的四分位数的位置，要么是整数，要么在两个数之间0.5的位置上
四分位数的例子（定序数据）
甲城市家庭对住房状况评价的频数分布
回答类别
第2章认识数据
• 数据对象
▪ 数据集由数据对象构成 ▪ 一个数据对象代表一个实体 ▪ 例子:
▪ 销售数据库sales database:客户/顾客,商店物品, sales ▪ 医学数据库: patients, treatments ▪ 大学数据库: students, professors, courses ▪ 又称为样本, 事例,实例, 数据点, 对象,元组tuples. ▪ 数据对象由属性来描述 ▪ Database rows -> data objects; columns ->attributes.
四分位数的例子（数值型数据）
▪ 9个家庭的人均月收入数据
▪ 原始数据: 1500 750 780 1080 850 960 2000 1250 1630 ▪ 排序: 750 780 850 960 1080 1250 1500 1630 2000
▪ 位置: 1 2 3 4
方法1
QL 位置
9 4
▪ 例：100分制考试成绩；摄氏温度对不同地区温度的测量
▪ 不仅能将事物区分为不同类型并进行排序，而且可准确指出类别之间的差距是多少
▪ 比定序尺度精确 ▪ 定距尺度通常以自然或物理单位为计量尺度，因
此数据表现为“数值” ▪ 没有绝对零点；“0”是测量尺度上的一个测量点，
并不代表“没有” ▪ 计量结果可以进行加减运算，具有 + 或 - 的数学
▪ 值有一个有意义的顺序(排序) 但连续值之间的大小未知. ▪ Size = {small, medium, large},等级,军队排名
数值属性的类型
▪ 数量Quantity (integer or real-valued) ▪ 区间Interval
▪ 在某个同等大小的一个尺度单位上Measured on a scale of equal-sized units
属性
▪ 属性Attribute (or维度, 特征, 变量):一个数据字段, 表示一个数据对象的某个特征. ▪ E.g., customer _ID, name, address
▪ 类型: ▪ 名词性Nominal ▪ 二元的 ▪ 数字的Numeric: 数量的 ▪ Interval-scaled ▪ Ratio-scaled
▪ 选用哪一个测度值来反映数据的集中趋势，要根据所掌握的数据的类型来确定
定类数据：众数（mode）
▪ 出现次数最多的变量值 ▪ 用Mo表示 ▪ 不受极端值的影响 ▪ 可能没有众数或有几个众数 ▪ 主要用于定类数据，也可用于定序数据和
数值型数据
众数的不唯一性
无众数原始数据:
10 5 9 12 6 8
当N为奇数时

e商务文档

数据挖掘第二章——认识数据(1)2

相关文档推荐：