当前位置:文档之家› 数据挖掘第二章——认识数据(1)2

数据挖掘第二章——认识数据(1)2

▪ 一般认为,数据是对客观现象计量的结果。
▪ 按照对事物计量的精确程度,可将所采用的 计量尺度由低级到高级分为四个层次:
▪ 定类尺度(Nominal Level) ▪ 定序尺度(Ordinal Level) ▪ 定距尺度(Interval Level) ▪ 定比尺度(Ratio Level)
定类尺度
▪ 定类尺度(列名尺度):按照事物的某种 属性对其进行平行的分类或分组。
▪ 例:人口的性别(男、女);企业的所有制性 质(国有、集体、私营等)
▪ 计量层次最低 ▪ 对事物进行平行的分类 ▪ 各类别可以指定数字代码表示 ▪ 具有=或的数学特性 ▪ 数据表现为“类别”
定类尺度
▪ 定类尺度只测度了事物之间的类别差,而对各 类之间的其他差别却无法从中得知,因此各类 地位相同,顺序可以任意改变。
2.25
5678 9
QU 位置
39 4
6.75
QL 780 (850 780) 0.25 QU 1250 (1500 1250) 0.75
797.5
1437.5
四分位数的例子(数值型数据)
▪ 9个家庭的人均月收入数据
▪ 原始数据: 1500 750 780 1080 850 960 2000 1250 1630 ▪ 排 序: 750 780 850 960 1080 1250 1500 1630 2000
离散 vs. 连续属性
▪ Discrete Attribute
▪ 一个有限的或可数无限集值 ▪ E.g., zip codes,the set of words in a collection of documents
▪ 有时,表示为整数变量 ▪ 注: 二元属性是离散属性的一个特殊情况
▪ Continuous Attribute
甲城市 户数 (户) 累计频数
非常不满意
24
24
不满意
108
132
一般
93
225
满意
45
270
非常满意
30
300
合计
300

解:QL位置= (300)/4 =75 QU位置 =(3×300)/4 =225
从累计频数看, QL在“ 不 满意”这一组别中; QU在 “一般”这一组别中
四分位数为 QL = 不满意 QU = 一般
▪ e.g., gender ▪ 非对称Asymmetric binary: 非同等重要
▪ e.g., 医疗检查 (positive vs. negative) ▪ 惯例Convention: assign 1 to most important
outcome (e.g., HIV positive) ▪ 顺序的 Ordinal
一个众数 原始数据:
659855
多于一个众数 原始数据: 25 28 28 36 42 42
众数的例子
例 某城市居民关注广告类型的频数分布
广告类型
人数(人) 比例 频率(%)
商品广告
112
0.560
56.0
服务广告
51
0.255
25.5
金融广告
9
0.045
4.5
房地产广告
16
0.080
8.0
招生招聘广告
四种计量尺度的比较
四种计量尺度的比较
定类尺度 定序尺度 定距尺度 定比尺度
分类(=,≠ )




排序( < ,> )



间距( + ,- )


比值( × ,÷)

“√”表示该尺度所具有的特性
四种计量尺度的区别与联系
▪ 高层次的计量尺度具有低层次计量尺度的全部特 性,但反之不行
▪ 可将高层次计量尺度的计量结果转换为低层次计 量尺度的计量结果,但不能反过来
属性类型
▪ 名词性Nominal:类别,状态, or “名目”
▪ Hair_color = {auburn, black, blond, brown, grey, red, white}
▪ 婚姻状态, 职业occupation, ID numbers, zip codes ▪ 二元
▪ 只有2个状态的名词性属性 (0 and 1) ▪ 对称二元Symmetric binary: 同样重要的两相
▪ 对事物分类的同时给出各类别的顺序 ▪ 比定类尺度精确 ▪ 不仅可以测度类别差(分类),还可以测
度次序差(比较优劣或排序) ▪ 数据表现为“类别”,但有序
定序尺度
▪ 无法测出类别之间的准确差值 ▪ 该尺度的计量结果只能排序,不能进行算
术运算。 ▪ 具有>或<的数学特性
定距尺度
▪ 定距尺度(间隔尺度):是对事物类别或次序之 间间距的测度。
集中趋势 (Central tendency)
▪ 一组数据向其中心值靠拢的倾向和程度 ▪ 测度集中趋势就是寻找数据一般水平的代表值或
中心值 ▪ 不同类型的数据用不同的集中趋势测度值 ▪ 低层次数据的集中趋势测度值适用于高层次的测
量数据,反过来,高层次数据的集中趋势测度值 并不适用于低层次的测量数据
▪ 对定类尺度的计量结果,可以且只能计算每一 类别中各元素个体出现的频数 (frequency)。
▪ 对事物进行分类时,必须符合穷尽(exhaustive) 和互斥(mutually exclusive)要求。
定序尺度
▪ 定序尺度(顺序尺度):是对事物之间等 级或顺序差别的一种测度。
▪ 例:产品等级(一等品、二等品…);考试成 绩(优、良、中、可、差)
特性
定比尺度
▪ 定比尺度(比率尺度):是能够测算两个测 度值之间比值的一种计量尺度。
▪ 例:职工月收入;企业产值;公制的距离、重量
▪ 与定距尺度属于同一层次,计量结果也表现 为数值;
▪ 除了具有其他三种计量尺度的全部特点外, 还具有可计算两个测度值之间比值的特点;
▪ “0”表示“没有”,即它有一固定的绝对 “零点”,因此它可进行加、减、乘、除运 算(而定距尺度只可进行加减运算)
▪ 属性值为实数 ▪ E.g., temperature, height, or weight
▪ 实际上,实值只能使用有限位数进行测量和代表 ▪ 连续属性通常表示为浮点变量
数据概述
数据的计量与类型
▪ 数据的计量尺度 ▪ 数据的类型 ▪ 数据的表现形式
数据的计量尺度
▪ 数据的计量尺度(Levels of Measurement)
3n 4
方法2:较准确算法
QL 位置
n 1 4
QU 位置
3(n 1) 4
四分位数
方法3:
Q位置
n 1 2
2
1
▪ 其中[ ]表示中位数的位置取整。这样计算 出的四分位数的位置,要么是整数,要么 在两个数之间0.5的位置上
四分位数的例子(定序数据)
甲城市家庭对住房状况评价的频数分布
回答类别
第2章 认识数据
• 数据对象
▪ 数据集由数据对象构成 ▪ 一个数据对象代表一个实体 ▪ 例子:
▪ 销售数据库sales database:客户/顾客,商店物品, sales ▪ 医学数据库: patients, treatments ▪ 大学数据库: students, professors, courses ▪ 又称为 样本, 事例,实例, 数据点, 对象,元组tuples. ▪ 数据对象由属性来描述 ▪ Database rows -> data objects; columns ->attributes.
四分位数的例子(数值型数据)
▪ 9个家庭的人均月收入数据
▪ 原始数据: 1500 750 780 1080 850 960 2000 1250 1630 ▪ 排 序: 750 780 850 960 1080 1250 1500 1630 2000
▪ 位 置: 1 2 3 4
方法1
QL 位置
9 4
▪ 例:100分制考试成绩;摄氏温度对不同地区温度的测 量
▪ 不仅能将事物区分为不同类型并进行排序,而且 可准确指出类别之间的差距是多少
▪ 比定序尺度精确 ▪ 定距尺度通常以自然或物理单位为计量尺度,因
此数据表现为“数值” ▪ 没有绝对零点;“0”是测量尺度上的一个测量点,
并不代表“没有” ▪ 计量结果可以进行加减运算,具有 + 或 - 的数学
▪ 值有一个有意义的顺序(排序) 但连续值之间的大小未知. ▪ Size = {small, medium, large},等级,军队排名
数值属性的类型
▪ 数量Quantity (integer or real-valued) ▪ 区间Interval
▪ 在某个同等大小的一个尺度单位上Measured on a scale of equal-sized units
属性
▪ 属性Attribute (or维度, 特征, 变量):一个数据字段, 表示 一个数据对象的某个特征. ▪ E.g., customer _ID, name, address
▪ 类型: ▪ 名词性Nominal ▪ 二元的 ▪ 数字的Numeric: 数量的 ▪ Interval-scaled ▪ Ratio-scaled
▪ 选用哪一个测度值来反映数据的集中趋势,要根 据所掌握的数据的类型来确定
定类数据:众数(mode)
▪ 出现次数最多的变量值 ▪ 用Mo表示 ▪ 不受极端值的影响 ▪ 可能没有众数或有几个众数 ▪ 主要用于定类数据,也可用于定序数据和
数值型数据
众数的不唯一性
无众数 原始数据:
10 5 9 12 6 8
当N为奇数时
相关主题