2.1数据对象与属性类型
Ø 相等的单位尺度 Ø 值有序
ü E.g., temperature in C˚or F˚, calendar dates
Ø 没有真正的零点
§ 比率标度(Ratio scaled)
Ø 有真正的零点 Ø 可以讲值是被测量单位一个数量级 (10 K˚ is twice as high as 5 K˚).
Chap 2: 认识数据
2
Data Mining and Application
2.1数据对象与属性类型
n 数据集合的类型
—记录、图 或 网络、有序的序列
—空间, 图像和 多媒体等
TID Items
1
Bread, Coke, Milk
2
Beer, Bread
3
Beer, Coke, Diaper, Milk
5
Data Mining and Application
Chap 2: 认识数据
属性类型
§ 标称属性
- 类别,状态等
- Hair_color = {auburn, black, blond, brown, grey, red, white }
- 婚姻状态, 职业, ID号, 邮政编码
§ 二元属性
- 只有2个状态的名词性属性 (0 and 1)
4
Beer, Bread, Diaper, Milk
5
Coke, Diaper, Milk
Chap 2: 认识数据
3
Data Mining and Application
Chap 2: 认识数据
数据对象
§ 数据集由数据对象构成;一个数据对象代表一个实体 § 例子:
- 销售数据库: 客户/顾客,商店物品 - 医学数据库: 病人和治疗方案( patients, treatments) - 大学数据库: 学生、教授、课程(students, professors, courses)
ü E.g., 长度,计数,货币的数量
7
Data Mining and Application
离散 vs. 连续属性
§ 离散属性(Discrete Attribute)
- 一个有限的或可数无限集值
Ø E.g., 邮政编码
- 有时表示为整数变量 - 注: 二元属性是离散属性的一个特殊情况
§ 连续属性(Continuous Attribute)
- 衣服大小号Size = {small, medium, large},等级,军队排名
6
Data Mining and Application
Chap 2: 认识数据
数值属性的类型
§ 数量(Quantity:integer or real-valued) § 区间标度(Interval scaled)
§ 又称为 样本, 事例, 实例, 数据点, 对象,元组等.
§ 数据对象由属性来描述
4
Data Mining and Application
Chap 2: 认识数据
属性
§ 属性(Attribute,也称作维度, 特征, 变量):一个数据字段表示一个数据 对象的某个特征.
- E.g., customer _ID, name, address
- 属性值为实数
Ø E.g., temperature, height, or weight
- 实际上,实值只能使用有限位数进行测量Байду номын сангаас代表 - 连续属性通常表示为浮点变量
Chap 2: 认识数据
8
Data Mining and Application
Chap 2: 认识数据
数据挖掘与实现
第二章 认识数据
Data Mining and Application
Data Mining and Application
认识数据
§ 2.1数据对象与属性类型 § 2.2数据的基本统计描述 § 2.3数据可视化 § 2.4数据相似性和相异性度量 § 2.5Python实现:认识数据
§ 类型:
- 标称属性( Nominal) --与名称有关 - 二元属性 (Binary)--是一种特殊的标称属性或布尔属性 - 序数属性(Ordinal) --有意义的序,但是相继值之差是未知的
上面三种是定性的
- 数字属性(Numeric)--数量的
Ø 区间标度(Interval-scaled)—相等的单位尺度,没有真正的零点,如年,温度 Ø 比率标度(Ratio-scaled)—具有固定零点的数值属性,如重量,身高等
- 对称二元(Symmetric binary): 同样重要
Ø e.g., 性别(gender)
- 非对称(Asymmetric binary): 非同等重要
Ø e.g., 医疗检查中的阴性和阳性 (positive vs. negative)
Ø 惯例:1赋值更重要的一方
§ 序数属性
- 值有一个有意义的顺序(排序) 但连续值之间的大小未知.