数据挖掘考试重点
6
Chi-Square 卡方值计算: 例子
Play chess Not play chess Sum (row) 看小说 不看小说 Sum(col.) 250(90) 50(210) 300 200(360) 1000(840) 1200 450 1050 1500
count(看小说) * count(下棋) 450 * 300 e11 90 N 1500
median L1 (
n / 2 ( freq)small freqmedian
)width
•
众数Mode
– – –
出现频率最高的值(不惟一/每个值出现一次则没有) 1/2/3个众数-〉单峰的, 双峰的, 三峰的 Empirical formula:
mean mode 3 (mean median )
支持向量机的一般哲学
Small Margin边界
Large Margin Support Vectors
16
聚类分析
• 主要聚类方法分类
• 划分方法(Partitioning Methods)
• K-means(算法步骤)、k-中心点
• 层次方法(Hierarchical Methods)
• Birch、CURE、 Chameleon
point x1 x2 x3 x4 attribute 1 attribute 2 1 2 3 5 2 0 4 5
Manhattan (L1)
L x1 x2 x3 x4
x1 0 5 3 6
x2 0 6 1
x3
x4
0 7
0
Euclidean (L2)
L2 x1 x2 x3 x4 x1 0 3.61 2.24 4.24 x2 0 5.1 1 x3 x4
0 5.39
0
Supremum
L x1 x2 x3 x4 x1 0 3 2 3 x2 0 5 1 x3 x4
5
0 5
0
相关分析 (名义数据Nominal Data)
• Χ2 (chi-square) test 开方检验
– σij是(ai,bj)的观测频度(实际计数) – eij是(ai,bj)的期望频度 2 – N数据元组的个数
关联规则的性质
• 以后只需计算潜在频繁项集的支持度,而不必 计算所有不同项集的支持度,因此在一定程度 上减少了计算量。
11
Apriori: 一种候选产生-测试方法
• 频繁项集的任何子集必须是频繁的
– 如果 {beer, diaper, nuts} 是频繁的, {beer, diaper}也是 – 每个包含 {beer, diaper, nuts}的事务 也包含 {beer, diaper}
7
关联规则挖掘
• Apriori算法命名源于算法使用了频繁项集性质的先 验(Prior)知识。 • Apriori算法将发现关联规则的过程分为两个步骤:
– 通过迭代,检索出事务数据库中的所有频繁项集,即支持 度不低于用户设定的阈值的项集; – 利用频繁项集构造出满足用户最小信任度的规则。
Apriori算法的步骤
分类和预测
• 简答题:
– 朴素贝叶斯分类的主要思想 – 决策树分类的主要步骤
• 选择题:
– SVM使用一个非线性映射把原始训练数据变换到 高维空间中 – 在新的维上, 搜索线性优化分离超平面hyperplane (i.e., “决策边界”) – 使用support vectors (“基本” 选择元组) 和边缘 margins (由支持向量定义)发现超平面
• 构成潜在频繁项集所遵循的原则是“频繁项 集的子集必为频繁项集”。
10
• 性质1:频繁项集的子集必为频繁项集。 • 性质2:非频繁项集的超集一定是非频繁的。 • Apriori算法运用性质1,通过已知的频繁项集构 成长度更大的项集,并将其称为潜在频繁项集。
– 潜在频繁k项集的集合Ck 是指由有可能成为频繁k项 集的项集组成的集合。
• 挖掘或识别出所有频繁项集是该算法的核心,占整 个计算量的大部分。
9
频繁项集
• 为了避免计算所有项集的支持度(实际上频 繁项集只占很少一部分),Apriori算法引入 潜在频繁项集的概念。 • 若潜在频繁k项集的集合记为Ck ,频繁k项集 的集合记为Lk ,m个项目构成的k项集的集合 k k C C 为 m ,则三者之间满足关系Lk Ck m。
3
闵可夫斯基距离特殊形式
• h = 1: Manhattan (city block, L1 norm) distance曼哈顿距离 (L1范数) – E.g., the Hamming distance: the number of bits that are different between two binary vectors
属 性 b1 B b2 j br
(A=ai,B=bj)
i 1
c
r
( ij eij ) 2 eij
j 1
A a1 a2 i ac
eij
count( A ai ) * count( B b j ) N
Χ2 值越大,相关的可能越大 对 Χ2 值贡献最大的项,其实际值与期 望值相差最大的相 相关不意味着因果关系
辨析
在信用卡欺诈或者电信欺诈检测中, 哪种离群点方法更加可靠
序列数据挖掘
• 序列模式挖掘
– GSP – SPADE – PrefixSpan
名词填空
• SVM、OLAP、Outlier Detection、Naï ve Bayesian Classifier、Decision Tree
• Apriori 剪枝原则:
– 如果一个项集不是频繁的, 将不产生/测试它的超集!
• 方法:
– 由长度为k的频繁项集产生长度为 (k+1) 的候选项集, 并且 – 根据 DB测试这些候选
• 性能研究表明了它的有效性和可伸缩性
12
Apriori 算法 — 一个例子
数据库 TDB Tid Items 10 A, C, D 20 B, C, E 30 A, B, C, E 40 B, E Itemset {A} {B} {C} {D} {E} Itemset {A, B} {A, C} {A, E} {B, C} {B, E} {C, E} L3 sup 2 3 3 1 3 sup 1 2 1 2 3 2 Itemset {A} {B} {C} {E} sup 2 3 3 3
• Χ2 (chi-square) 计算(括号中的值为期望计值,由两个类别的分布数据计算 得到)
(250 90) 2 (50 210) 2 (200 360) 2 (1000 840) 2 507.93 90 210 360 840
2
• 结果表明like_fiction 和play_chess 关联
Review
数据预处理
度量数的中心趋势
•
均值 (代数度量) (样本 vs. 总体): Note: n 样本大小,N 总体大小.
– –
1 n x xi n i 1
x
x
加权算术均值: 截断均值: 去掉高低极端值
w x
i 1 n i
n
N
i
•
中位数:
– –
w
i 1
i
奇数则为有序集的中间值, 否则为中间两个数的平均 (基于分组数据)可以插值估计
• 基于密度的方法(Density-Based Methods)
• DBSCAN、OPTICS
• 基于网格的方法(Grid-Based Methods)
• STING、CLIQUE
• 基于模型的聚类方法(Model-Based Clustering
离群点分析
方法
基于统计学方法 基于距离的方法 基于偏差的方法 基于密度的方法
d (i, j) | x x | | x x | ... | x x | i1 j1 i2 j 2 ip jp
• h = 2: (L2 norm) Euclidean distance
d (i, j) (| x x |2 | x x |2 ... | x x |2 ) i1 j1 i2 j 2 ip jp
• h .上确界 “supremum” (Lmax norm, L norm) distance. – This is the maximum difference between any component (attribute) of the vectors
4
Example: Minkowski Distance Dissimilarity Matrices
C1
第1次扫描
L1
C2
L2
Itemset {A, C} {B, C} {B, E} {C, E}
sup 2 2 3 2
C2 第2次扫描
C3 Itemset {B, C, E}
13
第3次扫描
Itemset sup {B, C, E} 2
Itemset {A, B} {A, C} {A, E} {B, C} {B, E} {C, E}