聚类分析实例分析题
3)伪 F 统计量:
伪F = (T-Pk )/(k-1) Pk / (n k)
(5.2.5)
伪F统计量评价分为 k 个类的效果。伪 F 统计量越大,表达分为 k
个类越合理。通常取伪 F 统计量较大而类数小的聚类水平。
4) 伪 t2 统计量:
t 2 Bkl / ((Sk Sl ) / (nk nl 2))
号
8
8
11
61.
71.
2
1
3
3
号
6
4
12
68.
72.
2
2
3
3
号
3
4
13
68.
73.
2
2
3
3
号
8
9
14
72.
77.
3
3
3
4
号
6
1
15
65.
78.
2
2
3
4
号
7
4
16
69.
2
3
67.
2
2
号
9
3
17
74.
80.
3
3
4
5
号
5
3
18
65.
76.
2
2
3
4
号
4
7
19
72.
76.
3
3
3
4
号
6
4
20
75.
76.
3
4
3
酒
等级 化等级 酒
等级 化等级
1
68.
77.
2
2
3
4
号
1
9
2
75.
74
3
3
3
4
号
8
3
74.
75.
3
4
3
4
号
6
6
4
71.
76.
3
3
3
4
号
2
9
5
72.
81.
3
3
4
5
号
1
5
6
66.
2
2
75.
3
4
号
3பைடு நூலகம்
5
7
65.
74.
2
2
3
3
号
3
2
8
72.
66
2
2
3
3
号
3
9
78.
80.
3
4
4
5
号
2
4
10
68.
79.
2
2
3
4
在此我们用了使用最广范的方法,ward 最小方差法。其中用到了类间
距离来进行比较,定义为:
Dkl || X k X l ||2 /(1 / nk 1 / nl )
(5.2.2)
Ward 方法并类时总是使得并类导致的类内离差平方和增量最小。
系统聚类数的确定。在聚类分析中,系统聚类最终得到的一个聚
类树,如何确定类的个数,这是一个十分困难但又必须解决的问题;因
留葡萄酒质量对于酿酒葡萄的影响,先单纯从酿酒葡萄的理化指标对
酿酒葡萄进行分类,然后在通过葡萄酒质量对酿酒葡萄质量的优劣进
一步进行划分。
5.2.2 建立模型 在通过酿酒葡萄的理化指标对酿酒葡萄分类的过程,我们用到了 聚类分析方法中的 ward 最小方差法,又叫做离差平方和法。 聚类分析是研究分类问题的一种多元统计方法。所谓类,通俗地 说,就是指相似元素的集合。为了将样品进行分类,就需要研究样品 之间关系。这里的最小方差法的基本思想就是将一个样品看作 P 维空 间的一个点,并在空间的定义距离,距离较近的点归为一类;距离较远 的点归为不同的类。面对现在的问题,我们不知道元素的分类,连要 分成几类都不知道。现在我们将用 SAS 系统里面的 stepdisc 和 cluster 过程完成判别分析和聚类分析,最终确定元素对象的分类问题。
5.2 酿酒葡萄的等级划分
5.2.1 葡萄酒的质量分类
由问题 1 中我们得知,第二组评酒员的的评价结果更为可信,所
以我们通过第二组评酒员对于酒的评分做出处理。我们通过 excel 计
算出每位评酒员对每支酒的总分,然后计算出每支酒的 10 个分数的
平均值,作为总的对于这支酒的等级评价。
通过国际酿酒工会对于葡萄酒的分级,以百分制标准评级,总共
建立数据阵,具体数学表示为:
X11 ... X1m
X
...
...
...
X n1 ... X nm
(5.2.1)
式中,行向量 Xi (xi1,..., xim ) 表示第 i 个样品; 列向量 X j (x1j ,..., xnj ) ' ’,表示第 j 项指标。(i=1,2,…,n;j=1,2,…m) 接下来我们将要对数据进行变化,以便于我们比较和消除纲量。
个等级,为了方便计算,我们还对等级进行降序数字等级(见表 6)。
表 6:细化后的葡萄酒等级表
等级
偏优
偏优
良
中
及格
良
分数
80-8
75-7
70-7
65-6
60-6
4
9
4
9
4
数字
5
4
3
2
1
等级
通过对数据的预处理,我们得到了一个新的关于葡萄酒的分级表
格(见表 7):
表 7:各支葡萄酒的等级
编
红
原
细
白
原
细
号
(5.2.6)
用此统计量评价合并类 Ck 和类 Cl 的效果,该值大说明合并的两
个类 Ck 和类 Cl 是很分开的,这个合并不成功,而应该去合并前的水平。
通过使用 sas 软件的 cluster 过程和 tree 过程,可以求解分析出结
思想的统计量近似检验类个数如何选择更合适。
1) R2 统计量:
R2
1
S
2 A
/
ST2
SB2
/
ST2
(5.2.3)
其中,
S
2 A
为分类数为
k
个数时的总类内离差平方和,
ST2
为所有样
品或变量的总离差平方和。 R2 越大,说明类内的离差平方和在总离差
平方和中比例较小,也就是分为 k 个类的效果越好。显然分类越多,每
4
号
8
6
21
72.
79.
3
2
3
4
号
2
2
22
71.
79.
3
3
3
4
号
6
4
23
77.
77.
3
4
3
4
号
1
4
24
71.
76.
3
3
3
4
号
5
1
25
68.
79.
2
2
3
4
号
2
5
26
72
3
3
74.
3
3
号
3
27
71.
3
3
77
3
4
号
5
28
79.
3
4
号
6
经过整理,我们初步得到了对于葡萄酒的质量的分类的表格。
考虑到葡萄酒的质量与酿酒葡萄间有比较之间的关系,我们将保
为分类本身就没有一定标准,人们可以从不同的角度给出不同的分类。
在实际应用中常使用下面几种方法确定类的个数。由适当的阀值确定,
此处阀值为 Dkl 。 根据样本的散点图直观的确定。当样本所含指标只有 2 个或 3 个
时,可运用散点图直观观察。如果指标超过 3 个时,可用主成份法先
综合指标。
根据统计量确定分类个数。在 SAS 中,提供了一些来自方差分析
评出了六个级别(见表 5)。
表 5:葡萄酒等级表
等
特
优
优
良
及
不
级
优
良
格
及格
分
95-
90-
80-
70-
60-
0-5
数
100
94
89
79
69
9
在问题 2 的计算中,我们求出了各支酒的分数,考虑到所有分数
在区间[61.6,81.5]波动,以原等级表分级,结果将会很模糊,不能分
得比较清晰。为此我们需要进一步细化等级。为此我们重新细化出 5
个类离差越小, R2 越大,所以我们只能取 k 使得 R2 足够大,但 k 本身
比较小,而且 R2 不再大幅度增加。
2)半偏 R2 统计量:在把类 Ck 和类 Cl 合并为下一水平的类 Cm 时,定 义半偏相关:
(5.2.4)
半偏R2 Bkl / T
其中 Bkl Sm (Sk Sl ) 为合并类引起的类内离差平方和的增量: ST 为类 CT 的类内离差平方和。半偏 R2 用于评价单次合并效果,其值越大, 说明上次合并效果越好。