当前位置：文档之家› 聚类分析实例分析题

聚类分析实例分析题

3)伪 F 统计量:
伪F = (T-Pk )/(k-1) Pk / (n k)
（5.2.5）
伪F统计量评价分为 k 个类的效果。伪 F 统计量越大，表达分为 k
个类越合理。通常取伪 F 统计量较大而类数小的聚类水平。
4) 伪 t2 统计量:
t 2 Bkl / ((Sk Sl ) / (nk nl 2))
号
8
8
11
61.
71.
2
1
3
3
号
6
4
12
68.
72.
2
2
3
3
号
3
4
13
68.
73.
2
2
3
3
号
8
9
14
72.
77.
3
3
3
4
号
6
1
15
65.
78.
2
2
3
4
号
7
4
16
69.
2
3
67.
2
2
号
9
3
17
74.
80.
3
3
4
5
号
5
3
18
65.
76.
2
2
3
4
号
4
7
19
72.
76.
3
3
3
4
号
6
4
20
75.
76.
3
4
3
酒
等级化等级酒
等级化等级
1
68.
77.
2
2
3
4
号
1
9
2
75.
74
3
3
3
4
号
8
3
74.
75.
3
4
3
4
号
6
6
4
71.
76.
3
3
3
4
号
2
9
5
72.
81.
3
3
4
5
号
1
5
6
66.
2
2
75.
3
4
号
3பைடு நூலகம்
5
7
65.
74.
2
2
3
3
号
3
2
8
72.
66
2
2
3
3
号
3
9
78.
80.
3
4
4
5
号
2
4
10
68.
79.
2
2
3
4
在此我们用了使用最广范的方法，ward 最小方差法。其中用到了类间
距离来进行比较，定义为：
Dkl || X k X l ||2 /(1 / nk 1 / nl )
（5.2.2）
Ward 方法并类时总是使得并类导致的类内离差平方和增量最小。
系统聚类数的确定。在聚类分析中，系统聚类最终得到的一个聚
类树，如何确定类的个数，这是一个十分困难但又必须解决的问题；因
留葡萄酒质量对于酿酒葡萄的影响，先单纯从酿酒葡萄的理化指标对
酿酒葡萄进行分类，然后在通过葡萄酒质量对酿酒葡萄质量的优劣进
一步进行划分。
5.2.2 建立模型在通过酿酒葡萄的理化指标对酿酒葡萄分类的过程，我们用到了聚类分析方法中的 ward 最小方差法，又叫做离差平方和法。聚类分析是研究分类问题的一种多元统计方法。所谓类，通俗地说，就是指相似元素的集合。为了将样品进行分类，就需要研究样品之间关系。这里的最小方差法的基本思想就是将一个样品看作 P 维空间的一个点，并在空间的定义距离，距离较近的点归为一类；距离较远的点归为不同的类。面对现在的问题，我们不知道元素的分类，连要分成几类都不知道。现在我们将用 SAS 系统里面的 stepdisc 和 cluster 过程完成判别分析和聚类分析，最终确定元素对象的分类问题。
5.2 酿酒葡萄的等级划分
5.2.1 葡萄酒的质量分类
由问题 1 中我们得知，第二组评酒员的的评价结果更为可信，所
以我们通过第二组评酒员对于酒的评分做出处理。我们通过 excel 计
算出每位评酒员对每支酒的总分，然后计算出每支酒的 10 个分数的
平均值，作为总的对于这支酒的等级评价。
通过国际酿酒工会对于葡萄酒的分级，以百分制标准评级，总共
建立数据阵，具体数学表示为：
X11 ... X1m
X
...
...
...
X n1 ... X nm
（5.2.1）
式中，行向量 Xi (xi1,..., xim ) 表示第 i 个样品；列向量 X j (x1j ,..., xnj ) ' ’，表示第 j 项指标。(i=1,2,…,n;j=1,2,…m) 接下来我们将要对数据进行变化，以便于我们比较和消除纲量。
个等级，为了方便计算，我们还对等级进行降序数字等级（见表 6）。
表 6：细化后的葡萄酒等级表
等级
偏优
偏优
良
中
及格
良
分数
80-8
75-7
70-7
65-6
60-6
4
9
4
9
4
数字
5
4
3
2
1
等级
通过对数据的预处理，我们得到了一个新的关于葡萄酒的分级表
格（见表 7）：
表 7：各支葡萄酒的等级
编
红
原
细
白
原
细
号
（5.2.6）
用此统计量评价合并类 Ck 和类 Cl 的效果，该值大说明合并的两
个类 Ck 和类 Cl 是很分开的，这个合并不成功，而应该去合并前的水平。
通过使用 sas 软件的 cluster 过程和 tree 过程，可以求解分析出结
思想的统计量近似检验类个数如何选择更合适。
1) R2 统计量:
R2
1
S
2 A
/
ST2
SB2
/
ST2
（5.2.3）
其中，
S
2 A
为分类数为
k
个数时的总类内离差平方和，
ST2
为所有样
品或变量的总离差平方和。 R2 越大，说明类内的离差平方和在总离差
平方和中比例较小，也就是分为 k 个类的效果越好。显然分类越多，每
4
号
8
6
21
72.
79.
3
2
3
4
号
2
2
22
71.
79.
3
3
3
4
号
6
4
23
77.
77.
3
4
3
4
号
1
4
24
71.
76.
3
3
3
4
号
5
1
25
68.
79.
2
2
3
4
号
2
5
26
72
3
3
74.
3
3
号
3
27
71.
3
3
77
3
4
号
5
28
79.
3
4
号
6
经过整理，我们初步得到了对于葡萄酒的质量的分类的表格。
考虑到葡萄酒的质量与酿酒葡萄间有比较之间的关系，我们将保
为分类本身就没有一定标准，人们可以从不同的角度给出不同的分类。
在实际应用中常使用下面几种方法确定类的个数。由适当的阀值确定，
此处阀值为 Dkl 。根据样本的散点图直观的确定。当样本所含指标只有 2 个或 3 个
时，可运用散点图直观观察。如果指标超过 3 个时，可用主成份法先
综合指标。
根据统计量确定分类个数。在 SAS 中，提供了一些来自方差分析
评出了六个级别（见表 5）。
表 5：葡萄酒等级表
等
特
优
优
良
及
不
级
优
良
格
及格
分
95-
90-
80-
70-
60-
0-5
数
100
94
89
79
69
9
在问题 2 的计算中，我们求出了各支酒的分数，考虑到所有分数
在区间[61.6，81.5]波动，以原等级表分级，结果将会很模糊，不能分
得比较清晰。为此我们需要进一步细化等级。为此我们重新细化出 5
个类离差越小， R2 越大，所以我们只能取 k 使得 R2 足够大，但 k 本身
比较小，而且 R2 不再大幅度增加。
2)半偏 R2 统计量:在把类 Ck 和类 Cl 合并为下一水平的类 Cm 时，定义半偏相关：
（5.2.4）
半偏R2 Bkl / T
其中 Bkl Sm (Sk Sl ) 为合并类引起的类内离差平方和的增量: ST 为类 CT 的类内离差平方和。半偏 R2 用于评价单次合并效果，其值越大，说明上次合并效果越好。

e商务文档

聚类分析实例分析题

相关文档推荐：