当前位置:文档之家› 聚类分析实例分析题

聚类分析实例分析题

5.2酿酒葡萄的等级划分
5.2.1葡萄酒的质量分类
由问题1中我们得知,第二组评酒员的的评价结果更为可信,所以我们通过第二组评酒员对于酒的评分做出处理。

我们通过excel计算出每位评酒员对每支酒的总分,然后计算出每支酒的10个分数的平均值,作为总的对于这支酒的等级评价。

通过国际酿酒工会对于葡萄酒的分级,以百分制标准评级,总共评出了六个级别(见表5)。

表5:葡萄酒等级表
在问题2的计算中,我们求出了各支酒的分数,考虑到所有分数在区间[61.6,81.5]波动,以原等级表分级,结果将会很模糊,不能分得比较清晰。

为此我们需要进一步细化等级。

为此我们重新细化出5个等级,为了方便计算,我们还对等级进行降序数字等级(见表6)。

表6:细化后的葡萄酒等级表
通过对数据的预处理,我们得到了一个新的关于葡萄酒的分级表格(见表
7):
表7:各支葡萄酒的等级
经过整理,我们初步得到了对于葡萄酒的质量的分类的表格。

考虑到葡萄酒的质量与酿酒葡萄间有比较之间的关系,我们将保留葡萄酒质量对于酿酒葡萄的影响,先单纯从酿酒葡萄的理化指标对酿酒葡萄进行分类,然后在通过葡萄酒质量对酿酒葡萄质量的优劣进一步进行划分。

5.2.2建立模型
在通过酿酒葡萄的理化指标对酿酒葡萄分类的过程,我们用到了聚类分析方法中的ward最小方差法,又叫做离差平方和法。

聚类分析是研究分类问题的一种多元统计方法。

所谓类,通俗地说,就是指相似元素的集合。

为了将样品进行分类,就需要研究样品之间关系。

这里的最小方差法的基本思想就是将一个样品看作P维空间的一个点,并在空间的定义距离,距离较近的点归为一类;距离较远的点归为不同的类。

面对现在的问题,我们不知道元素的分类,连要分成几类都不知道。

现在我们将用SAS系统里面的
stepdisc 和cluster 过程完成判别分析和聚类分析,最终确定元素对象的分类问题。

建立数据阵,具体数学表示为:
1111...............m n nm X X X X X ⎡⎤
⎢⎥=⎢⎥
⎢⎥⎣⎦
(5.2.1) 式中,行向量1(,...,)i i im X x x =表示第i 个样品;
列向量1(,...,)'j j nj X x x =’,表示第j 项指标。

(i=1,2,…,n;j=1,2,…m)
接下来我们将要对数据进行变化,以便于我们比较和消除纲量。

在此我们用了使用最广的方法,ward 最小方差法。

其中用到了类间距离来进行比较,定义为:
2||||/(1/1/)kl k l k l D X X n n =-+ (5.2.2) Ward 方法并类时总是使得并类导致的类离差平方和增量最小。

系统聚类数的确定。

在聚类分析中,系统聚类最终得到的一个聚类树,如何确定类的个数,这是一个十分困难但又必须解决的问题;因为分类本身就没有一定标准,人们可以从不同的角度给出不同的分类。

在实际应用中常使用下面几种方法确定类的个数。

由适当的阀值确定,此处阀值为kl D 。

根据样本的散点图直观的确定。

当样本所含指标只有2个或3个时,可运用散点图直观观察。

如果指标超过3个时,可用主成份法先综合指标。

根据统计量确定分类个数。

在SAS 中,提供了一些来自方差分析思想的统计量近似检验类个数如何选择更合适。

1) 2R 统计量:
22222
1//A T B T R S S S S =-= (5.2.3)
其中,2
A S 为分类数为k 个数时的总类离差平方和,2T S 为所有样品或变量的
总离差平方和。

2R 越大,说明类的离差平方和在总离差平方和中比例较小,也就是分为k 个类的效果越好。

显然分类越多,每个类离差越小,2R 越大,所以我们只能取k 使得2R 足够大,但k 本身比较小,而且2R 不再大幅度增加。

2)半偏2R 统计量:在把类k C 和类l C 合并为下一水平的类m C 时,定义半偏相关:
2/kl B T =半偏R (5.2.4)
其中()kl m k l B S S S =-+为合并类引起的类离差平方和的增量: T S 为类T C 的类离差平方和。

半偏2R 用于评价单次合并效果,其值越大,说明上次合并效果越好。

3)伪F 统计量:
(T-P )/(k-1)
=
/()
k k F P n k -伪 (5.2.5)
伪统计量评价分为k 个类的效果。

伪F 统计量越大,表达分为k 个类越合理。

通常取伪F 统计量较大而类数小的聚类水平。

4) 伪2t 统计量:
2/(()/(2))kl k l k l t B S S n n =++- (5.2.6) 用此统计量评价合并类k C 和类l C 的效果,该值大说明合并的两个类k C 和类
l C 是很分开的,这个合并不成功,而应该去合并前的水平。

通过使用sas 软件的cluster 过程和tree 过程,可以求解分析出结果。

5.2.3模型的求解与分析
首先,我们利用附件2中白葡萄酒中酿酒葡萄的59个理化指标,通过聚类
分析,把酿酒葡萄分成五类,得到初步的结果(见图3):
从图中我们能够直观的看到把酿酒葡萄分为5大类,为了检验效果,我们通过判别分析检验原本的28种葡萄分类的结果,得到表8.
表8:误判概率表(具体表见附录)
在误差一栏我们看到,每一组的分类都存在或多或少的误差,我们觉得这个结果是不满意的。

为了进一步优化方案以及简化分析过程,我们利用逐步判别法对参与分类的因素进行逐步剔除,以达到减少噪声干扰的目的,让得到的结果更加合理和完善。

通过逐步判别法,我们剔除了原本59个数据中的35个相关不大,造成干扰的因素,剩下了24个因素。

经过剔除干扰项后,为了检验剔除后干扰项后的结果是否更加合理,我们重新对剩余的24个因素进行了聚类分析,做谱系聚类图和判别分析。

得到了新的结果(见表9):
表9:优化后的聚类分析部分结果(详细见附录)
3 21 0.1032 0.701 29.3 17.9
2 7 0.1648 0.536 30.1 10.0
1 28 0.536
2 0 . 30.1
综合个数据检验,把葡萄分为5个类别是比较合理的一种方案,为了检验与之前的差异我们得到了新的谱系聚类图(见图4)
图3:谱系聚类图图4:优化后的谱系聚类图
通过对比前后的两图,我们可以发现,分类的结果除了组间的类别有点波动之外,整体的分组是没有改变的。

所以,我们第一步得到了优化结果的可靠。

但仅仅用图说明是不够的,为此我们通过判别分析法,通过具体数据来说明分析结果的可靠。

表10:优化后的判别分析表数据
组号 1 2 3 4 5
概率0 0 0.1667 0 1.000 我们不难发现,表中的错误只在第3组出现了0.1667的误差,其他组是没有存在误差的。

这个结果是比较令人满意也令人信服的。

由此,我们得到的结果
是,我们此次对于白葡萄酒的酿酒葡萄进行的分类是合理可靠的。

具体分类结果为:
表11:白葡萄酒酿酒葡萄分类
通过该组的成功检验,我们接下来将会对红葡萄酒的酿酒葡萄进行同算法的分类。

由于用到的算法与检验方法一样,所以这里不再累赘,将直接输出最后分组结果。

部分详细容见附录。

表12:红葡萄酒酿酒葡萄的分类
分类完毕,接下来我们将利用关于红酒质量的评分等级来对对应的葡萄进行评分,首先应该说明的是,烂葡萄是不能酿出好酒,根据这个,我们可以客观的说出一点,一般好的葡萄能酿出好的酒,可能酿酒过程会意外让酒变质导致酒变
差,但好的酒由好的葡萄酿制出来是毫无疑问的。

为此我们把对于酒的等级相当于对葡萄打分。

每种葡萄分别得到分数i S ,i 表示第i 种葡萄。

通过将每组的葡萄总分除以组总数得到的数据,对葡萄进行分类,
i =/S 分类指标组内数
通过指标的具体分数,我们就可以轻松对葡萄进行等级划分,结果见表13:
表13:对白葡萄酒和红葡萄酒的酿酒葡萄评价分类有:
附录四:第二小题,优化后的数据运行程序
附录五:原判别分析表
附录六:优化后的判别分析表
在表中的各列数据代表的意思是:”NCL”为分类数量,表示新类别形成后类别的总数。

“--Clusters Joined---”为合并的类别,指明这一步合并了哪两个类,有两列。

其中OBx表示某一个原始样品,而CLx表示在某一个聚类水平上产生的类。

“FREQ”表示这次合并得到的类有多少个样品。

“SPRSQ”是半偏,“RSQ”是,”CCC”是考察聚类效果的统计量,该值越大,聚类水平越好,”PSF”为伪F统计量,“PST2”为伪统计量,“Tie”指示距离最小的候选类对是否有多对,本例全无。

相关主题