葡萄酒的分析及等级划分[摘要]由于经济全球化越来越广泛,西方文化的逐渐渗入中国的东方文化,葡萄酒越来越被大众接受,其营养价值和保健价值也逐渐受到人们重视,葡萄酒认证和质量评价逐渐得到关注,因此我们想要对其进行研究。
我们寻找到两组各10个评酒员对红白葡萄酒的评分数据以及葡萄酒和酿酒葡萄的理化指标来对葡萄酒进行分析及等级划分。
首先先验证各组评分数据是否满足正态分布,再对红白葡萄酒的两组数据分别采用配对T检验检验两组数据是否有显著性差异,再根据方差判断哪组数据较为可靠。
由于同一等级物品,其特性相近,因此用可靠的那组评分数据综合酿酒葡萄的理化指标采用聚类分析,对酿酒葡萄进行等级划分,各分为四个等级,用每个等级的中所有葡萄酒平均得分作为该等级的酿酒葡萄分数。
查阅资料,分析可知酿酒葡萄的理化指标影响了葡萄酒的理化指标,因此考虑建立模型,描述一个葡萄酒的理化指标与酿酒葡萄的多个指标之间的关系,通过这种联系分析酿酒葡萄指标对葡萄酒理化指标的影响。
最后用葡萄酒的得分作为葡萄酒的质量标准,综合剔除指标后的酿酒葡萄和葡萄酒的理化指标进行回归分析,并观察回归性是否显著。
以此判断葡萄酒质量是否可以运用这两种指标来评价。
【关键词】正态检验;配对T检验;聚类分析;逐步回归分析1.引言葡萄酒中含有丰富的营养物质,至今多达 600 种以上的物质被测定出来。
葡萄具有的营养和医疗作用很早就被认识, 葡萄酒因其特殊的营养价值和较好的保健效果,越来越受到广大消费者的欢迎。
在此形势下,葡萄酒认证和质量评价得到关注。
葡萄酒的质量,即葡萄酒优秀的程度, 它是产品的一种特性,且决定购买者的可接受性。
因此,葡萄酒能够满足人类需求的各种特性的总和即构成了它的质量。
葡萄酒认证保证了市场中酒的质量,同时保护了消费者的利益。
葡萄酒的认证包括理化性质分析、感官评价、物理化学指标、卫生指标等手段。
质量评价是认证中的重要阶段,它有益于提高葡萄酒的酿造工艺,同时为市场定位提供决策信息。
酿酒葡萄的好坏与所酿葡萄酒的质量有直接的关系。
葡萄酒和酿酒葡萄检测的理化指标会在一定程度上反映葡萄酒的质量。
葡萄酒的每一项理化指标是其质量的单一体现,而感官指标则是葡萄酒质量的综合概括,换句话说,一个理化指标、卫生指标都合格的葡萄酒未必是高质量的葡萄酒。
在今后的一个时期,我们需要做的是从葡萄酒的特点出发,围绕葡萄和葡萄酒理化指标、感官指标等众多因素对葡萄酒质量的联系进行研究,尽可能确定较为合理的葡萄酒质量评价标准,既保证市场中酒的质量,保护消费者利益,又能为市场定位提供决策信息,达到经济效益的目的,从而实现双赢。
2.模型假设2.1假设品酒员给出的评价能够真实客观地反应葡萄酒的情况2.2葡萄酒的质量只与酿酒葡萄有关,忽略人为干扰、酿造过程中的环境差别,如温度、湿度等因素2.3每个评酒员对不同葡萄酒样品的评分是不受主观因素影响的,即各评分结果相互独立2.4假设数据来源真实有效,数据的误差皆在可接受范围之内3.符号说明j i A , 表示第j 个品酒员对第i 个葡萄酒样品的评分d 度量酿酒葡萄与得分的距离._ij x作为第i 组样品j 的得分4.分析两组评酒员的评价结果有无显著性差异,哪一组结果更可信4.1数据预处理对附件一的数据进行观察,可以看出葡萄酒样品的评价项目满分为100分,分别由10个品酒员进行评分,评分标准主要有外观分析(15分)、香气分析(30分)、口感分析(44分)以及平衡/整体评价(11分),各占一部分比例,红白葡萄酒的两组数据表,发现有几个数据属于异常值和残缺值,应先做出处理4.1.1残缺值的处理第一组红葡萄酒4号品酒员对20号葡萄酒样品的色调评价分数为空值,因为可以粗略认为不同品酒师对同一葡萄酒样品评分相差不大,所以采用均值替换法来处理数据 4.1.2异常数据的处理第一组白葡萄酒7号品酒员对3号葡萄酒样品的持久性评分为77,超过其上限8分,9号品酒员对8号葡萄酒样品的持久性评价为16,超过上限8,显然不合理,因此属于异常数据,采用均值替换法处理该数据。
4.2对原始数据的处理每个品酒员对同一葡萄酒样品的外观分析、香气分析、口感分析、平衡/整体评价都有一个评分,把这些评分相加作为该品酒员对该葡萄酒样品的得分,再把这10个品酒员对该葡萄酒样品的评分取平均值,作为该葡萄酒样品的最终得分。
4.3各葡萄酒样品样品评分数据的概率分布的确定由于要对数据分别进行显著差异性检验,因而必须先检验数据是否服从正态分布,才能确定要采用参数检验还是非参数检验来进行显著差异性的检验。
首先,先对每一个葡萄酒样本中的10个品酒员的分数进行平均,取该平均值为葡萄酒样本的分数,即:然后,利用SPSS 软件分别画出这四组数据的频率分布直方图和Q-Q 图进行正态分布检验。
频率分布直方图下图所示:从频率直方图可以看出数据基本符合正态分布Q-Q图:一种散点图,对应于正态分布的Q-Q图,就是由标准正态分布的分位数为横坐标,样本值为纵坐标的散点图. 要利用QQ图鉴别样本数据是否近似于正态分布,只需看Q-Q 图上的点是否近似地在一条直线附近,而且该直线的斜率为标准差,截距为均值. 用Q-Q图还可获得样本偏度和峰度的粗略信息。
由图可知数据基本与图中的45度对角线吻合,且右边的图形偏差不会过大,因此符合正态分布。
单样本K-S 检验:可以将一个变量的实际频数分布与正态分布、均匀分布、泊松分布、指数分布进行比较。
其零假设0H 为样本来自的总体与指定的理论分布无显著差异。
SPSS 在统计中将计算K-S 的Z 统计量,并依据K-S 分布表(小样本)或正态分布表(大样本)给出对应的相伴概率值。
如果相伴概率小于或等于用户的显著性水平α,则应拒绝零假设0H ,认为样本来自的总体与指定的分布有显著差异;如果相伴概率值大于显著性水平,则不能拒绝零假设0H ,认为样本来自的总体与指定的分布无显著差异。
K-S 检验表表中最后一行数据均大于0.05,因此四组数据符合正态分布。
综上,采用参数检验来验证差异性显著性检验。
ij X 作为第i 组样品j 的得分。
本题中数据成对,即对同一葡萄酒样品测出一对数据,我们知道一对与另一对数据之间的差异是由于各种因素引起的,并且由于各个样品间存在差异,不能把两组各样品的得分当作来自同分布的观测值,并且对于每对数据而言,它们是同一样品不同品酒员测得的结果,因此不是两个独立的随机变量的观察值。
但是.2.1j j j x x D -=(i =1,2,,27)可以作为来自一个样本的样本值,反映了同一样品两组间的评分差异,故采用配对t 检验。
但是使用配对t 检验的前提条件是j D 服从正态分布,所以要先对j D 进行Kolmogorov-Smirnov 检验。
然后利用方差分析来判断哪组更稳定。
组间方差越大表明越不可信。
运用SPSS 软件进行分析,结果如下表所示:表中最后一行数据均大于0.05,因此符合正态分布4.4分别对红葡萄酒和白葡萄酒的两组测试数据进行配对t检验运用SPSS软件运行,结果如下表所示:表一(两组红葡萄酒均值方差表)表二(红葡萄酒配对T检验)表四(白葡萄酒配对T检验)由表二、四中可以看出最后一列即P 均小于0.05,因此可以认为两组数据有显著性差异,从表一、三种可以看出两组数据的均值和方差,可以认为方差较小的评分标准较为可靠,因此第二组红葡萄酒以及第二组白葡萄酒得分数据较为可靠。
5.根据酿酒葡萄的理化指标和葡萄酒的质量对这些酿酒葡萄进行分级5.1数据预处理5.1.1异常值的处理观察附件二,由于蓝色为一级指标,红色为二级指标,项目下有几列数据,表示该项目测试几次,由于是对同一样品进行测量,因此测出的数据应该相差不大,但是酿酒葡萄理化指标中的白葡萄百粒质量的三次测试值分别为225.8,224.6,2226.1,第三次测试结果明显比前两次大很多,必定为异常值,因此采用均值替代法处理,取前两次的平均值为该次的结果。
5.1.2对处理后的数据进行再处理有表中数据可知,有的数据进行多次测量,为了方便进行计算,只取一级理化指标计算算,对于进行多次测量的指标取平均值作为该样本的最终指标。
公式为:nXnX X X X ni in∑==++=1215.1.3数据的标准化观察附件二,由于数据各指标的量化单位不同,数据波动范围不同,为了消除这些不利影响,应对理化指标数据进行标准化处理。
假设有n 个样本,m 个指标,则每个变量可表示为ij x ,均值∑==ni ij j x n x 11标准方差j s =则标准化后()*0ij jijjjx x x ss -=≠利用SPSS 软件可以直接对数据进行标准化。
5.2聚类分析聚类分析就是分析如何对样品或者变量进行量化分类的问题,聚类分析指将物理或抽象对象的集合分组成为由类似的对象组成的多个类的分析过程,聚类分析的目标就是在相似的基础上收集数据来分类。
由于聚类分析是将数据分类到不同的类或者簇的一个过程,因此同一个簇中的对象具有较大的相似性,而不同簇之间具有很大的相异性。
聚类分析是一种探索性的分析,在分类的过程中,人们不必事先给出一个分类的标准,聚类分析能够从样本数据出发,自动进行分类。
聚类分析所使用方法的不同,常常会得到不同的结论。
其主要有系统聚类法和K-均值聚类法。
本题采用系统聚类法进行研究。
5.2.1系统聚类法的基本原理首先将一定数量的样本或指标各自看成一类,然后根据样本或指标的亲疏程度,将亲疏程度最高的两类合并,然后考虑合并后的类与其他类之间的亲疏程度,再进行合并。
重复这一过程,直到将所有的样本或指标合并为一类。
系统聚类分为Q 型聚类和R 型聚类两种:Q 型聚类是对样本进行聚类,它使具有相似特征的样本聚集在一起,使差异性大的样本分离开来;R 型聚类是对变量进行聚类,它使差异性大的变量分离开来,相似的变量聚集在一起,这样就可以在相似变量中选择少数具有代表性的变量参与其他分析,实现减少变量个数、降低变量维度的目的。
5.2.2衡量亲疏程度的距离令ijx 表示第i 个样品的第j 个指标, ij d表示第i 个样品与第j 个样品之间的距离,最常见最直观的计算距离的方法是: 明考斯基距离(Minkowski )()1/1qpq ij ik jk k d x x =⎡⎤=-⎢⎥⎣⎦∑本题采用欧式距离进行计算。
即取2=q ,()()1/2212pij ik jk k d x x =⎡⎤=-⎢⎥⎣⎦∑ 即为欧氏距离5.2.3、对酿酒葡萄的理化指标以及评分表的数据进行聚类分析由四已经得到第二组品酒员的评分数据较为可靠,因此采用第二组品酒员的数据。
由于酿酒葡萄与品酒员的评分即葡萄酒质量具有一定的关系,因此采用聚类分析,利用酿酒葡萄的30个理化指标对其分成若干类。