A题葡萄酒的评价摘要随着我国葡萄酒业的逐步发展,葡萄酒生产企业的规模和数量不断扩大,葡萄酒的质量成为大家越来越关心的话题,本文旨在建立数学模型评价葡萄酒和酿酒葡萄的质量。
针对问题一,在对两组评酒员的评价是否存在显著性差异的问题中,首先用2 拟合检验法验证了两组评酒员的评价结果都服从正态分布,并对两组评酒员的评价结果进行了F检验和t检验,发现两组评酒员对于红葡萄酒和白葡萄酒的评价结果均存在显著性差异,通过方差分析法处理,发现第二组评酒员的评分方差更小,故评价结果均衡度更好,其结果可信度更大。
针对问题二,我们利用置信区间法计算出可信区间,再结合酿酒葡萄的理化指标和可信组评酒员的打分所刻画的葡萄酒的质量对酿酒葡萄进行分级,用Q型聚类分析的方法将红,白葡萄酒和酿酒葡萄各分成了5类,然后对分好的葡萄类所酿造的葡萄酒进行统计,得到各类葡萄所对应的级别。
针对问题三,我们分析了酿酒葡萄和葡萄酒的理化指标之间的联系,运用主成分分析的方法,从酿酒葡萄的30个指标中提取出了12个主要成分,进而通过逐步回归的方法建立起酿酒葡萄和葡萄酒的理化指标联系的模型。
但主成分法去掉了一部分数据,我们有用最小二乘法进行。
针对问题四,利用最小二乘法建立多元线性回归模型分析葡萄和葡萄酒的理化指标对葡萄酒质量的影响,利用spss软件求出自变量与因变量间的相关系数为0.138,拟合线性回归的确定性系数为0.019,经方差分析及对回归系数进行显著性检验发现方程不显著,即不能用葡萄和葡萄酒的理化指标来评价葡萄酒的质量。
关键字:正态分布主成分分析聚类分析方法最小二乘法逐步回归 spss软件一、问题重述确定葡萄酒质量时一般是通过聘请一批有资质的评酒员进行品评。
每个评酒员在对葡萄酒进行品尝后对其分类指标打分,然后求和得到其总分,从而确定葡萄酒的质量。
酿酒葡萄的好坏与所酿葡萄酒的质量有直接的关系,葡萄酒和酿酒葡萄检测的理化指标会在一定程度上反映葡萄酒和葡萄的质量。
建立数学模型讨论下列问题:1、分析附件1中两组评酒员的评价结果有无显著性差异,哪一组结果更可信;2、根据酿酒葡萄的理化指标和葡萄酒的质量对这些酿酒葡萄进行分级;3、分析酿酒葡萄与葡萄酒的理化指标之间的联系;4、分析酿酒葡萄和葡萄酒的理化指标对葡萄酒质量的影响,并论证能否用葡萄和葡萄酒的理化指标来评价葡萄酒的质量。
二、问题分析近年来,我国的葡萄酒业得到了快速的发展,同时也产生了诸如因质量检测体系不完善带来的市场紊乱等问题,如今人们也越来越关注葡萄酒的质量问题,因此,研究葡萄酒的质量评价问题对中国葡萄酒市场的稳定发展以及更好地酿造出高质量的葡萄酒有着实际的应用价值。
2.1 对问题一的分析两组评酒员分别对27种红葡萄酒和28种白葡萄酒进行了评价,通常情况下,评价结果一般服从正态分布,所以一方面,我们首先应当对评价数据进行2 拟合检验法[1],说明其服从正态分布;然后利用SPSS软件对两组评酒员的评价结果进行方差分析,计算出各组评酒员评价结果的方差,方差越大表明组内成员的评价差异越大,可信度就越低。
;最后采用t检验和F检验进行显著性分析。
而一个较好的评价组员应是本着客观的原则进行评价,其评价结果通常较为均匀,因此,另一方面,我们应记录和讨论表中出现的异常数据,客观评价其出现的原因。
综合以上,得出结论。
2.2 对问题二的分析首先,我们利用第一题的结果,用置信区间法对可信组的原始数据进行处理,降低评酒员之间的差异,提高酒样品之间的差异【1】;利用处理后的数据(总分)对葡萄酒进行分级;然后,对初步处理后的酿酒葡萄的理化指标对葡萄进行Q型聚类分析,将葡萄分成了若干类;分析每类葡萄对应的葡萄酒大都属于哪一级别,从而得出葡萄的级别。
并可以利用综合分析法检验其分级正确与否;最后,分析每一级葡萄理化指标的特点,建立起葡萄指标识别葡萄级别的模型帮助果农更好地利用好葡萄酿好酒。
得出结论后,需进行误差分析和检验。
2.3 对问题三的分析我们先对葡萄的所有理化指标进行主成分分析法,得到葡萄一些具有代表性的理化指标。
然后我们建立葡萄的理化指标与葡萄酒的7个理化指标之间的多元线性回归方程,得到了酿酒葡萄与葡萄酒理化指标之间的定量联系。
由于主成分分析法去掉了一部分数据,我们再使用最小二乘法,利用最小二乘法会计算出相关系数,然后建立多元线性回归模型,并在此模型上适当改进,进行非线性讨论。
两者对比得出结论。
2.4对问题四的分析问题要求分析酿酒葡萄和葡萄酒的理化指标对葡萄酒质量的影响,并论证能否用葡萄和葡萄酒的理化指标来评价葡萄酒的质量。
由问题二、三得知酿酒葡萄和葡萄酒的理化指标是存在关联的,因此可以建立多元线性回归模型,求出回归方程,然后对回归方程的显著性进行检验,若回归方程显著则能用葡萄和葡萄酒的理化指标来评价葡萄酒的质量,否则,不能。
三、模型假设1、酿酒葡萄的酿造水平与酿造环境相同;2、酿制同一种酒使用的葡萄是相同的;3、对葡萄样品设置的分级标准客观合理;4、附录中所给数据真实有效,品酒员评分不受其他客观因素的影响;5、理化指标中二级指标对酿酒葡萄和葡萄酒质量影响较小,可以忽略不计;四、符号定义与说明符号定义与说明i v 残差 i y 残差绝对值 s 试验标准差 df 自由度 1M 加权综合评分 ij r i x 和j x 的相关系数 i z 主成分这里只给出主要符号的意义,其他符号将在文中给出,在此不再一一赘述。
五、模型的建立与求解5.1 判定两组评酒员的评价结果有无显著性差异,并确定哪一组结果更可信 5.1.1 数据的处理与准备根据题意,共有两组评酒员,每组有十个成员,每个评酒员在评价任意一种酒时,均考虑了四项一级指标和十项二级指标,每种酒的评价满分为100分,其中各个指标所占分值如表1所示。
为方便计,将各个二级指标按照表1中从左至右的顺序依次编为1—10号。
表1 各指标所占分值记k ij a ,ij a 分别表示第一组评酒员中第i 个评酒员,对第j 种红葡萄酒第k 个二级指标的评分和对第j 种红葡萄酒的总评分, kij b ,ij b 分别表示第二组评酒员中第i 个评酒员,对第j 种红葡萄酒第k 个二级指标的评分和对第j 种红葡萄酒的总评分,10,,2,1 =i ,27,,2,1 =j ,10,,2,1 =k ,则有⎪⎪⎩⎪⎪⎨⎧====.,101101∑∑k k ij ij k k ij ij b b a a 假设把每一组所有评酒员对第j 种红葡萄酒的平均评分,作为该组对该种红葡萄酒的最终评分,分别用j A ,j B 表示第一组和第二组对第j 种红葡萄酒的最终评分,27,,2,1 =j 则⎪⎪⎩⎪⎪⎨⎧=====∑.27,,2,1,101,101101101 j b B a A i ij j i ij j ∑同样,记k ij f ,ij f 分别表示第一组评酒员中第i 个评酒员,对第j 种白葡萄酒第k 个二级项指标的评分和第j 种白葡萄酒的总评分,kij g ,ij g 分别表示第二组评酒员中第i 个评酒员,对第j 种白葡萄酒第k 个二级指标的评分和第j 种白葡萄酒的总评分,10,,2,1, =k i ,28,,2,1 =j 。
则⎪⎪⎩⎪⎪⎨⎧====.,101101∑∑k k ij ij k k ij ij g g f f 分别用j F ,j G 表示第一组和第二组对第j 种白葡萄酒的最终评分,28,,2,1 =j 。
则⎪⎪⎩⎪⎪⎨⎧====∑.101,101101101∑i ij j i ij j g G f F现以第1号白葡萄酒为例,分析两组评酒员的评价结果的分布情况。
20个评酒员对第1号白葡萄酒的评分依次为85、80、88、61、76、93、83、80、95、79、84、78、82、75、79、84、81、69、75、72。
以10分为间距,统计落入各个区间数据的个数,结果见表2.表2 评分结果分布统计可以看出,20个评酒员对1号白葡萄酒的评分结果呈现出两头少中间多的分布。
下面利用2χ拟合检验法[1]检验评价结果是否服从正态分布(取显著性水平05.0=α)。
原假设0H :样本服从正态分布),(2δμN 。
计算参数μ及2δ的极大似然估计值分别是∑==2011201ˆi i a μ,∑=-=201212)ˆ(201i i a μδ. 计算出95.79ˆ=μ,57.7=σ,再利用标准正态分布函数值表得到各组概率079.01=P ,366.02=P,436.03=P ,112.04=P 。
由以上)4,3,2,1(=k P k 算出2χ的值(见下表3)给定05.0=α,查自由度为11-2-4=的2χ分布临界值表得到84.3205.0=χ(84.316.02<≈χ),故接受0H ,说明20位品酒员对第1号白葡萄酒的评分服从正态分布。
类似地,其他54种酒的评价结果经检验均服从正态分布。
所以接受原假设,即20个评酒员对1号红葡萄酒样品的评分可视为服从正态分布。
类似地,其他54种酒的评价结果经检验均服从正态分布。
5.1.2 两组组评价结果分析计算出两组评酒员对各种酒的评分情况,在MATLAB 中做出下图:第一组评酒员评分第二组评酒员评分葡萄样品评分红葡萄酒白葡萄酒图1 两组最终评分均值通过图1总结出,两组评酒员对于55种酒的评分走势大致相同,但对于红葡萄酒的评价,第一组的评分普遍高于第二组;对于白葡萄酒的评价,第一组的评分普遍低于第二组。
针对第j 种酒,两组评酒员的评分标准可能不同,主观性较大。
为检验两组评酒员的评价结果是否存在显著性差异,可进一步对两组评价结果进行F 检验。
我们首先分别计算出两组品酒员对红白葡萄酒评分的方差。
公式如下:∑=-=101212)ˆ(101i i a s μ由于每组变量个数相同,只需利用以下公式2221jjs s F =(j s 1表示第一组对第j 种样酒平分的标准差 j s 2表示第二组对第j 种样酒平分的标准差)便可知对应的F 值,查F 检验的临界表得红葡萄68.11=αF ,白葡萄67.12=αF 。
对于红葡萄酒各样品的F 值,若68.1<F ,则表示无显著性差异,反之,则有。
白葡萄酒同理。
经过上述计算,两组评酒员对27中红葡酒和28种白葡萄酒的评价差异结果如表4所示(其中,1表示两组评价结果不显著差异,0表示显著差异)两组评酒员对于55种酒的评价,总计有35种存在显著性差异,占总数的63.6%。
其中红葡萄酒15种,占红葡萄酒总数的55.6%,白葡萄酒20种,占白葡萄酒总数的71.4%,差异性远高于红葡萄酒。
因此,两组评酒员对于这些酒的评价普遍存在显著性差异,为了得到更为准确客观的评价结果,必须分别对各组评酒员的评价结果进一步分析,比较两组评价的可靠性。