葡萄酒的评价摘要本文主要采用数学统计与分析方法,利用EXCEL,MATLAB等工具解决了有关葡萄酒质量评价的一系列问题。
关于问题一,分析判断两组评酒员评价结果有无显著性差异及哪组结果更可信。
首先我们采用t-检验法,根据T值判断差异的显著性,代入数据后求得P T t 双尾=0.00065<0.01,即两组评价结果差异性显著。
然后将第一组10位()评酒员对于酒样品所给评分的方差值与第二组10位评酒员对于酒样品所给评分的方差值做比较,得出第一组的方差较大,所以认为第一组评酒员打分较为严格,即更可信。
关于问题二,在不确定酿酒葡萄的理化指标和葡萄酒的质量之间的关系的情况下,运用主成分分析法粪别根据酿酒葡萄的理化指标和葡萄酒的质量对酿酒葡萄进行了分级,将红葡萄、白葡萄各分成了优质、较好、一般、劣质四个等级,结果详见表5.2.1至表5.2.4。
关于问题三,采用回归分析法,计算出酿酒葡萄与葡萄酒所共有的理化指标之间的相关系数,结果详见表5.3.1和表5.3.2,其相关系数的绝对值越大表示联系程度越紧密。
关于问题四,首先根据问题三的结果可知酿酒葡萄与葡萄酒的理化指标之间的联系,将分析过程简化为只考虑葡萄酒的理化指标对葡萄酒质量的影响。
然后查阅资料结合附表1,总结出口感和外观为葡萄酒质量的决定因素,而总酚、色泽、花色苷这三个理化指标为主要影响葡萄酒质量的因素。
最后结合附件3,发现芳香物质对葡萄酒质量也有影响,否定了用葡萄和葡萄酒的理化指标来评价葡萄酒的质量的可行性。
关键词:葡萄酒质量的评价EXCEL MATLAB、主成分分析相关系数T-检验1.问题重述确定葡萄酒质量时一般是通过聘请一批有资质的评酒员进行品评。
每个评酒员在对葡萄酒进行品尝后对其分类指标打分,然后求和得到其总分,从而确定葡萄酒的质量。
酿酒葡萄的好坏与所酿葡萄酒的质量有直接的关系,葡萄酒和酿酒葡萄检测的理化指标会在一定程度上反映葡萄酒和葡萄的质量。
附件1给出了某一年份一些葡萄酒的评价结果,附件2和附件3分别给出了该年份这些葡萄酒的和酿酒葡萄的成分数据。
请尝试建立数学模型讨论下列问题:1. 分析附件1中两组评酒员的评价结果有无显著性差异,哪一组结果更可信?2. 根据酿酒葡萄的理化指标和葡萄酒的质量对这些酿酒葡萄进行分级。
3. 分析酿酒葡萄与葡萄酒的理化指标之间的联系。
4.分析酿酒葡萄和葡萄酒的理化指标对葡萄酒质量的影响,并论证能否用葡萄和葡萄酒的理化指标来评价葡萄酒的质量?2.问题分析问题一要分析两组评酒员的评价结果有无显著性差异并判断哪一组结果更可信。
由于题目中有数据缺失和错误数据,我们采用曲线拟合处理这一问题。
因为所给数据是小样本,总体标准差 未知的正态分布资料,因此采用T检验,根据所求得的P值判断两个平均数的差异是否显著。
然后将第一组10位评酒员对于酒样品所给评分的方差值与第二组10位评酒员对于酒样品所给评分的方差值做比较,方差大的一组则说明其打分较为严格,即说明他们对待评酒较为认真,从而认为其较为可信。
问题二要求根据酿酒葡萄的理化指标和葡萄酒的质量对这些酿酒葡萄进行分级。
考虑到不清楚葡萄酒的理化指标与葡萄酒的质量之间的关系,所以分为两种情况进行分组分析。
首先根据酿酒葡萄的理化指标,采用主成分分析法给酿酒葡萄综合评分并排序,根据综合评分的排序结果对酿酒葡萄样品分级;然后将问题一所得出的较为可信的一组酒样品的评分作为葡萄酒的质量并以此分级,此即为各葡萄酒样品对应的酿酒葡萄样品的另一种分级情况。
问题三要求分析酿酒葡萄与葡萄酒理化指标之间的联系,即要求得出它们各项理化指标之间联系的紧密程度,所以采用回归分析的方法计算它们的各理化指标的相关系数,然后以相关系数的绝对值大小表示它们之间联系的紧密程度。
问题四要求探究酿酒葡萄和葡萄酒的理化指标对葡萄酒质量的影响,并判断用葡萄和葡萄酒的理化指标来评价葡萄酒的质量的可行性。
考虑到问题三已经得出酿酒葡萄和葡萄酒理化指标之间的联系,且葡萄酒的理化指标相对较少,因此选择分析葡萄酒的理化指标对葡萄酒质量的影响。
可以通过前面的结果,得出葡萄酒的理化指标对葡萄酒产生影响的几个主要因素,再依据这几个因素结合葡萄酒质量排序,便可以得出这几个因素对葡萄酒质量的影响。
第二小问将附表3中的芳香物质考虑进来,判断其对葡萄酒质量是否有影响,从而论证能否用葡萄和葡萄酒的理化指标来评价葡萄酒的质量。
3.问题假设1.假设题目所给数据都是真实可靠;2.假设每位评酒员都是公平公正的;3.假设两组评酒员的酒样是同一种葡萄酒;4.假设在问题分析的过程中酿酒工艺等环节对葡萄酒的质量没有影响;5.假设每一位评酒员给出的葡萄酒样品的总分是综合各方面之后的分数;6.假设题目给出的数据是足够多的;4.变量说明t :统计量∂:总体标准差P :差异发生的概率df :自由度DX:方差平均值ij X :第i 位评酒员给第j 个样品的评分R :相关矩阵5.模型建立与求解5.1问题一5.1.1模型建立5.1.1.1分析附件1中两组评酒员的评价结果有无显著性差异对于两组评酒员的评价结果有无显著性差异的分析问题,采用T 检验。
因为T 检验就是用于小样本,总体标准差σ未知的正态分布资料,是用于小样本的两个平均值差异程度的检验方法。
它是用T 分布理论来推断差异发生的概率,从而判定两个平均数的差异是否显著。
其具体步骤如下:1、建立虚无假设12:o H μμ=,即先假定两个总体平均数之间没有显著差异;2、计算统计量T 值,对于不同类型的问题选用不同的统计量计算方法; (1)如果要评断一个总体中的小样本平均数与总体平均值之间的差异程度,其统计量T 值的计算公式为:1X T S n μ-=- (2)如果要评断两组样本平均数之间的差异程度,其统计量T 值的计算公式为:X X T =3、根据自由度61df n =-,查T 值表,找出规定的T 理论值并进行比较。
理论值差异的显著性水平为0.01级或0.05级。
不同自由度的显著水平理论值记为()0.05T df 和()0.01T df4、比较计算得到的t 值和理论T 值,推断发生的概率,依据下表(表5.1.1)给出的T 值与差异显著性关系表作出判断。
5、根据是以上分析,结合具体情况,作出结论。
5.1.1.2哪一组结果更可信。
对于哪一组的评分结果更为可信的问题,将数据代入公式2j()1,1,2,,10ijj ixx DX N jN -==∑∑分别算出两组评酒员对于酒样品评分的方差的平均值。
然后以求出的这两个值为依据判别哪一组更可信,方差的平均值大的则说明其打分更为严格,即可信度更高。
5.1.2模型求解将附表1中的数据代入模型后得出结果如下表(表5.1.2):(1)由此表中所得出()P T t ≤双尾=0.000652284<0.01,所以得出结论,这两组有显著性差异。
(2)得到的两个方差的平均值:121234.21,22.27,S S S S ==>,所以判定第一组的打分更为严格,即第一组给出的评分更为可信。
5.2问题二5.2.1模型建立在不确定酿酒葡萄的理化指标和葡萄酒的质量之间的关系的情况下,分别根据酿酒葡萄的理化指标和葡萄酒的质量对酿酒葡萄进行分级。
5.2.1.1根据酿酒葡萄的理化指标对酿酒葡萄进行分级对于根据酿酒葡萄的梨花指标对酿酒葡萄进行分级的问题,采用主成分分析法。
根据各指标的最终评分对酿酒葡萄进行分级,其具体步骤如下:1、原始指标数据的标准化采集p 维随机向量12(,,,)T p X X X X = 的n 个样品12(,,,),1,2,,T i i i ip X X X X i n ==,n p >,构造样本阵,对样本阵元进行如下标准化变换:,1,2,,;1,2,,ij jij jx x Z i n j p s -===其中2211(),1nnijijj i i j j xxx x s nn ==-==-∑∑,得标准化阵Z 。
2、对标准化阵Z 求相关系数矩阵[]1T ij p Z ZR r xp n ==-其中, ,,1,2,,1kjkjijz z r i j p n ==-∑。
3、解样本相关矩阵R 的特征方程||0p R I λ-=得p 个特征根,确定主成分按110.85mjj pjj λλ==≥∑∑确定m 值,使信息的利用率达85%以上,对每个,1,2,,j j m λ=, 解方程组b j R b λ=得单位特征向量oj b 。
4、将标准化后的指标变量转换为主成分,1,2,,T o ij i j U z b j m ==1U 称为第一主成分,2U 称为第二主成分,…,p U 称为第p 主成分。
5 、对m 个主成分进行综合评价并根据综合评分由大到小排序对m 个主成分进行加权求和,即得最终评价值,权数为每个主成分的方差贡献率,然后依据最终评价值由大到小排序。
5.2.1.2根据葡萄酒的质量对酿酒葡萄进行分级对于根据葡萄酒的质量对酿酒葡萄进行分级的问题,由于问题一已经得出第一组所给的评分更为可信,所以选取第一组的评分作为对葡萄酒的质量的评分。
依据80分以上的为优质,70-80分为较好,60-70分为一般,60分以下为劣质的分类标准对葡萄酒的质量进行分级。
然后根据每一级里的葡萄酒样品找到其对应的酿酒葡萄,以此作为对酿酒葡萄的分级。
5.2.2模型求解5.2.2.1根据酿酒葡萄的理化指标对酿酒葡萄进行分级将葡萄样品(红)的各项理化指标的数据代入模型后得出排序及分级结果如表5.2.1 葡萄样品(红)的排序及分级将葡萄样品(白)的各项理化指标的数据代入模型中得出排序结果如下表(表5.2.2),详见附录1。
表5.2.2 葡萄样品(白)的排序5.2.2.2根据葡萄酒的质量对酿酒葡萄进行分级依据问题一中所判定出的较为可信的一组的红葡萄酒评分结果排序及分级表5.2.3 红葡萄酒质量评分的排序及分级依据问题一中所判定出的较为可信的一组的白葡萄酒评分结果排序结果如下表(表5.2.4),详见附录1。
5.3问题三5.3.1模型建立对于分析酿酒葡萄与葡萄酒的理化指标之间的联系的问题,经问题分析得出此问题即为要求得出酿酒葡萄与葡萄酒的理化指标之间的联系的紧密程度,所以选取计算它们的各项指标之间的相关系数来分析它们之间的联系的紧密程度,其具体理论依据及计算方式如下:相关系数是变量之间相关程度的指标。
样本相关系数用r 表示,总体相关系数用ρ表示,相关系数的取值围为[-1,1]。
|r |值越大,误差Q 越小,变量之间的线性相关程度越高;|r |值越接近0,Q 越大,变量之间的线性相关程度越低。
相关系数用希腊字母γ表示,γ值的围在-1和+1之间。
2()()()X YXY X X Y Y nr Y Y ---==-∑∑∑∑0γ>为正相关,0γ<为负相关。