一、问题重述
确定葡萄酒质量时一般是通过聘请一批有资质的评酒员进行品评。每个评酒员在对葡萄酒进行品尝后对其分类指标打分,然后求和得到其总分,从而确定葡萄酒的质量。酿酒葡萄的好坏和所酿葡萄酒的质量有直接的关系,葡萄酒和酿酒葡萄检测的理化指标会在一定程度上反映葡萄酒和葡萄的质量。附件1给出了某一年份一些葡萄酒的评价结果,附件2和附件3分别给出了该年份这些葡萄酒的和酿酒葡萄的成分数据。请尝试建立数学模型讨论下列问题:
1. 分析附件1中两组评酒员的评价结果有无显著性差异,哪一组结果更可信?
2. 根据酿酒葡萄的理化指标和葡萄酒的质量对这些酿酒葡萄进行分级。
3. 分析酿酒葡萄和葡萄酒的理化指标之间的联系。
4.分析酿酒葡萄和葡萄酒的理化指标对葡萄酒质量的影响,并论证能否用葡萄和葡萄酒的理化指标来评价葡萄酒的质量?
附件1:葡萄酒品尝评分表(含4个表格)
附件2:葡萄和葡萄酒的理化指标(含2个表格)
附件3:葡萄和葡萄酒的芳香物质(含4个表格)
二、问题分析
问题二的分析
问题二要根据酿酒葡萄的理化指标和葡萄酒的质量对这些酿酒葡萄进行分级。题目对葡萄酒样品给出了葡萄酒品尝评分表、理化指标分析表和芳香物质分析表。由于葡萄酒理化指标分析表和芳香物质分析表没有一个可行的分析方法对葡萄酒的质量进行判断。因此,把葡萄酒品尝评分表作为对葡萄酒质量的评定。
由问题一,得到第二组评酒员的评价结果更可信。先对葡萄酒评分求平均值。再用主成分分析法处理酿酒葡萄的理化指标,将30个指标缩减为几个主成分。由于数据的计量单位不同,对葡萄酒的平均分和酿酒葡萄的理化指标量纲化处理。通过spss求出葡萄样本各指标和主成分的相关系数矩阵。从而求出各葡萄样本和主成分的关系矩阵Y=()ijy
最后用综合主成分分析法,将各葡萄酒的平均值(量纲化处理)和各葡萄样本跟主成分的关系矩阵建立一个线性关系。通过这个线性关系对葡萄样品进行打分,再用分值对葡萄进行分级。
三、模型假设
1、葡萄酒的质量仅由葡萄酒的评分决定。
2、葡萄酒的二级理化指标的信息全部反应在相对应得一级理化指标中。
四、符号说明
表示综合得分的数学期望,
i 表示第i组评分和总平均值之差,
ij 表示第i组第j个评酒师的评分和第i组评分均值的偏差;
ijkx 表示第i组的第j号评酒师对第k号酒的综合评分
ijk 表示第i组第j个评酒师弟K号样品酒分析结果和第j号评酒师评分的偏离;
ASS 称为因素A的离差平方和,
ESS 称为因素E的离差平方和,
BSS 称为因素B的离差平方和
iX 酿酒葡萄的不同的理化指标
Y 各葡萄样本和主成分的关系矩阵
ia 酿酒葡萄理化指标提取的主成分对应理化指标中的贡献率
ib 各葡萄酒评分量纲化处理后的数值
iZ 主成分Y和其贡献率ia的乘积加上葡萄酒评分数值构成线性组合
五、模型建立及求解
5.1.1问题一模型的建立及求解
葡萄酒历史悠久,在葡萄酒诞生之初,人类就给予了它对于其它任何食物和饮品都没有的偏爱。然而即使是极品葡萄酒不同的人对他的评价也不可能完全一样,本问就是要讨论两组评酒员的评价结果有无显著性差异,及哪一组结果更可信。对于要分析无显著性差异,这里是通过用三因素(酒类,品酒员,组号)方差分析及T检验法,T检验当中的值小于0.05则说明
而对于要判断哪一组结果更可信,则是通过计算出每组样品酒方差的平均来判断,平均值越小则说明越稳定,结果就更可靠。
首先建立三因素方差分析的数学模型
三因素方差分析的数学模型:
ijkiijijkx (1,2;1,......10;1,ij
表示综合得分的数学期望,
i表示第i组评分和总平均值之差,
ij表示第i组第j个评酒师的评分和第i组评分均值的偏差;
ijkx表示第i组的第j号评酒师对第k号酒的综合评分
ijk表示第i组第j个评酒师弟K号样品酒分析结果和第j号评酒师评分的偏离;
三因素方差分析的计算步骤
根据数理统计原理,计算各离差平方和:
2211111111()()abcabcAijkijkbcabcijkijkSSxx
221111111()abcabcEijkijkcijkijkSSxx
2211111111()()abcabcBijkijkcbcijkijkSSxx
ASS称为因素A的离差平方和,反映因素A对试验指标的影响。
ESS称为因素E的离差平方和,反映因素E对试验指标的影响。
BSS称为因素B的离差平方和,反映因素B对试验指标的影响
计算样本方差
21AAASSSSAAfaMSS
2(1)BBBSSSSBBfabMSS
2(1)EEESSSSEEfabcMSS
Sig 单总体T检验
1XXtn。
如果样本是属于大样本(n>30)也可写成:
XXtn。
在这里,t为样本平均数和总体平均数的离差统计量;
X为样本平均数;为总体平均数;X为样本标准差;n为样本容量。
以0.05为显著性水平, t>0.05则说明无显著性差异。反之说明有显著性差异。
可信度分析的数学模型
ijnM表示第i组的第j号评酒师对第n个评分项目的分值(n=1……10,分别表示澄清度,色调,香气分析当中的纯正度,香气分析当中的浓度,香气分析当中的质量,纯正度,浓度,持久性,质量,整体评价 )
1210......ijkijijijxMMM
1210()......ikikikikEXxxx
2221210var()(())(())......(())ikikikikikikikxxExxExxEx
1227var()var()......var()iiiQxxx
()ikEX表示第i组中第j号酒的综合得分期望。
var()ikx表示第i组j号酒的综合得分方差。
Q表示该组方差的平均值
方差的平均越小说明越稳定,则可信度越高。
数据的处理及结果
根据附表一中的数据通过excel可以算出白酒第一组中毎位评酒师对各样品酒的综合得分,例如第26号酒的综合得分如表一所示:
表一
总分:100 品酒员1 … 品酒员10
26 项目满分 酒样品26 …
外观分析 5 澄清度 4 … 4
15 10 色调 6 … 8
香气分析 6 纯正度 5 … 5
30 8 浓度 7 … 7
16 质量 14 … 14
口感分析 6 纯正度 4 … 4
44 8 浓度 7 … 6
8 持久性 7 … 7
22 质量 13 … 19
平衡/整体评价 11 8 … 10
75 … 84
如表一所示算出第一组及第二组每种样品酒的综合得分,将所有白酒的数据整理得到下表二:
组别 品酒员 酒样品 综合得分
1 品酒1号 26 75
1 品酒2号 26 66
… … … …
2 品酒员1号 26 80
... … … …
全表为附录表一
将附录表一当中的数据导入到SPSS,分析综合得分和酒类,品酒员,组号的关系,得到数据如表三:
表三
离差来源 离差平方和 方差分量 F值 Sigt
组别 3376.11 1 28.02 0.00
评酒员 13876.08 9 12.79 0.00
酒样品 34113.20 27 10.48
0.00
T检验当中组别的t小于0.05可得知白酒的两组评价员的结果有显著性差异。
同样的方法用SPSS对红酒进行三因素分析得到表四:
表四
离差来源 离差平方和 方差分量 F值 sig t
组别 871.47 1 871.47 0.00
评酒员 14380.58 26 553.1 0.00
酒样品 3477.71 9 386.41 0.00
T检验当中组别的t小于0.05可得知白酒的两组评价员的结果有显著性差异。
不管是白酒还是红酒,两组评价员的结果都有显著性差异。
附录表一当中已经算出来所有样品酒的综合得分利用excel可以很容易的算出每组综合得分的方差平均值,结果如表五所示:
表五
白酒 第一组 129.19
第二组 55.63
红酒 第一组 58.62
第二组 33.79
从表五中可以看出不管是白酒还是红酒,第二组方差的平均值都小于第一组的方差平均值,可得出结论第二组的稳定性更好,结果更可靠。
5.3.1问题三模型的建立及求解
为了研究酿酒葡萄和葡萄酒的理化指标之间的联系,将葡萄酒的理化指标定义为Y,把酿酒葡萄的理化指标定义为X,
先利用相关性分析,可以分别算出每一个Y关于所有X的相关系数矩阵。取出其中相关系数大于0.35的X,在利用多元线性回归,分别算出每一个Y关于相关系数大于0.35的X的R2,及各X的系数和置信区间。根据R2的值把Y分成三类:A类为R2大于0.8。B类为R2介于0.5到0.8之间C类为R2小于0.5.
对于A类如果置信区间包含0,则把相应的变量踢除。根据这些新的变量,从新做一次线性回归如果R2的值和剔除变量之前相差不大,就取剔除变量之后的变量。若相差较大则取没有剔除变量的那些X来表示Y。
对于B类可直接得出Y关于X的线性方程,
对于C类,
模型的建立和求解:
问题二的模型
葡萄酒的理化指标分为一级指标和二级指标。由于二级指标都在一级指标中进行反应,剔除二级指标。对多次测试的项目取平均值,精简得到酿酒葡萄的理化指标分析表,共30个指标。由于指标太多,并且多指标之间往往存在着一定程度的相关性。为了把指标复杂的关系进行简化,对理化指标做主成分分析。
由于理化指标中的指标不同,其计量单位不同,所以数据量纲也不一致。因