当前位置:文档之家› 单因素方差分析

单因素方差分析

综合性课程设计题目: 某校学生成绩单因素方差分析学院:理学院班级:统计13-2班学生姓名:黄克韬胡远亮贺鹏杰学生学号: 27 23 24 ***师:**2016年 12月 1日课程设计任务书目录摘要 (I)1 问题重述 (1)2 模型假设 (3)3 模型建立 (4)3.1 单因素方差分析前提条件 (4)3.2 单因素方差分析步骤 (5)3.3 模型推导 (9)4 模型求解 (12)4.1 做出直方图 (12)4.2 做假设检验 (15)4.3 检验原假设 (17)4.4 计算平方和 (19)4.5 比较F值和临界值 (20)5 模型检验 (20)6 模型评价 (27)7 结论与体会 (28)8 参考文献 (29)9 源程序 (30)摘要方差分析用于多个样本均数差别的显著性检验。

它的基本思想是通过分析研究不同来源的变异对总变异的贡献大小,从而确定可控因素对研究结果影响力的大小。

本文研究学生成绩与课设等级之间的关系,其中可明确观测变量为学生成绩,控制变量为课设等级。

由于仅研究单个因素(课设等级)对观测变量(学生成绩)的影响,因此称为单因素方差分析。

本文利用了假设检验和方差分析来对学生成绩进行分析,首先对学生汇编成绩的分布进行假设,其次利用皮尔逊2 对所得的分步进行检验,结合spss数据处理软件求出想要得到的结果,最后用单因素的方差分析判断学生汇编课设等级对学生汇编成绩的影响,从而得出汇编成绩与学生人数之间呈正态分布,学生汇编课设等级对学生汇编成绩有着显著影响。

关键词:假设检验;单因素方差分析;Spss、卡方检验1 问题重述从网络搜取某大学信息学院学生的汇编成绩,并对其进行分析,要求如下: 1、分析汇编成绩与学生人数之间的关系(取显著性水平05.0=α);2、为了查看学生动手操作能力与理论结合的情况,分析汇编课程设计等级对汇编成绩之间的影响。

1.1问题背景在科学研究和生产实践中,常常需要同时研究两个以上因素对试验结果的影响,t 检验法使用于样本平均数及两个样本平均数间的差异显著性检验,但是在生产和科学研究中经常会遇到比较多个处理优劣的问题,即需进行多个平均数间的差异显著性检验。

这时t 检验不合适是因为(1)检验过程繁琐(2)无统一的试验误差,误差估计的精确性和检验的灵敏性低。

(3)判断的可靠性低。

方差分析法常用于解决此类问题。

方差分析是由英国统计学家R.A. Fisher 与1923年提出的。

其用于多个样本均数差别的显著性检验。

它的基本思想是通过分析研究不同来源的变异对总变异的贡献大小,从而确定可控因素对研究结果影响力的大小。

其目的是通过数据分析找出对该事物有显著影响的因素,各因素之间的交互作用,以及显著影响因素的最佳水平等。

方差分析又分为单因素方差分析、双因素试验方差分析、多因素方差分析和协方差分析等。

单因素方差分析是用来研究一个控制变量的不同水平是否对观测变量产生了显著影响。

由于仅研究单个因素对观测变量的影响,因此称为单因素方差分析。

例如,分析不同施肥量是否给农作物产量带来显著影响。

单因素方差分析的第一步是明确观测变量和控制变量。

单因素方差分析的第二步是剖析观测变量的方差。

方差分析认为:观测变量值得变动会受控制变量和随机变量两方面的影响。

据此,单因素方差分析将观测变量总的离差平方和分解为组间离差平方和和组内离差平方和两部分,用数学形式表述为SST=SSA+SSE 。

单因素方差分析的第三步是通过比较观测变量总离差平方和各部分所占的比例,推断控制变量是否给观测变量带来了显著影响。

在观测变量总离差平方和中,如果组间离差平方和所占比例较大,则说明观测变量的变动主要是由控制变量引起的,可以主要由控制变量来解释,控制变量给观测变量带来了显著影响;反之,如果组间离差平方和所占比例小,则说明观测变量的变动不是主要由控制变量引起的,不可以主要由控制变量来解释,控制变量的不同水平没有给观测变量带来显著影响,观测变量值的变动是由随机变量因素引起的。

单因素方差分析基本步骤是提出原假设,无差异;F> a F 有显著差异。

选择检验统计量,方差分析采用的检验统计量是F 统计量,即F 值检验。

计算检验统计量的观测值和概率P 值:该步骤的目的就是计算检验统计量的观测值和相应的概率P 值。

给定显著性水平,并作出决策。

因此本论文主要运用单因素方差分析解决汇编课程设计与汇编成绩的关系。

1.2数据表1.21 不同学生课设等级下的学生汇编成绩表表1.22 不同汇编成绩段下学生人数分布表汇编成绩 学生人数频数 95~100 2 0.008 90~95 6 0.024 85~90 11 0.044 80~85230.092汇编课设等级一 二 三 四 汇 编 分 数67 63 55 4779 64 81 70 80 87 86 7893 80 88 892 模型假设2.1假设学生汇编成绩与学生人数之间呈正态分布,学生的汇编课程设计等级与汇编成绩之间存在相关性,可以用单因素方差分析方法解决。

2.2符号说明i m :频数i A :水平等级ni X :样本数据i c : 各个偏差i i p f 的权3 模型建立3.1单因素方差分析前提条件假设检验方法被用来对两个总体的参数之间可能出现的差异进行判断。

但是通常情况下,需要判断数个总体的参数之间的差异。

在这种情况下,总体被称为组别。

这些组别可能根据所关心的因素层级进行分类。

如果在分析过程中,各组别的数据是连续的,而且特定假设条件得到满足,就可以使用一种叫做方差分析的方法对两组的均值进行比较。

当仅涉及单因素分析时的方差分析叫做单向方差分析。

运用单因素方差分析法解决问题有以下前提:(1)在每一个水平上的实验结果是一个随机变量ij x (i 为第i 个水平,j 为j 次实验),且服从于正态分布1i x ,2i x ,···,in x 是第i 个水平的正态总体中抽取的一个简单随机样本,样本容量为n 。

(2)所有的k 个不同水平对应的k 个正态总体的方差是相等的,具有方差齐性,ij x ~N (i μ,2δ)。

(3)k 个总体是相互独立的,样本与样本之间也是相互独立的。

要检验的假设是:0H :A μ=2μ=···=k μ;A H :不是所有的i μ ()1,2i k =都相等。

若拒绝0H ,则认为至少有两个水平之间的差异是显著的,因素A 对实验结果有显著影响;反之,若接受Ho ,则认为因素A 对实验结果无显著影响,实验结果在各水平之间的不同仅仅是由于随机因素引起的。

3.1.2单因素方差分析解决问题单因素方差分析又称一元方差分析,它是讨论一种因素对试验结果有无显著影响。

设某种单因素A 有r 种水平123,,,r A A A A ,在每种水平下的试验结果服从正态分布。

如果在各水平下分别作了i n ()1,2i r =次试验,通过单因素试验方差分析可以判断因素A 对试验结果是否有显著影响。

单因素方差分析数据如下1A 2A i A r A11x 21x1i x1r x12x 22x2i x2r x1j x 2j xij xrj x11n x 22n xj in xr rn x3.2单因素方差分析步骤1.计算平均值将每种水平看成一组,令i x 为第i 种水平上所有试验的算术平均值,称为组内平均值。

即:i x =1in 1in ijj x=∑,(1,2,i r =) (1)所以组内和为:i T =1in ij j x =∑=i n i x (2)总平均x 为试验值得算术平均值,即x =1n 11in r ij i j x ==∑∑ (3) 如果将(2)带入(3),可以得到总平均另两种计算式x =1n 1rii n=∑i x11ri i x T n ==∑其中n 表示总试验数,可以用下式计算:n=1ri i n =∑2.计算离差平方和在单因素试验中,各个试验结果存在差异,这种差异可用离差平方和来表示。

(1)离差平方和。

因为在零假设下,c 个组别的总体均值假设相等,可以先求出单个观测值与所有组别观测值的全局均值X 之间的差异,然后将其平方求和,从而得到所有观测值的总离差。

总离差平方和用T ss (sum of square for total ) 表示,其计算式为T ss =211()raij i j x x -==∑∑=21()ai ij i n x x =-∑式中ij X =组j 的第i 个观测值j n =组j 的观察值得数量n=总观测值数量 c=相关因素的组别的数量它表示了各个试验值与总平均值的偏差的平方和,反映了试验之间存在的总差异。

(2)组间离差平方和。

先求出每一组别的样本均值jX 与全局均值X 之间的差异,然后以每一组的样本容量j n 为权重将其平方加总,就得到了组间离差。

组间离差平方和可以用A ss (sum of square for factor A )表示,A ss 计算公式如下:A ss =211()i n a i i j x x ==-∑∑ =21()ai i i n x x =-∑式中C=所比较的组别数j n =组j 的观察值得数量jX =组j 的样本均值X =全局均值由上式可知,组间离差平方和反映了各组内平均值的差异程度,这种差异由于因素A 不同水平的不同作用造成的,所以组间离差平方和又称为水平向离差平方和。

(3)组内离差平方和。

它度量了每一观测值与本组均值之间的差异,以及所有组别这些差异的平方和。

组内离差平方和可以用e ss (sum of square for error )表示,e ss 计算公式如下:e ss =211()in rij i i j x x ==-∑∑式中ij X =组j 的第i 个观测值jX =组j 的样本均值由上式可知,组内离差平方和反映老了在各个水平内,各试验值之间的差异程度,这种差异是由于随机误差的作用产生的,所以组内离差平方和又称为误差项离差平方和。

可以证明T ss =A ss +e ss说明了试验值之间的差异来自于两个方面;一方面是由因素中不同水平造成的,例如反应温度的不同导致不同的产品得率,这种差异是系统性的;另一方面是由于试验的随机误差产生的差异,例如在相同的温度下,产品得率也不一定相同。

3.计算自由度由离差平方和的计算公式可以看出,在同样的误差程度下,测得数据越多,计算出的离差平方和就越大,因此仅用于离差平方和反映试验值间差异大小还是不够多的,还需要考虑试验数据的多少对离差平方和带来的影响,为此需要考虑自由度(degree of freedom ).总离差平方和对应的自由度分别如下。

T ss 对应的自由度称为总自由度,即:T df =n —1A ss 对应的自由度成为组间自由度,即:A df =r —1e ss 对应的自由度称作组内自由度,即:e df =n —r显然,以上3个自由度的关系为: T df = A df + e df4.计算平均平方利用离差平方和除以对应的自由度即可得到平均平方(mean square ),简称均方。

相关主题