统计学数学实验报告单因素方差分析姓名专业学号单因素方差分析摘要统计学是关于数据的科学,它所提供的是一套有关数据收集、处理、分析、解释数据并从数据中得出结论的方法,统计研究的是来自各个领域的数据。
单因素方差分析也是统计学分析的一种。
单因素方差分析研究的是一个分类型自变量对一个数值型因变量的影响。
关键字单因素、方差、数据统计方差分析(analysis of variance,ANOVA)就是通过检验各总体的均值是否相等来判断分类型自变量对数值型因变量是否有显著影响。
当方差分析中之涉及一个分类型自变量时称为单因素方差分析(one-way analysis of variance).单因素方差分析研究的是一个分类型自变量对一个数值型因变量的影响。
例如要检验汽车市场销售汽车时汽车颜色对销售数据的影响,这里只涉及汽车颜色一个因素,因而属于单因素方差分析。
为了更好的理解单因素方差分析,下面举个例子来具体说明单因素方差所要解决的问题。
从3个总体中各抽取容量不同的样本数据,结果如下表1所示。
检验3个总体的均值之间是否有显著差异(α=0.01)P29210.1样本1 样本2 样本3158 153 169148 142 158161 156 180154 149169如果要进行单因素方差分析时,就需要得到一些相关的数据结构,从而对那些数据结构进行分析,如下表2所示:分析步骤1.提出假设与通常的统计推断问题一样,方差分析的任务也是先根据实际情况提出原假设H0与备择假设H1,然后寻找适当的检验统计量进行假设检验。
本节将借用上面的实例来讨论单因素试验的方差分析问题。
表中的数据可以看成来自s 个不同总体(每个水平对应一个总体)的样本值,将各个总体的均值依次记为,则按题意需检验假设不全相等2. 构造检验的统计量 (1)计算个样本的均值假如从第i 个总体中抽取一个容量为1i 的简单随机样本,令i x 为第i 个总体样本的样本均值,则有in j iji n xx i∑==1其中: k i ,...,2,1=式中,n i为第i 个总体的样本量的第个观测值。
例如根据上表1中的数据,分别计算三个样本的均值为:样本1的均值=++++==∑=516915416114815815111n xx j ji 158由此可得样本2、样本3的均值分别为150,169 (2)计算全部观测值的总均值。
它是全部观测值的总和除以观测值的总个数,令总均值为x ,则公式为nxn nxx ki ii j ijki in ∑∑∑=====111根据上表1中的数据我们可得出三个样本的总均值为1111121215814816115416915314215614916915818012158.083n ikkijii j i xn xx =====+++++++++++==∑∑∑ (3)计算各误差平方和为构造检验计算量,在单因素方差分析中,需要计算三个误差平方和,即总平方和、组建平方和(因素平方和)、组内平方和(误差平方和或残差平方和)。
①总平方和(sum of squares for total ),记为SST ,它是全部观测值ij x 与总观测值x 的误差平方和,其计算是为∑∑==-=in j ijki x xSST 11)(例如在前面式中我们已经计算出083.158=x ,计算出的总平方和为22...(158158.083)(180158.083)SST =+=--1216.918②组间平方和(sum of squares for factor A ),记为SSA 。
它是各组均值i x (k i ,...,2,1=)与总均值x 的误差平方和,反映各个样本之间的差异程度,因此又称为因素平方和。
其计算公式为21)(x x n SSA ki i i -=∑=例如根据上面计算的有关结果,计算组建平方和为=-=∑=231)(x x n SSA i i i =-⨯+-⨯+-⨯222)083.158169(3)083.158150(4)083.158158(5618.918③组内平方和(sum of squares for error ),记为SSE 。
它是每个水平或组的各样本数据与其组均值的误差平方和,反映每个样本观测值的离散状况。
该平方和反映了随机误差的大小,其计算公式为:211)(∑∑==-=in j i ijki x xSSE在上例中先求出各样本数据与其均值的误差平方和,然后将三个误差平方和加总,即SSE 。
计算误差平方和分别为:样本1:=-++-+-=-∑=22225111)158169(...)158148()158158()(j jx x246由此可得,样本2 、样本3的误差平方和为110,242 然后将其加总可以得到:246+110+242=598 上述三个平方和的关系为=-∑∑==211)(x xjn j ijki ∑∑==-in j ijk i x x11)(+21)(x x n k i i i -∑=+211)(∑∑==-in j i ijki x x即总平方和(SST )=组间平方和(SSA )+组内平方和(SSE ) 从上面计算结果也可以证明这一点:1216.918=618.918+598 (4)、计算统计量三个平方和所对应的自由度分别为:SST 的自由度为n-1,其中n 为全部观测值的个数。
SSA 的自由度为k-1,其中k 为因素水平(总体)的个数。
SSE 的自由度为n-k 。
由于要比较组内均方与组间均方之间的差异,所以通常只能计算SSE 的均方与SSA 的均方。
SSA 的均方也称为组间均方或者组间方差,记为MSA ,其计算公式为:1-k SSA==自由度组间平方和MSA例如,根据例题计算的MSA 为:.3091318.96181-k SSA =-==MSA 459 SSE 的均方差也称为组内均方或者组内方差,其计算公式为:444.66312598k -n SSE =-===自由度组内平方和MSE将上述与MSA 与MSE 进行对比,即得到所需要的检验统计量F 。
当0H 为真时,二者的比较服从分子自由度为1-k 、分母自由度为分布,即的F k n -),(k -n 1-k F ~MSEMSAF =根据本例计算,得:57.6444.46659.4309MSE MSA F ===二、统计决策根据给定的显著性水平α,在F 分布表中查找分子自由度11-=k df 、分母自由度)1-k F k -n 2k n df -=、(相应的临界值α。
若)...21(:F F 210k i H i k 、、,表明μμμμ则拒绝原假设>α===之间有显著差异,检验的因素对观测值有显著影响。
若)...21(:F F 210k i H i k 、、,没有证据表明μμμμ则不拒绝原假设<α===之间有显著差异,即这时还不能认为所检验的因素对观测值有显著的影响。
根据上面的计算结果,计算出的57.64F =。
若取显著性水平α=0.01,分子自由度11-=k df =3-1=2和分母自由度93-12k -n 2===df ,查F 分布表得到临界值=)9,2(01.0F 4.2365.则F >F α,即所检验的因素对观测值有显著的影响。
三、 用Excel 进行方差分析 操作步骤:第1步:选择【工具】下拉菜单,并选择【数据分析】选项。
第2步:在分析工具中选择【单因素方差分析】,然后单击【确定】。
第3步:在对话框出现时:在【输出区域】方框内输入数据单元格区域A2:C4。
在【α】方框内输入0.01在【输出选项】中选择输出区域。
结果如图3所示。
单击【确定】后得到的输出结果如图4所示。
超链接\Book1.xls表3、用Excel 进行方差分析步骤表4,Excel 输出的方差分析结果从方差分析表可以看见,由于F=4.6574> )9,2(01.0F 4.2365,所以拒绝原假设123μ=μ=μ表明321,,μμμ之间的差异显著的。
四、学习统计学的收获虽然我们的统计学课程才十周,但我从中受益匪浅,本次的统计学课程也是我大学生活中不可或缺的重要经历,其收获和意义可见一般。
首先,我可以将自己所学的知识应用于以后的实际工作中,理论和实际是不可分的,在学习中使我的知识得到了巩固,第二,统计学的课程也是一门比较新颖的课,注重我们实际上机操作能力的培养,是真正意义上的多媒体教学,让老师教得轻松,我们也学得愉快。
在统计学课程的学习中,我认识到了统计学在生活中的应用非常广泛,也具有重大的意义,同时也给我认识到了学好统计学是非常有必要的。
希望在以后的时间里,还有机会去获得更多的统计学知识。
参考文献:1、《统计学》第四版 中国人民大学出版社2、《大学计算机基础教程》 人民邮电出版社3、《统计学》 第二版 清华大学出版社。