第二章常用统计技术
第二章常用统计技术
【考试趋势】
单选4-5题,多选6-8题,综合分析7-8题。
总分值30-40分。
总分170分。
占比20%左右。
【大纲考点】
一、方差分析
(一)方差分析基本概念
1.掌握因子、水平和方差分析的三项基本假定
2.熟悉方差分析是在同方差假定下检验多个正态均值是否相等的统计方法(难点)
(二)方差分析方法
1.掌握单因子的方差分析方法(平方和分解、总平方和、因子平方和、误差平方和,自由由度、f比、显著性) (重点)
2.了解重复数不等情况下的方差分析方法。
(难点)
二、回归分析
主要研究定量因子,也就是变量分析
(一)散布图与相关系数
1.掌握散布图的作用与做法
2.掌握样本相关系数的定义、计算及其检验方法(重点,难点)
(二)一元线性回归
1.掌握用最小二乘估计建立一元线性回归方程的方法(重点,难点)
2.掌握一元线性回归方程的检验方法(重点,难点)
3.熟悉一元线性回归方法在预测中的应用
(三)了解可化为一元线性回归的曲线回归问题
三、试验设计
三、试验设计
(一)基本概念与正交表
1.了解试验设计的必要性
2.熟悉常用正交表及正交表的特点
(二)正交试验设计与分析
1.熟悉使用正交表进行试验设计的步骤
2.掌握无交互作用的正交试验设计的直观分析法与方差分析法
3.熟悉贡献率的分析方法
4.了解有交互作用的正交试验设计的方差分析法
5.熟悉最佳水平组合的选取
【考点解读】
三种统计技术的特点:新版教材第74页。
第一节方差分析
第一节方差分析
一、方差分析
1、三项基本假定-(掌握p75)
为什么要方差分析?目的和用途。
方差分析不是简单分析方差,通过方差分析因子的显著与否。
方差只是手段。
对结果的影响是否显著。
要用到假设检验。
零假设,备择假设。
但是假设检验的前提条件是:正态分布,等方差,观测相互独立。
也就是大纲里讲的三项基本假定。
2、方差分析的统计检验-(掌握p76)
那么如何在同方差假定下检验多个正态均值是否相等呢?其实统计检验的
问题。
大家想一下,零假设,备择假设是什么?
同一个因子,有不同水平,每个水平重复多次试验就得到一个分布。
有几个水平就有几个分布,方差分析是看分布的均值是否相等。
相等,说明因子变动对结果没影响,相差越大就越显著!
3、单因子的方差分析-(掌握p76-79)
因子a,有r个水平,也就是取值的情况,在试验中每个水平被重复m 次。
那么总共可以得到多少个结果观测值呢?n=r*m个。
每个水平的和,以及均值,分别共有r个。
总和为t,总均值为y。
离差平方和,通俗来讲,就是每个值离开平均值的平方和。
先平方,再求和。
能反映离散程度,波动情况。
那么,什么因素造成观测值的波动呢?如果解释因子的离差平方和能够和结果的离差平方和很一致,那么这个因子就是显著的。
这里,
这里,因子平方和的计算很有讲究。
首先,组间方差,也就是平方和,是用每个水平的均值与总均值相比较来求。
因每个水平被重复试验m 次,还要乘以m 。
总平方和的求解概念上很简单,但计算量比较大。
因此,有个简便计算公式,每个观测的平方,求和;总和t平方,除以n=r*m;然后两者相减。
大家看一下,教材78页的公式是不是这样?
,=
同样,因子平方和的计算也有简便公式。
可以这样来理解,每组的(每个水平)的均值平方,因每个水平被重复试验m 次,故 m 次求和;总和t平方,除以n=r*m;然后两者相减。
一般地,总平方和、因子平方和不会相等。
之间的差额就是误差平方和。
当然,为了验证平方和分解,还要计算一下误差平方和。
为了能使用f分布进行统计检验,还需要用到自由度的概念来构造符合f分布的统计值。
自由度
自由度(degree of freedom, df),在数学中能够自由取值的变量个数,如有3个变量x、y、z,但x+y+z=18,其自由度等于2。
在统计学中,自由度指的是计算某一统计量时,取值不受限制的变量个数。
通常df=n-k。
其中n为样本含量,k为被限制的条件数或变量个数,或计算某一统计量时用到其它独立统计量的个数。
电子游戏中也有自由度这个概念。
这个,我就不清楚了。
统计学上的自由度是指当以样本的统计量来估计总体的参数时,样本中独立或能
自由变化的资料的个数,称为该统计量的自由度。
统计学上的自由度包括两方面的内容:
首先,在估计总体的平均数时,由于样本中的 n 个数都是相互独立的,从其中抽出任何一个数都不影响其他数据,所以其自由度为n。
在估计总
体的方差时,使用的是离差平方和。
只要n-1个数的离差平方和确定了,
方差也就确定了;因为在均值确定后,如果知道了其中n-1个数的值,第n 个数的值也就确定了。
这里,均值就相当于一个限制条件,由于加了这个
限制条件,估计总体方差的自由度为n-1。
例如,有一个有4个数据(n=4)
的样本, 其平均值m等于5,即受到m=5的条件限制, 在自由确定4、2、5
三个数据后, 第四个数据只能是9, 否则m≠5。
因而这里的自由度υ
=n-1=4-1=3。
推而广之,任何统计量的自由度υ=n-限制条件的个数。
其次,统计模型的自由度等于可自由取值的自变量的个数。
如在回归方程中,如果共有p个参数需要估计,则其中包括了p-1个自变量(与截距
对应的自变量是常量1)。
因此该回归方程的自由度为p-1。
这个解释,如果把“样本”二字换成“总体”二字也说得过去。
这个根本解释不了在统
计学中,自由度的概念。
在一个包含n个个体的总体中,平均数为m。
知道了n-1个个体时,剩下的一个个体不可以随意变化。
为什么总体方差计算,是除以n而不是n-1呢?方差是实际值与期望值之差平方的期望值,所以
知道总体个数n时方差应除以n,除以n-1时是方差的一个无偏估计。
这里
这里,自由度也有分解式。
其中,总自由度和因子自由度容易求,二者之差可以求其三。
,,,
平方和与自由度之比,得均方差,ms。
用msa/mse=f,构造出f统计量。
并计算统计值。
然后与临界值,门槛值或者阈值,比较。
如果大于阈值,拒绝原假设,因子显著!这个,阈值,教材上叫
分位数。
1- 分位数。
f分位数又有2个参数,即分子和分母的自由度。
和。
最后,列出方差分析表。
(平方和分解、总平方和、因子平方和、误差平方和,自由度、f比、显著性)
如果显著,要找出最好的水平,根据均值最好的水平确定。
还可以用均值水平图直观显示。
最后,还要估计我们统计检验的误差大小。
即误差方差,估计值用均方差mse。
4、重复数不
4、重复数不等情况下的方差分析-(掌握p79-80)
原理一样,做法稍有调整。
主要把公式中的,换乘即可。
,最本质的是
这也是许多考生常常疑惑的地方,这里给出解答。
教材上是没有的,但是又非常影响情绪和记忆效果的。