当前位置:文档之家› 方差分析和试验设计

方差分析和试验设计

6方差分析与试验设计在研究一个或多个分类型自变量与一个数值型因变量之间的关系时,方差分析就是其中主要方法之一。

检验多个总体均值是否相等的统计方法。

所要检验的对象称为因素。

因素的不同表现称为水平。

每个因子水平下得到的样本数据称为观测值。

随机误差:在同一行业(同一总体)下,样本的各观测值是不同的。

抽样随机性造成。

系统误差:在不同一行业(不同一总体)下,样本的各观测值也是不同的。

抽样随机性和行业本身造成的。

组内误差:衡量因素在同一行业(同一总体)下样本数据的误差。

只包含随机误差。

组间误差:衡量因素在不同一行业(不同一总体)下样本数据的误差。

包含随机误差、系统误差。

方差分析的三大假设:每个总体服从正态分布;每个总体的方差必须相同;观测值是独立的;单因素方差分析(F分布)数据结构:表示第i个水平(总体)的第j个的观测值。

(i列j行)分析步骤:1提出假设。

自变量对因变量没有显著影响不完全相等自变量对因变量有显著影响 2构造检验的统计量计算因素各水平的均值(各水平样本均值)计算全部观测值的总均值(总体均值)计算误差平方和:总误差平方和SST:全部观测值与总平均值得误差平方和。

水平项误差平方和SSA:各组平均值与总平均值得误差平方和。

组间平方和。

误差项平方和SSE:各样本数据与其组平均值误差的平方和。

组内平方和。

SST=SSA+SSEA B C D E F G 1误差来源平方和自由度均方F 值P 值F 临界值2SS df MS 3组间(因素来源)SSA k-1MSA MSA/MSE4组内(误差)SSE n-k MSE 5总和SSTn-1计算统计量各平方和除以它们对应的自由度,这一结果称为均方。

SST 的自由度为(n-1),其中n 为全部观测值的个数。

SSA 的自由度为(k-1),其中k 为因素水平的个数。

(组数-1)SSE 的自由度为(n-k )。

SSA 的均方(组间均方)为 SSE 的均方(组内均方)为3统计决策在给定的显著性水平α下,查表得临界值 若,有显著影响; 若,无显著影响; 4方差分析表方差分析中的多重比较(T分布)检测哪些均值之间不相等?哪些行业之间?最小显著差异方法LSD的检验步骤:1提出假设,即2计算检验统计量||3计算LSD,4根据显著性水平α决策:如果||>LSD,拒绝原假设,反之接受。

双因素方差分析 1数据结构R行因素共有k个水平 ; C列因素共有r个水平。

是行因素的第i个水平下各观测值的平均值。

是列因素的第j个水平下各观测值的平均值。

是全部kr个样本数据的总平均值。

2分析步骤提出假设:对行因素提出假设:自变量对因变量没有显著影响不完全相等自变量对因变量有显著影响对列因素提出假设:自变量对因变量没有显著影响不完全相等自变量对因变量有显著影响构造检验的统计量:总误差平方和SST:全部观测值与总平均值得误差平方和。

行误差平方和SSR:列误差平方和SSC:随机误差项平方和SSE:SST=SSR+SSC+SSE计算均方:总误差平方和SST的自由度为(kr-1)行因素的误差平方和SSR的自由度为(k-1)列因素的误差平方和SSC的自由度为(r-1)随机误差平方和SSE的自由度为(k-1)*(r-1)行因素均方MSR=A B C D E F G 1误差来源误差平方和自由度均方F 值P 值F 临界值SS df MS2行因素SSR k-1MSR MSR/MSE 3列因素SSC r-k MSC MSC/MSE 4误差SSE (k-1)*(r-1)MSE 5总和SSTKr-列因素均方MSC=随机误差项的均方MSE=检验行因素对因变量的影响是否显著:检验列因素对因变量的影响是否显著:统计决策:根据给定的显著性水平α和两个自由度下,查表得出临界值,将和、比较。

若>,拒绝原假设,有显著影响。

若>,拒绝原假设,有显著影响。

双因素方差分析表7相关与回归分析相关关系与函数关系当一个或几个相互联系的变量取一定数值时,与之相对应的另一个变量的值虽然不确定,但它仍然按某种规律在一定范围内变化,变量间的这种关系,被称为相关关系。

变量之间的函数关系和相关关系在一定条件下可以相互转化。

相关关系与函数关系的区别函数关系是变量之间的一种严格、完全确定性的关系,即一个变量的数值完全由另一个(或一组)变量的数值所决定、控制。

函数关系通常可以用数学公式确切地表示出来。

相关关系难以像函数关系那样,用数学公式去准确表达。

相关关系与函数关系的联系由于客观上常会出现观察或测量上的误差等原因,函数关系在实际工作中往往通过相关关系表现出来。

当人们对某些现象内部规律有较深刻认识时,相关关系可能变为函数关系。

为此,在研究相关关系时,又常常使用函数关系作为工具,用一定的函数关系表现相关关系的数量联系。

相关系数的种类:涉及变量的个数:单相关、复相关表现形式的不同:线性相关、非线性相关现象变化的方向:正相关、负相关相关程度的不同:完全相关、不完全相关、不相关相关关系的描述:相关表、相关图相关系数:总体相关系数ρ,样本相关系数γ1简单线性相关系数相关系数的特点:1)相关系数的取值[-1,1]。

2)γ=0时,x、y没有线性相关系数。

3)0<|γ|<1,x、y存在一定线性相关系数;γ>0正相关,γ<0负相关。

4)|γ|=1,x、y完全线性相关系数;γ=1,完全正相关,γ=-1完全负相关。

使用相关系数分析相关关系时的注意:1)x和y都是相互对称的随机变量,即。

2)相关系数只反映变量间的线性相关程度,不能说明非线性相关关系。

3)相关系数只能反映变量间线性相关的程度,不能确定变量的因果关系。

4)相关系数受变量取值区间大小及观测值个数的影响较大。

相关系数检验:检验总体相关系数是否等于零;检验总体相关系数是否等于某个不等于零的特点数值;1)提出假设双侧T检验2)计算统计量3)判断|t|> ,拒绝原假设; |t|< ,接受原假设。

2Spearman等级相关系数一元线性回归分析根据已知的或固定的自变量的数值,去估计因变量的总体平均值。

只有当变量间存在相当程度的相关系数时,进行回归分析去寻求变量间相关的具体数学形式才有实际的意义。

回归分析是寻求变量间联系的具体数学形式。

回归分析是变量因果关系分析的基础上研究其中的自变量的变动对因变量的具体影响。

1)总体回归函数PRF条件期望变现形式:个别值表现形式:2)样本回归函数SRFy的样本观测值的条件期望随自变量x而变动的轨迹,称为样本回归线。

使得样本回归函数的参数α、β“尽可能接近”总体回归函数的参数,即普通最小二乘法估计1一元线性回归的基本假设:1)零均值假定。

2)同方差假设。

在给定x的条件下,的条件方差为某个常数。

3)无自相关假设。

随机扰动项u的逐次值互不相关。

4)随机扰动与自变量不相关的假定。

5)正态性假设。

2普通最小二乘法准则:求参数:方差的估计:拟合优度的度量样本观测值聚集在样本回归线周围的密集程度。

总离差平方和SST:样本观测值与其平均值的离差平方和。

回归平方和SSR:样本估计值与其平均值的离差平方和。

残差平方和SSE:变量观测值与估计值之差的平方和。

SST=SSR+SSE可决系数(判定系数)回归平方和占总离差平方和的比例大小。

的特点:1可决系数是非负的统计量;2取值范围[0,1];3可决系数是随抽样而变动的随机变量;4在一元线性回归中,可决系数在数值上是简单线性相关系数的平方;5趋于1,说明回归方程拟合的越好。

线性回归系数显著性t检验1提出假设。

2计算统计量。

3给定显著性水平α,确定临界值。

4检验判断结果。

回归统计Multiple相关系数R SquareAdjusted R标准误差观测值n方差分析Df自由度SS误差和MS均方差F SignificanceF回归分析K-1SSR MSR=SSR/(K-1)MSR/MSE残差N-2SSE MSE=SSE/(N-2)总计N-1SSTCoefficient具体数值标准误差T stat P-valuelower upperIntercept α截距X Variable β斜率5检验假设参数估计是利用样本信息推断未知的总体参数,而检验假设则是先对总体参数提出一个假设值,然后利用样本信息判断这一假设是否成立。

1原假设和备择假设是一个完备事件组,而且相互对立。

2先确定备择假设,然后再确定原假设。

3再假设检验中,等号“=”总是放在原假设上。

4假设检验的目的主要是收集证据拒绝原假设。

假设双侧检验单侧检验左侧检验右侧检验原假设备择假设拒绝域就是由显著性水平α所围成的区域。

根据给定的显著性水平确定的拒绝域的边界值,称为临界值。

1利用P值进行决策P值反映的实际观测到的数据与原假设之间不一致程度的一个概率值。

P值越小,说明实际观测到的数据与原假设之间不一致的程度就越大,检验的结果也就越显著。

P<α,拒绝;P>α,接受2一个总体参数的检验总体均值µ检验、总体比率π检验、总体方差1)总体均值µ检验大样本。

n≥30、总体均值正态分布双侧检验左侧检验右侧检验假设形式,,,检验统计量,α与拒绝域|z|>z<-z>P值决策准则P<α,拒绝小样本。

n<30 t分布双侧检验左侧检验右侧检验假设形式,,,检验统计量,()α与拒绝域P值决策准则P<α,拒绝2)总体比率的检验正态分布双侧检验左侧检验右侧检验假设形式,,,检验统计量α与拒绝域P值决策准则P<α,拒绝3)总体方差的检验 X分布双侧检验左侧检验右侧检验假设形式,,,检验统计量α与拒绝域4参数估计参数估计:用样本统计量去估计总体的参数。

估计量:用来估计总体参数的统计量的名称。

估计值:用来估计总体参数时计算出来的估计量的具体数值。

点估计和区间估计点估计:用样本估计量的值直接作为总体参数的估计值。

区间估计:点估计值与总体参数的真实值接近的程度。

置信区间:由样本统计量所构造的总体参数的估计区间。

有置信下限和置信上限。

1-置信系数:置信区间中包含总体参数真值的次数所占的比率称为置信水平,或置信系数。

评价估计量的标准:(解答题)1无偏性。

估计量抽样分布的数学期望等于被估计的总体参数。

即。

2有效性。

对同一总体参数的两个无偏点估计量,有更小标准差的估计量更有效。

3一致性。

随着样本量的增大,点估计量的值越来越接近被估总体的参数。

区间估计参数点估计量(值)标准误差(1-α)的置信区间假定条件µ总体均值1)σ已知2)大样本(n≥30)1)σ未知2) 大样本(n≥30)1) 正态总体2) σ未知3) 小样本(n<30)自由度n-1π总体比率1) 二项总体2) 大样本(n≥30)总体方差正态总体自由度n-1不要求样本量的确定总体均值样本量E代表所希望达到的允许误差总体比率样本量2统计数据的描述统计数据的分类品质数据(做分类整理)定类数据分类的标准为定类尺度,定类数据不区分顺序。

相关主题