当前位置:文档之家› 统计学多元回归研究分析方法

统计学多元回归研究分析方法

统计学多元回归分析方法————————————————————————————————作者:————————————————————————————————日期:多元线性回归分析在数量分析中,经常会看到变量与变量之间存在着一定的联系。

要了解变量之间如何发生相互影响的,就需要利用相关分析和回归分析。

回归分析的主要类型:一元线性回归分析、多元线性回归分析、非线性回归分析、曲线估计、时间序列的曲线估计、含虚拟自变量的回归分析以及逻辑回归分析等。

1.1 回归分析基本概念相关分析和回归分析都是研究变量间关系的统计学课题。

在应用中,两种分析方法经常相互结合和渗透,但它们研究的侧重点和应用面不同。

在回归分析中,变量y称为因变量,处于被解释的特殊地位;而在相关分析中,变量y与变量x处于平等的地位,研究变量y与变量x的密切程度和研究变量x与变量y的密切程度是一样的。

在回归分析中,因变量y是随机变量,自变量x可以是随机变量,也可以是非随机的确定变量;而在相关分析中,变量x和变量y都是随机变量。

相关分析是测定变量之间的关系密切程度,所使用的工具是相关系数;而回归分析则是侧重于考察变量之间的数量变化规律,并通过一定的数学表达式来描述变量之间的关系,进而确定一个或者几个变量的变化对另一个特定变量的影响程度。

具体地说,回归分析主要解决以下几方面的问题。

(1)通过分析大量的样本数据,确定变量之间的数学关系式。

(2)对所确定的数学关系式的可信程度进行各种统计检验,并区分出对某一特定变量影响较为显著的变量和影响不显著的变量。

(3)利用所确定的数学关系式,根据一个或几个变量的值来预测或控制另一个特定变量的取值,并给出这种预测或控制的精确度。

作为处理变量之间关系的一种统计方法和技术,回归分析的基本思想和方法以及“回归(Regression)”名称的由来都要归功于英国统计学F·Galton(1822~1911)。

在实际中,根据变量的个数、变量的类型以及变量之间的相关关系,回归分析通常分为一元线性回归分析、多元线性回归分析、非线性回归分析、曲线估计、时间序列的曲线估计、含虚拟自变量的回归分析和逻辑回归分析等类型。

1.2 多元线性回归1.2.1 多元线性回归的定义一元线性回归分析是在排除其他影响因素或假定其他影响因素确定的条件下,分析某一个因素(自变量)是如何影响另一事物(因变量)的过程,所进行的分析是比较理想化的。

其实,在现实社会生活中,任何一个事物(因变量)总是受到其他多种事物(多个自变量)的影响。

一元线性回归分析讨论的回归问题只涉及了一个自变量,但在实际问题中,影响因变量的因素往往有多个。

例如,商品的需求除了受自身价格的影响外,还要受到消费者收入、其他商品的价格、消费者偏好等因素的影响;影响水果产量的外界因素有平均气温、平均日照时数、平均湿度等。

因此,在许多场合,仅仅考虑单个变量是不够的,还需要就一个因变量与多个自变量的联系来进行考察,才能获得比较满意的结果。

这就产生了测定多因素之间相关关系的问题。

研究在线性相关条件下,两个或两个以上自变量对一个因变量的数量变化关系,称为多元线性回归分析,表现这一数量关系的数学公式,称为多元线性回归模型。

多元线性回归模型是一元线性回归模型的扩展,其基本原理与一元线性回归模型类似,只是在计算上更为复杂,一般需借助计算机来完成。

1.2.2 多元线性回归模型1.2.2.1元线性回归模型及其矩阵表示设y 是一个可观测的随机变量,它受到p 个非随机因索1x ,2x ,…,p x 和随机因素ε的影响,若y 与1x ,2x ,…,p x 有如下线性关系:εβββ++++=p p x x y 110 (1.1)其中0β,1β,…,p β是1+p 个未知参数,ε是不可测的随机误差,且通常假定),(20N ~σε.我们称式(1.1)为多元线性回归模型.称y 为被解释变量(因变量),),,2,1(p i x i =为解释变量(自变量). 称 p p x x y E βββ+++= 110)((1.2)为理论回归方程.对于一个实际问题,要建立多元回归方程,首先要估计出未知参数0β,1β,…,p β,为此我们要进行n 次独立观测,得到n 组样本数据);,,,(21i ip i i y x x x ,n i ,,2,1 =,他们满足式(1.1),即有⎪⎪⎩⎪⎪⎨⎧+++++=+++++=+++++=nnp p n n n p p p p x x x y x x x y x x x y εββββεββββεββββ 2211022222211021112211101 (1.3) 其中n εεε,,,21 相互独立且都服从),0(2σN .式(1.3)又可表示成矩阵形式: εβ+=X Y (1.4)这里,T n y y y Y ),,,(21 =,T p ),,,(10ββββ =,T n ),,,(21εεεε =,),0(~2n n I N σε,n I 为n 阶单位矩阵.⎥⎥⎥⎥⎥⎦⎤⎢⎢⎢⎢⎢⎣⎡=np n n p p x x x x x xx x x X 212222111211111 )1(+⨯p n 阶矩阵X 称为资料矩阵或设计矩阵,并假设它是列满秩的,即1)(+=p X rank .由模型(1.3)以及多元正态分布的性质可知,Y 仍服从n 维正态分布,它的期望向量为βX ,方差和协方差阵为n I 2σ,即),(~2n n I X N Y σβ.1.2.2.2参数的最小二乘估计及其表示1. 参数的最小二乘估计与一元线性回归时的一样,多元线性回归方程中的未知参数p βββ,,,10 仍然可用最小二乘法来估计,即我们选择T p ),,,(10ββββ =使误差平方和∑∑==-----=--===ni ip p i i i T T ni i x x x y X Y X Y Q 122211012)()()(ˆ)(ββββββεεεβ达到最小.由于)(βQ 是关于p βββ,,,10 的非负二次函数,因而必定存在最小值,利用微积分的极值求法,得⎪⎪⎪⎪⎪⎪⎩⎪⎪⎪⎪⎪⎪⎨⎧=------=∂∂=------=∂∂=------=∂∂=------=∂∂∑∑∑∑====n i ipip p i i i p n i ikip p i i i k n i i ip p i i i n i ip p i i i x x x x y Q x x x x y Q x x x x y Q x x x y Q 1221101221101122110112211000)ˆˆˆˆ(2)ˆ(0)ˆˆˆˆ(2)ˆ(0)ˆˆˆˆ(2)ˆ(0)ˆˆˆˆ(2)ˆ(ββββββββββββββββββββββββ 这里),,1,0(ˆp i i=β是),,1,0(p i i =β的最小二乘估计.上述对)(βQ 求偏导,求得正规方程组的过程可用矩阵代数运算进行,得到正规方程组的矩阵表示:0)ˆ(=-βX Y X T 移项得Y X X X T T =βˆ(1.5)称此方程组为正规方程组.依据假定1)(+=p X R ,所以1)()(+==p X R X X R T .故1)(-X X T 存在.解正规方程组(1.5)得Y X X X T T 1)(ˆ-=β(1.6)称pp x x x y ββββˆˆˆˆˆ22110++++= 为经验回归方程. 2.误差方差2σ的估计将自变量的各组观测值代入回归方程,可得因变量的估计量(拟合值)为βˆ)ˆ,,ˆ,ˆ(ˆ221X y y y Yp ==向量Y H I Y X X X X I X Y Y Y e nT T n )(])([ˆˆ1-=-=-=-=-β称为残差向量,其中T T X X X X H 1)(-=为n 阶对称幂等矩阵,n I 为n 阶单位阵.称数Y X Y Y Y H I Y e e T T T n T T βˆ)(-=-=为残差平方和(Error Sum of Squares,简写为SSE ).由于βX Y E =)(且0)(=-X H I n ,则)]()[(]})([{)(T n n T T E H I tr H I tr E e e E εεεε-=-=])([12T T n X X X X I tr --=σ]})[({12X X X X tr n T T --=σ)1(2--=p n σ从而e e p n T 11ˆ2--=σ为2σ的一个无偏估计. 3.估计量的性质性质1 βˆ为β的线性无偏估计,且12)()ˆ()ˆ(-==X X Var D T σββ.证 由于Y X X X T T 1)(ˆ-=β是Y 的线性函数,故其为线性估计,且有ββββ====--X X X X Y E X X X E T T T T 11)(ˆ)()()ˆ( 1211)()()()()ˆ(---==X X X X X Y D X X X D T T T T T σβ这一性质说明βˆ为β的线性无偏估计,又由于1)(-X X T 一般为非对角阵,故βˆ的各个分量间一般是相关的. 性质2 )()(,)(2H I e D O e E -==σ.证 由于Y H I e )(-= ,故O X H I Y E H I e E =-=-=β)()()()()())(()()(2H I H I Y D H I e D T -=--=σ这一性质表明残差向量的各个分量间一般也是相关的. 性质3 O e Cov =)ˆ,(β. 证 ))(,)(()ˆ,(1Y X X X Y H I Cov e Cov T T --=βO X X X Y D H I T =-=-1)()()(.这一性质表明残差e与β的最小二乘估计βˆ是不相关的,又由于残差平方和SSE 是e的函数,故它与βˆ也不相关.在正态假定下不相关与独立等价,因而SSE 与βˆ独立. 性质4 2)1()(σ--=p n SSE E . 证明略性质5 (Gauss-Markov 定理)在假定βX Y E =)(,nI Y D 2)(σ=时,β的任一线性函数βT ∂的最小方差线性无偏估计(BLUE )为βˆT ∂,其中α是任一1+p维向量,βˆ是β的最小二乘估计.性质6 当2(,)n YN X I βσ,有以下几点结论:(1)21ˆ(,())T N X X ββσ-; (2)SSE 与βˆ独立; (3)2(1)SSE n p χ--.性质5、性质6的证明参见周纪芗《回归分析》或方开泰《实用回归分析》.1.2.3回归方程和回归系数的显著性检验给定因变量y 与1x ,2x ,…,p x 的n 组观测值,利用前述方法确定线性回归方程是否有意义,还有待于显著性检验.下面分别介绍回归方程显著性的F 检验和回归系数的t 检验,同时介绍衡量回归拟合程度的拟合优度检验1.2.3.1回归方程显著性的检验对多元线性回归方程作显著性检验就是要看自变量1x ,2x ,…,p x 从整体上对随机变量y 是否有明显的影响,即检验假设:0121:0:0,1p iH H i p ββββ====⎧⎪⎨≠≤≤⎪⎩ 如果0H 被接受,则表明y 与1x ,2x ,…,p x 之间不存在线性关系.为了说明如何进行检验,我们首先建立方差分析表.1. 离差平方和的分解我们知道:观测值1y ,2y ,…,n y 之所以有差异,是由于下述两个原因引起的,一是y 与1x ,2x ,…,p x 之间确有线性关系时,由于1x ,2x ,…,p x 取值的不同而引起(1,2,...,)i y i n =值的变化;另一方面是除去y 与1x ,2x ,…,p x 的线性关系以外的因素,如1x ,2x ,…,p x 对y的非线性影响以及随机因素的影响等.记11ni i y y n ==∑,则数据的总离差平方和(Total Sum of Squares )21()ni i SST y y ==-∑ (1.7)反映了数据的波动性的大小. 残差平方和21ˆ()ni i i SST y y==-∑ (1.8) 反映了除去y 与1x ,2x ,…,p x 之间的线性关系以外的因素引起的数据1y ,2y ,…,n y 的波动.若0SSE =,则每个观测值可由线性关系精确拟合,SSE 越大,观测值和线性拟合值间的偏差也越大.回归平方和(Regression Sum of Squres )21ˆ()ni i SSR yy ==-∑ (1.9) 由于可证明11ˆni i y y n ==∑,故SSR 反映了线性拟合值与它们的平均值的宗偏差,即由变量1x ,2x ,…,p x 的变化引起1y ,2y ,…,n y 的波动.若0SSR =,则每一个拟合值均相当,即ˆi y不随1x ,2x ,…,p x 而变化,这意味着120p βββ====.利用代数运算和正规方程组(4.8)可以证明:222111ˆˆ()()()n n niiiii i i y y yy y y ===-=-+-∑∑∑即 SS T S S=+(1.10)因此,SSR 越大,说明由线性回归关系所描述的1y ,2y ,…,n y 的波动性的比例就越大即y 与1x ,2x ,…,p x 的线性关系就越显著.线性模型的拟合效果越好.另外,通过矩阵运算可以证明SST 、SSE 、SSR ,有如下形式的矩阵表示:11()()11()T T Tn T T T Tn T T T SST Y Y Y JY Y I J Y n n SSE e e Y Y X Y Y I H Y SSR X Y Y JY Y H J Y n n ββ⎧=-=-⎪⎪⎪==-=-⎨⎪⎪=-=-⎪⎩(1.11) 其中J 表示一个元素全为1的n 阶方阵. 2. 自由度的分解对应于SST 的分解,其自由度也有相应的分解,这里的自由度是指平方中独立变化项的数目.在SST 中,由于有一个关系式1()0ni i y y =-=∑,即(1,2,,)i y y i n -=彼此并不是独立变化的,故其自由度为1n -.可以证明,SSE 的自由度为1n p --,SSR 的自由度为p ,因此对应于SST 的分解,也有自由度的分解关系1(1)n n p p -=--+ (1.12)3. 方差分析表基于以上的SST 和自由度的分解,可以建立方差分析表1.1 方差来源 平方和自由度 均方差F 值SSR 1()T Y H J Y n-pSSRMSR p=MSRF MSE=SSE ()T Y I H Y -1n p --1SSEMSE n p =--SST1()T Y I J Y n-1n -1.2.3.2线性回归方程的显著性检验与一元线性回归时一样,可以用F 统计量检验回归方程的显著性,也可以用P 值法(P-Value )作检验. F 统计量是//(1)MSR SSR pF MSE SSE n p ==-- (1.13) 当0H 为真时,~(,1)F F p n p --,给定显著性水平α,查F 分布表得临界值(,1)F p n p α--,计算F 的观测值0F ,若0(,1)F F p n p α≤--,则接受0H ,即在显著性水平α之下,认为y 与1x ,2x ,…,p x 的线性关系就不显著;当0(,1)F F p n p α≥--时,这种线性关系是显著的.利用P 值法作显著性检验性检验十分方便:这里的P 值是0()P F F >,表示第一、第二自由度分别为p ,1n p --的F 变量取值大于0F 的概率,利用计算机很容易计算出这个概率,很多统计软件(如SPSS )都给出了检验的P 值,这省去了查分布表的麻烦,对于给定的显著性水平α,若p α<,则拒绝0H ,反之,接受0H .如果检验的结果是接受原假设0H ,那意味着什么呢?这时候表明,与模型的误差相比,自变量对因变量的影响是不重要的.这可能有两种情况.其一是模型的各种误差太大,即使回归自变量对因变量y 有一定的影响,但相比于误差也不算大.对于这种情况,我们要想办法缩小误差,比如检查是否漏掉了重要的自变量,或检查某些自变量与y 是否有非线性关系等;其二是自变量对y 的影响确实 很小,这时建立y 与诸自变量的回归方程没有实际意义. 1.2.3.3回归系数的显著性检验回归方程通过了显著性检验并不意味着每个自变量(1,2,,)i x i p =都对y 有显著地影响,可能其中的某个或某些自变量对y 的影响并不显著。

相关主题