实验十.回归分析一.实验目的直观了解回归分析基本内容,掌握用matlab 求解回归分析问题。
二.实验原理与方法(一):一元线性回归:一般地,称由εββ++=x y 10确定的模型为一元线性回归模型,记为⎩⎨⎧==++=210,0σεεεββD E x y 固定的未知参数0β、1β称为回归系数,自变量x 也称为回归变量.一元线性回归分析的主要任务是:1.用试验值(样本值)对0β、1β和σ作点估计; 2.对回归系数0β、1β作假设检验 3.在x=0x 处对y 作预测,对y 作区间估计.模型参数估计:1、回归系数的最小二乘估计有n 组独立观测值,(x 1,y 1),(x 2,y 2),…,(x n ,y n )设 ⎩⎨⎧===++=相互独立且,n i i i i D E ni x y εεεσεεεββ..., ,0,...,2,1,21210 记 ()∑∑==--===ni i i ni i x y Q Q 12101210),(ββεββ最小二乘法就是选择0β和1β的估计0ˆβ,1ˆβ使得 ),(min )ˆ,ˆ(10,1010ββββββQ Q = 解得:⎪⎩⎪⎨⎧--=-=22110ˆˆˆx x y x xy x y βββ或 ()()()∑∑==---=ni ini i ix xy y x x1211ˆβ其中∑∑====n i i n i i y n y x n x 111,1,∑∑====n i i i n i i y x n xy x n x 11221,1.(经验)回归方程为: )(ˆˆˆˆ110x x y x y -+=+=βββ 2、2σ的无偏估计记 ()∑∑==-=--==n i ni iiiie yy x yQ Q 11221010)ˆ(ˆˆ)ˆ,ˆ(ββββ称Q e 为残差平方和或剩余平方和.2σ的无偏估计为 )2(ˆ2-=n Q e e σ称2ˆe σ为剩余方差(残差的方差),2ˆe σ分别与0ˆβ、1ˆβ独立。
e σˆ称为剩余标准差. 检验、预测与控制:1、回归方程的显著性检验对回归方程x Y 10ββ+=的显著性检验,归结为对假设0:;0:1110≠=ββH H进行检验.假设0:10=βH 被拒绝,则回归显著,认为y 与x 存在线性关 系,所求的线性回归方程有意义;否则回归不显著,y 与x 的关系 不能用一元线性回归模型来描述,所得的回归方程也无意义. F 检验法当0H 成立时, )2/(-=n Q UF e ~F (1,n-2)其中 ()∑=-=ni i y y U 12ˆ(回归平方和) 故F>)2,1(1--n F α,拒绝0H ,否则就接受0H . (Ⅱ)t 检验法当0H 成立时,)2(~1-=n t L T exx σβ0H ,否则就接受0H 。
其中∑=-=ni i xxx x L 12)((Ⅲ)r 检验法2、回归系数的置信区间0β和1β置信水平为1-α的置信区间分别为⎥⎥⎦⎤⎢⎢⎣⎡+-++----xx e xx e L x n n t L x n n t 221022101ˆ)2(ˆ,1ˆ)2(ˆσβσβαα和⎥⎦⎤⎢⎣⎡-+----xx e xx e L n t L n t /ˆ)2(ˆ,/ˆ)2(ˆ211211σβσβαα 2σ的置信水平为1-α的置信区间为⎥⎥⎥⎦⎤⎢⎢⎢⎣⎡---)2(,)2(22221n Q n Q e e ααχχ 3、预测与控制(1)预测用y 0的回归值0100ˆˆˆx y ββ+=作为y 0的预测值 0y 的置信水平为α-1的预测区间为:[])(ˆ),(ˆ0000x y x yδδ+- 其中()xx e L x x n n t x 2021011)2(ˆ)(-++-=-ασδ特别,当n 很大且x 0在x 附近取值时,y 的置信水平为α-1的预测区间近似为⎥⎦⎤⎢⎣⎡+---2121ˆˆ,ˆˆαασσu y u y e e (2)控制要求:εββ++=x y 10的值以α-1的概率落在指定区间()y y ''',只要控制x 满足以下两个不等式 y x y y x y''≤+'≥-)(ˆ,)(ˆδδ 要求)(2x y y δ≥'-''.若y x y y x y''=-'=-)(ˆ,)(ˆδδ分别有解x ' 和x '',即y x y y x y''=''+'='-)(ˆ,)(ˆδδ. 则()x x ''',就是所求的x 的控制区间. 可线性化的一元非线性回归(曲线回归)一般方法是:先对两个变量x 和y 作n 次试验观察得n i y x i i ,...,2,1),,(=画出散点图,根据散点图确定须配曲线的类型.然后由n 对试验数据确定每一类曲线的未知参数a 和b.采用的方法是通过变量代换把非线性回归化成线性回归,即采用非线性回归线性化的方法. 通常选择的六类曲线如下: (1)双曲线xb a y +=1 (2)幂函数曲线y=a b x , 其中x>0,a>0(3)指数曲线y=a bx e 其中参数a>0.(4)倒指数曲线y=a x b e /其中a>0, (5)对数曲线y=a+blogx,x>0 (6)S 型曲线xbe a y -+=1(二).多元线性回归:一般称 ⎩⎨⎧==+=n I COV E X Y 2),(,0)(σεεεεβ 为高斯—马尔柯夫线性模型(k 元线性回归模型),并简记为),,(2n I X Y σβ⎥⎥⎥⎥⎦⎤⎢⎢⎢⎢⎣⎡=n y y Y ......1,⎥⎥⎥⎥⎦⎤⎢⎢⎢⎢⎣⎡=nk n n k k x x x x x xx x x X ...1..................1 (12)12222111211,⎥⎥⎥⎥⎦⎤⎢⎢⎢⎢⎣⎡=k ββββ...10,⎥⎥⎥⎥⎦⎤⎢⎢⎢⎢⎣⎡=n εεεε...21 线性模型),,(2n I X Y σβ考虑的主要问题是:(1)用试验值(样本值)对未知参数β和2σ作点估计和假设检验,从而建立y 与k x x x ,...,,21之间的数量关系;(2)在,,...,,0022011k k x x x x x x ===处对y 的值作预测与控制,即对y 作区间估计.称为回归平面方程.多元线性回归模型的参数估计1、对i β和2σ作估计:用最小二乘法求k ββ,...,0的估计量:作离差平方和 ()∑=----=ni ik k i ix x yQ 12110...βββ选择k ββ,...,0使Q 达到最小。
解得估计值()()Y X X X TT 1ˆ-=β得到的iβˆ代入回归平面方程得: kk x x y βββˆ...ˆˆ110+++= 称为经验回归平面方程.iβˆ称为经验回归系数. 注意:βˆ服从p+1维正态分布,且为β的无偏估计,协方差阵为C 2σ, C=L -1=(c ij ), L=X’X2.多项式回归设变量x 、Y 的回归模型为εββββ+++++=p p x x x Y (2210)其中p 是已知的,),,2,1(p i i =β是未知参数,ε服从正态分布),0(2σN .k k x x x Y ββββ++++= (2210)称为回归多项式.上面的回归模型称为多项式回归令i i x x =,i=1,2,…,k 多项式回归模型变为多元线性回归模型. 多元线性回归中的检验与预测 1、线性模型和回归系数的检验假设 0...:100====k H βββ (Ⅰ)F 检验法:当0H 成立时,)1(~)1/(/----=k n F k n Q kU F e如果)1,(1-->-k n k F F α,则拒绝0H ,认为y 与k x x ,...,1之间显著的有线性关系0H ,认为y 与k x x ,...,1之间的线性关系不显著。
(Ⅱ)r 检验法定义eyy Q U UL U R +==为y 与x 1,x 2,...,x k 的多元相关系数或复相关系数。
由于2211R R k k n F ---=,故用F 和用R 检验是等效的。
2、预测(1)点预测求出回归方程kk x x y βββˆ...ˆˆˆ110+++=,对于给定自 变量的值*k x x ,...,*1,用**110*ˆ...ˆˆˆkk x x y βββ+++=来预测 εβββ++++=***110...k k x x y .称*ˆy为*y 的点预测. (2)区间预测y 的α-1的预测区间(置信)区间为)ˆ,ˆ(21y y,其中 ⎪⎪⎩⎪⎪⎨⎧--++=--+-=-==-==∑∑∑∑)1(1ˆˆˆ)1(1ˆˆˆ2/10022/1001k n t x x c y y k n t x x c y yk i kj j i ij e k i k j j i ij e αασσ C=L -1=(c ij ), L=X’X(四)、逐步回归分析“最优”的回归方程就是包含所有对Y 有影响的变量, 而不包含对Y 影响不显著的变量回归方程。
选择“最优”的回归方程有以下几种方法:(1)从所有可能的因子(变量)组合的回归方程中选择最优者;(2)从包含全部变量的回归方程中逐次剔除不显著因子;(3)从一个变量开始,把变量逐个引入方程;(4)“有进有出”的逐步回归分析。
以第四种方法,即逐步回归分析法在筛选变量方面较为理想.逐步回归分析法的思想:1.从一个自变量开始,视自变量Y 作用的显著程度,从大到地依次逐个引入回归方程。
2.当引入的自变量由于后面变量的引入而变得不显著时,要将其剔除掉。
引入一个自变量或从回归方程中剔除一个自变量,为逐步回归的一步。
4.对于每一步都要进行Y 值检验,以确保每次引入新的显著性变量前回归方程中只包含对Y 作用显著的变量。
这个过程反复进行,直至既无不显著的变量从回归方程中剔除,又无显著变量可引入回归方程时为止统计工具箱中的回归分析命令多元线性回归p p x x y βββ+++=...1101、确定回归系数的点估计值:b=regress( Y , X )对一元线性回归,取p=1即可2、求回归系数的点估计和区间估计、并检验回归模型:其中:b 为回归系数;bint 为回归系数的区间估计。
rint 为置信区间;stats 用于检验回归模型的统计量,有三个数值:相关系数2r 、 F 值、与F 对应的概率p ,相关系数2r 越接近1,说明回归方程越显著,)1,(1-->-k n k F F α时拒绝0H ,F 越大,说明回归方程越显著,与F 对应的概率α<p 时拒绝0H ,回归模型成立。