一元线性回归分析和多元线性回归分析一元线性回归分析1.简单介绍当只有一个自变量时,称为一元回归分析(研究因变量y 和自变量x 之间的相关关系);当自变量有两个或多个时,则称为多元回归分析(研究因变量y 和自变量1x ,2x ,…,n x 之间的相关关系)。
如果回归分析所得到的回归方程关于未知参数是线性的,则称为线性回归分析;否则,称为非线性回归分析。
在实际预测中,某些非线性关系也可以通过一定形式的变换转化为线性关系,所以,线性回归分析法成为最基本的、应用最广的方法。
这里讨论线性回归分析法。
2.回归分析法的基本步骤回归分析法的基本步骤如下: (1) 搜集数据。
根据研究课题的要求,系统搜集研究对象有关特征量的大量历史数据。
由于回归分析是建立在大量的数据基础之上的定量分析方法,历史数据的数量及其准确性都直接影响到回归分析的结果。
(2) 设定回归方程。
以大量的历史数据为基础,分析其间的关系,根据自变量与因变量之间所表现出来的规律,选择适当的数学模型,设定回归方程。
设定回归方程是回归分析法的关键,选择最优模型进行回归方程的设定是运用回归分析法进行预测的基础。
(3) 确定回归系数。
将已知数据代入设定的回归方程,并用最小二乘法原则计算出回归系数,确定回归方程。
这一步的工作量较大。
(4) 进行相关性检验。
相关性检验是指对已确定的回归方程能够代表自变量与因变量之间相关关系的可靠性进行检验。
一般有R 检验、t 检验和F 检验三种方法。
(5) 进行预测,并确定置信区间。
通过相关性检验后,我们就可以利用已确定的回归方程进行预测。
因为回归方程本质上是对实际数据的一种近似描述,所以在进行单点预测的同时,我们也需要给出该单点预测值的置信区间,使预测结果更加完善。
3. 一元线性回归分析的数学模型用一元线性回归方程来描述i x 和i y 之间的关系,即i i i x a a y ∆++=10 (i =1,2,…,n )(2-1)式中,i x 和i y 分别是自变量x 和因变量y 的第i 观测值,0a 和1a 是回归系数,n 是观测点的个数,i ∆为对应于y 的第i 观测值i y 的随机误差。
假设随机误差i ∆满足如下条件:①服从正态分布;②i ∆的均值为零,即()0=∆i E ;③i ∆的方差等于2σ;④各个i ∆间相互独立,即对于任何两个随机误差i ∆和j ∆,其协方差等于零,即,()()j i j i ≠=∆∆0,cov 。
基于上述假定,随机变量的数学期望和方差分别是()()i i x E a a y E 10+=(2-2)()I 2σ=∆∑如果不考虑式中的误差项,我们就得到简化的式子i i x a a y 10+=(2-3)该式称为y 对x 的一元回归模型或一元回归方程,其相应的回归分析称为一元线性回归分析。
依据这一方程在直角坐标系中所作的直线就称为回归直线。
4. 回归参数的估计回归模型中的参数0a 与1a 在一般情况下都是未知数,必须根据样本观测数据()i i y x ,来估计。
确定参数0a 与1a 值的原则是要使样本的回归直线同观察值的拟合状态最好,即要使得偏差最小。
为此,可以采用最小二乘法的办法来解决。
对应于每一个i x ,根据回归直线方程式(2-3)可以求出一个∧i y ,它就是i y 的一个估计值。
估计值和观测值之间的偏差⎪⎭⎫⎝⎛-=∆∧i i i y y 。
要使模型的拟合状态最好,就是说要使n 个偏差平方和最小为标准来确定回归模型。
为了方便起见,记⎥⎥⎥⎥⎦⎤⎢⎢⎢⎢⎣⎡=n y y y y 21,⎥⎥⎥⎥⎦⎤⎢⎢⎢⎢⎣⎡∆∆∆=∆n 21,⎥⎥⎥⎥⎦⎤⎢⎢⎢⎢⎣⎡=n x x x B 11121 ,⎥⎥⎦⎤⎢⎢⎣⎡=∧∧∧10a a a 则式(2-1)用矩阵形式表示为∆+=∧a B y(2-4)设V 为误差∆的负估值,称为y 的改正数或残差,∧a 为回归参数a 的估值,则可以写出类似于参数平差的误差方程y a B V -=∧(2-5)根据最小二乘原理min =V V T ,求自由极值,得02==∂∂∧B V aV V T T即 0=V B T (2-6)将误差方程(2-5)代入,即得法方程为y B a B B T T=∧(2-7) 记∑==n i i x n x 11,∑==ni i y n y 11,()∑∑==-=-=n i i n i i xx x n x x x S 12212,()∑∑==-=-=ni ini i yy y n y y y S 12212,()()y x n y x y y x x S i ni i ni i i xy -=--=∑∑==11则⎥⎦⎤⎢⎣⎡+=2x n S x n x n n B B xx T ,⎥⎥⎦⎤⎢⎢⎣⎡+=y x n S y n y B xy T于是可得回归参数的最小二乘估值为()y B BB a T T 1-∧=(2-8)即⎥⎥⎦⎤⎢⎢⎣⎡-=⎥⎥⎦⎤⎢⎢⎣⎡+⎥⎥⎦⎤⎢⎢⎣⎡--⎪⎭⎫ ⎝⎛+=∧xy xy xx xx xy xx xx S S x S y S y x n S y n x x n x n S S x 1112参数∧0a 与∧1a 的具体表达形式为xx xy S S x y a /0-=∧(2-9)xx xy S S a =∧1求出参数∧0a 与∧1a 以后,就可以得到一元线性回归模型x a a y ∧∧∧+=10(2-10)由此,只要给定了一个i x 值,就可以根据回归模型求得一个∧i y 作为实际值i y 的预测值。
5. 精度分析对于给定的i x ,根据回归模型就可以求出i y 的预测值。
但是用∧i y 来预测y 的精度如何,产生的误差有多大是我们所关心的。
这里采用测量上常用的精度指标来度量回归方程的可靠性。
一个回归模型的精度或剩余标准离差定义式为22112-=⎪⎭⎫⎝⎛--=∑=∧∧n V V y y n T n i i i σ (2-11)由于参数的个数是2,观测值总数是n ,多余观测是()2-n ,因此式中分母是()2-n 。
运用估计平均误差可以对回归方程的预测结果进行区间估计。
若观察值围绕回归直线服从正态分布,且方差相等,则有68.27%的点落在∧±σ的范围内,有95.45%的点落在∧±σ2的范围内,有99.73%的点落在∧±σ3的范围内。
根据参数平差理论可知,∧a 的协因数矩阵为()⎥⎥⎦⎤⎢⎢⎣⎡--⎪⎭⎫ ⎝⎛+==-∧∧1121x x n x n S S BB Q xx xx T aa (2-12)从而,∧a 的方差估值为⎪⎪⎭⎫⎝⎛+=∧∧∧xx a S x n 220210σσ (2-13)xxa S 1221∧∧=∧σσ6. 线性回归效果的显著性检验对一元线性回归模型的统计检验包括两个内容:一是线性回归方程的显著性检验;二是对回归系数进行统计推断。
在一元线性回归分析中,线性回归效果的好坏取决于y 与x 的线性关系是否密切。
若||1∧a 越大,y 随x 的变化趋势就越明显;若||1∧a 越小,y 随x 的变化趋势就越不明显。
特别的,当01=∧a 时,意味着y 与x 之间不存在线性相关关系,所建立的线性回归方程没有意义。
所以,只有当01≠∧a 时,y 与x 之间才有线性相关关系,所建立的线性回归方程才有实际意义。
因此,对线性回归效果好坏的检验,就归结为对统计假设0:;0:1110≠=a H a H 的检验。
若拒绝0H ,就认为线性回归有意义;若不能拒绝0H ,就认为线性回归无意义。
下面介绍两种检验方法:F 检验法和相关系数检验法。
1. F 检验法进行F 检验的关键在于确定一个合适的统计量及其所服从的分布。
当原假设成立时,根据F 分布的定义可知()()2,1~2/1212--⎪⎭⎫ ⎝⎛-⎪⎭⎫ ⎝⎛-=∑∑=∧=∧n F n y y y y F n i i i ni i(2-14)当给定显著性水平α =0.05或0.01,由F 分布分位数值表得临界值()2,11--n F α,由样本观测值计算出统计量F 的实测值。
若()2,11-≥-n F F α,则以显著水平α拒绝0H ;若()2,11-<-n F F α则以显著水平α接受0H 。
一般按下述标准判断。
(1) 若()2,199.0-≥n F F ,则认为线性回归方程效果极显著。
(2) 若()()2,12,199.095.0-<≤-n F F n F ,则认为线性回归方程效果显著。
(3) 若()2,195.0-<n F F ,则认为线性回归效果不显著。
2.相关系数检验法相关系数检验法是通过y 与x 之间的相关系数对回归方程的显著性进行检验的,由样本观测值,即()()()n n y x y x y x ,,,,,,2211 ,可以得到相关系数的实测值为()()()()∑∑∑===----==ni ini ini iiyyxx xy y y x x y y x x S S S r 12121(2-15)相关系数10≤≤r ,现作如下进一步分析。
(1) 当0=r 时,0=xy S ,因而01=a ,此时线性回归方程∧∧∧∧∧=+=010a x a a y ,表明y 与x 之间不存在线性相关关系。
(2) 当1||0<<r 时,y 与x 之间存在一定的线性相关关系,当0>r 时,01>∧a ,此时称y 与x 正相关;当0<r 时,01<∧a ,此时称y 与x 负相关;当||r 越接近于0时,此时y 与x 的线性关系越微弱;当||r 越接近于1时,此时y 与x 的线性关系越强。
(3) 当||r =1时,y 与x 完全线性相关,表明y 与x 之间存在确定的线性函数关系;当r=1时,称y 与x 正相关;当r=-1时,称y 与x 负相关。
当给定显著性水平α=0.05或0.01,由()()αα-=-≤-12||1n r r P(2-16)来判断线性回归方程的效果。
若本观测值算出的相关关系实测值()21-≥-n r r α,则以显著性水平的关系α拒绝0H ;若()21-<-n r r α,则以显著性水平的关系接受。
一般按下述标准判断。
(1) 若()299.0-≥n r r ,则认为线性回归方程效果极显著。
(2) 若()()2299.095.0-<≤-n r r n r ,则认为线性回归方程效果显著。
(3) 若()295.0-<n r r ,则认为线性回归效果不显著。
α0H临界值()21--n r α可由下式确定()()()()22,12,12111-+--=----n n F n F n r ααα (2-17)7. [实例解算]设某线性回归问题的自变量i x 和观测值i y 的数据如表2-1所示,试求其回归方程。