多元线性回归统计预测模型摘要:本文以多元统计分析为理论基础,在对数据进行统计分析的基础上建立多元线性回归模型并对未知量作出预测,为相关决策提供依据和参考。
重点介绍了模型中参数的估计和自变量的优化选择及简单应用举例。
关键词:统计学;线性回归;预测模型一.引言多元线性回归统计预测模型是以统计学为理论基础建立数学模型,研究一个随机变量Y与两个或两个以上一般变量X 1,X 2,…,Xp 之间相依关系,利用现有数据,统计并分析,研究问题的变化规律,建立多元线性回归的统计预测模型,来预测未来的变化情况。
它不仅能解决一些随机的数学问题,而且还可以通过建立适当的随机模型进而解决一些确定的数学问题,为相关决策提供依据和参考。
目前统计学与其他学科的相互渗透为统计学的应用开辟新的领域。
并被广泛的应用在各门学科上,从物理和社会科学到人文科学,甚至被用来工业、农业、商业及政府部门。
而多元线性回归是多元统计分析中的一个重要方法,被应用于众多自然科学领域的研究中。
多元线性回归分析作为一种较为科学的方法,可以在获得影响因素的前提下,将定性问题定量化,确定各因素对主体问题的具体影响程度。
二.多元线性回归的基本理论多元线性回归是多元统计分析中的一个重要方法,被广泛应用于众多自然科学领域的研究中。
多元线性回归分析的基本任务包括:根据因变量与多个自变量的实际观测值建立因变量对多个自变量的多元线性回归方程;检验、分析各个自变量对因自变量的综合线性影响的显著性;检验、分析各个自变量对因变量的单纯线性影响的显著性,选择仅对因变量有显著线性影响的自变量,建立最优多元线性回归方程;评定各个自变量对因变量影响的相对重要性以及测定最优多元线性回归方程的偏离度等。
由于多数的多元非线性回归问题都可以化为多元线性回归问题,所以这里仅讨论多元线性回归。
许多非线性回归和多项式回归都可以化为多元线性回归来解决,因而多元线性回归分析有着广泛的应用。
2.1 多元线性回归模型的一般形式设随机变量y 与一般变量12,,,p x x x 线性回归模型为01122...p p y x x x ββββε=+++++ (2.1)模型中Y为被解释变量(因变量),而12,,,p x x x 是p 个可以精确测量并可控制的一般变量,称为解释变量(自变量)。
p =1时,(2.1)式即为一元线性回归模型,p 大于2时,(2.1)式称为多元线性回归模型。
因变量Y 由两部分决定:一部分是误差项随机变量ε,另一部分是p 个自变量的线性函数01122...p p x x x ββββ++++。
其中,012,,,,p ββββ是p+1个未知参数,0β称为回归常数,12,,,p βββ称为偏回归系数,它们决定了因变量Y 与自变量12,,,p x x x 的线性关系的具体形式。
ε是随机误差,对随机误差项满足()20,N εσ对一个实际问题,如果n 组观察数据(12,,,;i i ip i x x x y ),i=1,2,…,n,则线性回归模型(2.1)式可表示为011...i i p ip i y x x βββε=++++,i=1,2,…,n (2.2)即10111112012122011.........p p p p n n p np ny x x y x x y x x βββεβββεβββε=++++⎧⎪=++++⎪⎨⎪⎪=++++⎩ (2.3) 写成矩阵形式为y X βε=+ (2.4)其中12n y yy y ⎛⎫⎪ ⎪= ⎪⎪⎝⎭, 111212122212111p p n n np x x x x x x X xx x ⎛⎫ ⎪⎪= ⎪ ⎪ ⎪⎝⎭, 0011,p n βεβεβεβε⎛⎫⎛⎫ ⎪ ⎪ ⎪ ⎪== ⎪ ⎪ ⎪ ⎪ ⎪⎝⎭⎝⎭(2.5) 矩阵X 是n ⨯(p +1)矩阵,称X 为回归设计矩阵或资料矩阵。
2.2 模型的基本假设为了便于进行模型参数估计,对线性回归方程(2.3)式进行了如下假设。
1.零均值假定。
即()0,1,2,,i E i n ε==2.正态性假定。
即()20,,1,2,,N i n εσ=3.同方差和无自相关假定。
即()()2,,,1,2,,0,i j i jE i j n i jσεε⎛=== ≠⎝4.无序列相关假定(随机项与解释变量不相关)。
即()ov ,0,1,2,,ji i C X j p ε==5.无多重共线性假定。
解释变量12,,,px x x 是确定性变量,不是随机变量且()rank X 满足()1rank X p n =+<要求。
表明设计矩阵的自变量列之间不相关,样本容量的个数应大于解释变量的个数,X 是一满秩矩阵。
2.3 多元线性回归方程在多元线性回归模型基本假设的基础上,对(2.2)式两边取数学期望,可得y的期望函数为()01122...i i i p ip E y x x x ββββ=++++ (i =1,2,…,n ) (2.6) 该方程为多元线性方程为理论回归方程。
方程中,参数都是未知的,因此就需要利用样本观测值法去估计他们,如果可以得到参数估计值,则得到多元线性样本回归预测方程02112...,1,2,...,p i i ip i y x x x i nββββ∧∧∧∧∧=++++= (2.7)(2.7)式是(2.6)的估计方程,其中jβ∧是对参数jβ的估计。
有样本回归方程得到的预测值的估计值iy ∧与实际观测值iy 之间通常会存在一定的偏差,这一偏差称为残差,记为i i i e y y ∧=-。
三.多元线性回归统计预测模型的建立多元线性回归分析的基本任务包括:根据因变量与多个自变量的实际观测值建立因变量对多个自变量的多元线性回归方程;检验、分析各个自变量对因自变量的综合线性影响的显著性;检验、分析各个自变量对因变量的单纯线性影响的显著性,选择仅对因变量有显著线性影响的自变量,建立最优多元线性回归方程;评定各个自变量对因变量影响相对重要性以及测定最优多元线性回归方程的偏离度等。
研究在线形相关条件下,两个或两个以上自变量与一个因变量的数量变化关系,称为多元线形回归分析,求得的数学公式称为多元线形回归模型。
多元线形回归模型是一元线形回归模型的扩展。
3.1回归建模步骤流程图3.1 多元回归的预测模型设因变量y 与自变量x1,x2,…,xm -1共有n 组实际观测数据(见表3.1)。
表3.1观测数据表变量y 1x 2x 1m x -1 y111x 12x 11m x - 2 2y 12x22x21m x -nn y1n x2n x1nm x -y 是一个可观测的随机变量,它受到m-1个非随机因素x 1,x 2,…,xm-1和ε随机因素的影响。
若y 与x 1,x2,…,x m-1有如下线性关系0112211...m m y x x x ββββε--=+++++ (3.1)其中y 为因变量x 1,x 2,…,x m -1为自变量, 0121,,,...,m ββββ-是m个未知参数;ε是均值为零,方差为20σ>的不可观测的随机变量,称为误差项,并通常假定()20,N εσ。
对于n(n≥p)次独立观测,得到n 组数据(样本):10111111120121121201111.........m m m m n n m nm ny x x y x x y x x βββεβββεβββε------=++++⎧⎪=++++⎪⎨⎪⎪=++++⎩ (3.2) 其中 12,,...,n εεε是相互独立的,且服从()20,N εσ分布。
令121n n y y Y y ⨯⎛⎫ ⎪ ⎪= ⎪ ⎪⎝⎭, 111211212221121111m m n n nm n m x x x x x x X x x x ---⨯⎛⎫ ⎪⎪= ⎪⎪⎝⎭ 0111m m ββββ-⨯⎛⎫ ⎪ ⎪= ⎪ ⎪⎝⎭, 011n n εεεε⨯⎛⎫⎪ ⎪= ⎪ ⎪⎝⎭则 (3.1) 式用矩阵形式表示为:()21,n Y X N I βεεσ=+⎛ ⎝(3.3)3.2 模型参数的估计回归理论模型确定后,利用收集、整理的样本数据对模型的未知参数给出估计。
未知参数的估计方法最常用的是普通最小二乘法,它是经典的估计方法。
对于不满足模型基本假设的回归问题,人们给出了一些新的方法,如岭回归、主成分回归、偏最小二乘估计等。
但是它们都是以普通最小二乘法为基础。
但参数变量较多时,计算量很大,一般采用计算机软件,如T SP 、S PSS 、S AS 等。
设011,,...,m βββ∧∧∧分别是参数0121,,,...,m ββββ-的最小二乘估计,则y 的观测值可表示为:01111...m k k km k y x x e βββ∧∧∧-=++++ (3.4)k k k e y y ∧=-其中k=1,2,…,N 。
k e 是误差k ε的估计值.又令k y ∧为k y 的估计值,有:01111...m k km k y x x βββ∧∧∧∧-=+++ (3.5)(3.5)式为观测值(1,2,,)k y k n =的回归拟合值,简称回归值或拟合值。
相应的,称向量12,,,Tn y X y y y β∧∧∧∧⎛⎫== ⎪⎝⎭为因变量向量()12,,,Tn y y y y =的回归值。
根据最小二乘法0121,,,...,m ββββ-应使得全部观测值k y 与回归值k y ∧的偏差平方和Q 达到最小。
Q 是未知参数向量的非负二次函数,Q 反映了在n 次观察中总的误差程度,Q越小越好。
即:2011111...Nm kk km k Q y x x βββ∧∧∧--⎡⎤⎛⎫=-+++ ⎪⎢⎥⎝⎭⎣⎦∑ (3.6) 有最小值。
由于口是0121,,,...,m ββββ-的非负二次式,最小值一定存在。
根据数学分析的极值原理0121,,,...,m ββββ-应满足下述方程组:10111111202020N k k k N k k k k N k k km k m Q y y Q y y x Q y y x βββ∧=∧=∧-=-∂⎧⎛⎫=--= ⎪⎪∂⎝⎭⎪⎪∂⎛⎫=--=⎪⎪∂⎝⎭⎨⎪⎪⎪∂⎛⎫=--= ⎪⎪∂⎝⎭⎩∑∑∑ (3.7) 称为正规方程组.将01111...m k km k y x x βββ∧∧∧∧-=+++式代人(3.7)式整理得:01111111210111221211111110112111......N N Nk km m k K K K N N N N N k k k k k k m k k K K K K K N N N km km k km k K K K N x x y x x x x x x x y x x x x x βββββββββ∧∧--===∧∧∧∧-=====∧∧===⎛⎫⎛⎫+++= ⎪ ⎪⎝⎭⎝⎭⎛⎫⎛⎫⎛⎫⎛⎫++++= ⎪ ⎪ ⎪ ⎪⎝⎭⎝⎭⎝⎭⎝⎭⎛⎫⎛⎫++ ⎪ ⎪⎝⎭⎝⎭∑∑∑∑∑∑∑∑∑∑221111...N N km m km kK K x x y ββ∧∧--==⎧⎪⎪⎪⎪⎨⎪⎪⎪⎛⎫⎛⎫++=⎪ ⎪ ⎪⎝⎭⎝⎭⎩∑∑∑(3.8)显然正规方程组的系数矩阵是对称矩阵。