当前位置:文档之家› 第十章 回归分析

第十章 回归分析


回归分析是研究变量间相关关系的一种有力工具, 它主要讨论如下几个方面的问题: (1)利用观察数据拟合系统的真实模型,也就是 从数据出发建立变量间相关关系的近似数学表达式, 即所谓经验公式. (2)运用经验公式作出预测及控制,并估计这种 预测或控制的可靠性程度. 本章重点介绍一元线性回归,并对可化为线性回 归的非线性问题作一些简略介绍.
从图中易见,虽然这些点是散乱的,但大致分布 在一条直线附近,即产量和生产费用之间大致成线性 关系.但各点不完全在一条直线上,这是由于Y 还受 到其他一些随机因素的影响,故该产品生产过程中生 产费用和产量的数据可假设有如下的结构形式: 其中 ε i 是测试误差,它反映了变量之间的不确定关 系. 一般地,假设x与Y之间的相关关系可表示为 Y = a + bx + ε (10.1) 2 ε 其中a,b为未知常数, 为随机误差且 ε ~ N(0,σ ) , σ 2未知,x 与Y 的这种关系称为—元线性回归模型. y = a + bx 称为回归直线,b称为回归系数,此时
SSE = l yy blxy
σ
σ
1.F检验法 由定理2,当 H 0为真时,取检验统计量 由给定显著性水平 α ,查表得 Fα (1, n 2),根 据试验数据 ( x1 , y1 ), ( x2 , y2 ), , ( xn , yn ) 计算值F,若 F > Fα (1, n 2) 时,拒绝 H 0 ,即回归效果显著; 若F ≤ Fα (1, n 2) 时,接受 H 0 ,即回归效果不显 著. 2.相关系数检验法 由第四章可知,相关系数的大小可以表示随机 变量线性关系的密切程度.对于线性回归中的变量
第十章 回归分析
第一节 一元线性回归
一,一元线性回归模型 二,最小二乘估计 三,线性回归的显著性检验 四,预测与控制
第二节 可线性化的一元非线性回归
回归方法是讨论多个变量之间相互关系的一种数 学方法,是数理统计的常用方法之一. 变量之间的相互关系是事物相互依赖,相互制约 在数量方面的反映.这种关系可分为两类:一类是确 定性关系,确定性关系是指变量之间的关系可以用函 数关系来表达;另一类是非确定性关系,非确定性关系 虽表示变量之间具有一定的依赖性,但不象函数关系 那样具有确定性.例如,农作物的单位面积产量与施 肥量之间有密切关系,但这种关系并不是确定性的, 即使在同一地区,同一时期,相同耕地面积内施同样 多的肥料, 其粮食产量也不会完全相同.这是因为单 位面积产量还受到许多其他因素及一些无法控制的随 机因素的影响.
第一节 一元线性回归
一,一元线性回归模型 设随机变量Y与变量x之间存在某种相关关系. 这里,自变量x是普通变量,它可以精确测量.比 如,粮食产量Y与施肥量x之间的相关关系,此处施 肥量是普通变量,可以精确测量,而粮食产量是随 机变量,收获之前不能准确预言.为了寻找两个变 量Y与x之间的关系,我们对于变量x取定一组不完 全相同的值,作n次独立实验,得到n组数据: ( x1 , y1 ), ( x2 , y2 ), , ( xn , yn ) , 其中 y i 是 x = x i时随机变量Y的观测结果,将n组数据
SSR F= ~ F (1, n 2) SSE /(n 2)
(10.7)
x与Y,取检验统计量
R=
∑ (x
i =1
n
i
x )(Yi Y )
2
∑ (x
i =1
n
i
x)
∑ (Y Y )
i =1 i
n
=
2
lxY lxx lYY
通常称R为样本相关系数.类似于随机变量间的相 关系数,R的取值
r= lxy lxy lxy
设 ( x1 , y1 ), ( x2 , y2 ), , ( xn , yn ) 是一组样本的观察值, ( yi a bxi )2 来刻划点( xi , yi ) 与直线 y = a + bx 用数量 之间的偏差,于是:
( yi a bxi ) 2 ∑
n
就刻划了直线 y = a + bx 与n个观察点的总的接近程度, 这个量随a,b而变化,即是a,b的二元函数,记为
Q (a, b) = ∑ ε = ∑ ( yi a bxi ) 2
n n
i =1
称为偏差平方和.
i =1
2 i
i =1
由极值原理,未知参数a,b满足下列方程组
n Q a = 2∑ ( yi a bxi ) = 0 i =1 n Q = 2∑ ( yi a bxi ) xi = 0 b i =1
如果由样本得到式(10.1)中a,b的估计值 a, b , 则称 y = a + bx 为拟合直线或经验回归直线. 对于一元线性回归模型,最基本的工作就是解决 σ 下列一些问题:第一,利用样本对未知参数a,b, 2 进行估计;第二,对回归模型作显著性检验;第三, 当 x = x0 时对Y的取值作预测,即对Y作区间估计. 二,最小二乘估计 现在我们用最小二乘法来估计模型(10.1)中的 未知参数a,b.
S= SSE n2
可以证明,随机变量 y0 y0 T= ~ t ( n 2) 1 ( xn x ) 2 S 1+ + n l xx
l yy = ∑ ( yi y ) = ∑ yi2 ny 2 = 98.30
2 i =1 i =1 8 8
在例2中已求得 b = 0.90,
lxx = 115.05, lxy = 102.99,故
SSR = b 2lxx = 93.19,
F=
SSE = l yy SSR = 5.11
SSR 6SSR 93.19 × 6 = = = 109.42 SSE /(8 2) SSE 5.11
反映了自变量x与随机变量Y之间的线性相关关系. 对于给定的显著性水平 α ,查相关系数表得 rα (n 2) , 根据试验数据 ( x1 , y1 ), ( x2 , y2 ), ( xn , yn ) 计算R的值r, 当 | r | > rα (n 2)时,拒绝 H 0,即回归效果显著;
当 | r | ≤ rα (n 2)时,接受 H 0 ,即回归效果不显著. 例3 分别用F检验法和相关系数检验法检验例2 中的回归效果是否显著, = 0.01 . α 解 假设 H 0 : b = 0 ,
3 7.2
4.5
7.5
9.1 10.5
12
5.6
7.8 10.1 10.8 13.5 16.5
为了研究这些数据所蕴含的规律性,将产量x作 为横坐标,生产费用y作为纵坐标,在xoy坐标系中 作出散点图(见图10-1-1).
y 15
10 5
0
1
2
3
4
5
6
7
8
பைடு நூலகம்
9
10
11
12
x
(图10-1-1)
(10.2)
lxy = ∑ ( xi x )( yi y ) = ∑ xi yi nx y lxx = ∑ ( xi x ) = ∑ xi2 nx 2
2 i =1 i =1 i =1 n i =1 n
n
n

a = y bx ,
b = lxy / lxx
(10.3)
l 称 lxy为x,y的离差乘积和,xx为x的离差平方和,
称式(10.2)或式(10.3)为a,b的最小二乘估计. 例2 在例1中求经验回归直线. 解 根据所给数据计算如下:
xi2 = 428.81 , ∑
i =1 8
∑x y
i =1 i
8
i
= 592.08
1 8 x = ∑ xi = 6.2625 , 8 i =1
i =1 8
1 8 y = ∑ yi = 9.7625 8 i =1
从而 l = 8 x 2 nx 2 = 428.81 8 × 6.262 = 115.0588, ∑i xx
lxy = ∑ xi yi nx y = 592.08 8 × 6.26 × 9.76 = 102.9788.
i =1
故由式(10.3)得
= lxy = 102.99 = 0.90, b lxx 115.05 a = y bx = 9.7625 0.90 × 6.2625 = 4.13
i =1 i =1
再由总离差平方和分解公式有 (10.6) 式(10.4),(10.5),(10.6)给出了SST,SSR 和SSE的计算方法. 在介绍检验方法之前,先给出下面定理: 定理1 定理 在线性模型假设下,当 H 0 成立时,SSR与SSE 相互独立,且 SSE SSR 2 ~ χ (n 2) , 2 ~ χ 2 (1) 2
求得经验回归直线为 y = 4.13 + 0.9 x
三,线性回归的显著性检验 若假设 Y = a + bx + ε 符合实际,则b不应为零, b 因为如果,则 Y = a + ε ,就认为Y与x之间不存在线 性回归关系.所以Y = a + bx 是否合理,归结为对假设:
H 0 : b = 0, H1 : b ≠ 0
整理得:
n n na + ∑ xi b = ∑ yi i =1 i =1 n n n 2 x a + ∑ xi b = ∑ xi yi ∑ i i =1 i =1 i =1
称此方程为正规方程组,解正规方程组得
a = y bx n ∑ ( xi x )( yi y ) i =1 b = n ∑ ( xi x )2 i =1 1 n 1 n y 其中 x = n ∑ xi , = n ∑ yi .若记 i =1 i =1
r=
lxy lxx l yy
=
102.99 115.05 98.30
= 0.9684
查表,得 F0.01 (1, 6) = 13.75, r0.01 (6) = 0.834 ,由于
相关主题