当前位置:文档之家› 补充:线性回归与方差分析

补充:线性回归与方差分析


( y0 ( x0 ), y0 ( x0 ))
其中
n 1 ( x0 x) 2 ˆ 1 n ( x0 ) ˆ t (n 2) n2 n 2 2 ( xi x )
i 1
可以看出在x0处y的置信区间的长度为 2 ( x0 ) 当 x0 x 时置信区间的长度最短,估计最精确, 置信区间愈长,估计的精度愈差。
因为如果b=0,则Y=a+
意味着Y与x无关源自所以Y=a+bx是否合理,归结为对假设: H0: b=0 进行检验 下面介绍检验假设H0的二种常用方法.
H1 : b 0
1.t检验法
若H0成立,即b=0,由定理7.1知,
ˆ b

2 ( x x ) i i 1
n
~ N (0,1)
n
2
2 2 ˆ ~ (n 2)
ˆ 与 ˆ 2 独立 且b
ˆ b
因而 T

n
2 ( x x ) i i 1
n
~ t ( n 2)
2
ˆ2 /n2
故 P | T | t (n 2) 2
为显著性水平
即得H0的拒绝域为
| T | t (n 2)
2
2.相关系数检验法
第5章 线性回归分析与方差分析
§5.1 §5.2 §5.3 §5.4 一元线性回归分析 可线性化的非线性回归 多元线性回归简介 方差分析
§5.1
一元线性回归分析
在许多实际问题中,我们常常需要研究 多个变量之间的相互关系。 一般来说,变量之间的关系可分为两类: 一类是确定性关系,确定性关系是指变量之间 的关系可以用函数关系来表达,例如电流I电 压V电阻R之间有关系式V=IR。 另一类是非确定性关系,有些变量之间的关系 是非确定性的关系,这种关系无法用一个精 确的函数式来表示。
画出散点图如图5-1所示.从图中可以看出, 随着广告投入费x的增加,销售额Y基本上也呈上 升趋势,图中的点大致分布在一条向右上方延伸 的直线附近.但各点不完全在一条直线上,这是由 于Y还受到其他一些随机因素的影响. 这样,Y可以看成是由两部分叠加而成,一部 分是x的线性函数a+bx,另一部分是随机因素引起的 误差 ,即 Y=a+bx+
当假设 H 0 : b 0 被拒绝时,就认为Y与x存在线性 关系,从而认为回归效果显著;
若接受H0,则认为Y与x的关系不能用一元线性回 归模型来描述,即回归效果不显著. 此时,可能有如下几种情形:
(1)x对Y没有显著影响; (2)x对Y有显著影响,但这种影响不能用线性相关关系 来描述; (3)影响Y取值的,除x外,另有其他不可忽略的因素.
当n很大且x0位于 x 附近时,有
t (n 2) u
2 2
x0 x
n 1 n2
于是y0的置信概率为 1 的预测区间近似为
ˆ 0 u ˆ, y ˆ 0 u ˆ) (y
2 2
例3 检验例2中的回归效果是否显著,当x0=80时, 求出Y0的预测区间。( 0.05) 解 经计算 查表,得 t0.025(9)=2.26 r0.05=0.602 T=16.9 r=0.98
一、 一元线性回归模型
假定我们要考虑自变量x与因变量Y之间的相关关系 假设x为可以控制或可以精确观察的变量,即x为普 通的变量。由于自变量x给定后,因变量Y并不能确 定,从而Y是一个与x有关的随机变量 我们对于可控制变量x取定一组不完全相同的值x1, …,xn,作n次独立试验,得到n对观测结果:
(x1,y1) ,(x2,y2),…,(xn, yn)
例1 在彩色显像技术中,考虑析出银的光学密度x与形 成染料光学密度Y之间的相关关系,其中11个样本 数据如下所示:
xi yi 0.05 0.10 0.06 0.14 0.07 0.23 0.10 0.37 0.14 0.59 0.20 0.79 0.25 1.00 0.31 1.12 0.38 1.19 0.43 1.25 0.47 1.29
厂 家 1 6 31 2 10 58 3 21 124 4 40 220 5 62 299 6 62 190 7 90 320 8 100 406 9 120 380 广告费 销售额
广告费与销售额之间不可能存在一个明确的函 数关系,事实上,即使不同的厂家投入了相同的 广告费,其销售额也不会是完全相同的。影响销 售额的因素是多种多样的,除了广告投入的影响, 还与厂家产品的特色、定价、销售渠道、售后服 务以及其他一些偶然因素有关。
ˆ 对于估计量 a 、 ˆ、 b ˆ 2 的分布,有:
定理1 (1)
(2)
n 2 2 x1 ˆ ~ N a, n i 1 a 2 n ( xi x) i 1 2 ˆ ~ N b, b n 2 ( xi x ) i 1
y
500 400 300 200 100
* * *
20 40 60 80 100
*
L
* *
*
这就是所谓的 一元线性回归模型
x
* o *
120
图5-1
一般地,假设x与Y之间的相关关系可表示为 (1) Y a bx 其中:a, b为未知常数 为随机误差且 ~ N (0, 2 ) 2 未知,
例如,农作物的单位面积产量与施肥量之间 有密切的关系,但是不能由施肥量精确知道单位 面积产量,这是因为单位面积产量还受到许多其 他因素及一些无法控制的随机因素的影响。 又如,人的身高与体重之间存在一种关系,一 般来说,人身高越高,体重越大, 但同样高度的人,体重却往往不同。这种变量 之间的不确定性关系称之为相关关系。 对于具有相关关系的变量,虽然不能找到他们之间 的确定表达式,但是通过大量的观测数据,可以发 现他们之间存在一定的统计规律, 数理统计中研究变量之间相关关系的一种有效方法 就是回归分析。
ˆx ˆ0 a ˆ b y 0
作为y0的预测值.可以证明
T ˆ0 y0 y n 1 ( x0 x) 2 ˆ 1 n n2 n 2 ( x x ) i
i 1
~ t (n 2)
从而可得
P | T | t (n 2)
2
1
所以,给定置信概率 1 ,Y0的置信区间为
因此,在接受H0的同时,需要进一步查明原因分 别处理,此时,专业知识往往起着重要作用.
四、预测
当经过检验发现回归效果显著时,通过回归模型可 对Y的取值进行预测. 即当x=x0时,对Y作区间估计.
设当x=x0时Y的取值为y0,有
y0 a bx0 0
可以取经验回归值
0 ~ N (0, 2 )
n 2 2 ˆ ~ (n 2) (3) 2
ˆ (4) 独立。 ˆ 、b ˆ 2 分别与 a
例2 在例1中可分别求出a、b、 2的估计值为:
ˆ 0.323 b
ˆ 4.37 a
2 ˆ 4.064
故经验回归直线为: Y=4.37+0.323x
三、线性回归的显著性检验
下面再用矩法求 2的估计 由于 2
n 1 2 2 2 D E 由矩估计法,可用 E 估计 n i i 1
而i
yi a bxi
ˆ代入 ,a、b分别由 a ˆ 、b
n 1 2 2 2 ˆ ˆ ˆ 故 可用 ( yi a bxi ) 作估计 n i 1
其中yi是x=xi时随机变量Y的观测结果.将n对观测结 果(xi,yi)(i=1,…,n)在直角坐标系中进行描点, 这种描点图称为散点图.散点图可以帮助我们精略 地看出Y与x之间的某种关系.
例1 对某广告公司为了研究某一类产品的广告费x 用与其销售额Y之间的关系,对多个厂家进行调 查,获得如下数据
ˆ, 如果由样本得到式(1)中,a, b的估计值 a ˆ, b ˆx为拟合直线或经验回归直线,它 则称 y ˆ a ˆ b 可作为回归直线的估计
一元线性回归主要解决下列一些问题: 2进行估计; (1)利用样本对未知参数a、b、 (2)对回归模型作显著性检验; (3)当x=x0时对Y的取值作预测,即对Y作区间 估计.
经整理后得到
n n na xi b bi i 1 i 1 n n n 2 x a x i i b x i y i i 1 i 1 i 1
(2 )
式(2)称为正规方程组.
在实际问题中,事先我们并不能断定Y与x确有线 性关系,Y=a+bx+ 只是一种假设. 当然,这个假设不是没有根据的,我们可以通过 专业知识和散点图来作出粗略判断. 但在求出经验回归方程后,还需对这种线性回归 方程同实际观测数据拟合的效果进行检验. 下面说明这一检验的方法.
若假设Y=a+bx+ 符合实际,则b不应为零
ˆ ,使得 ˆ, b a
图5-2
为了求Q(a, b)的最小值,分别求Q关于a, b的偏导数,并令它们等于零:
n a Q(a, b) ( y i a bxi )(2) 0 i 1 n Q ( a, b) ( y i a bxi )(2 xi ) 0 i 1 b
解 根据这11个样本数据点 (xi,yi)作出散点图(图5-3).
从散点图上看出,这些数据 点在一条曲线L周围. 图5-3
根据有关的专业知识,结合散点图,可以认为 曲线L大致为:
y e


x
( , 0)
对上式两边取对数:
1 ln y ln x
令 y ln y
取检验统计量
R
(x
i 1 n i 1
n
相关主题