第九章 线性回归与方差分析
例2(续例1) 求Y关于x的线性回归方程. 解 现在n=9, 所需计算列表如下表
x 6 10 21 40 62 62 90 100 120 511 y 31 58 124 220 299 190 320 406 380 2028 x2 36 100 441 1600 3844 3844 8100 10000 14400 42365 y2 961 3364 15376 48400 89401 36100 102400 164836 144400 605238 xy 186 580 2604 8800 18538 11780 28800 40600 45600 157488
, 则称 yi − yi为x i 处的残差
(
)
2
$ $ = ∑ yi − a − bxi 称为残差平方和
i =1
n
(
)
2
为了计算Qe, 将Qe作如下分解:
ˆ ˆ Q = ∑( yi − yi ) = ∑[( yi − y ) −b(xi − x)]2 e
2 i=1 i=1 n n
ˆ = ∑( yi − y) − 2b∑(xi − x)( yi − y)
一、 一元线性回归模型
假定我们要考虑自变量x与因变量Y之间的相关关系 假设x为可以控制或可以精确观察的变量,即x为普 通的变量。由于自变量x给定后,因变量Y并不能确 定,从而Y是一个与x有关的随机变量 我们对于可控制变量x取定一组不完全相同的值 x1,…,xn,作n次独立试验,得到n对观测结果: … x n n
y
500 400 300 200 100
* * *
20 40 60 80 100
*
L
* *
*
这就是所谓的 一元线性回归模型
120
** o
x
图9-1
一般地,假设x与Y之间的相关关系可表示为 (1) Y = a +bx +ε 其中:a, b为未知常数 ε为随机误差且 ε ~ N(0,σ 2 ) σ 2 未知, x与Y的这种关系称为一元线性回归模型 y=a+bx称为回归直线 此时 b称为回归系数
这样a,b的估计值可写成
ˆ Sxy b = Sxx n n a = 1 y − 1 x b ˆ ˆ ∑ i n∑ i n i=1 i=1
下面再用矩法求σ 2的估计 由于
1 n 2 由矩估计法,可用 ∑εi 估计 n i=1
σ = D(ε ) = E(ε
二、 参数a、b、σ 的估计
2
现在我们用最小二乘法来估计模型(1)中的 未知参数a,b. 记 Q = Q(a, b) = ∑εi2 = ∑( yi − a − bxi )2
i=1 i=1 n n
称Q(a, b)为偏差平方和 最小二乘法就是选择a,b的估计 a, b ,使得 ˆ ˆ Q(a, b)为最小(图9-2)
画出散点图如图9-1所示.从图中可以看出,随 着广告投入费x的增加,销售额Y基本上也呈上升 趋势,图中的点大致分布在一条向右上方延伸的 直线附近.但各点不完全在一条直线上,这是由于Y 还受到其他一些随机因素的影响. 这样,Y可以看成是由两部分叠加而成,一部 分是x的线性函数a+bx,另一部分是随机因素引起的 误差 ε ,即 Y=a+bx+ ε
ˆ y = 45.258+ 3.1714x. ˆ 或 y = 225.33+ 3.1714( x − 56.78).
Q 1 e ˆ ˆ σ = = [Syy −bSxy ] n −2 n−2
2
1 Syy = ∑y − ∑yi n i=1 i =1
n n 2 i
2
1 = 605238 − ×20282 = 148262 9 ˆ 得 又 知 xy = 42342.67, b = 3.1714, 即 已 S ˆ Qe = Syy − bSxy = 13976.46 ˆ σ 2 = Qe (n− 2) = 13976.46/ 7 = 1996.64
(x1,y1) ,(x2,y2),…,(xn, yn)
其中yi是x=xi时随机变量Y的观测结果.将n对观测结 果(xi,yi)(i=1,…,n)在直角坐标系中进行描点, 散点图.散点图可以帮助我们精略 这种描点图称为散点图 散点图 地看出Y与x之间的某种关系.
例1 对某广告公司为了研究某一类产品的广告费用x 与其销售额Y之间的关系,对多个厂家进行调查, 获得如下数据
可以证明, 作为统计量的残差平方 和Qe服从分布
σ2
Q e ~ χ2 (n − 2), Q 于 是 E 2 = n − 2, σ • 即知E(Qe/(n−2))=σ2. 这样就得到了σ2的无偏估 计量: Q 1 2 e ˆ ˆ σ = = [Syy −bSxy ]. n −2 n −2
∑(x
i= 1 n
n
i
− x)( yi − y)
(xi − x)2 ∑
i= 1
ˆ ˆ a = y − bx
其中
1 n 1 n x = ∑xi , y = ∑yi n i=1 n i=1
用最小二乘法求出的估计 a 、ˆ 分别称为a、b的最 ˆ b 小二乘估计 ˆ ˆ ˆ y = a +bx 此时,拟合直线为
σ 2 ~ χ 2 (n − 2) (3) 2 ˆ σ
n
(4) σ 2分别与 a、b 独立。 ˆ ˆ ˆ
例2 就例1试求出y关于x的一元线性回归方程及 σ 2 的估计
在例1中可分别求出a、b、σ 2 的估计值为:
ˆ b = 0.323
ˆ a = 4.37
ˆ 2 = 4.064 σ
故经验回归直线为: Y=4.37+0.323x
1 Sxx = 42365 − ×5112 = 13351.56 9 1 Sxy = 157488 − ×511×2028 = 42342.67 9 ˆ b = S S = 3.1714 故 得
xy xx
1 1 ˆ a = ×2028 − ×511×3.1714 = 45.258 9 9
于是得到回归直线方程
厂 家 1 6 31 2 10 58 3 21 124 4 40 220 5 62 299 6 62 190 7 90 320 8 100 406 9 120 380
广告费 销售额
广告费与销售额之间不可能存在一个明确的 函数关系,事实上,即使不同的厂家投入了相同 的广告费,其销售额也不会是完全相同的。影响 销售额的因素是多种多样的,除了广告投入的影 响,还与厂家产品的特色、定价、销售渠道、售 后服务以及其他一些偶然因素有关。
图9-2
为了求Q(a, b)的最小值,分别求Q关于a, b的偏导数,并令它们等于零:
n ∂ ∂a Q(a, b) = ∑( yi − a − bxi )(−2) = 0 i= 1 n ∂ Q(a, b) = ( y − a − bx )(−2x ) = 0 ∑ i i i ∂b i= 1
例如,农作物的单位面积产量与施肥量之间有 密切的关系,但是不能由施肥量精确知道单位面积 产量,这是因为单位面积产量还受到许多其他因素 及 一 些 无 法 控 制 的 随 机 因 素 的 影 响 。 又如,人的身高与体重之间存在一种关系,一般来 说 , 人 身 高 越 高 , 体 重 越 大 , 但同样高度的人,体重却往往不同。这种变量之间 的 不 确 定 性 关 系 称 之 为 相 关 关 系 。 对于具有相关关系的变量,虽然不能找到他们之间 的确定表达式,但是通过大量的观测数据,可以发 现他们之间存在一定的统计规律, 数理统计中研究变量之间相关关系的一种有效方法 就是回归分析。
120
140
160
180
200
解 现在n=10, 所需计算列表如下表
x 100 110 120 130 140 150 160 170 180 190 ∑ 1450 y 45 51 54 61 66 70 74 78 85 89 673 x2 10000 12100 14400 16900 19600 22500 25600 28900 32400 36100 218500 y2 2025 2601 2916 3721 4356 4900 5476 6084 7225 7921 47225 xy 4500 5610 6480 7930 9240 10500 11840 13260 15300 16910 101570
对于估计量 a bσ 2 的分布,有: 、 ˆ、 ˆ ˆ 定理1 定理 (1)
n 2 2 σ ∑x1 ˆ a ~ Na, n i=1 2 n∑(xi − x) i= 1
(2)
2 σ ˆ b ~ Nb, n 2 ∑(xi − x) i=1
2 i=1 i=1
n
n
ˆ + (b)
2
ˆ ˆ (xi − x)2 = Syy − 2bSxy + (b)2 Sxx ∑
i=1
n
ˆ +b Sxy S = S − 2bS +bS ˆ ˆ = Syy − 2bSxy ˆ xx yy xy xy Sxx ˆ 最 得 Q = S −bS . 后
e yy xy
第九章 线性回归第四节
一元线性回归分析 可线性化的非线性回归 多元线性回归简介 方差分析
第一节 一元线性回归分析
在许多实际问题中,我们常常需要研究多 个变量之间的相互关系。 一般来说,变量之间的关系可分为两类: 一类是确定性关系,确定性关系是指变量之间的关 系可以用函数关系来表达,例如电流I电压V电 阻R之间有关系式V=IR。 另一类是非确定性关系,有些变量之间的关系是非 确定性的关系,这种关系无法用一个精确的函数 式来表示。
Y ~ N(a +bx,σ 2 )
, yi = a +bxi +εi i =1⋅⋅⋅, n εi ~ N(0,σ 2 ) ε1,⋅⋅⋅,εn相 独 互 立