当前位置:文档之家› 实用回归分析ppt课件

实用回归分析ppt课件


并在变化幅度不大的一条带子内.
****如果残差都落在变化幅度不大一条带子内,
也就可以说明回归模型满足基本假设.
2
5.1 残差与残差图
一、残差概念与残差图
e
0
x
(b)
****y观测值的方差并非相同,随x增加而增加. 【消除异方差】
3
5.1 残差与残差图
一、残差概念与残差图
e
0
x (c)
****y与x之间并非线性关系. 可能y与x是曲线关系 可能y存在自相关

ei
ˆ
学生化残差
SREi ˆ
ei 1 hii
ZREi / SREi 3 观测数据判定为异常值
存在y的异常观测值,普通/标准化/学生化残差都不适用
11
5.3 异常值与强影响值
当数据中存在关于 y 的异常观察值时,异常值把回归线拉向 自己,使异常值本身的残差减少,而其余观察值的残差增大,这时 回归标准差ˆ 也会增大,因而用“3σ ”准则不能正确分辨出异常值。 解决这个问题的方法是改用删除残差。
12
5.3 异常值与强影响值
删除残差的构造思想是: 在计算第 i 个观察值的残差时,用删除掉这第 i 个观察值的 其余 n-1 个观察值拟合回归方程,计算出第 i 个观察值的删除 拟合值 yˆ (i) ,这个删除拟合值与第 i 个值无关,不受第 i 个值是否 为异常值的影响,第 i 个观察值的删除残差为:
i 1 n
xiei 0
i 1
8
5.2 残差的性质
二、改进的残差
9
5.3 异常值与强影响值
异常值分为两种情况: 一种是关于因变量y异常; 另一种是关于自变量x异常。
10
5.3 异常值与强影响值
一、关于因变量y的异常值
在残差分析中,认为超过 3ˆ 的残差为异常值。
标准化残差
ZREi
n i 1
hii

p+1 n
——判断为强影响点
15
5.3 异常值与强影响值
二、关于自变量x的异常值
SPSS 软件计算出的是中心化杠杆值 chii,也就是自变量中心化后 生成的帽子矩阵的主对角线元素,由参考文献[2]可知,
chii=hii-1/n
n
因此, chii =p,中心化杠杆值 chii 的平均值是 i 1
20
5.3 异常值与强影响值
RES-残差e
DRE-删除残差
ZRE-标准化残差
SRE –学生化残差SREi
SDR –删除学生化残差SRE(i)
COO-库克距离Dii
LEV-中心化杠杆值chii
21
5.3 异常值与强影响值
22
5.3 异常值与强影响值
异常录入 重新核实数据 的错误
2.数据测量误差 3.数据随机误差 4.缺少重要自变量 5.缺少观测数据
重新测量数据 删除或重新观测异常值数据 增加必要的自变量
增加观测数据,适当扩大自变 量取值范围
6.存在异方差
采用加权线性回归
7.模型选用错误,线性模型不适用 改用非线性回归模型
23
删除第19组数据
对本例的数据,通过核实认为不存在登记误差和测量误差。 删除第 19 组数据,用其余 30 组数据拟合回归方程,发现 第 12 组数据的删除学生化残差增加为 SRE(12)=3.125,仍然存在 异常值现象,因而认为异常值的原因不是由于数据的随机误差。 实际上本例数据存在异方差,应该采用加权最小二乘回归。
5.1 残差与残差图
一、残差概念与残差图
残差 ei yi yˆi yi ˆ0 ˆ1xi 误差项 i yi 0 1xi
残差ei是误差项i的估计值。
1
5.1 残差与残差图
一、残差概念与残差图
e
0
x
(a)
****一般认为,如果一个回归模型满足所给出的
基本假定,所有残差应在e=0附近随机变化,
可以证明:
e(i) yi yˆ(i)
e( i )

ei 1 hii
13
5.3 异常值与强影响值
第 i 个观察值的删除学生化残差,
SRE(i)

SREi

n n
p 1 p2

SREi2 n p
2
1
2
用 SP SS 软件可以直接计算出删除学生化残差 SRE(i)的数值, | SRE(i)|>3 的观测值即判定为异常值。
14
5.3 异常值与强影响值
二、关于自变量x的异常值
杠杆值
hii

1 n

(xi x )2 Lxx
var(ei ) (1 hii ) 2
回归的杠杆值hii也是表示自变量的第i次观测值与 自变量平均值之间距离的远近。
杠杆值大的样本点称为强影响点。
hii

2(3)h ,
其中h =
1 n
1 n
p
ch
n
chii
i 1

n
chii 2(3)ch
——判断为强影响点
16
5.3 异常值与强影响值
强影响点不一定是y的异常值点,不能单纯 根据杠杆值hii的大小判断强影响点是否异 常
利用Cook距离,来判断强影响点是否为y
的异常值点.
Di (
p
ei2
1)ˆ
2

(1
hii hii
)
2

17
5.3 异常值与强影响值
三、异常值实例分析
例5.1 做异常值的诊断分析。
分别计算 普通残差ei, 学生化残差SREi, 删除残差e(i), 删除学生化残差SRE(i), 杠杆值chii, 库克距离Di
18
5.3 异常值与强影响值
19
5.3 异常值与强影响值
24
5.3 异常值与强影响值
四、异常值问题补充
学生化删除残差、杠杆值、Cook距离——识别异常值
采取的措施: 1. 不能简单的剔除,有时异常观测值是正确的,它说明回 归模型的失败,失败的原因可能是遗漏了一个重要变量,或 者选择了不正确的回归函数形式. 2.如果异常值数据时准确的,但是找不到对它合理的解释, 与剔除这个观测值相比,一个更稳健的方法是抑制它的影响. 3.最小绝对离差和法是一种稳健估计方法,它具有对异常值 和不合适模型不敏感性质.
0
6
5.2 残差的性质
一、残差的性质
性质2 var(ei ) (1 hii ) 2
其中, hii

1 n

(xi x)2 Lxx
称为杠杆值
靠近x附近的点相应的残差方 差较大,
远离x附近的点相应的残差方 差较小.
7
5.2 残差的性质
一、残差的性质 性质3. 残差满足约束条件:
n
ei 0
4
5.1 残差与残差图
一、残差概念与残差图
e
1 3 57 0
2 46 8
x
(d)
****蛛网现象(y具有自相关)
5
5.2 残差的性质
一、残差的性质 性质1 E (ei)=0
证明: E(ei ) E( yi ) E( yˆi )
(0 1xi ) E(ˆ0 ˆ1xi )
相关主题