当前位置：文档之家› 回归分析回归诊断

回归分析回归诊断

• 对于由第三种成因引起的异常点，发现之后可以进行删除，以免影响参数估计等以后的工作效果。
• 另外一种方法就是对于异常点采取容忍的态度，把整个数据集作为研究的基础，对于一定比例的坏数据或者远离数据中心的数据采取一定的容忍或适应政策
• 回归系数一般采用“最小二乘估计”（least squares estimator,LS estimator）求解，但是在应用中容易忽视的问题是LS估计只有在数据满足相应条件的情况下才会具有统计描述和推断的优良性质，如要求误差服从正态分布、总体方差相同且相互独立等。
30
x 40
存在一个有影响观测值的散点图
• 强影响观测或者其影响变量取值异常，或者其预测变量取值异常。
• 响应变量取值异常
标准化残差大的观测其响应变量的取值异常，因为在Y方向上他们远离拟合的回归方程。由于各标准化残差近似服从标准正态分布，那么标准化的残差之绝对值大于2或3的点称为异常点。
异常点的成因与处理
• 为什么会出现异常点？对这个问题的回答大致可以归结为以下三种情况：整体模型变化、局部模型变化和自然变异。
• 在前两种情况下，异常点出现的多而且连续，往往蕴涵着机制的变化、新事物的出现或者新局面的形成，大量而且连续的异常点可以用新的模型来拟合。对于整个数据集，实质上已经成为一个混合模型。
我们还需要相关的度量指标
影响的各种度量
影响的各种度量
• 如果有些数据的C比其余点突出,那么该对此点打上标记
影响点
通过图显示强影响点
25
20
15
y
10
5
0
0
20
40
x 60
存在高杆率观测值的散点图
图形方法
• 图形方法在数据分析中起着重要的作用, 在对数据拟合线性模型时,图形方法尤其重要.
异常点在统计诊断中的地位
• 异常点（outlier）是统计诊断中很重要的一个概念。统计诊断（Statistical Diagnostics）就是对从实际问题中收集起来的数据、提炼出来的模型以及由此出发所作的推断方法的合理性进行深入而细致的分析，并通过一些诊断统计量来检查数据、模型及推断方法中可能存在的毛病，进而提出治疗方案，进行模型或者推断方法的改进。
回归模型的诊断
通过简单回归和多元回归模型可以有了计算结果。
• 这些结果能做推断，需要建立在一些概述性统计量的基础之上，这些统计量由数据来计算。而只有当标准的回归假定满足时，所做的推断才有可能是合理的，有意义的。而对假定的核定，可以用图形的方法，也可以用严格的数值去检查。
• 数据也需要考虑
• 利用三个数据集合获得的回归系数和其T 检验统计量相差很大
• 1.用全部数据 • 2.剔除NEVERSINK数据(4) • 3.提出HACKENSACK数据(5)
• 尽管三个数据集只差一观测数据，但回归结果有巨大差异
• 比如，看X3回归系数的T检验值，使用全部数据时该检验是不显著的，剔除掉数据4后，显著为正；可见，仅一个观测就能导致根本不同的结论
图中是XY两个变量的散点图，数据主体显示了X与Y之间的某种线性关系。但右上角的22和 23两个点是异常值。如果这两个点是正确的，那么它们则是数据集中仅有的、显示着这批数据可能服从某种非线性模型的观测。
我们把这想象为一个细菌的群
体，它在异端时间内最后的非常缓慢，但过了某个时间的临界点之后，迅速增长。
• 没有哪种统计工具能象一张精选出来的图形一样有威力.
• 图形方法可以被视为探索性的工具,同时也是验证分析或统计推断不可缺少的一部分.
图形方法的作用
• 1.发现数据中的错误(如印刷错误) • 2.辨别数据中的模式(如密集群,异常点,明显的
差距等) • 3.探索变量间的关系 • 4.发现新现象 • 5.确认或否认各项假定 • 6.评价拟合的模型是否充分 • 7.建议修正措施(例如数据变换,收集更多的数
• 把异常点看成是那些与数据集的主体明显不协调，使得研究者大感惊讶的数据点。这时，异常点可解释为所假定的分布中的极端点，即落在分布的单侧或双侧分位点以外的点，而通常取很小的值（如：0.005 ），致使观察者对数据中出现如此极端的点感到意外。
• 把异常点视为杂质点。它与数据集的主体不是来自同一分布，是在绝大多数来自某一共同分布的数据点中掺入的来自另一分布的少量“杂质”
y
12
10
8
6
4
2
0
0
10
20
30
x 40
存在一个有影响观测值的散点图
有影响的观测值 (图示)
y
12
10
8
6
4
存在影响值的趋势
2
有影响的观
测值
0
0
10
20
30
x 40
存在一个有影响观测值的散点图
有影响的观测值 (图示)
y
12
10
不存在影响
8
值的趋势
6
4
存在影响值的趋势
2
有影响的观
测值
0
0
10
20
• 统计诊断主要包括异常点识别、残差分析、影响分析和数据变换等内容，异常点的识别是处理统计诊断的重要内容之一，它进行的好坏通常影响到整个过程的诊断。
异常值有时一个，有时多个
异常点
• 在回归模型中，异常点是指对既定模型偏离很大的数据点。但究竟偏离达到何促程度才算是异常，这就必须对模型误差项的分布有一定的假设（通常假定为正态分布）。目前对异常点有以下两种较为流行的看法：
• 当实际数据没有近似满足这些假定时，就会出现一些异常点（outliers）、杠杆点（leverage point）及影响点(influential observations),使分析结果变得不可靠，不能发现数据中的真实结构，从专业上难以解释结果，甚至得到完全错误的结论。尤其是随着统计软件的日渐普及，我们倾向于简单地将数据交给软件来分析，而不注意具体方法的应用条件，尽管采用了SAS、SPSS这些国际标准软件，但是输出结果有时却与专业解释相悖。
• 数据（4）（5）称为强影响观测，因为他们对回归的影响远强于其他观测。
• 看数据，一眼就能发现数据（5）其X3的值突出的高。
• 然后再分析其背景
强影响点
• 数据集中的强影响点是指那些对统计量的取值有非常大的影响力的点。在考虑强影响点时，有几个基本问题需要考虑：
• 首先必须明确“是对哪个统计量的影响？” 例如，对线性回归模型所考虑的是对回归系数的估计量的影响；不是对误差方差的估计影响；或是对拟合优度统计量的影响等等。分析目标不同，所考虑的影响亦有所不同。
据等)
图形
• 1.一维图（看变量的分布） • 2.二维图 • 3.旋转图 • 4.动态图
• 直方图 • 茎叶图 • 点图 • 箱线图
一维图
二维图
• 我们希望图中的各散点图看上去是怎么样的呢?对于简单回归,我们预期Y与X之间呈现某种直线模式,但对于多元回归,Y 与各自变量之间的散点图可能呈直线状. 在线性模式较为肯定的场合,这些散点图的非线性状态并不说明线性模型不正确.
• 预测变量取值异常
异常点也可能出现在预测变量中，他们同样也会影响回归结果，杠杆值可用于度量观测在预测变量中的异常程度。
• 伪装与淹没的问题
• 光看残差是不够的，需要其他的度量指标
• 看这个图形，（5）（4）是强影响点
但看标准化残差看不出来
残差图也看不出来
杠杆值的序列图可以看出来了
• 而第三种成因更为常见，偶尔的人为差错或者仪器的故障都可以引起异常。
• 对于由不同的原因引起的异常点，它们的处理方法是不同的。在进行统计诊断时，判断异常点的成因是很重要的，是对异常点进行正确处理的先决条件。
• 通常对异常值的处理方法有两种。一种是把异常点作为工作重点，目标就是发现异常点并确定是否要作进一步的研究，这样的异常点往往含有很重要的信息。这时不仅要判断出异常点的存在与否，还要确定异常点出现的位置以及影响大小。这是统计诊断中一个重要内容，围绕此类问题出现了大量的统计量检验方法及影响分析研究。
数据的诊断异常值强影响点假定是否满足
模型的诊断
线性回归模型中的异常点分析
• 异常点的识别与处理，是统计诊断中很重要的一项内容。
• 异常点的出现会影响分析结果的可信度。
• 异常点的存在往往蕴涵着重要的信息。
• 在有些情况下，异常点的出现是因为有新事物出现或者新情况发生，比如经济模型中某种经济政策的出台等，都能表现出异常，这通常是我们的研究兴趣所在。
大家有疑问的，可以询问和交流
可以互相讨论下，但要小声点
• 在另外一些情况下，异常点的出现是由于人为差错或者仪器的故障所引起的。
• 在我们需要根据样本对模型进行参数估计或者根据模型对将来进行预测与控制的时候，异常点的出现会对我们的工作产生很强的影响，这样的结果是令人怀疑的。
• 因此，异常点的研究受到了广大研究者的重视，自Bernoulli首次提出了异常点的概念，接下来对异常点的概念、类型以及处理问题的讨论一直没有停止过。
• 一旦鉴别出了异常点和强影响观测后，如何处理呢？
• 因为异常点和强影响观测可能是数据集中信息最丰富的观测，因而不应该不加说明、自动地抛弃它们。相反，应当通过考察，判断它们为何是异常的或强影响点。
• 强影响点通常是数据集中更为重要的数据点，它往往能提供比一般数据点更多的信息，因此需引起特别注意。
有影响的观测值 (图示)
y
12
10
8
6
4
2
0
0

e商务文档

回归分析回归诊断

相关文档推荐：