当前位置:文档之家› 多元回归分析的原理与应用

多元回归分析的原理与应用

28
向前选择(Forward)
• 注意:随着变量加入到方程中,残差 平方和变化的自由度在增加,使得第 一种标准的显著性水平依赖于方程中 当前变量数。这意味着原来显著的变 量可能会随着进入方程的变量数的增 加而变得不显著。
29
向后选择(Backward)
• 基本过程:首先将所有变量纳入到方 程中,然后根据指定剔除的标准剔除 不显著的变量,标准有两个:
• 检验的假设是:各自变量的偏回归系 数为0,常数项为0。 • 使用的统计量为t值:t=偏回归系数/偏 回归系数的标准误。
36
共线性问题的判别 (collinearity diagnostic)
• 共线性是指由于自变量间的相关太高,造成 回归分析之情境困扰。如果变量间有共线性 问题,表示一个预测变量是其自变量的线性 组合,如若X1与X2完全共线性,代表X1是X2 的直线函数,点(X1,X2)会在同一条直 线上,即共线性,若存在严重的共线性,模 型的参数就不能完全被估计出来。
回归系数
ˆ y b 0 b1 x
以样本统计量估计总体参数
ˆ Y 0 1 X
总体未知参数
14
10名学生的身高与体重散点图
最小二乘法(Least squares method): 75 ˆ ya ˆ ) 2 为目标,求估计 bx 以极小化 ( y y 70 方程的过程。 65 ˆ y a bx
31
1.4.4 多元回归方程有效性的判定
• 检验残差
• 方差齐性检验
• 偏回归系数与常数项的检验
• 共线性问题的判别
32
检验残差
• 回归分析中误差项(残差)的基本假 设: (1)误差项的均值为零;
(2)误差项有固定的方差;
(3)各次观察的误差相互独立; (4)误差服从正态分布。
33
检验残差
• 看残差图:是以某种残差为纵坐标,以其他指定的 变量为横坐标,满足模型假设的残差图应当是呈水 平带状; • 检验相邻误差项是否有序列相关:使用DurbinWatson检验,DW介于1.2~2.8之间时可认为是独 立的。 • 查找异常点(casewise)—Outlier,通常以超出3个残 差标准差的样品为异常点。 • 检验误差正态的假设,一是看标准化残差直方图与 正态曲线比较是否接近;二是看标准化残差正态概 率图,与对角直线相比,若接近为正态。
37
共线性问题图示
X1与X2共线 X1与X3共线
X1
X1、X2、X3共线
X2
X3
X2与X3共线
38
共线性问题的判别 (collinearity diagnostic)
• 在建立回归方程之前,任何自变量都可以作 为进入方程的目标。但对于因变量而言,只 有那些对因变量具有预测作用的自变量才能 被选中。 • 选择的依据是对回归系数做显著性检验,只 有能够显著地预测因变量的自变量才会被选 择进来。 • 好的回归方程不但方程显著,而且每个自变 量的偏回归系数也显著。选择的方法主要两 大类,四种。
(1)F移出法(F-to-remove-FOUR)
(2)F最大概率移出(Maximum probability of F-to-remove-POUT)
30
逐步选择(Stepwise)
• 基本过程:首先采用向前选择的方式 选择第一个变量,若不满足标准则终 止选择,按偏相关系数选择下一个。 同时,根据向后剔除的标准,考察已 经进入方程的变量是否应该剔除,直 到没有一个变量满足移出标准,为防 止变量重复进入和移出,F-进入判据 必须大于F-剔除判据。
多元回归分析 的原理与应用
1
提 纲
• 多元回归分析的统计原理
• 多元回归分析在心理学研究中的应用
2
1 多元回归分析(regression)的统计原理 • 回归分析的含义
• 回归分析的分类
• 一元线性回归
• 多元线性回归
• 在SPSS中如何做多元回归分析
3
1.1 回归分析的含义
• 客观世界中事物之间的关系是各种各样的。从定量 的角度看,主要有两种:一是确定性关系,如重力 加速度,即自由落体的距离与时间:S=0.5gt2;另 一类是不确定性关系,即相关关系。 • 由于事物的变化常常受多种因素的影响,导致了事 物变化的不确定性。人们常用相关系数来描述事物 之间的这种不确定性程度。 • 但对于如何通过一个事物的值去估计和预测另一个 事物的发展变化,相关系数却无能为力。但是,通 过大量的实际调查,可以总结出它们之间的关系, 回归分析即是对这种关系的描述。
34
方差齐性检验
• 方差齐性(variance of homogeneity):指残 差的分布是常数,与预测变量或因变量无 关。即残差应随机地分布在一条穿过0点的 水平直线两侧。在实际应用中,一般是绘 制因变量预测值(如ZPRED--X)与学生残 差(如SRESID--Y)的散点图。
35
偏回归系数与常数项的检验
• 从二者的计算公式可知,积差相关系 数r的平方等于判定系数r2,即Y 的变 异性能被估计的回归方程解释的部分 所占比例的大小。
• 如果r2=0.64,表明变量Y的变异中有64 %是由变量X的变异引起的。所以,r2 叫判定系数。
19
1.4 多元线性回归(Multiple Regression)
• 多元线性回归,就是有多个自变量的线性回 归,也叫复回归。 • 其数学模型为:
22
1.4.2 多元回归方程及其显著性检验
• 多元回归的样本与总体的回归方程:
23
1.4.2 多元回归方程及其显著性检验
• 回归方程的显著性检验,就是检验样本回归 方程的变量的线性关系是否显著,即能否 根据样本来推断总体回归方程中的多个回 归系数中至少有一个不等于0,主要是为了 说明样本回归方程的r2的显著性。 • 检验的方法:用方差分析,又叫回归的方 差分析。这时因变量Y的总变异被分解为回 归平方和与误差平方和。F值等于回归均方 除以误差均方。
ˆ X Y 0 1
模型 参数 残差 假定: E()=0
总体的一元线性回归方程:
ˆ Y 0 1 X
12
一元线性回归方程的几何意义
E (Y )
ˆ Y 0 1 X
截距
X
斜率:回 归系数
一元线性回归线的可能形态
1>0 1<0 1= 0
13
样本的一元线性回归方 程:(估计的回归方程)
4
1.1 回归分析的含义
• “回归”一词最早由英国统计学家高尔顿 (Francis Galton)在19世纪末期研究孩子的身高 和他们父母身高关系时提出。 • 研究发现,孩子的身高总是趋于他们父母身高的 平均值。孩子的身高,比身材矮的父母要高,比 身材高的父母要矮,这种趋于中间值的趋势称作 “回归效应”,而他提出的这种研究两个数值变 量关系的方法称作回归分析。
16
判定系数
r2
判定系数(Coefficient of determination):估计的 回归方程拟合优度的度量,表明Y 的变异性能 被估计的回归方程解释的部分所占比例的大小。 是判定回归方程有效性高低的指标 当残差平方和为 0时, 当残差平方和最大时, 判定系数为 1 ,为完 判定系数为 0,为最 全的拟合。 差的拟合。
9
1.2 回归分析的分类
按自变量 个数分类
回归分析 按方程式 特征分类 一元回归 简单回归 多元回归 复回归 线性回归 非线性回归
10
1.3 一元线性回归
• 只有一个自变量的线性回归叫一元线
性回归,也叫简单回归。
• 与方差分析不同,在回归分析中,
“元”是指自变量,而不是指因变量。
11
总体的一元线性回归模型:
Y
• • • • •

• •
X
7
1.1 回归分析的含义
• 数学模型: y=f(x1,x2,x3,…,xi)+ • 模型的基本含义:
因变量y受到两部分自变量的影响,即:已知 的K个自变量x1,x2,x3,…,xi的影响;一些未知因素 或随机因素的影响。对于K个已知自变量的影响, 设想可以通过函数f(x1,x2,x3,…,xi)来表示,而剩下 的将由那些未知因素或随机因素的影响确定,将 这些影响的结果记为,称为随机误差。对于每一 组实际观察获得的值yi,x1,x2,x3,…,xi就可以表示 成: yi= f(x1,x2,x3,…,xi)+17r2 Nhomakorabea
判定系数与相关系数 2 ( n xy x y ) 2 2 2 (n x ( x ) ) (n y (
n xy n x ( x )
2 2
y) )
2
r
x y n y (
2
y)
2
r (b的b的符 r
2
18
判定系数与相关系数
体重(Y)
60 55 50 45 40 158 163 168 身高(X) 173 178
15
残差(Residual):e
最小二乘法
• 因为一组数据可以有多条回归直线,但是 哪条最理想呢? • 想得到比较精确的回归方程,必须使用最 小二乘法。 • 最小二乘法就是使误差的平方和最小。 • 误差e就是残差ε, e=y-y,其平方和为: ∑(y-y)2=∑(y-a-bx)2 要使误差最小,只要分别对a、b求偏导数, 使其=0即可。
8
1.1 回归分析的含义
• 对于自变量x1,x2,x3,…,xi的每一组确定的值, f(x1,x2,x3,…,xi)的值也是确定的;但由于是 不确定的,所以,y也是不确定的,但在每 一组确定的自变量之下,所有的服从均数 为零的正态分布,因此,对于自变量的每 一组确定的值,因变量也服从正态分布, 其平均数就是f(x1,x2,x3,…,xi),该公式即为 回归方程,记为:
相关主题