当前位置:文档之家› 简单线性相关(一元线性回归分析)..

简单线性相关(一元线性回归分析)..

第十三讲 简单线性相关(一元线性回归分析)对于两个或更多变量之间的关系,相关分析考虑的只是变量之间是否相关、相关的程度,而回归分析关心的问题是:变量之间的因果关系如何。

回归分析是处理一个或多个自变量与因变量间线性因果关系的统计方法。

如婚姻状况与子女生育数量,相关分析可以求出两者的相关强度以及是否具有统计学意义,但不对谁决定谁作出预设,即可以相互解释,回归分析则必须预先假定谁是因谁是果,谁明确谁为因与谁为果的前提下展开进一步的分析。

一、一元线性回归模型及其对变量的要求 (一)一元线性回归模型 1、一元线性回归模型示例两个变量之间的真实关系一般可以用以下方程来表示: Y=A + BX + ε方程中的A 、B 是待定的常数,称为模型系数,ε是残差,是以X 预测Y 产生的误差。

两个变量之间拟合的直线是:y a bx ∧=+y ∧是 y 的拟合值或预测值,它是在X 条件下Y 条件均值的估计a 、b 是回归直线的系数,是总体真实直线A 、B 的估计值,a 即 constant 是截距,当自变量的值为0时,因变量的值。

b 称为回归系数,指在其他所有的因素不变时,每一单位自变量的变化引起的因变量的变化。

可以对回归方程进行标准化,得到标准回归方程:y x ∧=ββ 为标准回归系数,表示其他变量不变时,自变量变化一个标准差单位(Z X X S j jj=-),因变量Y 的标准差的平均变化。

由于标准化消除了原来自变量不同的测量单位,标准回归系数之间是可以比较的,绝对值的大小代表了对因变量作用的大小,反映自变量对Y的重要性。

(二)对变量的要求:回归分析的假定条件回归分析对变量的要求是:自变量可以是随机变量,也可以是非随机变量。

自变量X值的测量可以认为是没有误差的,或者说误差可以忽略不计。

回归分析对于因变量有较多的要求,这些要求与其它的因素一起,构成了回归分析的基本条件:独立、线性、正态、等方差。

(三)数据要求模型中要求一个因变量,一个或多个自变量(一元时为1个自变量)。

因变量:要求间距测度,即定距变量。

自变量:间距测度(或虚拟变量)。

二、在对话框中做一元线性回归模型例1:试用一元线性回归模型,分析大专及以上人口占6岁及以上人口的比例(edudazh)与人均国内生产总值(agdp)之间的关系。

本例使用的数据为st2004.sav,操作步骤及其解释如下:(一)对两个变量进行描述性分析在进行回归分析以前,一个比较好的习惯是看一下两个变量的均值、标准差、最大值、最小值和正态分布情况,观察数据的质量、缺少值和异常值等,缺少值和异常值经常对线性回归分析产生重要影响。

最简单的,我们可以先做出散点图,观察变量之间的趋势及其特征。

通过散点图,考察是否存在线性关系,如果不是,看是否通过变量处理使得能够进行回归分析。

如果进行了变量转换,那么应当重新绘制散点图,以确保在变量转换以后,线性趋势依然存在。

打开st2004.sav数据→单击Graphs → S catter →打开Scatterplot对话框→单击Simple →单击 Define →打开 Simple Scatterplot对话框→点选 agdp到 Y Axis框→点选 edudazh到 X Aaxis框内→单击 OK 按钮→在SPSS的Output窗口输出所需图形。

图12-1 大专及以上人口占6岁及以上人口比例与人均国内生产总值的散点图判断:线性趋势较明显。

(二)SPSS线性回归主对话框介绍打开线性回归主对话框的操作方法是:在st2004.sav数据界面上单击Analyze → Regression→Linear→打开Linear Regression主对话框图12-2 Linear Regression 命令位置图12-3 Linear Regression主对话框Linear Regression 主对话框的功能有:1、选择因变量Dependent框:放置因变量,一次只能放一个因变量。

本例点选agdp进入Dependent框。

2、选择自变量Independent框:放置自变量,可以放置多个自变量。

本例点选edudazh 进入Independent框。

3、对自变量进行分组Block按钮组:由Previous 和Next两个按钮组成,用来对自变量框中的自变量进行分组,在多元回归时会用到。

4、变量进入方式Method框:Enter:一元回归时,只选择这种方法,强行进入。

所有变量依次进入。

Stepwise:逐步回归,将所有满足条件的都进入方程,不满足的剔除。

Remove:强行移出法,这一方法必须在这一组自变量在前面一步已经纳入到回归时才用,否则没有可以剔除的。

Backward:自后消除法,将满足剔除标准的剔除Forward:向前加入法,所有满足进入回归方程的变量都可以进入。

在一元回归时,只用Enter即可。

本例选择变量进入的方式为Enter。

5、选择筛选变量Selection Variable框:选入一个筛选变量,并利用右侧的Rules建立条件,这样,只有满足这个条件的记录才会进入回归分析,当然,我们也可以用Data菜单中的Select Case过程来做,效果相同。

6、个案标签Case Labels 选择一个变量,其取值作为每条记录的标签,最典型的是使用记录ID个案号的变量。

7、加权最小二乘法计算WLS Weight框;利用该按钮可进行加权最小二乘法的计算。

选入权重变量进入该框即可。

使用条件:当应变量的变异程度具有某种趋势,即不是等方差时,通过加权,进行分析,是一种有偏估计。

8、选择统计量Statistics框:可以选择回归系数、残差诊断、模型拟合度等多种回归分析非常重要的统计量,在下文将详细介绍。

9、输出图形Plots框:可输出多种用于检验回归分析假定条件的图形,在下文将将详细介绍。

10、保存回归分析结果Save框:可以把回归分析的结果存起来,然后用得到的残差、预测值等做进一步的分析。

单击图12-3中的Save…按钮,打开Linear Regression的Save 对话框(见图12-4),研究者可以根据自己的需要进行选择。

图12-4 Linear Regression的Save对话框图12-4中:可以保持的回归分析结果主要有:Predicated values:各种预测值.#Unstandardized 保存模型对因变量的原始预测值.#Standardized:保存进行标准化后的预测值,均数0,方差1.#Adjusted:保存调整后的残差。

#S.E. #of mean predictions:保存预测值的标准差.Residuals:残差。

#Unstandardized :保存非标准化的残差,#Standardized:保存进行标准化后的残差#Studentlized:保存学生化残差#Deleted:它保存被排除进入相关系数计算的观察量的残差,是因变量与预测值之间的差值,通过它可以发现可疑的强影响点#Studentlized Deleted:对上一个预测值进行t变换Distances:用来测量数据点离拟合模型距离的指标#Mahalanobis:个案值离样本平均值的距离,如果某个个案多个自变量出现大的这种距离,可以认为它是离群值#Cook’s 表示去除这个个案后,模型的残差会发生多大的变化,一般认为如果这个值大于1,则有离群值或强影响点#Leverage values:用来测量数据点的影响强度,如中心杠杠值的变动范围是0―――(N-1)/NInfluence statistics:用来判断强影响点的统计量#DfBeta :Difference in Beta 去除某个观测值后回归系数的变化#standardized DfBeta 标准化的DfBeta 值,当它大于1/Sqrt(N)时,该点为强影响点,#DfFit. :Difference in fit value 去除这个观测值后预测值的变化值#Covariance ratio 去除这个观测值后,斜方差阵与包含全部观测值的斜方差阵的比率,如果绝对值大于3*P/N,这个观测值为强影响点或离群值。

11、置信水平和缺少值处理方式选择Options框:当自变量进入方式采取逐步回归时,打开Options对话框可以设定选择变量进入的和剔除的条件。

可以对缺少值的处理方式进行选择。

(三)回归分析统计量选择单击图12-3中的Statistics…按钮,打开一个Linear Regression的Statistics对话框(见图12-5),研究者可以根据自己的需要进行选择。

图12-5 Linear Regression的Statistics对话框1、回归系数及其基本含义图12-5中的Regression Coefficients,提供了关于回归系数的三种选项。

Estimates选项:点选后可输出回归方程中关于回归系数的基本情况,输出的数值有:B值、 Beta、 t值、t值的双尾检验。

来看例1关于“大专及以上人口占6岁及以上人口比例与人均国内生产总值”线性回归方程的回归系数(见表12-1)。

2、置信区间点选图12-5中的Confidence intervals ,可以求得回归系数的95%置信区间,在置信度95%时,置信区间为:b t s b t s j j j j -+αα/,/22式中s j 为样本标准差,j b 为回归系数。

来看例1关于“大专及以上人口占6岁及以上人口比例与人均国内生产总值”线性回归方程的回归系数(见表12-2)。

表13-2给出了回归系数B 的95%的置信区间,置信区间的下限为1593.071,上限为2849.639。

3、模型拟合度点选图12-5中的 Model Fit ,可以输出对模型拟合度进行评价的统计量。

模型拟合统计量主要有:R 、 RRsquare 、 R adj 。

这些值主要用来判断模型的拟合度或解释力怎么样。

表13-3和表13-4为“大专及以上人口占6岁及以上人口比例与人均国内生产总值”线性回归方程模型的拟合度统计量。

(1)相关系数 R表13-3中的相关系数R =0.802,反映了真实数据与回归直线靠近的程度,直接反映了一元线性回归或多元性回归预测效果的好坏程度。

(2)判定系数 R SquareR Square 也叫判定系数或确定系数(Coefficient of Determination ),它等于(总平方和- 余差平方和)/总平方和 总平方和(Total Sum of Square )的计算公式是; TSS= ()y y -∑2表示观察值围绕均值的情况,表示总的分散程度。

TSS 相当于PRE 中的E1,因为当不知道自变量 x 和因变量y 有关系时,对因变量的最好的估计就是因变量的均值,而每一个真实的因变量的观察值和因变量的均值的差,就构成了每次估计的误差。

相关主题