当前位置:
文档之家› 第9章 定性数据的建模分析(含SPSS)
第9章 定性数据的建模分析(含SPSS)
差不再服从正态分布。(3)被解释变量的取值区间受限制。
由此可见,当被解释变量是0-1型变量时,无法直接采用一般 的多元线性回归模型建模,通常应采用Logistic回归模型。
本章只介绍二项Logistic回归模型。
利用Logistic回归可以直接预测观测量相对于某一事件的
发生概率
在一般的多元回归中,若以概率 P 为被解释变量,则方程为: (9.3)
e P 0 1 x1 2 x2 ... k xk 1 e
0 1 x1 2 x2 ... k xk
(9.4)
某一事件不发生地概率为:
Prob(no event)=1- Prob(event)
二元Logistic模型对数据要求为: (1)被解释变量应具二分特点。
图9-2 定义分类协变量对话框
(1)在Covariates框中包含了在主对话框中已经选择好 的全部协变量及交互项。
(2)Categorical Covariates框中列出了所选择的分类 变量。 (3)Change Contrast栏,设置分类协变量中各类水平 的对比方式。有Indicator选项、Simple选项、Difference 选项、Helmert选项、Repeated选项、Polynomial选项、 Deviation选项。 (4)Reference Category选项,如果选择了Deviation、 Simple、Indicator对比方式,可选择First或Last,指定分 类变量的第一类或最后一类作为参考类。 (5)如果改变了Change Covariates的设置,单击 Change按钮以示对选项的确定。
Forward: LR选项、Forward: Wald选项、
Backward: Conditional选项、Backward: LR选 项、Backward: Wald选项。
4、Selection Variable框,根据指定变量的取 值范围,选择参与分析的观察量。
5、单击Categorical按钮,展开如图9-2对话框, 设置处理分类变量的方式。适用于解释变量(协变量) 为非定距的品质变量。
平,则应拒绝零假设,认为某解释变量的回归
系数与零有显著差异,该解释变量与Logit之
间的线性关系显著,应保留在模型中;反之,
如果概率值大于给定的显著性水平,则不应拒 绝零假设,可以认为某解释变量的回归系数与 零无显著差异,该解释变量与Logit之间的线 性关系不显著,不应保留在模型中。
3、回归模型的拟合优度检验
(9.10)
好的模型的似然比值较高,其 - 2ll 值相对较小。似
然比值的变化说明当变量进入与被剔除出模型对数据 拟合度方面的变化。
常用的3种卡方统计量分别为Model、Block、Step。 (1)Model统计量检验除常数项以外,模型中所有变量系
数为零的假设。
(2)Block卡方值为当前 - 2ll 值与后一组变量进入模型后 的 - 2ll 值之差。
时,几率的变化值为 expi 。解释变量的系数为正值,意味
着事件发生的几率会增加,expi 的值大于1;解释变量的 系数为负值,意味着事件发生的几率会减少, expi 的值小 于1;当为0时,此值等于1。
i 个解释变量发生一个单元的变化
(四)二项Logistic回归模型的检验
变量对话框,如图93所示。选择在数据文件中保存的新变量。
图9-3 保存新变量对话框
(1) Predicted Value栏,预测值选项。其中,
Probability复选项,表示每个观测量发生特定事件的预
测概率;Group membership复选项,表示依据预测概
7.单击Options按钮,展开如图9-4所示对话框。
图9-4 Options 选择项对话框
(1)Statistics and Plot栏,输出统计量和图形。 包括Classification plots复选项、Correlations of esti复选项、Hosmer-Lemeshow goodness-of-f复选 项、Iteration history复选项、Casewise listing of residuals复选项、CI for exp(B) 复选项。
P 0 1x1 2 x2 ... k xk
P 1或 P 0
但用该方程计算时,常会出现
的不合理情
P ) 1 P
形。为此需要对 P 作对数单位转换,即 log itP ln(
,于是
可得到Logistic回归方程为:
其中 0 、1 为常数和解释变量的系数, e 为自然数,其 曲线为 s 型。
1、回归模型的显著性检验 Logistic回归模型显著性检验的目的是检验解释变 量全体与Logit的线性关系是否显著,是否可以用线 性模型拟合。其原假设是:各回归系数同时为0,解 释变量全体与Logit的线性关系不显著。
log(
Lxi L
) 2 log(
2
Lxi L
) 2 log(Lxi ) (2 log(L))
(9.5)
(2)解释变量数据最好为多元正态分布。
(三)二项Logistic回归模型中回归系数的含义
在应用中人们通常更关心的是解释变量给发生比
带来的变化。
当Logistic回归模型的回归系数确定后,将其代 入的函数,即
exp( 0 i xi )
(9.6)
当其他解释变量保持不变而研究 x i 变化一个单 位对 的影响时,可将新的发生比设为 * ,则有:
率得到的每个观测量的预测分组。
(2) Residual栏,保存残差,包括Unstandardized非 标准化残差、Logit残差、Studentized学生化残差、 Standardized标准化残差和Deviance偏差。
(3) Influence栏,保存每一个观测量的影响力指标, 包括Cook距离、Leverage values杠杆值和Dfbeta(s) 统计量。
图9-1 Logistic 逻辑回归分析主对话框
2、选择被解释变量放入Dependent框,选择
一个或多个解释变量放入Covariates框。也可以
将不同解释变量组放在不同的块(Block)中, 进而分析不同解释变量组对解释变量的贡献。
3、在Method框后选择解释变量的筛选策略, 包括Enter选项、Forward: Conditional选项、
线性关系不显著。
回归系数显著性检验采用的检验统计量是统计量, 数学定义为
Wald i (
i
S I
)2
(9.11)
I
S 是回归系数的标 式(9.11)中, i 是回归系数,
准误差。检验统计量服从自由度为1的卡方分布。
SPSS将自动计算各解释变量的的观测值和 相伴概率值。如果概率值小于给定的显著性水
在Logistic回归分析中,拟合优度可以从两大方面考察。
第一,回归模型能够解释被解释变量变差的程度。第二,
回归模型计算出的预测值与实际值之间吻合的程度,即模 型的总体错判率是低还是高。常用的指标有Cox & Snell 统计量、Nagelkerke 统计量、错判矩阵、HosmerLemeshow统计量。
(6)Include constant in m:模型包含常数项。
8、图形诊断模型,包括:
(1)使用Graphs图形功能,对保存在数据文件
中的Deviance统计量做P-P图。
(2)将保存的Standardized Residuals, Df
Beta(s)和Leverage统计量,用SPSS图形功能做
(3)Step卡方值是在建立模型的过程中,当前与下一步
- 2ll 之间的差值。
SPSS将自动计算似然比卡方的观测值和相伴概率 p 值。 如果相伴概率值小于给定的显著水平 ,则应拒绝零假设; 反之,如果相伴概率值大于给定的显著水平,则不应拒绝零
假设。
2、回归系数的显著性检验
Logit回归系数显著性检验的目的是逐个检验模型 中各解释变量是否与Logit有显著的线性关系,对解 释Logit是否有重要贡献。其原假设是,即某回归系 数与零无显著差异,相应的解释变量与Logit之间的
(9.1)
(二)复杂情况
复杂情况是指定定性变量可能取多类值的情况。 假设以采掘业、建筑业、房地产业和社会服务业4个行业 的上市公司为例,研究企业资本结构问题,其中 y 为企业资 本结构, 为审计意见,另外再考虑行业差异 D2i 。 为了用虚拟变量反映这4个行业,我们初步设想引入如下4个 0-1型解释变量: D2 1,建筑业 D1 1,采掘业 D2 0,其他 D1 0,其他
散点图(横坐标为变量ID,纵坐标为各种保存的
新变量)。
第三节 判别分析
一、判别分析的概念和基本步骤
(一)判别分析的概念
判别分析是根据观察到的若干变量值,判断研 究对象如何分类的方法。判别分析能够解决两组 或者更多组的情况,当包含两组时,称做两组判 别分析;当包含三组或者三组以上时,称做多组 判别分析 聚类分析和判别分析都是分类学的基本方法, 但它们也有很大的不同。
(2)Display栏中,At each step选项,表示对每一 步计算过程输出表、统计量和图形。At last step选项, 表示只输出最终方程的表、统计量和图形。 (3)Probability for Stepwise栏,设置变量进入模 型及从模型中删除的判据。 (4)Classification 栏,被解释变量分类界限。 (5)Maximum 栏,设定最大迭代次数。