当前位置：文档之家› 第9章定性数据的建模分析(含SPSS)

第9章定性数据的建模分析(含SPSS)

差不再服从正态分布。（3）被解释变量的取值区间受限制。
由此可见，当被解释变量是0-1型变量时，无法直接采用一般的多元线性回归模型建模，通常应采用Logistic回归模型。
本章只介绍二项Logistic回归模型。

利用Logistic回归可以直接预测观测量相对于某一事件的
发生概率

在一般的多元回归中，若以概率 P 为被解释变量，则方程为： (9.3)
e P 0 1 x1 2 x2 ... k xk 1 e
0 1 x1 2 x2 ... k xk
(9.4)

某一事件不发生地概率为:

Prob(no event)=1- Prob(event)
二元Logistic模型对数据要求为：（1）被解释变量应具二分特点。

图9-2 定义分类协变量对话框

（1）在Covariates框中包含了在主对话框中已经选择好的全部协变量及交互项。
（2）Categorical Covariates框中列出了所选择的分类变量。（3）Change Contrast栏，设置分类协变量中各类水平的对比方式。有Indicator选项、Simple选项、Difference 选项、Helmert选项、Repeated选项、Polynomial选项、 Deviation选项。（4）Reference Category选项，如果选择了Deviation、 Simple、Indicator对比方式，可选择First或Last，指定分类变量的第一类或最后一类作为参考类。（5）如果改变了Change Covariates的设置，单击 Change按钮以示对选项的确定。
Forward: LR选项、Forward: Wald选项、
Backward: Conditional选项、Backward: LR选项、Backward: Wald选项。

4、Selection Variable框，根据指定变量的取值范围，选择参与分析的观察量。

5、单击Categorical按钮，展开如图9-2对话框，设置处理分类变量的方式。适用于解释变量（协变量）为非定距的品质变量。
平，则应拒绝零假设，认为某解释变量的回归
系数与零有显著差异，该解释变量与Logit之
间的线性关系显著，应保留在模型中；反之，
如果概率值大于给定的显著性水平，则不应拒绝零假设，可以认为某解释变量的回归系数与零无显著差异，该解释变量与Logit之间的线性关系不显著，不应保留在模型中。

3、回归模型的拟合优度检验
(9.10)

好的模型的似然比值较高，其 - 2ll 值相对较小。似
然比值的变化说明当变量进入与被剔除出模型对数据拟合度方面的变化。

常用的3种卡方统计量分别为Model、Block、Step。（1）Model统计量检验除常数项以外，模型中所有变量系

数为零的假设。

（2）Block卡方值为当前 - 2ll 值与后一组变量进入模型后的 - 2ll 值之差。
时，几率的变化值为 expi 。解释变量的系数为正值，意味
着事件发生的几率会增加，expi 的值大于1；解释变量的系数为负值，意味着事件发生的几率会减少， expi 的值小于1；当为0时，此值等于1。
i 个解释变量发生一个单元的变化

（四）二项Logistic回归模型的检验

变量对话框，如图93所示。选择在数据文件中保存的新变量。

图9-3 保存新变量对话框

(1) Predicted Value栏，预测值选项。其中，
Probability复选项，表示每个观测量发生特定事件的预
测概率；Group membership复选项，表示依据预测概

7．单击Options按钮，展开如图9-4所示对话框。

图9-4 Options 选择项对话框

（1）Statistics and Plot栏，输出统计量和图形。包括Classification plots复选项、Correlations of esti复选项、Hosmer-Lemeshow goodness-of-f复选项、Iteration history复选项、Casewise listing of residuals复选项、CI for exp(B) 复选项。
P 0 1x1 2 x2 ... k xk
P 1或 P 0

但用该方程计算时，常会出现
的不合理情
P ) 1 P
形。为此需要对 P 作对数单位转换，即 log itP ln(
，于是
可得到Logistic回归方程为：

其中 0 、1 为常数和解释变量的系数， e 为自然数，其曲线为 s 型。
1、回归模型的显著性检验 Logistic回归模型显著性检验的目的是检验解释变量全体与Logit的线性关系是否显著，是否可以用线性模型拟合。其原假设是：各回归系数同时为0，解释变量全体与Logit的线性关系不显著。

log(
Lxi L
) 2 log(
2
Lxi L
) 2 log(Lxi ) (2 log(L))
(9.5)
（2）解释变量数据最好为多元正态分布。

（三）二项Logistic回归模型中回归系数的含义
在应用中人们通常更关心的是解释变量给发生比

带来的变化。
当Logistic回归模型的回归系数确定后，将其代入的函数，即

exp( 0 i xi )
(9.6)
当其他解释变量保持不变而研究 x i 变化一个单位对的影响时，可将新的发生比设为 * ，则有：
率得到的每个观测量的预测分组。

(2) Residual栏，保存残差，包括Unstandardized非标准化残差、Logit残差、Studentized学生化残差、 Standardized标准化残差和Deviance偏差。

(3) Influence栏，保存每一个观测量的影响力指标，包括Cook距离、Leverage values杠杆值和Dfbeta(s) 统计量。

图9-1 Logistic 逻辑回归分析主对话框

2、选择被解释变量放入Dependent框，选择
一个或多个解释变量放入Covariates框。也可以
将不同解释变量组放在不同的块（Block）中，进而分析不同解释变量组对解释变量的贡献。

3、在Method框后选择解释变量的筛选策略，包括Enter选项、Forward: Conditional选项、
线性关系不显著。

回归系数显著性检验采用的检验统计量是统计量，数学定义为

Wald i (
i
S I
)2
(9.11)
I
S 是回归系数的标式（9.11）中， i 是回归系数，
准误差。检验统计量服从自由度为1的卡方分布。

SPSS将自动计算各解释变量的的观测值和相伴概率值。如果概率值小于给定的显著性水
在Logistic回归分析中，拟合优度可以从两大方面考察。
第一，回归模型能够解释被解释变量变差的程度。第二，
回归模型计算出的预测值与实际值之间吻合的程度，即模型的总体错判率是低还是高。常用的指标有Cox & Snell 统计量、Nagelkerke 统计量、错判矩阵、HosmerLemeshow统计量。

（6）Include constant in m：模型包含常数项。

8、图形诊断模型，包括：

（1）使用Graphs图形功能，对保存在数据文件
中的Deviance统计量做P-P图。

（2）将保存的Standardized Residuals， Df
Beta(s)和Leverage统计量，用SPSS图形功能做

（3）Step卡方值是在建立模型的过程中，当前与下一步
- 2ll 之间的差值。
SPSS将自动计算似然比卡方的观测值和相伴概率 p 值。如果相伴概率值小于给定的显著水平，则应拒绝零假设；反之，如果相伴概率值大于给定的显著水平，则不应拒绝零
假设。

2、回归系数的显著性检验
Logit回归系数显著性检验的目的是逐个检验模型中各解释变量是否与Logit有显著的线性关系，对解释Logit是否有重要贡献。其原假设是，即某回归系数与零无显著差异，相应的解释变量与Logit之间的
(9.1)

（二）复杂情况
复杂情况是指定定性变量可能取多类值的情况。假设以采掘业、建筑业、房地产业和社会服务业4个行业的上市公司为例，研究企业资本结构问题，其中 y 为企业资本结构，为审计意见，另外再考虑行业差异 D2i 。为了用虚拟变量反映这4个行业，我们初步设想引入如下4个 0-1型解释变量： D2 1，建筑业 D1 1，采掘业 D2 0，其他 D1 0，其他
散点图（横坐标为变量ID，纵坐标为各种保存的
新变量）。
第三节判别分析

一、判别分析的概念和基本步骤

（一）判别分析的概念
判别分析是根据观察到的若干变量值，判断研究对象如何分类的方法。判别分析能够解决两组或者更多组的情况，当包含两组时，称做两组判别分析；当包含三组或者三组以上时，称做多组判别分析聚类分析和判别分析都是分类学的基本方法，但它们也有很大的不同。
（2）Display栏中，At each step选项，表示对每一步计算过程输出表、统计量和图形。At last step选项，表示只输出最终方程的表、统计量和图形。（3）Probability for Stepwise栏，设置变量进入模型及从模型中删除的判据。（4）Classification 栏，被解释变量分类界限。（5）Maximum 栏，设定最大迭代次数。

e商务文档

第9章定性数据的建模分析(含SPSS)

相关文档推荐：

e商务文档

第9章 定性数据的建模分析(含SPSS)

相关文档推荐：

第9章定性数据的建模分析(含SPSS)