当前位置:
文档之家› 利用SPSS进行Logistic回归分析
利用SPSS进行Logistic回归分析
Dependent Variable Encoding Original Value Yes No Internal Value 0 1
图 8-1-10 因变量编码
3. Categorical Variables Codings(分类变量编码)。我们的自变量中涉及到代表不同地 域类型的名义变量(图 8-1-11)。在我们开始的分类中,属于中部用 1 表示,否则用 0 表示。 但是,SPSS 改变了这种编码,原来的 0 改用 1 表示,原来的 1 改用 0 表示。也就是说,在 这次 SPSS 分析过程中,0 代表属于中部的地区,1 代表不属于中部的地区。记住这个分类 对后面开展预测分析非常重要。
图 8-1-6 定义分类变量选项
⒉ 设置 Save(保存)选项:决定保存到 Data View 的计算结果(图 8-1-7) 。 选中 Leverage values、DfBeta(s)、Standardized 和 Deviance 四项。 完成后,点击 Continue 继续。
4
研究生地理数学方法(实习)
Categorical Variables Codings Paramete
中部
0 1
Frequency 22 9
(1) 1.000 .000
图 8-1-11 分类变量编码
4. Classification Table(初始分类表) 。Logistic 建模如同其他很多种建模方式一样,首先 对模型参数赋予初始值,然后借助迭代计算寻找最佳值。以误差最小为原则,或者以最大似 然为原则,促使迭代过程收敛。当参数收敛到稳定值之后,就给出了我们需要的比较理想的 参数值。下面是用初始值给出的预测和分类结果(图 8-1-12) 。这个结果主要用于对比,比 较模型参数收敛前后的效果。
Percentage Correct .0 100.0 64.5
图 8-1-12 初始预测分类表
7
研究生地理数学方法(实习)
Part 2 统计分析软件 SPSS
5.Variable in the Equation(初始方程中的变量) 。从这个表中可以看到系统对模型的最初 赋值方式 (图 8-1-13) 。 最开始仅仅对常数项赋值, 结果为 B=0.598 (复制到 Excel 可以看来, 更精确的数值为 0.597837) ,标准误差为 S.E.=0.375(复制到 Excel 可以看来,更精确的数值 为 0.375379) ,于是 Wald 值为
图 8-1-1 原始数据(Excel 中,局部)
将数据拷贝或者导入 SPSS 的数据窗口(Data View)中(图 8-1-2) 。
1
研究生地理数学方法(实习)
Part 2 统计分析软件 SPSS
图 8-1-2 中国 31 个地区的数据(SPSS 中,局部)
第二步:打开“聚类分析”对话框。 沿着主菜单的“Analyze→Regression→Binary Logistic K ”的路径(图 8-1-3)打开二值 Logistic 回归分析选项框(图 8-1-4) 。
图 8-1-4 Logistic 回归分析选项框
第三步:选项设置。 首先,在源变量框中选中需要进行分析的变量,点击右边的箭头符号,将需要的变量调 入 Dependent(因变量)和 Covariates(协变量)列表框中(图 8-1-5) 。在本例中,将名义变 量“城市化”调入 Dependent(因变量)列表框,将“人均 GDP”和“中部”调入 Covariates (协变量)列表框中。 在 Method (方法)一栏有七个选项。采用第一种方法,即系统默认的强迫回归方法 (Enter) 。
研究生地理数学方法(实习)
Part 2 统计分析软件 SPSS
第 8 章 利用 SPSS 进行 Logistic 回归分析
现实中的很多现象可以划分为两种可能,或者归结为两种状态,这两种状态分别用 0 和 1 表示。如果我们采用多个因素对 0-1 表示的某种现象进行因果关系解释,就可能应用 到 logistic 回归。Logistic 回归分为二值 logistic 回归和多值 logistic 回归两类。首先用实例讲 述二值 logistic 回归,然后进一步说明多值 logistic 回归。在阅读这部分内容之前,最好先看 看有关 SPSS 软件操作技术的教科书。
⎛ B ⎞ ⎛ 0.597837 ⎞ Wald = ⎜ ⎟ =⎜ ⎟ = 2.536 . ⎝ S .E. ⎠ ⎝ 0.375379 ⎠
后面的 df 为自由度,即 df=1;Sig.为 P 值,Sig.=0.111。注意 Sig.值越低越好,一般要求小 于 0.05。当然,对于 Sig.值,我们关注的是最终模型的显示结果。Exp(E)是 B 还原之后数值, 显然
2
2
Exp( B ) = e B = e 0.597837 = 1.818 .
在 Excel 里,利用指数函数 exp 很容易对 B 值进行还原。
Variables in the Equation
Step 0
Constant
B .598
S.E. .375
Wald 2.536
df 1
Sig. .111
a. If weight is in effect, see classification table for the total number of cases.
6
研究生地理数学方法(实习)
Part 2 统计分析软件 SPSS
图 8-1-9 样品处理摘要
2. Dependent Variable Encoding(因变量编码) 。这是很重要的信息,告诉我们对不同城 市化水平地区的分类编码结果(图 8-1-10) 。我们开始根据全国各地区的平均结果 45.41 分 为两类:大于等于 45.41 的地区用 Yes 表示,否则用 No 表示。现在,图 8-1-10 显示,Yes 用 0 表示,No 用 1 表示。也就是说,在这次 SPSS 分析过程中,0 代表城市化水平高于平均 值的状态,1 代表城市化水平低于平均值的状态。记住这个分类。
图 8-1-3 打开二值 Logistic 回归分析对话框的路径
对数据进行多次拟合试验,结果表明,像二产比重、三产比重等对城市化水平影响不显
2
研究生地理数学方法(实习)
Part 2 统计分析软件 SPSS
著。至于反映地区位置的分类变量,不宜一次性的全部引入,至多引入两个,比方说东部和 中部。通过尝试,发现引入中部地带为变量比较合适。因此,为了实例的典型性,我们采用 两个变量作为自变量:一是数值变量人均 GDP,二是分类变量中部地带。
5
研究生地理数学方法(实习)
Part 2 统计分析软件 SPSS
图 8-1-8 Logistic 回归分析的选项设置
此外还有一个选项需要说明。一是 Classification cutoff(分类临界值) ,默认值为 0.5, 即按四舍五入的原则将概率预测值化为 0 或者 1。 如果将数值改为 0.6, 则大于等于 0.6 的概 率值才表示为 1,否则为 0。其情况余依此类推。二是 Maximum Iterations(最大迭代值) , 规定系统运算的迭代次数,默认值为 20 次,为安全起见,我们将迭代次数增加到 50。原因 是,有时迭代次数太少,计算结果不能真正收敛。三是 Include constant in model(模型中包 括常数项) ,即模型中保留截距。除了迭代次数之外,其余两个选项均采用系统默认值。 完成后,点击 Continue 继续。
3
研究生地理数学方法(实习)
Part 2 统计分析软件 SPSS
图 8-1-5 Logistic 回归分析的初步设置
接下来进行如下 4 项设置: ⒈ 设置 Categorical(分类)选项:定义分类变量(图 8-1-6) 。 将中部调入 Categorical Covariates(分类协变量)列表框,其余选项取默认值即可。完 成后,点击 Continue 继续。
a,b Classification Table
Predicted
城市化
Observed Step 0
城市化
Yes Yes No 0 0
No 11 20
Overall Percentage a. Constant is included in the model. b. The cut value is .500
Exp(B) 1.818
图 8-1-13 初始方程中的变量
6. Variable not in the Equation(不在初始方程中的变量) 。人均 GDP 和代表地理位置的 中部地带的系数初始值设为 0,这相当于,在初始模型中不考虑这两个变量(图 8-1-14) 。 表中给出了 Score 检验值及其对应的自由度 df 和 P 值,即 Sig.值。Score 检验是一种初始检 验,在建模之初根据变量之间的结构关系判断自变量与因变量之间的密切程度。Score 检验 值的计算公式为
Case Processing Summary Unweighted Cases Selected Cases
a
N Included in Analysis Missing Cases Total 31 0 31 0 31
Unselected Cases Total
Percent 100.0 .0 100.0 .0 100.0
[ Score j =
∑ x (y
i i =1 n
n
i
− y )] 2
.
i
y (1 − y )
∑ (x
i =1
-1-10 所示的编码原则,令所有的 Yes 为 0,所有的 No 为 1,容 易算出 y (1 − y ) = 0.645161(1 − 0.645161) = 0.228928 . 人均 GDP 已知,中部的编码法则已知,于是不难算出