逻辑回归分析 PPT课件
合效果,从该表格可以看出对于y=0,有86.7%的准确性;对于y=1,有
76.9%准确性,因此对于所有个案总共有82.1%的准确性。
(7)Variables in the Equation表格列出了Step 1中各个变
量对应的系数,以及该变量对应的Wald 统计量值和它对应的相伴概率。 从该表格中可以看出x3相伴概率最小,Wald统计量最大,可见该变量在
(10)逻辑回归的最后一个输出表格是 Casewise List,列出了残差大于2的个案。
Classification Table for Y
Observed (观测值)
Predicted(预测值)
0
1
Percent Correct (正确分类比例)
0
n00
n01
f0
1
n10
n11
f1
Overall(总计)
ff
3.Cox和Snell的R 2(Cox&Snell’s R-Square)
4.Nagelkerke的R 2(Nagelkerke’s R-Square)
45
1800
1
1
48
1000
1
0
52
1500
1
1
56
1800
1
1
实现步骤
将因变量放入 dependent栏,自 变量放入 covariates栏中
图7-24 “Logistic Regression”对话框
制定变量引入模型 的方法
这里,我们可以 把几个变量的乘 积作为自变量引 入模型作为交互 影响项
2.拟合优度(Goodness of Fit)统计量
Logistic回归的拟合优度统计量计算公式 为
Pearson 残差平方和,在原假设(所建立的模 型与饱和模型没有显著性差异)下也服从自由 度为两个模型参数之差的卡方分布
在实际问题中,通常采用如下分类表 (Classification Table)反映拟合效果。
最大似然估计就是选取 0, 1, 2,, k 的估计值 ˆ0,ˆ1,ˆ2,,ˆk 使得log似然函数最大化。
模型检验
以下是关于模型拟合优度的度量以及模型参 数检验的分析
1.-2对数似然值(-2 log likelihood,-2LL)
与任何概率一样,似然的取值范围在[0,1] 之间。−2LL的计算公式为
0
1
31
850
0
0
36
1500
0
1
42
1000
0
1
46
950
0
1
48
1200
0
0
55
1800
0
1
56
2100
0
1
58
1800
0
1
18
850
1
0
20
1000
1
0
25
1200
1
0
27
1300
1
0
28
1500
1
0
30
950
1
1
32
1000
1
0
33
1800
1
0
33
1000
1
0
38
1200
1
0
41
1500
1
0
ln
p 1 p
logit ( p)
0
1 X1
2 X 2
k
Xk
.......(
3)
pˆ
exp( 0 1 X 1 k X k ) 1 exp( 0 1 X 1 k X k
)
1
exp[ ( 0
1 X1
k
X
k
)]
同时,经过变换得到的模型也解决了(2)中, 概率的预测值可能是[0,1]之外的数的缺陷。
p 0 1X1 2 X 2 k X k .......... ....( 2)
问题1. Y=1的概率与自变量之间的关系到底 是不是线性的?(答案是否定的)
例如:我们分析一个人是否买车与其年收入 的关系。对于年薪5000元、5万元、50万元 三个人,让他们的年薪分别增加5000元对于 其买车的可能性影响是不一样的。
Iteration history:输出最 大似然估计迭 代过程中的系 数以及log似然 值。
CI for exp(B): 输出exp(beta) 的置信区间, 默认置信度为
95%
图7-25 “Logistic Regression:Options”对话框
选择输出结果 的方式。显示 每一步的计算 结果或是只显 示最后的结果
n组观测数据为
。于是 xi1, xi2 , xik ; yi i 1,2,n
y1,y2,…,yn的似然函数为
n
n
L Pyi p(xi ) yi [1 p xi ]1yi
i 1
i 1
对数似然函数为
n
ln L [ yi ( 0 1 xi1 2 xi2 k xik ) ln(1 e 0 1xi12xi2 k xik )] i 1
(1)第一部分输出结果有两个表格,第 一个表格说明所有个案(28个)都被选入作为 回归分析的个案。
第二个表格说明初始的因变量值(0,1) 已经转换为逻辑回归分析中常用的0、1数值。
(2)第二部分(Block 0)输出结果有4 个表格。(组块0里只有常数项,没有自变量)
分类表
(3)Omnibus Tests of Model Coefficients表格列出了模型系数的Omnibus Tests结果。
(1)提出假设。 (2)构造Wald统计量。 (3)作出统计判断。
7.8.2 SPSS中实现过程
研究问题 在一次关于某城镇居民上下班使用交通工
具的社会调查中,因变量y =1表示居民主要乘 坐公共汽车上下班;y =0表示主要骑自行车 上下班;自变量x1表示被调查者的年龄;x2表 示被调查者的月收入;x3表示被调查者的性别 (x3=1为男性,x3=0为女性)x3在这里是一个 虚拟变量。 试建立y与自变量间的Logistic回归,数据如 表7-7所示。
那么Xi增加一个单位 ln(odds|xi+1)=ln(odds|xi)+βi
于是
odds | xi 1 ei odds | xi
上式我们叫做优势比(odds ratio)近似可看 成是在Xi+1与Xi两种情况下,事件发生的概 率之比。
则,P{Y=1|Xi+1}≈P{Y=1|Xi}exp{βi}
SPSS 16实用教程
逻辑回归分析
7.8 逻辑回归分析
7.8.1 统计学上的定义和计算公式
在前面学到的回归模型中,我们处理的因变量 都是数值型区间变量,建立的模型描述的是因 变量的期望与自变量之间的线性关系。 线性回归模型:
Eˆ (Y) ˆ0 ˆ1X1 ˆ2 X2 ˆk Xk.....................(1)
然而,在许多实际问题中,我们需要研究的响 应变量不是区间变量而是顺序变量或名义变量 这样的属性变量。
比如在致癌因素的研究中,我们收集了若干 人的健康记录,包括年龄、性别、抽烟史、 日常饮食以及家庭病史等变量的数据。响应 变量在这里是一个两点(0-1)分布变量, Y=1(一个人得了癌症),Y=0(没得癌症)。 如果我们按照(1)建立一般线性模型:
概率与自变量之间的关系图形往往是一个S型 曲线
概率与自变量之间的关系曲线
问题2. 概率的取值应该在0~1之间。但是(2) 式的概率线性模型并不能满足这一点。
模型的建立与解释
我们可以通过对P进行一种变换(logit变换)
logit(p)= ln(p/(1-p)) 使得logit(p)与自变量之间存在线性相关的关 系。
5.伪R 2(Psedo-R-square)
伪R2与线性回归模型的R2相对应,其意义 相似,但它小于1。
6.Hosmer和Lemeshow的拟合优度检验 统计量
与一般拟合优度检验不同,Hosmer和 Lemeshow的拟合优度检验通常把样本数据根据 预测概率分为10组,然后根据观测频数和期望 频数构造卡方统计量(即Hosmer和Lemeshow 的拟合优度检验统计量,简称H-L拟合优度检 验统计量),最后根据自由度为8的卡方分布 计算其值并对Logistic模型进行检验。
如果该p值小于给定的显著性水平(如 =0.05),则拒绝因变量的观测值与模型预测 值不存在差异的零假设,表明模型的预测值与 观测值存在显著差异。如果值大于,我们没有 充分的理由拒绝零假设,表明在可接受的水平 上模型的估计拟合了数据。
7.Wald统计量(回归系数的非零检 验)
Wald统计量用于判断一个变量是否应该包 含在模型中,其检验步骤如下。
Hosmer-Lemeshow
goodness-of-fit: H-L 检验。
Casewise listing of residuals:显示个案的 残差值(显示标准化 残差超过两倍标准方 差的个案或显示所有 个案)
Correlations
of estimates: 输出模型中各 参数估计的相 关矩阵。
模型中很重要。
回归系数的估 计值
系数的wald检 验
Exp(beta)的估 计值以及区间估 计
(8)Correlation Matrix表格列出了常数
Constant、系数之间的相关矩阵。常数与x2之间的
相关性最大,x1和x3之间的相关性最小。
(9)图7-26所示是观测值和预测概率分布 图。该图以0和1为符号,每四个符号代表一个 个案。横坐标是个案属于1的录属度,这里称 为预测概率(Predicted Probability)。纵 坐标是个案分布频数,反映个案的分布。