当前位置：文档之家› 逻辑斯蒂回归

逻辑斯蒂回归

模型不显著
Logistic回归步骤以及SPSS实现
不显著，去掉最不显著的月收入变量，重新估计
exp(2.629 2.224 性别+0.102 年龄) ˆi p 1 exp(2.629 2.224 性别+0.102 年龄)
结论：女性乘公交车比例高于男性，年龄越大，乘车的比例越高。

i 1 j 1
I
J
(nij ni n j n) 2 ni n j n
(550 1231 611 1436 ) 2 (61 205 611 1436) 2 1231 611 1436 205 611 1436 (681 1231 825 1436) 2 (144 205 825 1436 )2 1231 825 1436 205 825 1436
定性数据的建模

1
列联表及列联表分析

2
Logistic回归基本理论和方法

3
Logistic回归步骤以及SPSS实现
列联表及列联表分析
研究两个属性变量之间是否有联系研究步骤：通过问卷调查或统计资料获得属性变量的信息整理问卷或统计资料获得列联表数据通过统计假设检验两个属性变量是否具有独立性

i 0 优势比增加 i 0 优势比减小
Logistic回归系数的估计(分组数据)

n组观测数据结构：
x
参加调查总数 N
i
序号 1 2 i
Logistic 变换事件出现事件出现次数 mi 频率 mi N i ln[pi (1 pi )]
x1
N1
m1
p1
p1

P与多因素之间的关系预测 p ln 0 1 x1 q xq 1 p
p
e
0 1 x1 q xq 0 1 x1 q xq
1 e
p
1 1 e
( 0 1 x1 q xq )
P与单因素之间的关系图
p2
x2
N2
m2
p2
xi
xn
Ni
mi
pi
pi
pn
n
Nn
mn
pn

拟合模型
回归模型具有异方差性
p i 0 1 xi i
i 1,2,, n
其中
1 2 N ( 0 , ) 近似服从 i N i pi (1 pi )
权(weight)

转换成经典回归模型(加权最小二乘)
零假设：婚姻状态与教育水平没有关系检验统计量及其分布： n足够大

2
i 1 j 1
2
2
(nij ni n j n) 2 ni n j n
16.01

决策规则：对给定的显著性水平0.05 2 2 16.01 0.05 (1) 3.84 则拒绝零假设，即婚姻状态与教育水平有关联.
一个一般结论
Logistic 回归模型与判别分析模型具有相同的判别准确率
yes
数据满足正态分布 No
Logistic 回归模型的判别准确率高于判别分析模型的判别准确率
本研究结论

当Logistic 回归模型和判别分析模型都通过运行SPSS 软件来估计模型参数并建立相应模型时, 线性判别分析模型优于Logistic 回归模型.
p
1
1 0
e p 0 1 x 1 e
最可能成功范围
0 1 x
x
最不可能成功范围
回归系数的含义

优势比(Odds Ratio)—事件发生与不发生的概率比
p 0 1 x1 q xq OR e 1 p 优势比与单变量系数之间的关系
i

OR( x1 , x2 ,, xi 1,, xq ) e OR( x1 , x2 ,, xi ,, xq )
N i pi (1 pi ) p N i pi (1 pi ) i i 0 N i pi (1 pi ) 1 ( N i pi (1 pi ) xi )
zi 0 X 0i 1 X1i ui
其中 ui 近似服从 N (0, 2 )
例题
在一次住房展销会上,与房地产商签订初步购房意向书的共有n=325名顾客.在随后的三个月里,只有一部分顾客确实购买了房屋.以顾客的年家庭收入 x(万元)为自变量,建立Logistic回归模型.
引言中提及的一些研究结果

Martin(1977)用Logistic模型预测公司破产及违约的概率 Ohlson(1980)将Logistic模型应用于信用风险分析 Madalla(1983)采用Logistic模型区别违约与非违约贷款申请人

David West(2000)利用5种神经网络和 5 种统计分类模型 ( 线性判别分析、 Logistic 回归分析、 K 最近邻法、核密度分类法、分类树法 ) 分别对德国和澳大利亚两组财务数据进行两类模式分类 , 研究结果表明： Logistic模型的判别准确率最高，分别为 76.3% 和 87.25%.
1 e
参数的极大似然估计
未分组数据结构

yi 的分布函数
p( yi ) piyi (1 pi )1 yi

y1 , y2 , yn的似然函数
L p( yi ) piyi (1 pi )1 yi
i 1 i 1 n n

似然函数的对数表达
n i 1
SPSS实现
属性变量1
属性变量2
数据结构
SPSS中的数据输入
频数 A水平 B水平 1 1 1 2
n11 n21 n31 n12
n22 n32
1
2 3 1 2 3
2
2

拒绝独立假设，即婚姻与教育程度有关。
Logistic回归基本理论和方法

研究某一事件发生的概率P=P(y=1)与若干因素之间的关系
点击
exp(0.904 0.159 x) ˆi p 1 exp(0.904 0.159 x)
利用上式可以对购房比例进行预测，如 x0 8
exp(0.904 0.159 8) ˆi p 0.585 1 exp(0.904 0.159 8)
仿真结果表明,Logistic 回归信用评价模型对总体106 个样本, 判别准确率达到99. 06%. 此外, 本文的研究结果还发现, 当利用SPSS 的Discriminant 给出的模型系数建立的线性判别分析模型和利用SPSS 的Multinomial Logistic 给出的模型参数建立的Logistic 回归模型, Logistic 回归模型的判别结果不如线性判别模型. 但如果剔除不合格的样本, 或是将样本数据规格化, 则可以提高Logistic 回归模型的分类准确率.
2 [( I 1 )( J 1 )] ~
决策规则：对给定的显著性水平 , 若 2 2 [(I 1)(J 1)] 则拒绝零假设.

2 [(I 1)(J 1)]
检验统计量的计算
2 n
i 1 j 1 I J
( pij pi p j ) 2 pi p j
科研教案
庞素林. Logistic回归模型在信用风险中的应用. 数学的实践与认识. 2006,36(9):129~137
判别模型建立的基本步骤
第一步第二步第三步
样本分组将样本分成训练样本组和测试样本组
建模过程利用训练样本建立分类模型
评价过程利用测试样本评价模型的精度
摘要
任意范围之间的数量
p 0 1 x1 q xq
在0和1之间

若干个状态的标量
logistic变换
logistic变换
优势比
p ln ( , ) 1 p
Logistic回归模型
p ln 0 1 x1 q xq 1 p

概率p的预测
B1
B2
合计
A1
p11
p21
p12 p22
p1
p 2
A2
A3
合计
事件 B1 发生的概率
p31
p1
p32
p 2
p3
1
统计假设与检验
零假设：属性变量A与B相互独立检验统计量及其分布： n足够大

2 n
i 1 j 1
I
J
( pij pi pቤተ መጻሕፍቲ ባይዱj ) 2 pi p j

女性人口学研究
婚姻教育
结婚一次
结婚多次
合计
大学大学以下
550 681 1231
61 144 205
611 825 1436
合计
频数列联表
A B
B1
B2
合计
A1
A2
A3
合计
n11 n21
n12
n1
n22
n2
n31
n1
n32
n2
n3
n
频率列联表
事件 A1 发生的概率事件 A1与 B1 同时发生的概率 A B
0 1 q
拟合的优良性
拟合优度
回归模型的优良性
-2log(L)
回归系数的显著性
Wald=
R
2
goodness-of-fit statistics
ˆ2 i 12 D( i )

e商务文档

逻辑斯蒂回归

相关文档推荐：