逻辑斯蒂回归
模型不显著
Logistic回归步骤以及SPSS实现
不显著,去掉最不显著的 月收入变量,重新估计
exp(2.629 2.224 性别+0.102 年龄) ˆi p 1 exp(2.629 2.224 性别+0.102 年龄)
结论:女性乘公交车比例高于男性,年龄越大, 乘车的比例越高。
i 1 j 1
I
J
(nij ni n j n) 2 ni n j n
(550 1231 611 1436 ) 2 (61 205 611 1436) 2 1231 611 1436 205 611 1436 (681 1231 825 1436) 2 (144 205 825 1436 )2 1231 825 1436 205 825 1436
定性数据的建模
1
列联表及列联表分析
2
Logistic回归基本理论和方法
3
Logistic回归步骤以及SPSS实现
列联表及列联表分析
研究两个属性变量之间是否有联系 研究步骤: 通过问卷调查或统计资料获得属性 变量的信息 整理问卷或统计资料获得列联表数据 通过统计假设检验两个属性变量是 否具有独立性
i 0 优势比增加 i 0 优势比减小
Logistic回归系数的估计(分组数据)
n组观测数据结构:
x
参加调查 总数 N
i
序号 1 2 i
Logistic 变换 事件出现 事件出现 次数 mi 频率 mi N i ln[pi (1 pi )]
x1
N1
m1
p1
p1
P与多因素之间的关系预测 p ln 0 1 x1 q xq 1 p
p
e
0 1 x1 q xq 0 1 x1 q xq
1 e
p
1 1 e
( 0 1 x1 q xq )
P与单因素之间的关系图
p2
x2
N2
m2
p2
xi
xn
Ni
mi
pi
pi
pn
n
Nn
mn
pn
拟合模型
回归模型具有异方差性
p i 0 1 xi i
i 1,2,, n
其中
1 2 N ( 0 , ) 近似服从 i N i pi (1 pi )
权(weight)
转换成经典回归模型(加权最小二乘)
零假设:婚姻状态与教育水平没有关系 检验统计量及其分布: n足够大
2
i 1 j 1
2
2
(nij ni n j n) 2 ni n j n
16.01
决策规则:对给定的显著性水平0.05 2 2 16.01 0.05 (1) 3.84 则拒绝零假设,即婚姻状态与教育水平 有关联.
一个一般结论
Logistic 回归模型与判别分析 模型具有相同的判别准确率
yes
数据满足正态分布 No
Logistic 回归模型的判别准确率 高于判别分析模型的判别准确率
本研究结论
当Logistic 回归模型和判别分析模型都 通过运行SPSS 软件来估计模型参数并 建立相应模型时, 线性判别分析模型优 于Logistic 回归模型.
p
1
1 0
e p 0 1 x 1 e
最可能成功范围
0 1 x
x
最不可能成功范围
回归系数的含义
优势比(Odds Ratio)—事件发生与不发生的概率比
p 0 1 x1 q xq OR e 1 p 优势比与单变量系数之间的关系
i
OR( x1 , x2 ,, xi 1,, xq ) e OR( x1 , x2 ,, xi ,, xq )
N i pi (1 pi ) p N i pi (1 pi ) i i 0 N i pi (1 pi ) 1 ( N i pi (1 pi ) xi )
zi 0 X 0i 1 X1i ui
其中 ui 近似服从 N (0, 2 )
例题
在一次住房展销会上,与房地产商签订 初步购房意向书的共有n=325名顾客.在 随后的三个月里,只有一部分顾客确实 购买了房屋.以顾客的年家庭收入 x(万 元)为自变量,建立Logistic回归模型.
引言中提及的一些研究结果
Martin(1977)用Logistic模型预测公司破 产及违约的概率 Ohlson(1980)将Logistic模型应用于信 用风险分析 Madalla(1983)采用Logistic模型区别违 约与非违约贷款申请人
David West(2000)利用5种神经网络 和 5 种统计分类模型 ( 线性判别分析 、 Logistic 回归分析 、 K 最近邻法 、 核密 度分类法 、 分类树法 ) 分别对德国和澳 大利亚两组财务数据进行两类模式分类 , 研究结果表明: Logistic模型的判别准 确率最高,分别为 76.3% 和 87.25%.
1 e
参数的极大似然估计
未 分 组 数 据 结 构
yi 的分布函数
p( yi ) piyi (1 pi )1 yi
y1 , y2 , yn的似然函数
L p( yi ) piyi (1 pi )1 yi
i 1 i 1 n n
似然函数的对数表达
n i 1
SPSS实现
属性变量1
属性变量2
数 据 结 构
SPSS中的数据输入
频数 A水平 B水平 1 1 1 2
n11 n21 n31 n12
n22 n32
1
2 3 1 2 3
2
2
拒绝独立假设,即婚姻与教育程度有关。
Logistic回归基本理论和方法
研究某一事件发生的概率P=P(y=1)与 若干因素之间的关系
点击
exp(0.904 0.159 x) ˆi p 1 exp(0.904 0.159 x)
利用上式可以对购房比例进行预测,如 x0 8
exp(0.904 0.159 8) ˆi p 0.585 1 exp(0.904 0.159 8)
仿真结果表明,Logistic 回归信用评价模型对 总体106 个样本, 判别准确率达到99. 06%. 此外, 本文的研究结果还发现, 当利用SPSS 的Discriminant 给出的模型系数建立的线性 判别分析模型和利用SPSS 的Multinomial Logistic 给出的模型参数建立的Logistic 回归 模型, Logistic 回归模型的判别结果不如线性 判别模型. 但如果剔除不合格的样本, 或是将 样本数据规格化, 则可以提高Logistic 回归模 型的分类准确率.
2 [( I 1 )( J 1 )] ~
决策规则: 对给定的显著性水平 , 若 2 2 [(I 1)(J 1)] 则拒绝零假设.
2 [(I 1)(J 1)]
检验统计量的计算
2 n
i 1 j 1 I J
( pij pi p j ) 2 pi p j
科研教案
庞素林. Logistic回归模型在信用风险中的应 用. 数学的实践与认识. 2006,36(9):129~137
判别模型建立的基本步骤
第一步 第二步 第三步
样本分组 将样本分 成训练样 本组和测 试样本组
建模过程 利用训练 样本建立 分类模型
评价过程 利用测试样 本评价模型 的精度
摘要
任意范围之间的数量
p 0 1 x1 q xq
在0和1之间
若干个状态的标量
logistic变换
logistic变换
优势比
p ln ( , ) 1 p
Logistic回归模型
p ln 0 1 x1 q xq 1 p
概率p的预测
B1
B2
合计
A1
p11
p21
p12 p22
p1
p 2
A2
A3
合计
事件 B1 发生的概率
p31
p1
p32
p 2
p3
1
统计假设与检验
零假设:属性变量A与B相互独立 检验统计量及其分布: n足够大
2 n
i 1 j 1
I
J
( pij pi pቤተ መጻሕፍቲ ባይዱj ) 2 pi p j
女性人口学研究
婚姻 教育
结婚一次
结婚多次
合计
大学 大学以下
550 681 1231
61 144 205
611 825 1436
合计
频数列联表
A B
B1
B2
合计
A1
A2
A3
合计
n11 n21
n12
n1
n22
n2
n31
n1
n32
n2
n3
n
频率列联表
事件 A1 发生的概率 事件 A1与 B1 同 时发生的概率 A B
0 1 q
拟合的优良性
拟合优度
回归模型的优良性
-2log(L)
回归系数的显著性
Wald=
R
2
goodness-of-fit statistics
ˆ2 i 12 D( i )