当前位置:
文档之家› 调查数据分析二元Logistic回归
调查数据分析二元Logistic回归
(取值范围0~1)
9
线性回归模型的基本假定: (1)随机误差项具有0均值: (2)随机误差项具有同方差: (3)随机误差项在不同样本点之间是独立的,不存
在序列相关: (4)随机误差项与解释变量(自变量)之间不相关
: (5)随机误差项服从0均值、同方差的正态分布
回归建模——二元Logistic回归模型
37
ln1pp2.6292.224性别0.102年龄
exp2.6292.224性别0.102年龄 pˆi 1exp2.6292.224性别0.102年龄
回归建模——二元Logistic回归模型
Logistic回归可直接预测事件发生的概率, 若预测概率大于0.5,则预测发生(Y=1); 若预测概率小于0.5,则不发生(Y=0)。
ln L() n
e β0β1xi
β1 i1 yi1eβ0β1xi xi0
求得 0,的1估计值
, 从0 ,而1 得到
(pi的pˆ极i
大似然估计),这个值是在给定xi的条件下yi=1的条 件概率的估计,它代表了Logistic回归模型的拟合
值。
21
Logistic 回归系数的解释
ln1 piPi 0km 1kxki
Logistic回归系数的显著性检验
为了确定哪些自变量能进入方程,还 需要对每个自变量的回归系数进行假 设检验,判断其对模型是否有贡献。
检验方法常用Wald X2检验。
Logistic回归系数的显著性检验
Wald检验
该检验是基于在大样本情况下β值服从正态
分布的性质。
ZK SEK
WKSEK2~2(1)
因此每个
代表当保持其他变量不变时,每
k
单位量的增加对对数发生比的影响
发生比率 ORodds1ek
odds2
若发生比率>1,则说明该变量增大时,
则Y=1事件发生的比例也就越高。
22
Logistic回归模型估计:极大似然估计
Logistic回归模型的评价
1 拟合优度检验(Goodness of fit) 1.1 皮尔逊检验 1.2 Hosmer-Lemeshow检验
其 中 yi取 值 为 0或 者 1
由于各项观测相互独立,其联合分布为:
n
L
pyi i
1pi 1yi
i1
19
Logistic回归模型估计:极大似然估计
求似然函数的极大值
ln L(θ ) ln
n
p
y i
i
(
1
pi
)1 yi
i1
ln
n
p
yi i
(
1
pi
) yi(1
pi
)
i1
ln1ppβ0 β1x
模型的拟合优度检验方法有偏差检验(Deviance)、皮 尔逊(pearson)检验、统计量(Homser-Lemeshow),分 别计算统计量X2D、X2 P、X2HL值。统计量值越小,对应 的概率越大。原假设H0:模型的拟合效果好。
模型拟合优度信息指标有:-2lnL、AIC、SC。这3个指 标越小表示模型拟合的越好。
许多社会科学的观察都只分类而不是连续 的.比如,政治学中经常研究的是否选举某 候选人;经济学研究中所涉及的是否销售或 购买某种商品、是否签订一个合同等等.这 种选择量度通常分为两类,即“是’与 “否”. 在社会学和人口研究中,人们的社 会行为与事件的发生如犯罪、逃学、迁移、 结婚、离婚、患病等等都可以按照二分类变 量来测量。
研究目的:X1,X2,X3等因素对因变量 (使用什么交通方式)有无影响?
建立Y与X的多元线性回归模型?
Y ˆ01 X 12 X 23 X 3
(取值0和1)
8
回归建模——二元Logistic回归模型
建立p(Y=1|X)与X的多元线性回归模型?
p ( Y 1 |X ) 0 1 X 1 2 X 2 3 X 3
Logistic回归模型的诊断 多重共线性的诊断 异常值的诊断
43
多重共线性的诊断
相关系数矩阵 容忍度
TOL 1R2 xk
方差膨胀因子
VIF 1 TOL
由于只关心自变量之间的关系,所以可以 通过线性回归得到容忍度指标。
44
异常值的诊断(一)
标准化残差(Pearson残差)
ej
yj njpj njpj(1pj)
通过比较包含与不包含某一个或几个待检验观察因素 的两个模型的对数似然函数变化来进行,其统计量为 G (又称Deviance)。 G=-2(ln Lp-ln Lk) 样本量较大时,G近似服从自由度为待检验因素个数的 2分布。
似然比检验
当G大于临界值时,接受H1,拒绝无效假设 ,认为从整体上看适合作Logistic回归分析 ,回归方程成立。
根据线性回归模型,选择参数估计值,使得模型
的估计值与真值的离差平方和最小。 极大似然估计( MLE ):
选择使得似然函数最大的参数估计值。
18
Logistic回归模型估计:极大似然估计
假 设 n个 样 本 观 测 值 y1,y2, ,yn,得 到 一 个 观 察 值 的 概 率 为
PYyipiyi 1pi1yi
p1e 1 ( 01X1+ 2X2+ + kXk)
15
Logistic回归模型估计:极大似然估计
Logistic回归模型估计的假设条件与OLS的不同 (1)logistic回归的因变量是二分类变量 (2)logistic回归的因变量与自变量之间的关系是非线 性的 (3)logistic回归中无相同分布的假设 (4)logistic回归没有关于自变量“分布”的假设(离 散,连续,虚拟)
Qln p 1p
pLogit变 换 Q取 值 范 围 为 ,
回归建模——二元Logistic回归模型
0.8 0.6 pP 0.4 0.2
-4
-2
0
2
Logiyt(P)
4
13
回归建模——二元Logistic回归模型
建立logit(p)与X的多元线性回归模型:
loigt(p)ln(p ) 1p
优势比(odds) 机会比(odds)
ln ( 1 p ( p Y ( Y 1 |1 X |X )))0 1 X 1 2 X 2 3 X 3
(取值范围-∞~+∞)
14
logistic回归模型
Logistic回归模型: lo ( p ) g 0 + i 1 X 1 + t = 2 X 2 k X k
e01X1+ 2X2+ + kXk p1e01X12X2 kXk
16
Logistic回归模型估计:极大似然估计
多元回归采用最小二乘估计,使因变量的 真实值和预测值差异值的平方和最小化; Logistic变换的非线性特征使得在估计模型的 时候采用极大似然估计的迭代方法,找到 系数的“最可能”的估计,在计算整个模型 拟合度时,采用似然值。
Logistic回归模型估计:极大似然估计 最小二乘估计(OLS):
Forward:condi 向前逐步 条件参数估计似然比 tional
Forward:LR 向前逐步 最大偏似然估计似然比
Forward:Wald 向前逐步
Backward:cond 向后逐步 itional
Backward:LR 向后逐步
Wald统计量 条件参数估计似然比
最大偏似然估计似然比
Backward:Wald 向后逐步 Wald统计量
2.1 Logistic回归模型的预测准确性
类R2是预测准确性的粗略近似,在自 变量与因变量完全无关时,类R2值趋 近于0;当和模型能够完美预测时,类 R2趋近于1.
26
2 Logistic回归模型的预测准确性
Cox & Snell R Square指标
2
R2
1
L0
LS
n
其中 L 0 与 L S 表示零假设模型与所设模型各自的似然值,n
test )、比分检验(score test)和Wald检验
(wald test)。三种方法中,似然比检验最
可靠,比分检验一般与它相一致,但两者
均要求较大的计算量;而Wald检验未考虑
各因素间的综合作用,在因素间有共线性
时结果不如其它两者可靠。
31
似然比检验( likehood ratio test )
▪ yj为第j个协变量组合的阳性(取值为1)观察
值个数
▪ nj为第j个协变量组合的观察单位数
▪ Pj为第j个协变量组合的概率估计值
▪ 一般认为残差值超过2则可能为异常点
45
异常值的诊断(二)
Deviance残差
d i sg y j n n jp j 2 y jl n n y jp jj n j y jl n n n jj1 y p jj
其中
SE
K为
K
的标准误。
原假设:
该自变量下的回归系数=0
35
Logistic回归参数的的置信区间
Logistic回归系数
k的置信区间为:
k
Z/
2
SE
k
发生比率的置信区间
kZ/2SE e ,e k
kZ/ 2SE
k
36
二分类Logistic回归
method 中文名称
剔除依据
Enter
全部进入
1、发生概率p的大小取值范围[0,1],p与自变 量的关系难以用多元线性模型来描述。
2、当p接近0或者1时,p值的微小变化用普 通的方法难以发现和处理好。
总:能不能找到一个p的严格单调函数Q,就 会比较方便;同时要求Q对在p=0或p=1的 附近的微小变化很敏感。
回归建模——二元Logistic回归模型