第6章 逻辑斯蒂回归模型
是不合适的。即 (x) x
Logistic回归模型
实践中, (x)通常随着 x 连续增长或连续下 降,其直观的曲线形态是S型。
• 一般有这种形状的数学函数 有 以下形式:
(x) exp( x) 1 exp( x)
• 称作logistic回归函数。 • 把以上函数线性化可以得到:
Logistic回归模型
【例6.1】一般认为,体质指数越大(BMI≥25), 表示某人越肥胖。根据3983人的体检结果有 388人肥胖,肥胖组中患心血管病的数据见表 6.1,试建立体质指数与患心血管病概率的 logistic回归模型。
【解】根据题目知道是一元逻辑斯蒂回归问题。 运用统计软件可以对参数进行估计得到:
ln( pˆ2
/
(1
pˆ2 ))
ln( pˆ1
/
(1
pˆ1))
ln
pˆ 2 pˆ1
/ /
(1 (1
pˆ2 ) pˆ1)
0.2570
pˆ2 / (1 pˆ2 ) e0.2570 1.293 pˆ1 / (1 pˆ1)
含有名义数据的logit
前例中的协变量为定量数据,logistic回归模型 的协变量可以是定性名义数据。这就需要对名 义数据进行赋值。
其中,0, 1,L , k 是待估参数。根据上式可以
得到优势的值: p e0 1x1L k xk
1 p
可以看出,参数 i是控制其它x 时 xi每增加 一个单位对优势产生的乘积效应。
概率p的值:
e0 1x1 L k xk p 1 e0 1x1L k xk
Logistic回归模型
最简单的logit线性模型为:
ln
p 1 p
x
则优势为:
p e x e (e )x
1 p
以上指数关系说明: x每增加1个单位,优
势 此变时为的原概来率的 应为e:倍p ;1eexx
Logistic回归模型
多元logistic模型参数的估计
采用极大似然估计方法
假设n次观测中,对应(xi1,L , xik )的观测有 n个i ,
ln p A E
1 p
其中A为年龄,E为文化程度
含有有序数据的logit
于是,估计的logit方程为:
ln p 11.637 0.124A 0.164E 1 p
其中,年龄的系数0.124,说明年龄越大死 亡率会越高;
文化程度的系数-0.164,说明文化程度与死 亡率呈负相关,文化程度越高,死亡率越 低。
第六章 逻辑斯蒂回归
Logistic回归模型
对列联表的分析,独立性检验可以初步了解属 性之间是否相互独立,或是否相关;通过列联 表的相合性检验,可以进一步知道属性之间的 相合情况,包括方向和程度; Logistic模型可 以更进一步拟合属性变量之间的函数关系,以 描述变量之间的相互影响。
列联表中的数据是以概率的形式把属性变量联 系起来的,而概率p的取值在0与1之间,因此, 要把概率p (x)与 x 之间直接建立起函数关系
ˆ0 6.0323, ˆ1 0.2570
于是logit模型为: ln pˆ 6.0323 0.2570 BMI
1 pˆ
Logistic回归模型
由得到的模型可知,
患病概率为:
6.03230.257BMI
pˆ 1 e e6.03230.257BMI
当体质指数BMI变化1单位时,对数优势比将增 加0.2570,优势比将增加 e0.2570 1.293即:
其中观测值为1的有 ri 个,观测值为0的有ni ri
个,则参数0, 1,L , k的似然函数:
0 1xi1 L k xik
ri
e 1 t
1 e 1 e i1
0 1xi1 L k xik
ni ri 0 1xi1 L k xik
可以使用迭代法求出参数的ML估计
由于计算的复杂性,可以利用统计软件得到。
ln
(x) 1 (x)
x
Logistic回归模型
因此,人们通常把p的某个函数f(p)假设为 变量的函数形式,取 f ( p) ln (x) ln p
1 (x) 1 p
称之为logit函数,也叫逻辑斯蒂变换。 因此,逻辑斯蒂变换是取列联表中优势的
对数。当概率在0-1取值时,Logit可以取任 意实数,避免了线性概率模型的结构缺陷。 类似的处理还有probit变换和双对数变换。
其中probit变换是将概率变换为标准正态分布的 z 值,
形式为: probit[ (x)] x
Logistic回归模型
双对数变换的形式为: f ( p) ln(ln(1 p))
以上变换中以logit变换应最为广泛。
假设响应变量Y是二分变量,令p P(Y 1) ,影响 Y的因素有k个x1,L xk ,则称:
ln p 1 p
g ( x1 ,L
, xk )
为二分数据的逻辑斯蒂回归模型,简称逻辑斯 蒂回归模型。其中的k个因素称为逻辑斯蒂回 归模型的协变量。
Logistic回归模型
最重要的逻辑斯蒂回归模型是logistic线性
回归模型,多元logit模型的形式为:
ln p 1 p
0 1x1 L
k xk
含有名义数据的logit
例:某地25岁及以上人中各类婚姻状况居 民的死亡情况见表6.2,试建立死亡率关于 年龄和婚姻状况的logit模型。
ln p 1 p
A 1M1
2M 2
3M3
其中,A表示年龄,M1、M2、M3表示婚姻 状况Βιβλιοθήκη 于是,估计的logit方程为:
ln
pˆ 1 pˆ
11.536
通常某个名义数据有k个状态,则定义个变量 M1,L , Mk1代表前面的k-1状态,最后令k-1变量 均为0或-1来代表第k个状态。
如婚姻状况有四种状态:未婚、有配偶、丧偶 和离婚,则可以定义三个指示变量M1、M2、 M3,用(1,0,0)、 (0,1,0) 、(0,0,1) 、(0,0,0)或(1,-1,-1)来对以上四种状态赋值。
0.124A
0.711M1
0.423M 2
0.021M 3
含有有序数据的logit
Logit模型的协变量也可以是有序数据 对有序数据的赋值可以按顺序用数0,1,2,3,4分
别表示 【例5.8】某地某年各类文化程度的死亡人数见
表5.33,试建立logit模型。 建立死亡率关于年龄和文化程度的logit模型