Logistic回归在SPSS中应用讲课人:***Email:***************.cm办公室:通博楼B座2111内容第一节模型的种类和形式第二节模型系数的检验和拟合优度第三节应用SPSS完成模型估计和输出解读2第一节模型的种类和形式当遇到被解释变量是分类变量时,我们可能选择离散选择模型来建立变量间的因果关系,而不是用线性回归方程。
这类模型可以用来了解客户的信用度、消费者的消费行为、癌症是否转移、医生是否选择多点从业和出行选择何种交通工具等。
根据被解释变量分类变量和概率分布函数的类型,产生了不同的离散选择模型。
3二元Logistic模型—如果被解释变量是二分变量,连接分布函数(link function)为逻辑斯蒂函数。
多元Logistic模型—如果被解释变量是多分类无序次变量,连接分布函数为逻辑斯蒂函数。
有序Logistic模型—如果被解释变量是多分类有序次变量,连接分布函数为逻辑斯蒂函数。
Probit模型—连接分布函数是标准正态分布函数。
为了说明这类模型的机理,我们以二元Logistic回归为例,介绍模型形成过程。
从而理解一些概念。
45一、二元Logistic 模型在讨论家庭是否购房的问题中,可将家庭购买住房的决策用数字1 表示,而将家庭不购买住房的决策用数字0表示。
10yes y no⎧=⎨⎩ 考虑某个家庭在一定的条件下是否购买住房问题时,表示状态的虚拟变量作为一个被说明对象的因变量出现在经济模型中。
后面变量下标i 表示各不同的样本点,取值0或l 的因变量i y 表示第i 个样本点具体选择,而影响其进行选择的自变量i x 。
如果选择响应YES 的概率为(1/)i p y =i x ,则经济主体选择响应NO 的概率为1(1/)i i p y -=x 。
则(/)1(1/)0(0/)i i i i i i E y p y p y =⨯=+⨯=x x x =(1/)i i p y x =。
6根据经典线性回归,我们知道其总体回归方程是根据条件期望建立的,这使我们想象可以构造线性概率模型011(1/)(/)i i i i i i k ik i p y x E y x x x u βββ'====++++x β根据统计数据得到的回归结果,预测概率并不一定能够保证界于[0,1]。
如果通过回归模型式得到的因变量拟合值完全偏离0或l 两个数值,则描述两项选择的回归模型的实际用途就受到很大的限制。
为避免出现回归模型的因变量预测值偏离0或1的情形,需要限制因变量的取值范围并对回归模型进行必要的修正。
为了使得二元选择问题的有进一步研究可能,首先建立一个效用函数。
在讨论家庭是否购房的问题中,可将家庭购买住房的决策用数字1 表示,而将家庭不购买住房的决策用数字0表示。
用1i U 表示第i 个人选择买房的效用,0i U 表示第i 个人选择不买房的效用。
其效用均为随机变量,于是有7 11110000(1)(2)i i i i U u U u αα'⎧=++⎪⎨'=++⎪⎩i i X βX β将(1)-(2),得()10101012()()i i i i U U u u αα'-=-+-+-i X ββ记:*10i i i y U U =-*12ααα=-*10=-βββ*10i i i u u u =-则有 ****i i Y u α'=++i X β,格林称该模型为潜回归方程。
这是二元选择模型的切入点。
称*i Y 为过渡变量(潜在的),这个变量是不可观测8 的。
当效用差*i Y 大于零,则应该选“1”,即购房;当效用差*i Y 小于零,则应该选“0”,即不购房。
故()****(1)(0)()1i i i p Y p Y P u F αα**''==>=>-=--i i X βX β--()****(0)(0)()i i i p Y p Y P u F αα**''==≤=≤-=-i i X βX β-- 此处已经通过*i Y ,将自变量与事件发生的概率联系起来了。
为概率提供了一个潜在的结构模型。
现在的问题是()F ⋅服从何种分布?()F ⋅既然是分布函数,则必须满足分布函数的条件。
称()F ⋅为连接函数,采用累积标准正态概率分布函数的模型称作Probit 模型,或概率单位模型,用正态分布的累积概率作为Probit 模型的预测概率。
另外logistic 函数也能满足这样的要求,采用logistic 函数的模型称作logit 模型,或对数单位模9 型。
logistic 函数形式为()1xxe F x e =+。
该模型的形式为(1)ln 1(1)i i i i p y u p y ='=+-=x β 011(1)ln ...1(1)i i ik k i i p y x x u p y βββ==++++-= 其中,xi 是第i 个样本点自变量观测向量,β是参数向量。
yi 是表示第i 个样本的取值。
xij 表示第i 个样本点第j 个自变量观测值。
模型的含义是:机率((1)1(1)i i p y p y =-=)的对数是解释变量的线性函数。
等价的模型为10 011(1)exp(...)1(1)i i ik k i i p y x x u p y βββ==++++-= 可解释为机率是解释变量的以e 为底的指数函数。
其系数解释为自变量增加一个单位,则机率增减EXP(βj)-1。
如果βj 是正的,则机率增加,如果βj 为负机率减少。
11二、多元Logistic 模型如果被解释变量的取值不止两个,比如出行的交通工具的选择,对政府的某项政策的态度,赞成、反对和弃权。
对于j=1,2,…,J 类的非序次反应模型,多项LOGIT 回归模型可以通过以下形式描述(|)ln ,1,2,...,1(|)i i p y j j J p y J ='==-=i j x x βx 多项LOGIT 回归模型以第J 个选择的概率为对比基准。
第j 个选择的概率与第J 个选择的概率之比的自然对数是解释变量的线性函数。
等价的模型为(|),1,2,...,1(|)i i p y j e j J p y J '===-=i j x βx x 这个模型最终会估计出J-1个常数项和J-1组系数向量。
第J 个选择的概率可以通过J 个选择的概率和为1来得到。
即(|)i p y J =x121(1|)(2|)...(1|)i i i p y p y p y J =-=-=--=-x x x系数的含义可以做如下的解释,因为(|)ln ,1,2,,1(|)i j i p y j j J p y J ⎡⎤='==-⎢⎥=⎣⎦i x x βx 所以(|),1,2,,1(|)i j i i p y j e j J p y J '===-=x βx x当其它条件不变的条件下,当k x 增加一个单位,则(|,,)(|,,),1,2,,1(|,,)(|,,11)jk k k k k p y j p y J e j J p y j J x x y x p x β====-==++可见其参数的解释为:当其它变量不变的条件下,第k 个变量k x 增加一个单位时,y=j 的概率与y=J 的概率比可望增加(减少)()1100%eβ-jk至于是增加还是减少,要视的符号而定。
1314三、有序Logistic 回归当被解释变量的取值之间有序次,比如饮料的口感好坏中差,客户的信用等级1,2,3,4和5。
这时模型要构造有序的离散选择模型。
不妨假设y 有J 个取值。
模型的结构为()ln ,1,2,...,11()j p y j j J p y j μ≤'=+=--≤i x β (),1,2,...,11()j p y j e j J p y j μ'+≤==--≤i x β 模型的含义是,选择小于等于j 的概率与选择大于j 的概率之比取对数后是解释变量的线性函数。
该模型会估计出J-1个常数项μj (j=1,2,…,J-1),SPSS 称其为门槛值,外加一组系数回归系数。
四、Probit模型更为一般的情形,如果选择分布函数F(.)为标准正态分布,则产生PROBIT 回归模型。
21(1/)())2ii i i ip p y t dt'-∞'===Φ=-⎰xβx xβ(二分类logistic回归)21(/)())2ii i i ip p y j t dt'-∞'=≤=Φ=-⎰xβx xβ(有序多分类logistic回归)15第二节模型系数的检验和拟合优度一、模型系数的检验模型系数的检验是基于卡方分布的WALD统计量,该统计量自由度为1。
实际上是系数的估计值与标准差之比的平方。
二、回归模型评价(一)拟合优度(Goodness of fit)1、皮尔逊2χ统计量(Pearson2χ)在回归分析中我们常常引入自变量,在这里称为协变量(covariate)。
在固定的样本规模n下,协变量类型越多,则每个协变量分组越多,则每组中的个案则越少。
皮尔逊2χ统计量检验协变量分组中,预测的次数与观测的次数之间是否拟合得很好。
160:H协变量类型中的实际观测值的与预测值没有差异1:H协变量类型中的实际观测值的与预测值有显著差异统计量为()2 21ˆˆ(1)nii i iresidualsnp p=χ=-∑当样本容量足够大是该统计量服从自由度为J-k-1的2χ分布。
其中J是种类数,k是自变量个数。
这个统计量是如何计算的呢?2、偏差观测值与预测值的拟合优度,还可以用对数似然函数表示。
以ˆSL为设定模型的极大似然函数,它概括了样本数据由这个模型所拟合的程度。
就如像在线性回归模型中我们有一个残差平方和21ˆ()ni iiy yn k=--∑一样,它想象最完美模型的预测值就是观测值1718本生。
在逻辑斯蒂回归模型中类似的统计量为22ln /~()S D L df n k =-χ- (8)0H :设定模型与最完美的模型没有显著性差异;1H :最完美的模型比设定模型好。
这个最完美的模型只可想象,是存在的,但不可及。
当S L 值相对较小时,则D 较大,支持设定模型与完美模型有显著的差异,设定模型不佳。
如果当S L 值相对完美几乎相等,则D 较小,设定模型拟合情况好。
实际上该检验的统计量是对数似然函数的-2倍除以(协变量类型个数减估计参数),即2ln /L df -。
注:局限性是不宜用在连续协变量情形。
当模型中的协变量为连续性变量时,D 和皮尔逊2χ统计量则不适合,因为协变量过多的拟合值,导致了过多的协变量类型。
193、Hosmer-Lemeshow 拟合指标Hosmer-Lemeshow 拟合指标仅仅针对二值响应的模型。