当前位置：文档之家› 第14章有序多分类逻辑斯蒂回归模型

第14章有序多分类逻辑斯蒂回归模型

p1 p1 log it[ p ( y 1)] log it ( p1 ) ln 1 p ln p p p 1 3 4 2 常数项不同，回归系 1 1 x1 2 x2 k xk 数完全相同的
第一个模型表示了y 取第一个值的概率p1与x的关系；第二个模型表示了y 取前两个值的累积概率p2与x的关系。这两个模型的常数项不同，回归系数完全相同的。 y 取第一个值的概率 p(1)=p1 ，y 取第二个值的概率p(2)=p2 -p1，y 取第三个值的概率 p(3)=1- p2 。它们的截距不同，斜率相同，所以是J-1条平行直线族。多值因变量logistic回归模型要求进行数据的平行性检验。
• 14.2 有序回归的案例分析
14.1 有序回归的基本思想
• 研究中常遇到反应变量为有序多分类（k>2）的资料，如城市综合竞争力等级、满意度等可以划分为低、中、高。 • 与名义多分类因变量有所不同，定性有序多分类因变量采用累积logit模型，该模型可利用有序这一特点，得到比基线类别有更简单解释的模型。 • Y的累积概率是指Y落在一个特定点的概率，对结果为类别j 时，其累积概率为：
补充对数—对数
负对数—对数
把观测记录按因变量进行分类的估计概率，有几个水平就保存几个变量保存最大的估计响应概率
保存模型的预测响应分类
输出伪R方
输出累积频数、概率的残差、观测概率、预测概率等内容检验系数在各响应类别中是否相同，仅适用于位臵模型
保存预测正确时的估计响应概率
• 位臵模型设臵：用于指定定位模型中的各种效应
• 某大学医院外科采用两种不同的绷带和两种不同的包扎方式进行腿溃疡的治疗处理。治疗的结果分三种：不愈、有效和痊愈。试分析治疗方法对治疗效果的影响。 • 设因变量 y 表示治疗效果，0=不愈、1=有效、2=痊愈。设自变量x1表示绷带种类，自变量 x2 表示包扎方式。 • 对于多值因变量模型，平行性假设决定了每个自变量的 OR值对于前k-1个模型是相同的。例如，变量x1的 OR=5.172，它表示使用第一种绷带治愈腿溃疡的可能性是使用第二种绷带的5.172倍；它也表示使用第一种绷带至少有效的可能性是使用第二种绷带的5.172倍。
14.2 有序回归的案例分析
• 例：分析债权人如何确定申请者信用风险的问题， SPSS自带数据文件“信誉评价数据.sav” • 因变量Chist（账目情况）取值：没有贷款历史、现在没有贷款、正在偿还、逾期偿还、拖欠贷款
因子一般为分类变量
协变量一般为连续变量，也可以为二分类变量
• 链接：指定链接函数(联系函数、连接函数),即对模型估计中的累积概率的转换函数，根据因变量（反应变量）的情况选择
多元回归中的几种重要模型
• 第一部分：多重共线情况的处理
– 第10章岭回归分析（ Ridge Regression ）
• 第二部分：自变量中含定性变量的处理 – 第11章自变量中含有定性变量的回归分析 • 第三部分：因变量中含有定性变量情况的处理
– 第12章二项Logistic回归
– 第13章多项Logistic回归
14.1 有序回归的基本思想
• 有序回归模型的类型：
当定性因变量y取k个顺序类别时，记为1，2，…，k，这里的数字1，2，…，k仅表示顺序的大小。
因变量y取值于每个类别的概率仍与一组自变量x1,x2,…,xk 有关，对于样本数据 (xi1,xi2,…,xip ;yi)，i=1,2,…,n ，顺序类别回归模型有两种主要类型， •位臵结构（Location component）模型，位臵模型，定位模型
,2, ,n ; 式只针对 i 1
j 1 ,2, , k1 。
。 j 是类别界限值（threshold）
规模结构模型(尺度模型/度量模型,Scale)：
j (1 xi1 2 xi 2 p xip ) link( ij ) exp(1 zi1 m zim )
• 尺度模型设臵：设臵与尺度模型有关的参数
• 主要输出结果
案例处理摘要：可以看出，本例在链接函数的选择上，可以选择补充对数——对数，也可以选择Cauchit 链接函数
• 主要输出结果
说明最终模型要优于只含截距的模型，即模型显著成立
由于本例模型包含连续变量，故空单元格较多，影响了统计量的计算和有效性。因此，本例基于卡方检验的拟合优度统计量不太可信
• 以4 水平的反应变量为例，假设反应变量的取值为1 、2 、3 、 4 ，相应取值水平的概率为p1、p2、p3、p4，则此时进行 Logit 变换的分别为p1、p1+p2、p1+p2 +p3，对k 个自变量拟合三个模型如下:
p1 p2 p1 p2 log it[ p ( y 2)] log it ( p1 p2 ) ln ln 1 ( p1 p2 ) p3 p4 2 1 x1 2 x2 k xk
• 是Pearson 和Deviance 两种拟合优度检验结果。判定规则：卡方值
很小或者P>a，拟合较好。当自变量很多或者自变量中存在连续性变量时，这两个统计量不太适用。这两个统计量有个致命的缺点是对于
自变量取值水平组合的实际观察频数为0 的比例十分敏感，如果上述比例过高，这两个统计量不一定仍旧服从卡方分布，因而基于卡方分布计算的P 值也不可信。即：这两个统计量不一定能真实地反映模型拟合情况。当自变量中存在连续性变量时，如本例中的年龄，常会导致上述比例过高。与上述两个统计量相比，似然比卡方则要稳健得多。本例两个统计量对应的 P 值均小于0.050
（2 ）
其中z是x1,x2,…,xp的一个子集，作为规模结构解释变量，
链接函数（联系函数、连接函数）的几种主要类型
联系函数类型 Logit Complementary log-log Negative log-log Probit Cauchit (inverse Cauchy) 为累积概率形式 log( / (1-) ) log(-log(1-)) -log(-log()) -1() tan((-0.5)) 应用场合各类别均匀分布高层类别出现几率大低层类别出现几率大正态分布两端的类别出现几率大
14.2 有序回归的案例分析
• 例：对某地人群调查其对所从事的工作是否满意，可能的影响因素有:年龄、性别、年收入水平、文化程度。变量的赋值情况见下表，数据见文件satisfy. sav 。试进行统计分析。 • 变量的赋值情况如下：
• 警告信息说明自变量的各种取值水平组合中有多少其观察频数为0 。由于数据库中变量age 为连续性变量，所以这个比例显得较大，此种情况下属于正常现象。
累积概率函数：
j x) exp( ,当 1 j k 1 p j p( y j x) 1 exp( j x) 1,当j k
J等级分为两类：{1,,j } 与 { j+1,,k} 在这两类的基础上定义的 logit 表示:属于后 k-j 个等级的累积概率与前j个等级的累积概率的优势的对数，故该模型称为累积优势模型 (cumulative odds model)。
• 系数大都不够显著，原因可能是因变量的分类顺序不对，也可能是因为链接函数选择不理想。
• 若协变量的参数估计之为正，那么对此变量取值越大的观测目标类别取值也越大，如age变量显著且为正，表明年龄越大拖欠贷款的概率也越大。
• 平行检验：原假设是斜率系数（位臵参数）在各响应类别中都是相等的。由于P<a,否定原假设，说明各回归方程不平行 • 如果平行性检验的P 值非常小，是不能就这样蒙混过关的。其主要原因是链接函数选择不准确，或者系数的确在随着分割点发生变化。可以考虑其他链接函数以及使用无序多分类模型。
p(Y j x) p1 p2 p j , j 1,, k
• 累积概率满足：
p(Y 1) p(Y k ) 1
• 累积概率的模型并不利用最后一个概率，因为它必然等于1
14.1 有序回归的基本思想
pj j 1 x1 2 x2 n xn log it ( p j ) ln 1 p j pj = p(y≤j | x)，它表示 y 取前 j 个值的累积概率。
•规模结构（Scale component）模型，尺度模型，定量模型
位臵结构模型（位臵模型/定(1xi1 2 xi 2 p xip ) （1）
其中 link( ) 是联系函数， ij i 1 ij 是第 i 个样品小于等于 j 的累积概率，由于 ik =1，所以（1）
•反应变量与离散自变量不同取值水平的边际频数分布
• 对模型中是否所有自变量偏回归系数全为0 进行似然比检验（判断规则：P<a，拟合较好），结果P <0. 001，说明至少有一个自变量的偏回归系数不为0 。即：拟合包含年龄、性别、年收入水平、文化程度4 个自变量的模型其拟合优度好于仅包含常数项的模型。
张文彤版本的常数项前均为负号
• 根据上述公式，可以分别求出：
• 由上述建立的模型可以看出，这种模型实际上是依次将反应变量按不同的取值水平分割成两个等级，对这两个等级建立反应变量为二分类的Logistic 回归模型。不管模型中反应变量的分割点在什么位臵，模型中各自变量的系数都保持不变，所改变的只是常数项。此时求出的OR 值表示自变量每改变一个单位，反应变量提高一个及一个以上等级的比数比。OR exp( i ) • 张文彤认为，这里拟合的模型中常数项之前的符号应当是“负号”，原因在于此处的常数项正好表示低级别和高级别相比的情况，且必然有，但由于研究者主要关心的是各参数（系数）的大小，因此这种差异影响不大。并且由SPSS给出的系数无需再添加符号。

e商务文档

第14章有序多分类逻辑斯蒂回归模型

相关文档推荐：

e商务文档

第14章 有序多分类逻辑斯蒂回归模型

相关文档推荐：

第14章有序多分类逻辑斯蒂回归模型