利用-Logistic 回归二次判别法提高判别分析效率朱勇华张庆丰华北电力大学,北京,102206三、利用Logistic 回归提高判别分析效率,一般情况下,距离判别分析对资料的基本要求是:分组类型在两组或两组以上;在第一阶段工作时每组案例的规模必须至少在一个以上;预测变量必须是可测量的以计算其平均值和方差来得到相应的统计函数。
另外还需要有一定的假设条件:1、每一个判别变量(预测变量)不能是其他的判别变量的线性组合;2、各组变量的协方差矩阵相等;3、各判别变量之间具有多元正态分布。
与此相比,Logistic 回归没有类似假设,而且当这些假设不满足时结果非常稳定,具有很好的稳健性。
比如我们可以采用主成分分析来有效减轻预测变量之间的多元共线性,当预测变量是非度量变量是可以采用引入哑变量的方法来进行回归从而达到判别个体归属的目的等。
从另一个方面讲,判别分析实际上是一种针对资料结构进行的分析方法,而回归分析则是基于资料之间的相关关系进行的分析方法,可以说这两种方法各有长处,将这两种方法的优点进行结合,显然有助于我们的分析。
接下来我们看一下具体操作方法。
首先需要确定判别准则,Logistic 回归意在对回应变量Y 取0 或 1 两个值的概率建模。
由此,我们可以根据预测变量X 的不同水平来计算的预测概率。
如果所得预测概率值相当大,那么我们当然要预测要发生了。
反之如果预测概率相当小,我们当然要预测要发生了。
这里存在一个问题即如何确定所谓“相当大"或“相当小"。
也就是如何确定这两者之间的分割点。
关于如何确定分割点目前主要存在以下几种做法:1、采用0.5 作为分割点;2、选用“最佳"分割点;3、根据先验概率和误判损失来确定分割点。
Y = 1Y = 1Y = 0在此,我们推荐采用一种新的确定分割点的方法,即二阶段判别的方法。
所谓二阶段判别,即在第一阶段,分别尝试用距离判别法和Logistic 回归进行模型拟合,如果效果很好,可以考虑判别分析到此为止。
反之,根据Logistic 回归得到的预测概率值选定一个筛选标准将样本分为三类:“1"组、“0"组和“不确定"组,然后对不确定组的样本采用第三种方法,即根据先验概率和误判损失来确定分割点。
这样的话我们就可以最大限度地发挥Logistic 回归的模型优势并且可以充分利用样本信息。
为了进一步说明理论依据,我们采用图示的方法进行说明:假设样本分布如上图,我们显然可以首先将分布区域Ⅰ、Ⅲ中的样本做出判别,然后再依据样本在区域Ⅱ中的频数信息确定分割点以对分布区域Ⅱ中的样本点进行判别。
此例中,如果直接依据总样本的频数信息来进行判别的话显然有些不合理。
特别刊管理科学与统计决策Special issue 2006 年11 月Management Science & Statistical Decision Nov.2006 60四、案例验证为了了解学习口语和交际策略对于英语学习的影响,以研究对策,改进教学和学习方法,从而最终使广大同学更快更好地学习英语,我们搞了一个问卷调查。
具体调查结果见下表:表 1 关于英语口语学习与交际策略的调查分析表ID Y X1 X2 X3 X4 X5 X6 P G1 G21 1 2.5 1.88 2.83 2.2 2 1.5 0.06079 1 12 13 2.25 2.67 2.2 2.17 1.83 0.0889 1 13 1 3.75 2.25 2.67 2.6 2.5 2.17 0.18914 1 14 1 2.75 2.38 3 2.4 2.17 1.5 0.18491 1 15 1 3 2.5 3.67 2.6 2.17 2.5 0.0888 1 16 1 3 2.63 3 3 2.67 3 0.14638 1 17 1 3 2.75 3.83 3.4 2.33 2.67 0.35123 1 18 1 3.75 2.75 2.83 3.4 3 3.17 0.38762 1 19 1 3 2.88 3.17 2.8 2.5 2.83 0.15765 1 110 1 3 3 4 3 2.5 2.83 0.22117 1 111 1 3.25 3 3.5 3 2.33 2.33 0.40597 1 112 1 3.5 3.13 2.83 3.2 3 3.33 0.32839 1 113 1 3.5 3.13 2.83 3.2 3 3.33 0.32839 1 114 1 3.75 3.13 3.17 2.8 2.33 2.67 0.32223 1 115 1 3.5 3.25 3 2.4 2.33 2.33 0.26847 1 116 1 4.5 3.25 3.17 3.8 3.5 3.67 0.70461 2 217 1 3.25 3.38 3.33 3.2 3.33 3.17 0.43879 1 118 1 3.75 3.38 3.67 2.6 2.17 2.5 0.33002 1 119 1 3.5 3.5 2.83 2.6 2.83 2.17 0.54732 2 1*20 1 4 3.5 3.5 3.6 2.83 2.67 0.83607 2 221 1 3.5 3.63 3 2.8 2.17 2.83 0.38242 1 122 1 4 3.63 4 3.8 3 3.67 0.67922 2 223 2 3.5 2.5 2.17 2 1.67 1.83 0.09859 1 124 2 3.5 2.63 3.17 3.4 2.67 2 0.67336 2 225 2 2.75 2.75 3.5 2.6 2 2.5 0.10195 1 126 2 3 2.75 3.67 3.6 3.5 2.83 0.5126 2 227 2 2.75 3 3.17 4.2 3.17 2.33 0.8909 2 228 2 4.5 3.13 3.33 2.8 2.33 2.67 0.41669 1 129 2 3.25 3.25 3.5 3.4 2.67 2.83 0.54195 2 230 2 3.5 3.25 3.67 3.2 2.83 2.67 0.54531 2 231 2 3.75 3.25 3.67 3.8 3.33 2.67 0.84758 2 232 2 4.5 3.25 3.33 3.4 4.5 2.33 0.91477 2 233 2 3.75 3.38 3.17 3.4 2.5 3.67 0.35805 1 134 2 3.25 3.5 3.5 3.2 2.67 1.83 0.82388 2 235 2 3.5 3.5 3.5 3.6 4 3.83 0.53661 2 236 2 4.25 3.5 3.33 3.4 3.17 3.33 0.64499 2 237 2 3.5 3.63 3 3.8 2.5 3.67 0.60573 2 238 2 4 3.63 4 3.8 4 1.33 0.98909 2 239 2 4.5 3.63 3.33 3.6 3.67 3.5 0.7808 2 240 2 4.5 3.75 3.83 3.6 4.5 3.33 0.87265 2 241 2 4.5 4 3.33 3.2 3 3.33 0.72137 2 242 2 4.25 4.13 4 3.4 3.5 3.67 0.72663 2 243 2 4.5 4.13 3.17 4.8 3.67 3.83 0.97966 2 244 2 3.5 4.38 3.17 4.4 3.33 3.33 0.96835 2 2上表中,Y代表根据学习成绩进行的分组情况,1组为低分组,2组为高分组;X1代表学生的记忆策略得分;X2代表学生的认知策略得分;X3代表学生的补偿策略;X4代表学生的情感策略;X5代表学生的社交策略;X6代表学生的原认知策略。
该样本取自华北电力大学2003级外语系学生。
首先采用一般距离判别分析,可得到其最终判别效果见下表:接下来就让我们看一下Logistic 回归判别的效果。
首先得到预测概率回归方程式分别为:然后由此计算的出各个样本点的预测概率值,见表1 的P 列,这里的P 值是对样本点属于第二组的预测概率;接下来选择0.5 为分割点对样本进行判别归类,其预测组别见表 1 的G1 列;最后对预测结果进行汇总可知其最终判别效果如下表:接下来让我们采用本文所提出的二次判别确定分割点法对此例进行进一步的分析看能不能提高分析效率。
如前所述,我们首先依据表2 中的P列,也即预测概率值,确定一个筛选标准。
比如说选择0.8 为筛选标准,即预测概率达到或超过0.8 的则直接将其判断为第二组,预测概率低于0.2的则直接将其判断为第一组,剩下的将其归为“不确定组"。
此例中,“不确定组"包括第7、8、10、11、12、13、14、15、16、17、18、19、21、24、26、28、29、30、33、35、36、37、39、41、42号样本,其中属于第一组的有14 个样本,属于第二组的有12 个样本,然后对不确定组样本进行二次判别,其判别结果见表 2 的G2 列。
可见第19 号样本原来错误的判归为第二组,现在则成功地判归为第一组,由此可见本方法还是有效的。
五、研究展望通过以上理论说明及案例验证,我们可以看出采用本文所介绍的Logistic 回归二次判别法可以有效的提高我们的判别效率。
实际上我们还可以根据回归方程式,然后根据此式可以对影响学生成绩的因素进行深入分析。
根据各种学习策略在回归方程中的系数可以看出在影响学生英语成绩的各种学习策略中,认知策略、情感策略和原认知策略对学生英语成绩的影响要比记忆策略、补偿策略和社交策略的影响重要许多。
当然了,根据各预测变量的系数符号可以看出记忆策略、任职策略、情感策略和社交策略对学生英语成绩的影响是正面的,而补偿策略和原认知策略则对英语成绩的影响是负面的,这也可以启发我们对该课题进行进一步分析。
从而我们可以说,应用Logistic 回归分析在此种情况下要比单纯的距离判别得到的信息多得多。
总之,把 Logistic 回归分析方法引入到判别分析中可以提高我们的判别效率,加深对样本的理解深度,有助于我们对问题进行更为深入的研究,是一种值得提倡的应用统计分析方法。