当前位置：文档之家› 优势分析：在多元回归中比较预测因子相对重要性的新方法-PPT课件

优势分析：在多元回归中比较预测因子相对重要性的新方法-PPT课件

1、将自变量与因变量的零次相关或平方相关作为评判自变量重要性的标准。其对重要性的定义为一个自变量独特、直接的预测能力，忽略模型中其他所有的自变量。 2、由于不恰当地确定模型，无论是遗漏了重要的自变量，或者将不重要的自变量纳入到了模型中都会导致，模型的失真，所以应该认为，能够纳入到一个恰当模型中的所有自变量都是同等重要的。
数据实例：
BACK
计算和样本理论根据优势方程的定义，对于要进行优势分析的每一对变量，每一个变量都需要和其他许多偏模型进行多元相关系数平方的比较。如果要包括所有的子模型，则一个变量要进行p(p-1)/2 个配对比较。因此，计算一次优势分析必须先计算出2p－1个多元相关系数平方值。让 p 表示所有子集的多元相关系数平方的（2p－1）× 1 向量，让 Aij 表示在进行 xi 和 xj 的对比时，与其有关进行对照的2p－2个模型的（2p－2）×（2p －1）矩阵。 Δ ij= Aij p , Δ ij就是包括所有有关差异的一个（2p－1） × 1向量。

3、自变量的重要性应为某个自变量在控制其他变量不变的情况下其对于完整模型的贡献： 3.1增溢法：考察控制其他变量情况下，某自变量变化一个单位，导致因变量变化的比例。例如以某自变量的回归系数与其数学期望乘积的绝对值作为检验标准。形象的理解为自变量的弹性。
3.2方差法：在控制其他变量的情况下，比较各自变量对于因变量方差贡献的大小 3.2.1由方差的可加性得：
优势分析：在多元回归中比较预测因子相对重要性的新方法
在使用多元回归的过程中，研究者不仅要得出一个包含多个自变量的回归等式，而且要指出哪个自变量相对来说是最重要的，这样的结果实际应用中才更有意义。在理想的情况下，各个自变量之间没有相关（或者相关极小），那么，因为各个回归系数都是标准化的，其相对重要性就是标准化回归系数的平方。大多数情况下，各个自变量之间存在着不可忽略的相关，这个时候重要性的比较就不能简单地从标准化回归系数得出。对此，不同

比较相对重要性应遵循的原则： 1、重要性应定义为自变量在预测因变量时对于减少误差的贡献。 2、应该能够对自变量的相对重要性作直接比较而非推断比较。 3、重要性应该能够反映直接效应（自变量的单独效应）、总效应（纳入其他所有变量）、偏效应（纳入其他部分变量），即要求重要性的结论在全模型与子模型中保持一致。
即把各自变量的标准化回归系数平方中与要考察变量相关的部分提出来相加，即乘以其与要考察自变量之间的相关系数。
上述方法的缺陷 1、对于重要性的定义过于狭窄、模糊甚至有问题，限制过于严格，与人们实际应用相距太远。 2、不同定义之间难以相容，无法比较、交流研究结果，甚至根据不同的定义得出结论完全不同。 3、很高的模型依赖性，在不同的子模型中得出相对重要性的结论可能完全不一样，所以重要性的检验应该在全模型和子模型中结论一致。 4、重要性的比较应该是“净”的，如果变量之间高度相关，根本不可分，更无法比较分离出的重要性，那么此时重要性的比较就没有任何意义，所以应该首先区分可以比较和不能比较相对重要性的模型。

优势分析的质的定义优势是成对的关系，如果全模型包括p个自变量，那么就有p(p-1)/2对优势的比较；确定和优势关的其他自变量所构成的任何子集（包括空集）。

优势分析定义的变式：

一个变量比另一个变量重要即它在任何子模型中对因变量的预测能力都大于另一个。
接着，我们再来看一个p=4的例子，用取得博士以后的年限（x1）、出版著作的多少（x2）、性别（x3）和被引用的频率（x4）来预测薪水（y) ：
从表7和表8来看，我们可以得出：
由简单的相关系数我们可以得出：pyx1> pyx4 > pyx2 > pyx3 根据标准回归系数的排序我们可以得出： b1> b4 > b3 > b2 根据变量的有效性我们可以得出：U(x4)> U(x1)>U(x3)> U(x2)
表4表示的是一个p=3的例子的计算。这个表呈现了向量p，三个矩阵的比较， A12、A13和 A23，即分别比较了x1和 x2、x1和 x3 、x2和 x3 ，以及向量Δ 12 、Δ 13 、 Δ 23之间的不同。
对于小样本模型还没有很好的精简的推理方法，只有一个近似的解决方法，即去“jacknife”那个估计值。这种方法大致过程是：每次都忽略一个观测值，这样我们就可以得到n个对所有相关的多元相关系数平方值的伪独立估计，通过对方差——协方差矩阵的估计，我们就可以得到近似的置信区间。对大样本进行优势分析，我们可以用一个例子来说明。我们用社会经济地位（SES）、IQ和成就动机（nAch）来预测大学的GPA成绩。如图：
表：样本中的相关矩阵和多元回归系数平方值的向量。
表6呈现了三对预测变量相比较的95%渐进置信区间值。判断的标准是如果某对相比较差值的置信区间的下限都为非负的，那么xi D xj ；如果某对比较的置信区间的上限都为非正的，那么和 xj D xi ，如果某对比较的置信区间跨过零点，那么它们的优势关系无法确定。

即所有自变量对因变量的贡献可以分解为各个自变量在控制其他自变量情况下对模型贡献，这样的分解式有个，而某个自变量的重要性即为在个分解式中它的贡献的平均值。 EG
3.2.2某自变量的重要性即为其它对因变量的直接效应（与因变量的相关系数）与总效应（标准回归系数）的乘积。
3.2.3某自变量的重要性可量化为其与因变量的相关的平方，由于自变量之间的相关，所以：
优势分析的量化：由两个自变量的比较推广到所有自变量的同时比较时，是除自身外的其他所有p1个变量构成的所有子集（包括空集），

表示在由k（0<=k<=p-1)个自变量构成时，该自变量的单独贡献的平均值。将其累加求平均数，即该自变量在所有子模型下的贡献平均值。

EG：当有3个自变量时：

e商务文档

优势分析：在多元回归中比较预测因子相对重要性的新方法-PPT课件

相关文档推荐：