当前位置:文档之家› 优势分析:在多元回归中比较预测因子相对重要性的新方法-PPT课件

优势分析:在多元回归中比较预测因子相对重要性的新方法-PPT课件




1、将自变量与因变量的零次相关 或平 方相关 作为评判自变量重要性的标准。 其对重要性的定义为一个自变量独特、 直接的预测能力,忽略模型中其他所有 的自变量。 2、由于不恰当地确定模型,无论是遗漏 了重要的自变量,或者将不重要的自变 量纳入到了模型中都会导致,模型的失 真,所以应该认为,能够纳入到一个恰 当模型中的所有自变量都是同等重要的。
数据实例:
BACK
计算和样本理论 根据优势方程的定义,对于要进行优势分析的每一对变量, 每一个变量都需要和其他许多偏模型进行多元相关系数平方的 比较。如果要包括所有的子模型,则一个变量要进行p(p-1)/2 个配对比较。因此,计算一次优势分析必须先计算出2p-1个 多元相关系数平方值。 让 p 表示所有子集的多元相关系数平方的(2p-1)× 1 向量,让 Aij 表示在进行 xi 和 xj 的对比时,与其有关进行对照 的2p-2个模型的(2p-2)×(2p -1)矩阵。 Δ ij= Aij p , Δ ij就是包括所有有关差异的一个(2p-1) × 1向量。


3、自变量的重要性应为某个自变量在控 制其他变量不变的情况下其对于完整模 型的贡献: 3.1增溢法:考察控制其他变量情况下, 某自变量变化一个单位,导致因变量变 化的比例。例如以某自变量的回归系数 与其数学期望乘积的绝对值作为检验标 准。形象的理解为自变量的弹性。
3.2方差法:在控制其他变量的情况下,比较 各自变量对于因变量方差贡献的大小 3.2.1由方差的可加性得:
优势分析:在多元回归中比较 预测因子相对重要性的新方法
在使用多元回归的过程中,研究者不仅要得 出一个包含多个自变量的回归等式,而且要 指出哪个自变量相对来说是最重要的,这样 的结果实际应用中才更有意义。 在理想的情况下,各个自变量之间没有相关 (或者相关极小),那么 , 因为各个回归系数都是标准化的,其相对重要 性就是标准化回归系数的平方。 大多数情况下,各个自变量之间存在着不可 忽略的相关,这个时候重要性的比较就不能 简单地从标准化回归系数得出。对此,不同

比较相对重要性应遵循的原则: 1、重要性应定义为自变量在预测因变量时 对于减少误差的贡献。 2、应该能够对自变量的相对重要性作直接 比较而非推断比较。 3、重要性应该能够反映直接效应(自变量 的单独效应)、总效应( 纳入其他所有 变量)、偏效应(纳入其他部分变量), 即要求重要性的结论在全模型与子模型 中保持一致。
即把各自变量的标准化回归系数平方中与要考察 变量相关的部分提出来相加,即乘以其与要考 察自变量之间的相关系数。
上述方法的缺陷 1、对于重要性的定义过于狭窄、模糊甚至有问 题,限制过于严格,与人们实际应用相距太远。 2、不同定义之间难以相容,无法比较、交流研 究结果,甚至根据不同的定义得出结论完全不 同。 3、很高的模型依赖性,在不同的子模型中得出 相对重要性的结论可能完全不一样,所以重要 性的检验应该在全模型和子模型中结论一致。 4、重要性的比较应该是“净”的,如果变量之 间高度相关,根本不可分,更无法比较分离出 的重要性,那么此时重要性的比较就没有任何 意义,所以应该首先区分可以比较和不能比较 相对重要性的模型。

优势分析的质的定义 优势是成对的关系,如果全模型包括p个自 变量,那么就有p(p-1)/2对优势的比较; 确定 和 优势关的 其他自变量所构成的任何子集(包括空 集)。

优势分析定义的变式:

一个变量比另一个变量重要即它在任何子模型 中对因变量的预测能力都大于另一个。
接着,我们再来看一个p=4的例子,用取得博士以后的年 限(x1) 、出版著作的多少(x2) 、性别(x3)和被引 用的频率(x4)来预测薪水(y) :
从表7和表8来看,我们可以得出:
由简单的相关系数我们可以得出:pyx1> pyx4 > pyx2 > pyx3 根据标准回归系数的排序我们可以得出: b1> b4 > b3 > b2 根据变量的有效性我们可以得出:U(x4)> U(x1)>U(x3)> U(x2)
表4表示的是一个p=3的例子的计算。这个表呈现了向量p, 三个矩阵的比较, A12、A13和 A23,即分别比较了x1和 x2、x1和 x3 、x2和 x3 ,以及向量Δ 12 、Δ 13 、 Δ 23之间的不同。
对于小样本模型还没有很好的精简的推理方法,只有一个 近似的解决方法,即去“jacknife”那个估计值。这种方法大致过 程是:每次都忽略一个观测值,这样我们就可以得到n个对所有 相关的多元相关系数平方值的伪独立估计,通过对方差——协 方差矩阵的估计,我们就可以得到近似的置信区间。 对大样本进行优势分析,我们可以用一个例子来说明。我 们用社会经济地位(SES)、IQ和成就动机(nAch)来预测大学 的GPA成绩。如图:
表:样本中的相关矩阵和多元回归系数平方值的 向量。
表6呈现了三对预测变量相比较的95%渐进置信区间值。判断的标准是 如果某对相比较差值的置信区间的下限都为非负的,那么xi D xj ;如 果某对比较的置信区间的上限都为非正的,那么和 xj D xi ,如果某对 比较的置信区间跨过零点,那么它们的优势关系无法确定。

即所有自变量对因变量的贡献可以分解为各个自 变量在控制其他自变量情况下对模型贡献,这 样的分解式有 个,而某个自变量的重要性即 为在 个分解式中它的贡献的平均值。 EG
3.2.2某自变量的重要性即为其它对因变量的直接 效应(与因变量的相关系数)与总效应(标准 回归系数)的乘积。
3.2.3某自变量的重要性可量化为其与因变量的相 关的平方,由于自变量之间的相关,所以:
优势分析的量化: 由两个自变量的比较推广到所有自变量的 同时比较时, 是除自身外的其他所有p1个变量构成的所有子集(包括空集),

表示在由k(0<=k<=p-1)个自变量构成 时,该自变量的单独贡献的平均值。将 其累加求平均数,即该自变量在所有子 模型下的贡献平均值。

EG:当有3个自变量时:

相关主题