回归的来源:F.Galton和Karl Pearson 研究了1078对夫妇及其一个成年儿子的身高关系。
他们以儿子身高作为纵坐标、夫妇平均身高为横坐标作散点图,结果发现二者的关系近似于一条直线。
经计算得到了如下方程:
这意味着高个子父母的子一代在成年之后的身高平均来说不是更高,而是稍矮于其父母水平,而矮个子父母的子一代的平均身高不是更矮,而是稍高于其父母水平。
Galton将这种趋向于种族稳定的现象称之为“回归”。
不过后来人们研究其它变量间的关系时,并没有发现如上所述的回归现象,但仍沿用回归的概念以纪念伟大的统计学家F.Galton。
在相关的基础上,进一步将两个连续变量之间的线性关系以一个最具代表性的直线来表示,建立一个线性方程式,研究者即可以透过此一方程式,代入特定的X值,求得一个Y的预测值。
这种以单一自变量X去预测因变量Y的过程,称为简单回归。
研究一个变量(因变量Dependent variable)随着其它变量(自变量Independent variable)的变化而变化的趋势。
10. 回归方程的说明:
两点说明:(1)变量x为自变量,变量y为因变量,一般来讲应该有理由认为由于x的变化导致y发生变化;(2)y hat不是一个确定的数值,而是对应于某个确定x的群体的y值的平均值的估计
在回归方程中,b为带有单位的未标准化回归系数,其大小随着X和Y两个变量的单位变化而没有一定的范围。
如果将b乘以X变量的标准差再除以Y变量的标准差,则可去除单位的影响,得到一个不具特定单位的标准化回归系数,称为B(Beta)系数。
Beta系数也是将X与Y变量所有数值转换成Z分数后,所计算得到的回归方程的斜率。
R2称为回归可解释变异比,表示使用X去预测Y时的预测解释力,即Y变量被自变量所削减的误差百分比。
R2又称为回归模型的决定系数,开方后可得R,称为多元相关,为因变量Y’与预测值的相关系数。
以R2来评估整体模型的解释力的问题,是R2无法反映模型的复杂度(或简效性)。
如果研究者不断增加自变量,虽然不一定增加模型解释力,但R2并不会降低
为了处罚增加自变量所损失的简效性,在R2公式中将自由度的变化作为分子与分母项的除项将以控制得到调整后的R2,可以反映自变量数目变动的简效性而损失的影响。
强行进入法:所有变量全部进入方程
强行剔除法:规定为remove的自变量被强行剔除模型
向前法:以各自变量当中,与因变量相关最高者首先被选入,
其次为未被选入的自变量与因变量中有最大的偏相关者,也就是能够增加最多的解释力的预测变量。
在实际执行时,研究者必须选定选入的临界值作为门槛,如以F检验的显著水平p=.05为临界值,如果模型外的变量所增加的解释力最大者的F检验的显著性小于.05,即可被选入模型中。
向后法:与向前法相反,是先将所有自变量投入回归模型,再将最没有预测力的自变量(t 值最小者)依次排除,
也就是各自变量对因变量的净解释力显著性检验未能达到研究者所设定的显著水平者(例如p=.10),依序加以排除,以得到最佳的方程式。
逐步法:整合了向前法与向后法两种策略,
首先是依据向前法的原理,将与因变量相关最高的自变量纳入方程,然后将具有次大预测力且F检验的显著性大于.05的变项纳入方程式中,此时模型中已经包含了两个自变量,如果第二个变量纳入后,原先模型中的自变量的F检验显著性如果低于.10时,则会被排除于模型外。
依循此一原理进行反复的纳入/排除变量的检验,直到没有任何变量可被选入或排除之时,即得到最后的模型。
(1)以上所说的是否具有统计学意义,均以Options按钮中的Entry(引入)、Removal(剔除)选项所规定的P值为准,小于规定的标准,则有统计学意义。
SPSS系统默认的标准分别为0.05和0.10.实际运用中剔除变量P值标准应大于或等于引入变量的标准。
如果以偏F 统计量为筛选自变量的标准,则剔除变量的偏F统计量标准应小于引入变量的标准。
(2)线性回归模型中所包含的自变量组合不同时,对于同一个自变量偏回归系数的统计学检验结果是不同的。
所以在进行逐步回归过程中,有的自变量在前面几步运算过程中被引入模型,而在后面的运算过程中却被剔除出模型。
(3)前进法、后退法、逐步法的侧重点不同。
当自变量间不存在简单线性相关关系时,三种方法计算的结果是一致的。
当自变量间存在一定的简单线性关系时,前进法侧重于向模型中引入单独作用较强的变量,后退法侧重于向模型中引入联合作用较强的变量。
逐步法则介于两者之间。
(4)对于不同的自变量纳入方法,在SPSS中可通过“Next”按钮将其分为不同的“Block”决定其进行模型的方式,同一Block中的自变量内进入模型的方式相同。