当前位置:
文档之家› 第十讲 线性回归分析(Regression)
第十讲 线性回归分析(Regression)
逐步筛选法(Stepwise):
l 一步一步建立方程,初始模型方程中无输入字段。 l 加入能显著增强模型的预测效果的字段;剔除从方程中除去而不显
著减损方程效果的字段。
后退法(Backwards) :最初模型包括所有的输入字段,
然后逐个剔除对模型几乎没有贡献的字段,直至剩下的每一个字段 都显著影响模型预测效果
线性回归节点单步选项
选择两个准则中的一个作为前进的准则,然后确 定使用者需要的临界值。
注意:两个准则之间具有反向关系。
大。
字段对模型越重要,p值越小,F值越
使用F的概率:P<Entry,添加 字段元;P>Removal,剔除字
段元
使用F值:F>Entry,添加 字段元;F<Removal,剔
除字段元
The End
线性回归节点模型选项
模型名称:指定要产生的模型 的名称
方法(Method):指定建立 回归模型的方法(Enter, Stepwise,Backwards,
Forwards)
方程中包括常数(Include constant in equation)
方法(Method)
进入法(Enter):将所有的字段直接选进方程
模型总结(Model summary)
显示了模型适合度的各种总结。如果R-Square Change选项 在线性回归节点输出项中被选中,则在逐步回归,前进法 或后退法的模型调整中的每步的每个改变都会被显示。
方差分析表(ANOVA)
Coefficients:显示模型的系数和这些系数的检验统计量 Confidenceinterval:95%置信区间 Part and partial correlations:偏相关系数和部分相
线性回归节点输出选项
模型拟合优度 (R2)
R2该变量
选择标准
描述统计量 部分相关系数 和偏向关系数 多重共线性诊
断
回归系数
置信区间 (95%) 协方差矩阵 被排除字段
DW统计量
实例演练
利用信用卡数据中,年龄、个人平均月收入、个 人平均月开销、家庭平均月收入à预测”平均月 刷卡金额”
年龄 个人平均月收入 自变量 个人平均月开销
前进法(Forwards) :最初模型没有任何输入字段,检验
尚未进入模型的输入字段对模型的改进程度,对模型改进最大的字 段进入模型。在没有字段可添加到模型或者最好的备选字段对模型 没有多大改进时,生成最终模型。
线性回归节点高级选项(Expert)
遗漏值(Missing values):默 认只使用模型中所有字段元均
关系数
Collinearity Statistics:关于输入字段的共线性统计
量
相关性系数(Coefficient correlations)
展示估计的系数间的相关性
共线性诊断(Collinearity diagnostics)
展示用于分辨输入字段是否来自一个线性相关的集
残差统计表(Residuals statistics )
回归分析
简单线性回归(Simple Linear Regression) 仅有一个自变量与一个因变量,且其关系大 致上可用一条直线表示。
复回归(Multiple Regression) 两个以上自变量的回归。
多变量回归(Multi-Variable Regression) 用多个自变量预测多个因变量,建立的回归 关系。
家庭平均月收入
因变量 平均月刷卡金额
描述型统计量(Descriptive statistics )
相关系数(Correlations )
显示输入和输出字段的相关系数矩阵。单尾的显著系数和 每个相关记录数均将显示。
输入/删除的变量(Variables entered/removed)
显示在逐步(stepwise)回归,前进法回归或后退法 回归时模型中加入或删除的变量。对于前进法, 只有一行显示了加入的所有字段。
只有数值型字段可用于回归模型 必须只有一个“Out”字段和一个以上的“In” 字段 字段方向为“Both”或“None”以及非数值型 的字段将被忽略
Linear Regression Node-优点
回归模型相对简单,并为生成的预测给出易于 解释的数学方程 由于回归建模是一个比较成熟的统计方法,回 归模型的特点容易理解 回归模型训练起来非常快
回归分析
回归分析
回归分析的方法是将所要研究的变量区分为因变量与 自变量,并根据有关理论建立因变量对自变量的函数 (模型),然后利用所获得的样本资料去估计模型中 的参数
自变量(Independent variable)
由数学方程式预测的变量。
因变量(Dependent variable)
据以预测因变量的值的变量。有有值的记录异常值容忍度(Singularity tolerance):这一选项允许用 户指定某一字段元独立于模 型中其他字段元的最小方差
比率
单步方式 (Stepping): 这些选项允 许控制逐步 回归法、前 进法、后退 法中字段进 入和剔除的
准则
注:如果选了Enter法, 则该选项不可用
输出(Output): 这些选项允许要求 在该节点生成的模 型的高级输出中所 出现的附加统计量
回归分析步骤
建立回归方程
利用所得数据 估计回归方程
N
诊断 回归方程
Y
解释回归方程
用回归方程作预测
Linear Regression Node
线性回归节点生成线性回归模型 该模型根据输入字段估计预测输出字段 的最佳线性方程 回归方程代表一条直线或者平面,其预 测值与真实输出值的离差最小
Linear Regression Node-要求
Clementine 12.0 Regression Node
回归方法概论
回归使用一系列的现有数值来预测一个连续数 值的可能值 当研究的因果关系只涉及因变量和一个自变量 时,叫做一元回归分析 当研究的因果关系涉及因变量和两个或两个以 上自变量时,叫做多元回归分析 预测工作中常用的是一元线性回归和多元线性 回归模型