SAS相关与回归分析
( x x)
2 ( y y )
பைடு நூலகம்
ni ADJRSQ 1 (1 r 2 ) n p
6.1.3 直线相关与回归分析的应用举例
6.2 相关、回归过程说明
6.2.1 CORR相关过程 PROC CORR 选择项 ; VAR 变量 ; WITH 变量 ; BY 变量 ; FREQ 变量 ; WEIGHT 变量 ; RUN ;
6.4.2 NLIN应用举例
程序说明: 先将原始数据生成SAS数据集:nlin6_11.sas7bdat, 选用牛顿法(NEWTON)进行迭代计算,因而需求 出y关于系数a、b、c、d的一阶偏导数,如果需要 求a、b、c、d的二阶混合偏导数时,只准许给出 1个der.a.b.或der.b.a. ,不能同时给出2个。其它 系数的混合偏导数要求同样。在步长搜索法没指 定时,缺省值为SMETHOD=HVALVE,即各次 迭代的步长k依次取为k=1,0.5,0.25,…;在 SMETHOD=后除选用HVALVE外,还可选用 GOLDEN(黄金分割法)、ARMGOLD和CUBIC。
例6.4 小麦-玉米/花生间套作肥料试验,研究 不同处理的施肥利润。变量说明:n:施氮 肥量(kg/亩)、po:施磷肥量(kg/亩)、k:施 钾肥量(kg/亩)、y:平均施肥利润(元/亩)。 分析平均施肥利润y与施氮肥量n、施磷肥量 po、施钾肥量k之间的关系。 [SAS程序reg6_4.sas]
程序说明:按对数曲线方程和幂函数曲线方程 分别求出各点上y的估计值yhat1和yhat2、 残差resid1和resid2、残差平方和scrs1和 scrs2。使用PLOT过程将原始数据与预测值 绘在一张图上。
6.3.4
一般多项式曲线拟合
程序说明:用DATA步建立新变量:x2、x3分别为x 对数的二次方和三次方,在MODEL语句中将这两 个新变量加入,用逐步回归法重新拟合对数曲线, 将预测值和残差值输出到数据集reg6_10out中,然 后用PLOT过程将预测值与原始数据绘制在一张图 上,从图形上可以较直观地比较预测值的效果好 坏。首先我们使用下面这条MODEL语句进行模型 拟合: model y=x1 x2 x3/selection=stepwise P cli R ; 由输出结果发现截距项在模型中不显著(输出省 略),所以添加上NOINT选项,去掉模型中的截 距项重新拟合。
6.3.3 应用举例
data data_prg.reg6_6a; set data_prg.reg6_6; x11=x1*x1;x22=x2*x2;x33=x3*x3; run; proc reg data=data_prg.reg6_6a; model y=x1-x3 x11 x22 x33/selection=stepwise ; model y=x1-x3 x11 x22 x33/selection=b noint; model y=x1-x3 x11 x22 x33/selection=f noint; model y=x2 x22 x33/selection=stepwise noint r cli influence collin ; run; quit;
2. 回归分析要解决的问题 当人们从一组对象上获得2个或多个指标的观测值时,往往需 要回答下述几个问题: 1) 如何实现预测,即如何由1个或多个指标(自变量)的值去 推算另1个或多个指标(因变量)的值。 2) 如何实现控制,即事先给出产品质量应达到的标准(自变 量的取值范围),根据变量之间的数量关系去控制那些影 响产品质量的因素(因变量)的变化区间。 3) 如何实现修匀,由于所研究的指标带有变异性,当用散布 图将变量之间的关系呈现出来时,散点所形成的轨迹并非 像数学中初等函数那样有规律,需要用合适的数学方法 (如用直线或某种光滑曲线)对资料进行修匀,使变量之 间本质联系更清楚地呈现出来。
6.2.3 REG 回归过程
9.几点说明: 在REG回归分析过程中MODEL语句不能写 成: model y=x1 x1*x1 ; REG过程不能产生新的变量,如想在回归 模型中考虑变量的二次项x12(=x1*x1), 必须使用DATA步创建数据集,或构造所需 要的新变量来表示x1*x1 。 以上MODEL语句在PROC GLM中是有效 的。
6.2.2 PLOT过程
PROC PLOT 选择项1 ; BY 变量 ; PLOT 垂直变量 * 水平变量 … / 选择项2 ; RUN ;
例6.3
SAS程序corr6_3.sas 此图为原始数据的散点图,纵轴为小麦结实率 y,横轴为孕穗期平均温度x1、平均最低温 度x2、抽穗期平均温度x3、平均最低温度x4, 四个二维图重叠在一起,小麦结实率y与四 个变量都有一定的相关性。
6.2.4 用各种回归方法筛选变量
6.3
直线回归分析
6.3.1 概述 1.回归分析中安排重复试验的目的 2.重复试验数据的收集与格式 3.重复试验数据的回归分析方法 1)建立直线回归方程 2)回归方程拟合效果的检验
6.3.2 可直线化的简单曲线拟合
2.曲线拟合的基本步骤 曲线拟合的基本步骤可概述如下: 首先画出(x,y)的散点图,根据散点图的变化趋势, 并结合常见曲线图形的形状和专业知识,初步选 定几种最可能的曲线类型; 根据所选定的曲线方程的特点,作相应的变量变换, 使曲线直线化; 建立直线化后的直线回归方程,并作显著性检验; 将变量还原,写出用原变量表达的曲线方程; 若对同一批资料拟合了几个可能的模型,需作曲线 的拟合优度检验,看它们在描述同一批资料上是 否有显著差别; 对拟合得最好的曲线方程作残差分析,考察所拟合 的曲线回归方程在专业上是否成立,是否值得应 用。
2.用方差膨胀因子来进行共线性诊断 1)容许度(Tolerance,MODEL语句斜杠后的选项为TOL) 对一个入选变量而言,其容许度等于1-R2,这里R2是把该自 变量当作因变量对模型中所有其余回归变量的决定系数, R2大(趋于1),则1-R2=TOL小(趋于0),容许度差,该变 量不由其他变量说明的部分相对较小。 2)方差膨胀因子(VIF) VIF=1/TOL,该统计量称为“方差膨胀因子”(Variance Inflation Factor)。对于不好的试验设计,VIF的取值可 能趋于无限大。VIF达到什么数值就可认为自变量间存 在共线性,尚无正规的临界值。[陈希孺、王松桂,1987] 根据经验得出:VIF>5或10时,就有严重的多重共线性 存在。
3.相关分析的种类 实际工作中的相关问题主要包括线性相关(Linear Correlation)和秩相关(Rank Correlation), 前者属于参数统计分析方法的范畴,后者则属于 非参数统计分析方法。线性相关又称为简单相关 (Simple Correlation),适用于双变量符合正态 分布类型的数据。秩相关又称等级相关,适用于 双变量等级资料类型的数据。具体来讲,秩相关 分析方法适用于下列类型的资料: 不服从双变量正态分布而不宜做积差相关分析的数 据。 总体分布类型未知的数据。 以等级表示的数据。
6.4
非线性回归过程NLIN
6.4.1 NLIN过程简介 PROC NLIN 选择项 ; MODEL 因变量=自变量表达式 ; PARAMETERS或PARMS 参数=数值 …… 参数=数值 ; BY 语句 ; BOUNDS 语句 ; (参数约束语句) DER 语句 ; (微商语句) OUTPUT OUT=SAS数据集,KEYWORD=变量 名 …… ; RUN ;
6.4.3
多条回归直线的方差比较
6.5
多元线性回归分析
6.5.1多元线性回归分析的概述 1.回归分析的任务 2.自变量为定性变量的数量化方法 3.变量筛选 4.回归诊断
6.5.2 应用举例
例6.18 采用NLIN过程对方程: y=0.66617x1+1.93325x3+0.34291x40.04042x32 进行参数精确估计。对去掉第17、21两点的数 据进行模型拟合。 SAS程序:regnlin6_18.sas
程序说明:因变量y与自变量x满足负指数函数 模型:y=b0(1-e-b1x)。有两个参数b0和b1用 MARQUARDT方法求参数的最小二乘估计。 参数的初值:b0取0、0.5、1、1.5、2共5个 值,b1取0.01、0.02、……0.09共9个值,所 以可能的组合为5*9=45种,选best=10要求 输出残差平方和最小的前10种组合。
6.6.2 RSREG过程语句格式 PROC RSREG 选择项1 ; MODEL 响应变量=自变量 / 选择项2 ; RIDGE 选择项3 ; WEIGHT 变量 ; ID 变量 ; BY 变量 ; RUN; PROC RSREG和MODEL语句是必须的,其 它语句用户可根据需要选择使用。
3. RIDGE 选择项3
6.6 RSREG过程(二次响应面回归过程)
6.6.1 RSREG过程说明 RSREG过程用于拟合完全二次响应曲面的回归模型。 并通过分析研究拟合曲面的形状来最佳响应的因 子水平或范围。 假定某个响应变量y在两个因子变量x1和x2的一些组 合值上被测量,关于响应变量y的二次响应曲面 回归模型为: y=0+1x1+2x2+3x12+4x22+5x1x2+ 对这样的数据进行分析一般有以下三项任务: 模型拟合及对参数估计作方差分析; 为了调查预测响应曲面的形状而进行典型相关分析; 为了寻找最佳响应的范围而进行岭嵴分析。
6.6.3 应用举例
例6.20 鞍面的岭嵴分析 此例考察的指标是化学反应过程的收率,影 响收率的因素有二个:反应时间(time)和 温度(temp)。这是一个双因子模型,该模 型中所估计的曲面没有唯一最佳点。利用岭 嵴分析来决定最佳点的范围。目的是在化学 反应过程中寻找使得收率达到最大的反应时 间和温度的取值。 SAS程序rsreg6_20.sas
4.回归分析的种类 如果因变量是(非时间的)连续变量(即一般定 量资料),设自变量的个数为k,当k=1时, 回归分析的种类有: 直线回归分析。 通过直线化实现的简单曲线回归分析(以下简 称为曲线拟合)。 非线性曲线拟合。 一般多项式曲线拟合。 正交多项式曲线拟合。