直线回归和相关分析幻灯片
金花柿的单果重和果实横径见表9.5。
表9.5 金花柿的单果重和果实横径
9.3.2 相关系数的假设检验
表9.6 例9.10资料相关关系的方差分析
由表9.6得到F = 226.52>F0.01=9.07,表明金 花柿的单果重与果实横径有真实直线相关 关系,具有统计学上极显著的意义。
需要说明一点:相关平方和=回归平方和, 相关自由度=回归自由度;非相关平方和= 离回归平方和,非相关自由度=离回归自由 度。因此,直线回归关系的F检验与直线相 关关系的F检验相同。
图9.3 一元线性回归数学模型示意图
对于线性回归分析的资料, 要求满足正态性、可加性及 同一性的要求,参见第5章。
3.直线回归方程的计算及性质
[例9.1] 1979年9月,莱阳农学 院随机调查了8个茌梨成龄果园, 以枝条数量为x,以叶面积为y。如 图9.4所示。计算y对x的直线回归 方程。
将表9.1中的(x,y)作散点图呈 直线趋势,故可以进行直线回归分 析。表9.2是其直线回归分析计算 表。
图9.4 茌梨成龄果园枝条数量与叶面 积的散点图
表9.1 茌梨成龄果园枝条数量与 叶面积的关系
表9.2 直线回归分析计算表
4.直线回归方程的图示
直线回归图包括回归直线的图像和 散点图(Scatter Diagram),可以 醒目地表示x和y的数量关系。用 Excel软件可以很方便地完成这项 工作:第一步作(x,y)的散点图; 第二步添加趋势线。
要么都没有统计学意义,假设检验结果等价。
2.直线回归分析与直线相关分析的区别
① 研究目的不同,回归是研究随机变量之 间的数量依存关系,相关是研究随机变量 之间联系的密切程度;
9.3.3 总体相关系数的区间估计
样本相关系数r的抽样分布如图9.7 所示。当时,r近似服从正态分布; 当时,r的分布为偏态分布,且因n 和的不同而不同。费歇(R. Fisher) 提出用式(9.38)将r转换为z,则 z近似于正态分布。因此,便可按 照正态分布对总体相关系数进行区 间估计。
图9.7 不同时r的抽样分布(n=8)
9.4 直线回归和相关的关系及应用要点
9.4.1 直线回归和相关的关系 1.直线回归分析与直线相关分析的联系 ① 都是对两个随机变量x、y的分析; ② 都要求两个随机变量x、y服从正态分布; ③ r和b具有相同的正负号,要么都是正数,要
么都是负数,不可能一正一负; ④ 假设检验结果相同,要么都有统计学意义,
9.2 直 线 回 归
对于两个变数x和y间的散点图呈直线趋势的 进行直线回归分析。用回归分析的方法, 可以从大量的观测数据中找出自变数x与因 变数y间的量变规律性。根据自变数x预测因 变数y的取值,并给出这种预测的概率保证。
图9.1 n对(x,y)的散点图
图9.2 回归截距a和回归系数b的几何 意义
第9章 直线回归和相关分析
9.1 相关的概念 相关和回归分析是变数之间相关关系的一种统计方法。在农
业试验中,变数间的相关关系普遍存在,如施肥量与产量间 的相关关系,药剂浓度与杀虫率间的相关关系,食品供应量 与价格间的相关关系,播种期、播种量与产量间的相关关系 等。在诸多的因素中,有些是属于人们一时还没有认识或掌 握的,有些是已认识但暂时还无法控制或测量的,再加上在 测量上或多或少都有些误差,所有这些因素的综合作用,造 成了变数之间关系的不确定性,在统计上将变数间的这种非 确定性的数量关系称为相关关系(Correlativity)。在变数 的相关关系中,某些变数是可以测量或控制的非随机变数, 如施肥量、药剂浓度、食品供应量、播种期和播种量等,这 类变数称为自变数(Independent Variable),以x记;另一 类变数与之有关,但它是随机变数,例如产量,这类变数称 为因变数(Dependent Variable),以y记。一个自变数称为 一元,故将x与y间的回归分析称为一元回归分析(Analysis of Simple Regression)。
3.相关系数Biblioteka 决定系数的性质由于相关系数r和回归系数b 计算公式中的分子部分都是, 分母部分又总是取正值,所 以相关系数和回归系数取相 同的正负号,为正亦为正, 为负亦为负。
4.相关系数和决定系数的计算
[例9.10] 2011年,青岛农业大学调查了 15个金花柿的单果重(g)和果实横径 (cm),计算相关系数和决定系数。
9.2.2 直线回归的假设检验
如果x和y变数的总体并不存在直线回归关系, 则随机抽取的一个样本用上述方法也能够获得 一个直线回归方程。毫无疑问,这样的一个回 归方程是不可靠的。所以,对于随机样本获得 的直线回归方程存在抽样误差,必须检验其来 自无直线回归关系总体的概率,只有当这种概 率小于0.05或者0.01时,我们才能冒较小的风 险确认其总体存在直线回归关系。直线回归的 假设检验方法有F检验和t检验。
图9.5 回归矫正值yc的示意图
9.3 直 线 相 关
设双变数总体具有N对(x, y)。 不同总体 (x, y) 的相关散点 图如图9.6所示。直线相关 研究的问题仅限于图9.6中 (a)和(b)两种情形。
图9.6 四种不同总体(x, y)的相关 散点图
从式(9.30)不难看出,决定系数r2等于回 归平方和U占y变数平方和的比率,说明了 由于自变量的影响所产生的变异占因变量 总变异的比例大小。这个比例越大,说明 自变量的影响就越大,直线回归方程能够 很好地表示y与x间量变的规律性,使用这样 的直线回归方程进行估计和预测的效果自 然要好得多。
表9.3 例9.1资料回归关系的方差分析
9.2.4 直线回归方程的应用
1.用回归方程进行统计预测 直线回归方程有三个用途:一是用来说明
随机变量之间是否存在数量依存关系(是 不是有相关性);二是用来预测;三是用 来控制。用求得的线性回归方程对尚未发 生的事件或已经发生但未观察的事件进行 预测。对任一给定的x0,由回归方程作统计 预测的点估计值为=a+bx0。