直线回归与相关分析
温度(℃)
黏虫孵化历期平均温度与历期天数关系图
编辑ppБайду номын сангаас 14
若我们增加每一NaCl浓度下的观测次数,其散点图如下:
(可见其平均值更趋近于一条直线)
编辑ppt 15
平均数有一个特性,即在各种离差平方和中,以距平均数 的离差平方和最小。我们把观测值与回归估计值之间的离 差平方和最小时的回归线作为最好的回归线。其方法为最 小二乘法
X体重
Y身高
在大量测量各种体重人群的身高时会发现,虽然在同 样体重下,身高并不完全一样。但在每一体重下,都 有一个确定的身高分布与之相对应;
身高与体重之间存在相关关系。
第二节:直线回归 Linear Regression
一、直线回归方程的建立
例:土壤内NaCl含量对植物的生长有很大影响,NaCl含 量过高,将增加组织内无机盐的累积,抑制植物生长。下 表中的数据是每1000g土壤中所含NaCl的不同克数(X), 对植物单位叶面积干物重的影响。
x
y
施肥量 (可以严格地人为控制)
产量
自变量(independent variable) 因变量(dependent variable)
如果对x的每一个可能的值,都有随机变量y 的一个分布相对应,则称随机变量y对变量x 存在回归(regression)关系。
相关关系
X身高
Y体重
在大量测量各种身高人群的体重时会发现,虽然在同 样身高下,体重并不完全一样。但在每一身高下,都 有一个确定的体重分布与之相对应;
如果对于变量X的每一个可能的值xi,都有随机变量Y的一个yi 与之对应,则称随机变量Y对变量X存在回归关系。
为了确定相关变量之间的关系,首先应该收集一些数据,这 些数据应该是成对的,然后在直角坐标系上描述这些点,这 一组点集称为散点图。
为了研究父亲与成年儿子身高 之间的关系,卡尔.皮尔逊测量 了1078对父子的身高。把 1078对数字表示在坐标上, 如图。用水平轴X上的数代表 父亲身高,垂直轴Y上的数代 表儿子的身高,1078个点所 形成的图形是一个散点图。它 的形状象一块橄榄状的云,中 间的点密集,边沿的点稀少, 其主要部分是一个椭圆。
不同NaCl含量对单位叶面积干物重的影响
NaCl含量X(g/kg) 0 0.8 1.6 2.4 3.2 4.0 4.8
干重Y(mg/dm2) 80 90 95 115 130 115 135
编辑ppt 11
散点图如下
140
130
120
110
100
90
80
70
0
0.8
1.6
2.4
3.2
4
4.8
我们描绘散点的目的:(1)两变量之间的关系是否密切,能否用X来 估计Y;(2)两变量之间的关系是呈线性或某种曲线;(3)是否 存在某个点偏离过大;(4)编是辑否ppt存在其他规律。
第一节:回归与相关的概念
因果关系
相
一个变量的变化受另一个 变量或几个变量的制约
关
回归分析(regression analysis)
变 量 互依关系
两个以上变量之间共同受 到另外因素的影响
相关分析(编c辑opptrrelation analysis)
8
因果关系 一个变量的变化受另一个变量或几个变
量的制约
温度与幼虫孵化 人类的年龄与血压 身高与胸围、体重 溶液的浓度与OD值
相关关系:当一个或几个相互联系的变量取一定的数值时 ,与之相对应的另一变量的值虽然不确定,但它仍按某种规 律在一定的范围内变化。变量间的这种相互关系,称为具有 不确定性的相关关系
生物学中,研究两变量间的关系,主要是为了探求两变量的 内在联系,或者是从一个变量X去推测另一个随机变量Y.例 如,我们希望通过施肥量X去推测Y
直线相关与 回归分析
两变量或多变量之间的关系,总起来可分为两类,一类是函数关系,确 定关系的例子,在生物界中是极少见的。 生物中,大量存在的情况是:一种变量受另一种变量的影响,两者之间既有 关系,但又不存在完全确定的函数关系。知道其中一种变量,并不能精 确求出另一变量。下面请同学们举几个例子。 单位面积的施肥量、播种量和产量三者之间的关系。 树木胸径与树木高度的关系。 人类血压与年龄的关系。 玉米的穗长与穗重的关系。 人的身高与体重的关系。
散点图(scatter diagram)
两个变量间关系的性质(正向协同变化或 负向协同变化)和程度(关系是否密切) 两个变量间关系的类型(直线型或曲线型) 是否有异常观测值的干扰
4 3 2 1
123456 4 3 2 1
123456 4 3 2 1
123456
正向直线关系 负向直线关系
曲线关系
定性研究
而回归直线是指所有直线中最接近散点图中全部散点
的直线。设样本直线回编归辑p方pt 程为: yˆ abx 16
回归直线在平面坐标系中的位置取决于a,b的取值。
yˆ abx y
最小二乘法
n
(method of least square)
( y yˆ )2
1
最小
编辑ppt 17
天数(天)
40 yˆ5.7 03 92.3 53x17
30
20
11.8-----20.4
10
0 10 12 14 16 18 20 22
温度(℃)
用x估计y,存在随机误差,必须根据回归的数学模型 对随机误差进行估计,并对回归方程进行检验。
编辑ppt 18
直线回归方程(linear regression equation)
自变量
Y^ =a+bx
斜率(slope) 回归系数(regerssion coefficient)
截距(intercept) 回归截距
与x值相对应的依变量y的点估计值
yˆ abx
y
b=0
a>0,b>0 a=0
a>0,b<0
a<0,b>0
0
x
直线回归的假设检验
是否真正存在线性关系 回归关系是否显著 因此,求出回归方程后须作统计检验,称回归显著性检验。
不同NaCl含量对单位叶面积干物重的影响 方差分析表
12
例:黏虫孵化历期平均温度与历期天数
变温量度1
变天量数2
X
Y
平均温度(℃) 历期天数(d)
11.8
30.1
14.7
17.3
15.6
16.7
16.8
13.6
17.1
11.9
18.8
10.7
19.5
8.3
20.4
6.7编辑ppt
收集数据
散点图
13
天数(天)
40
yˆ abx
30
20
10
0 10 12 14 16 18 20 22