当前位置:文档之家› 生物统计学 第七章 直线相关与回归分析

生物统计学 第七章 直线相关与回归分析

第七章
直线相关与 回归分析
平均数 标准差 方差分析 多重比较
集中点 离散程度
差异显著性
施肥量 一个变量
品种
(产量) 播种密度
在实际研究中,事物之间的相互 关系涉及两个或两个以上的变量, 只要其中的一个变量变动了,另 一个变量也会跟着发生变动,这 种关系称为协变关系,具有协变 关系的变量称为协变量。
因果关系 一个变量的变化受另一个变量或几个变量的制约
x
施肥量 (可以严格地人为控制)
y
产量
自变量(independent variable)
因变量(dependent variable)
如果对x(非随机变量或随机变量)的每一个 可能的值,都有随机变量y的一个分布相对应, 则称随机变量y对变量x存在回归(regression) 关系。
研究“一因一果”,即一个自变量与一个 依变量的回归分析称为一元回归分析
直线回归分析
曲线回归分析
研究“多因一果”,即多个自变量与一个 依变量的回归分析称为多元回归分析。
多元线性回归分析 多元非线性回归分析
相关关系
X身高
Y体重
➢ 在大量测量各种身高人群的体重时会发现,虽然在同样身高 下,体重并不完全一样。但在每一身高下,都有一个确定的 体重分布与之相对应;
状象一块橄榄状的云,中间的
点密集,边沿的点稀少,其主 要部分是一个椭圆。
散点图(scatter diagram)
两个变量间关系的性质(正向协同变化或 负向协同变化)和程度(关系是否密切) 两个变量间关系的类型(直线型或曲线型) 是否有异常观测值的干扰
4 3 2 1
123456
正向直线关系
4 3 2 1
S=πr2 圆的面积


PV=RT 气体压强

S=a b 长方形面积
确定的函数关系

施肥量与产量

温度与幼虫孵化

人类的年龄与血压

身高与胸围、体重
溶液的浓度与OD值
不完全确定的函数关系 (相关关系)
因果关系 一个变量的变化受另一个

变量或几个变量的制约

动物的生长速度受遗传、营养等影响

子女的身高受父母身高的影响
对两个变量间的直线关系进行相关分析称为简 单相关分析(也叫直线相关分析);
对多个变量进行相关分析时,研究一个变量与 多个变量间的线性相关称为复相关分析;研究 其余变量保持不变的情况下两个变量间的线性 相关称为偏相关分析。
第二节:直线回归 Linear Regression 简单回归(Simple Regression)
截距(intercept) 回归截距
与x值相对应的依变量y的点估计值
yˆ a bx
y
b=0
a>0,b>0 a=0
a>0,b<0
a<0,b>0
0
x
变温量度1
X
平均温度(℃) 11.8 14.7 15.6 16.8 17.1 18.8 19.5 20.4
变天量数2
Y
历期天数(d ) 30.1 17.3 16.7 13.6 11.9 10.7 8.3 6.7
1
最小
n
n
Q ( y yˆ )2 ( y a bx)2
1
1
n
n
Q ( y yˆ )2 ( y a bx)2
1
1
根据微积分学中的求极值的方
法,令Q对a、b的一阶偏导数
等于0,即:
Q a
2
(
y
a
bx)
0
Q b
2( y
a
bx)x
0
a y bx
b
xy
( x)( x2 ( x)2
X体重
Y身高
➢ 在大量测量各种体重人群的身高时会发现,虽然在同样体重 下,身高并不完全一样。但在每一体重下,都有一个确定的 身高分布与之相对应;
身高与体重之间存在相关关系。
两变量x、y均为随机变量,任一变量的每一可 能值都有另一变量的一个确定分布与之对应, 则称这两个变量存在相关(correlation)关 系。
y) / /n
n
b (x x)(y y) SPxy
(x x)2
SSx
yˆ a bx 基本性质
n
Q ( y yˆ )2
为最小值
1
( y yˆ) 0
(x, y)
yˆ a bx
a y bx
yˆ y b(x x)
回归方程的中心化形式
X
平均温度(℃) 11.8 14.7 15.6 16.8 17.1 18.8 19.5 20.4
123456
曲线关系
4 3 2 1
123456
负向直线关系
散点图直观地、定性地表示了两个 变量之间的关系。为了探讨它们之 间的规律性,还必须根据观测值将 其内在关系定量地表达出来。
定量研究
回归(regerssion) 相关(correlation)
在生物学中,研究两个变量间的关 系,主要是为了探求两变量的内在 联系,或从一个变量X(可以是随机 变量,也可以是一般的变量),去 推测另一个随机变量Y。
Y
历期天数(d ) 30.1 17.3 16.7 13.6 11.9 10.7 8.3 6.7
x 134.7
x2 2323.19
收集数据
散点图
天数(天)
40
yˆ a bx
30
20
10
0 10 12 14 16 18 20 22
温度(℃)
黏虫孵化历期平均温度与历期天数关系 图
回归直线在平面坐标系中的位置取决于a,b的取值。
yˆ a bx
y
最小二乘法
(method of least square)
n
( y yˆ )2
一、直线回归方程的建立 二、直线回归的数学模型和基本假定 三、直线回归的假设检验 四、直线回归的区间估计
一、直线回归方程的建立
直线回归就是用来描述 一个变量如何依赖于另 一个变量
温度
天数
直线回归方程(linear regression equation)
自变量
Y^=a+bx
斜率(slope) 回归系数(regerssion coefficient)

平行关系
两个以上变量之间共同 受到另外因素的影响
人的身高和体重之间的关系
兄弟身高之间的关系
为了确定相关变量之间的关系,首 先应该收集一些数据,这些数据应 该是成对的,然后在直角坐标系上 描述这些点,这一组点集称为散点 图。
散点图(scatter diagram)
为了研究父亲与成年儿子身高 之间的关系,卡尔.皮尔逊测 量了1078对父子的身高。把 1078对数字表示在坐标上,如 图。用水平轴X上的数代表父 亲身高,垂直轴Y上的数代表 儿子的身高,1078个点所形成 的图形是一个散点图。它的形
相关主题