当前位置:文档之家› 生物统计学

生物统计学

生物统计学————————————————————————————————作者: ————————————————————————————————日期:第七章回归分析第一节回归和相关的概念方差分析检验一个或多个因子对某一生物变量是否有影响,只涉及一种变量。

两个以上变量之间的定量关系的统计分析需要回归分析来解决。

在自然界,两个或多个变量相互制约、相互依存的现象很常见。

变量间的关系一般分为两种:一种是因果关系,即一个变量的变化受另一个变量或几个变量的制约,如微生物的繁殖速度受温度、湿度、光照等因素的影响,子女的身高是受着父母身高的影响;另一种是平行关系,即两个以上变量之间共同受到另外因素的影响,如人的身高与体重之间的关系,兄弟身高之间的关系等都属于平行关系。

设有两个随机变量X和Y,如果变量X的每一个可能的值,都有随机变量Y的一个分布相对应,则称随机变量Y对变量X存在回归(Regression)。

X也是随机变量时,X和Y相互存在回归关系,这两个随机变量间就存在相关(Correlation)关系。

在实际应用中,并不严格区分相关和回归。

在回归和相关分析中,必然注意下面一些问题,以避免统计方法的误用。

(1)变量间是否存在相关以及在什么条件下会发生什么相关等问题,都必须由各具体学科本身来决定。

回归和相关只能作为一种统计分析手段,帮助认识和解释事物的客观规律,决不能把风马牛不相及的资料凑到一起进行分析;(2)由于自然界各种事物间的相互联系和相互制约,一个变量的变化通常会受到许多其他变量的影响,因此,在研究两个变量之间的关系时,要求其余变量尽量保持在同一水平,否则,回归和相关分析就可能会导致不可靠甚至完全虚假的结果。

例如人的身高和胸围之间的关系,如果体重固定,身高越高的人,胸围一定较小,当体重在变化时,其结果就会相反;(3)在进行回归与相关分析时,两个变量成对观测值应尽可能多一些,这样可提高分析的准确性,一般至少有5对以上的观测值。

同时变量x的取值范围要尽可能大一些,这样才容易发现两个变量间的回归关系;(4)回归与相关分析一般是在变量一定取值区间内对两个变量间的关系进行描述,超出这个区间,变量间的关系类型可能会发生改变,所以回归预测必须限制自变量Y的取值区间,外推要谨慎,否则会得出错误的结果。

第二节一元线性回归研究两个随机变量的关系时首先要收集成对数据。

7.1研究土壤中NaCl的含量对植物单位叶面积物质干重的影响时,收集到如下成对数据。

问二者的回归关系如何?NaCl的含量0.00.8 1.6 2.4 3.2 4.0 4.8单位叶面积干重80 90 95 1根据数据作散点图,分析:1. X与Y的关系密切否?2.线性还是曲线关系?3. 有无偏离过大的点?从图中可以看出,二者有直线关系,如何求出离差最小的直线,正是本章介绍的主要内容。

1. 回归方程和回归显著性:bx a y +=∑=ix n x 1 ∑=i y n y 1∑∑---=2)())((x x y y x x b i i i x b y a -=2. 显著性检验:SSe n SSe SS n SSe SSr MSe MSr F T n )2)(()1/(1///2,1--=-==-αα<>p F F ;。

回归关系显著。

3. b 和a 的显著性检验:b : SxxMSe b s bt b==, 2-=n df式中:b S :回归系数标准误X 的校正平方和21)(∑=-=ni i xx x x S 误差均方:2--=n bS S MSe XYYYY的校正平方和21)(∑=-=ni iYY y yS 校正交叉乘积和)()(1y y x x S i n i i XY --=∑=)(,2双侧α->n t t 时拒绝0H 。

a :)1(2XXaS x nMSe a s a t +==, 2-=n df)(,2双侧α->n t t 时拒绝0H 。

题7.1的计算结果:16.11=b 79.81=-=x b y a57.31)2)((2,1=--=-SSe n SSe SS F T nb : 618.5===Sxx MSe b s b t b , 52=-=n df a :27.14)1(2=+==XXaS xn MSe as a t , 52=-=n df回归方程:x y 16.1179.81+=,回归达极显著水平。

采用S tati stica 软件包中的Li ne ar Regr essi on 。

1. 按下图作数据库;2. 在Analysis 中选Res ume A nalys is,打开Mod el Definition ,单击Varia ble窗口,选择自变量和因变量。

点击O K。

3. 在下一窗口中点击Reg re ssion s ummary 窗口,可以出现下图中下方的结果窗口。

4. 若要作图,点击Residual Anal ysi s,可出现下一个窗口,点击Biv ar iat e Co rrelat ion, 在下一窗口中选定X 和Y 轴的变量,点击OK 可以得到上一页的一张回归图。

第三节 一元非线性回归分析直线关系是两变量间最简单的一种关系。

更多的数据需要借助于一条曲线来描述。

例如,细菌的繁殖速率与温度,作物产量与施肥量等都属这种类型。

生物学中变量间的曲线关系通常有对数函数曲线、指数函数曲线、幂函数曲线、S 型曲线等多种形式,许多曲线类型可以通过数据转换化成直线形式,利用直线回归方法配合直线回归方程,然后再转换成曲线回归方程。

但也有一些很难直线化的非线性关系,一般要借助统计软件来解决。

1. 指数回归关系: bxae y =bx a y +=ln ln将y 取自然对数后,求其在x 上的直线回归。

计算方法同上。

7.2 测得不同温度下棉铃虫的产卵数,求二者的回归关系。

温度(x) 21 23 25 27 29 32 35 产卵数(y)711212466115325y y ln /=1.94592.3979 3.04453.17814.1897 4.74495.7838采用Statistica 软件包中的Li near Reg re ssi on。

按下图作数据库;其它操作同上。

结果如下:2. 幂函数关系: bax y =x b a y ln ln ln +=计算y ln 在x ln 上的直线回归关系。

7.3 研究烘烤时间对烟叶叶绿素含量(干重的p pm)的影响,结果如下: 时间x 12 8 41 46 4958含量y1743114354 353试进行回归分析。

先作散点图:在G raphs 中选C ustom 2D Graphs…;然后在对话框中选坐标轴和曲线类型,点OK 即可。

从图中可以看出,二者呈幂函数关系。

分别取自然对数后进行线性回归,结果如上表。

回归达极显著水平,回归方程为9633.014019-=x y3. S 型曲线: )(1a x b e consty --+=有些曲线难以转化为直线时,可以采用统计软件的No nli near E sti mation 进行回归运算。

7.3 肉鸡生长过程的资料如下:时间x:周;体重y:kg 时间x 1 2 3 4 5 6 7 体重y0.300.861.732.202.472.672.80先作散点图,根据曲线形态选择S 型曲线模型。

在A na ly sis 中选择Nonlinea r Estim at ion选择User-specifie d re gre ssi on,点OK;在下一窗口中点击Fun ct ion to be…;输入回归方程,点OK 。

在以下两个对话框中直接点OK,即出现结果对话框。

相关系数出现。

在这一对话框中,点击Paramte r estimate s,可以得到曲线回归方程中的各个参数的值。

点击Fitted 2D fu nctio n & o bs erved Va ls,可以得到曲线回归图。

本例的回归结果为 )649.2(152.11729.2--+=x e y4. 多项式回归(Pol yn omical re gressio n)将曲线化为直线,需事先明确两变量间的函数关系,有时这种关系很难确定,这时可采用多项式方程去模拟。

k k x b x b x b x b a y +++++= (33221)一般不超过5次多项式,它有4个拐点;最简单的是二次多项式,它是抛物线,有一个拐点。

人工计算,一般令:x x =1,22x x =,33x x =,…k k x x =,将多项式化为多元一次方程后,再进行回归。

多元线性回归见第五节。

采用软件计算时,可以同上例选择N onlinea r Estimation 进行回归运算。

7.4 小网箱养鲤的密度与个体净增重关系的研究资料,作增重对密度的回归。

从散点图已知有两个拐点,可选用三次多项式。

结果如下:3200012357.015608.0552.658.9615x x x y -+-=在380-465尾/米3密度范围内,个体增重接近,建议采用460尾/米3的密度进行养殖。

第四节 相关(Corre la ti on)一、相关系数(Correl ati on coefficient)两个变量之间的线性回归是否显著,可以通过检验回归系数b的显著性和方差分析来确定,另一个衡量标志就是相关系数(r )。

相关系数是由于回归因素所引起的变差与总变差之比的平方根。

r越大,两变量相关越密切。

YY XX XY YY XX XY YY XY YY R S S S S S S S bS S SS r ====2 YY XX XY S S S r 22== , 由于xx xy yy e S S S SS 2-=,所以,yye S SS r -=12 可见,12≤r ,1≤r ,当0=e SS 时,1=r ,完全相关;当yy e S SS =时,0=r ,完全不相关。

0>r ,正相关;0<r 负相关。

二、相关系数的显著性检验1. t 检验:212r n r t --=;2-=n df2. 相关系数检验表(r 或R 临界值表)表中设05.0=α和01.0=α两个显著水平,剩余自由度2-=n df ;独立自变量个数k ,一元回归1=k 。

从表中查出αr 值,当αr r >时,变量间显著相关。

3.相关系数与回归系数的关系自变量 因变量 回归系数x y xxxyS S b = y x yy xy S S b =' b b S S S S S S r yy xx xy yy xx xy'⋅===24.相关指数(Correl ation in dex)相关系数是线性回归程度的标志,在配曲线时,我们常用相关指数(22r R =)作为曲线的配合指标。

相关主题