课程名称:生物统计与实验设计*名:**学院:农业与生物技术学院系:应用生物科学专业:应用生物科学学号:**********指导教师:朱军、徐海明2016年6 月6日实验报告课程名称: 生物统计与实验设计 指导老师: 徐海明 成绩:_______________ 实验名称: 协方差分析和混合线性模型分析 实验类型: 综合实验 一、 实验目的和要求1. 掌握协方差分析、混合线性模型的原理。
2. 学会用协方差分析和混合线性模型对大数据进行分析。
3. 了解协方差分析与二因素析因分析的差异。
4. 比较SAS 软件和QTModel 软件的分析效益。
5. QTLNetwork 软件分析控制仿真群体表现型值的QTL 定位数据。
6. 比较回归分析、相关分析、方差分析、MCIM 的定位分析的优缺点。
二、 实验内容和原理1. 协方差分析是建立在方差分析和回归分析基础之上的一种统计分析方法。
方差分析是从质量因子的角度探讨因素不同水平对实验指标影响的差异。
一般说来,质量因子是可以人为控制的。
回归分析是从数量因子的角度出发,通过建立回归方程来研究实验指标与一个(或几个)因子之间的数量关系。
但大多数情况下,数量因子是不可以人为加以控制的。
2. 混合线性模型(mixed linear model)一种方差分量模型。
在方差分量模型中,把既含有固定效应,又含有随机效应的模型,称为混合线性模型。
三、 主要仪器设备SAS 软件、QTModel 软件、QTLNetwork 软件 四、 操作方法和实验步骤1. 二因素协方差分析以2个品种2个水分水平的鲜花产量为依变量,重复6次:a) 以小区面积为x 变量,进行二因素协方差分析,分析品种、水分对鲜花产量的影响,对显著的效应进行适当的比较;b) 比较协方差分析与二因素析因分析结果之间的差异。
2. 水稻品种区域试验分析水稻五个品种在二年和四个试点三个区组的品种区域试验数据(删除了二个异常值)储存在数据文件(RiceTrial-2.txt)中。
a) 采用SAS 软件的Proc GLM, Proc Mixed 和Proc VarCom 分析该数据,并对品种的表现作适宜的推断;b) 采用QTModel 软件分析该数据,对品种的表现作适宜的推断;比较SAS 软件和QTModel 软件的分析效益。
3. QTL 定位分析采用QTLNetwork 软件分析控制仿真群体表现型值的QTL 定位数据(DHSim.map 和DHSim.txt )。
a) 估算QTL 的位置和遗传效应,对群体的QTL 位置和遗传效应作统计推断; b) 把QTL 定位结果和实验一的分析结果都与仿真的参数真值作比较,比较所采用的四种分析方法(回归分析、相关分析、方差分析、MCIM 的定位分析)用于推断群体基因定位的可靠性及统计方法的优缺点。
五、 实验数据记录和处理专业: 应用生物科学 姓名: 赵应学号: 3140100080 日期: 2016年4月11日 地点:紫金港西1-106(多)1、二因素协方差分析a)析因分析结果b)协方差分析结果2、水稻品种区域试验分析a)用GLM模块分析结果b)用MIXED模块分析结果c)用Varcomp 模块分析结果d)用QTModel 分析结果3、QTL定位分析用SAS做回归分析结果:用SAS做相关分析结果:用SAS做方差分析结果:此处略去m3到m33标记的方差分析结果。
六、实验结果与分析1、二因素协方差分析由析因分析结果可知,模型的Pr>F值=0.2266>0.05且R-Square=0.191113,故模型不显著;并且,无论是主因素A、B还是两者的互做效应,对Y(鲜花产量)都没有显著性的影响。
因此,用析因分析模型来分析该实验数据不是太合适。
然后用协方差模型进行分析,模型的Pr<0.0001,模型极显著。
由变量显著性分析可知,主因素X(小区面积)、A(品种)和B(水分)对Y(鲜花产量)具有显著性影响,而A(品种)和B(水分)的互作对Y(鲜花产量)的影响不显著,所以可以对单独的因素进行分析。
因此,可以用协方差模型分析次实验数据。
对于品种因素单一分析,LP品种产量均比WB品种产量高;对于水分因素单一分析,Low水平产量均比High水平产量高。
两种分析方法结果的不同显示出:协方差分析将协变量对因变量的影响从自变量中分离出去,可以进一步提高实验精确度和统计检验灵敏度。
2、水稻品种区域试验分析a)GLM模块分析结果表明:模型的Pr>F值<0.0001且R-Square=0.955918,故模型显著,yield与Gen、Year、Loc、Year*Loc、Gen*Year Gen*Loc、Gen*Loc*Year、Block(Year*Loc)存在显著的线性关系,且各因素主效应、互做效应均显著。
各效应中只有主效应year(年份效应)、Block(区组效应)和互作效应gen*year*loc(品种*年份*地点)三互作显著,对Y(产量)有显著性影响,其余各效应均不显著。
Alpha=0.05时,只有4-1、4-2、5-1、5-2、3-2五组中,两个品种间差异显著,其余各品种间差异不显著。
Mixed模块分析结果表明:Mixed分析结果表中列出了模型中变量的协方差参数估计,但没有给出相应的标准误和对应的P value,故无法直接判断各因素的显著性情况。
固定效应Gen的第三类估计方法得到的P value=0.3552>0.05,表明品种效应对产量的影响并不显著。
对于固定效应品种(Gen),在其他条件相同时,Gen5的产量最高。
虽然不同品种的产量不同,但是各品种间无显著性差异。
VarComp模块分析结果表明:VarComp列出了模型中变量的方差参数估计,但未给出显著性检验,故无法直接判断各因素的显著性情况。
b)QTModel分析结果表明:Henderson方法III方差分析得到,Gen、Year、Loc、Year*Loc、Gen*Year、Gen*Loc、Gen*Year*Loc、Block(Year*Loc)的P value均小于0.05,因此,Gen、Year、Loc、Year*Loc、Gen*Year、Gen*Loc、Gen*Year*Loc、Block(Year*Loc)对水稻产量的影响是显著的。
各品种均值均与零存在显著性差异,各品种间差异均不显著。
c)QTModel软件分析该实验数据Residual 比较小,分析结果较可靠,因此QTModel软件更适合分析次数据。
相较于SAS的程序编写,QTModel的命令更加简单QTModel给出的结果剔除了一些在分析中用不到的深层次的结果,从而降低了困难。
3、QTL定位分析结果表明:a)Ch1上MK8和MK9之间的基因本身不具备效应但是与Ch3上的MK25和MK26之间的基因(本身存在效应)存在上位性效应和上位性与环境因素互作的效应。
Ch1上MK8和MK9之间的基因还与Ch1上MK3和MK4之间的基因(本身具有加性和加性与环境互作效应)存在上位性效应。
Ch1上的MK3和MK4之间的基因存在与Ch2上的MK14和MK15之间的基因(本事具有加性)存在上位性和环境因素互作的效应。
Ch3上MK28和MK29之间的基因具有加性和加性与环境互作效应。
b)基于SAS的分析表明:用逐步回归分析筛选出的所有标记为:m1 m2 m3 m4m5 m11 m13 m15 m27 m28。
方差分析显示m1 m2 m3 m4 m5 m11 m13 m15 m27m28对产量都是有显著影响的,环境对于产量也有显著影响。
但是只是对于m1 m2 m3 m4 m5 m27 m28而言,它们分别和环境的互作效应对于产量有显著影响,从方差分析表上我们不能推断m11 m13 m15分别和环境的互作效应对于产量有显著影响。
回归分析、相关分析、方差分析无法估计QTL效应,仅能分析哪些标记附近有基因,而无法确定基因的准确位置。
方差分析需要分别对每一个标记进行方差分析,这道题目就需要进行33次的方差分析,操作繁琐,工作量大。
七、讨论、心得1.比较SAS软件和QTModel软件的分析效益:SAS软件与QTModel软件数据处理分析结果大致相同,但在结果分析过程中可以发现,SAS未能给出混合模型各随机因素的方差估计值的方差和P value,故较难做进一步判断。
1、回归分析和相关分析:a. 自变量是固定效应,无法分析随机效应自变量;b. 自变量非相互独立,回归系数是偏回归系数;c. 只有残差是相互独立的随机变量;d. 分析海量数据时效果较差。
2、方差分析:a. 可把总变异分解为不同的变异分量;b. 不能分析复杂的统计模型,如系数为非整数,因素间非独立、因素间相互混淆等;c. 不能有效地分析非平衡的数据;d. 可以估算随机效应的方差,但不能估算随机效应值;e. 参数分析的统计功效不高;f. 分析海量数据时效果较差。
3、MCIM定位分析:a. 同时包括固定效应和若干组随机效应的自变量;b. 随机效应因素内或因素间都可存在相关性;c. 可无偏估算回归参数和方差分量,也可无偏预测随机效应值;d. 可以有效分析各种复杂的遗传模型和非平衡数据;e. 分析海量数据时效果较差。
2.通过这些软件分析结果的对比我们可以发现,SAS并非万能的,它也有一定的局限性,我们在应用时要意识到这一点,并且可以选择其他方法和软件代替。
分析的结果与选用的模型有一定的关系,因此在进行分析数据前要确定好分析模型。