当前位置:文档之家› 生物统计-试验设计

生物统计-试验设计


一本不错的书:
D.J.格拉斯著, 丛羽生等译. 生命科学实验设计指南.
科学出版社, 2008.
5. 是什么构成了实验问题的合理解释?
实验问题的合理解释(1)
• 对于“天空是什么颜色的”这个问题,运用科学的手段, 能不能找到一个正确、符合事实、又从科学角度可以接受 的答案呢? (1)提出一系列问题,如天空是蓝色的?绿色的?黄色的? 红色的? (2)测量中午时所有可见光的波长。
SSe :试验误差的平方和
SSt=SSA+SSB+SSAB
dfT=dft+dfr+dfe
dft=dfA+dfB+dfAB
二因素随机区组设计试验结果的统计分析(3)
• 各项的方差
s SS / df s SS / df
2 A A 2 B B
A
B
s
2 AB 2 r
SS AB / df
r r
AB
时间进程
• 在时间上进行多次测量叫做时间进程。可以用于了解任何 特定的点上的测量是否具有代表性,以及在不同的条件下 系统是否会发生基础性变化。 • 每5min测量一次。 • 在时间进程实施之前,科学家已对“天空是什么颜色的?” 预言了一个简单的答案。随着时间进程的发展,发现天空 不只是一个颜色;相反,它在时时变化着。因此,科学家 不能仅仅给出一个简单的结论来。而是,需要建立一个适 应这些数据的新模型。
(2)有限的结论:天空在正午是蓝色的。
6. 如何用实验结论来描绘现实?
假设与模型
• 假设与模型的区别 假设先于实验,它仅是一个猜测或推测。相反,模型的建 立是在实验完成之后,因此是以积累的数据为基础的。 • 模型建立是一个基于归纳、联想、从个体到整体对积累的 事实进行理解的过程。
科研工作:通常有一个假设
(3)得出结论:天空是蓝色的。
实验问题的合理解释(2)
• 天空真的是蓝色吗? (1)连续测量。30天,27天是蓝色,3天是灰色的(阴天) (2)显著性检验:差异显著
(3)认为,“天空是蓝色的”正确。
实验问题的合理解释(3)
• 或许会有人有疑问。 • 因为他的测量从来没有在夜间进行,甚至,在正午以外的 时间也没有进行过。 • 所以, (1)我们还不能认为这个实验已经完整地回答了问题。如 果在晚上进行测量,这个模型就被质疑了。
• 局部控制 整个试验环境分解成若干个相对一致的小环境,称为 区组 (block)、窝组(fossa)或重复,再在小环境内分 别设置一套完整的处理,在局部对非处理因素进行控制, 称为局部控制(block control)。 例如:作物产量测定试验
以大动物为受试对象的试验
试验设计的基本原则(3)
• 对照 阳性对照、阴性对照等
二因素随机区组设计试验结果的统计分析(1)
• 区组作为一个因素,所以需要做三因素的方差分析 • 但是,Excel只有二因素的方差分析,所以需要自己计算 部分结果
二因素随机区组设计试验结果的统计分析(2)
• 平方和和自由度的分解 SST=SSt+SSr+SSe SSt: 处理间的平方和,SSr:区组间的平方和
生物统计学课件
Hale Waihona Puke 试验设计及其统计分析主要内容
• 试验设计的基本原理 • 随机区组设计 • 平衡不完全区组设计
• 裂区设计
• 拉丁方设计 • 正交设计 • 作业
试验设计的基本原理
试验设计的概念
• 广义而言,试验设计是指整个研究课题的设计,包括试验 方案的拟订、试验单位的选择、分组的排列、试验过程中 生物性状和试验指标的观察记载、试验资料的整理和分析 等。 • 狭义而言,试验设计是指试验单位的选择、分组与排列方 法。 • 生物统计学中的试验设计主要指狭义的试验设计。
最终的实验设计
1、10只大鼠饲喂正常饲料 2、10只大鼠饲喂高脂肪饲料 3、每组中的大鼠按年龄、性别和起始体重配对
4、每周测量大鼠体重和血清化学参数。当大鼠呈现肥胖和 胰岛素不敏感时,取出大鼠肝脏做分析。 5、但研究结束时,发现500个基因显著变化。重复1次时, 450个同样变化,重复2次时,430个同样变化,重复3次时, 425个同样变化。因此,他建立了一个大鼠在高脂肪饮食下, 肥胖大鼠肝脏基因变化的模型。
• 从20个肝脏所得的数据,进行子集分析。 • 任何一个更少的数据组能否得到与20个数据组相同的结果 • 发现任何一组10个肝脏数据都能覆盖20个肝脏的所有数据, 即n=10即可。
模型的预测能力
• 用300个基因作为一个模型,是否可以预测新一组动物的 基因变化? • 但这个验证实验被实施后,科学家仅能证实其中的200个 基因。 • 为什么?
• 发现基因表达水平数据波动很大,即使mRNA是来自相同 的肝脏。
改进的研究方案—重复
• 20个处理样品、20个对照样品(n=20) • 每个样品分成3份 • 120张芯片,基因表达数据
• 数据分析,发现300个基因的表达水平显著变化。其中, 处理组的leptin表达水平上调了3倍。
到底需要重复多少次?
5、重复测量7天以获得具有统计学意义的数据。
收集并分析数据,诠释实验结果
• 注意:如果次数少,要看看是否有统计学意义。
11. 实验重复 ----获得数据用以模拟未来结果的过程
确定具有统计意义的测量数目
• 从统计计算中,我们可以得知一个实验必须包含数据的数 目。 • 具统计意义的测量数目,部分由研究系统的可变性来指示。 通过一定量的重复就能确定系统的可变性。即:先通过一 系列的测量来评估系统的可变性,从而估计在新实验中所 需的具统计意义的数据量。
提出一个模型: MuRF1具有与E3泛素连接酶相同的功能。
8. 设计实验 ----定义、时间安排和重复实验
定义术语
• 实验是根据问题或假说来进行的。 • 以“天空是什么颜色的?为例来讨论如何设计实验。 • 首先需要定义术语:
(1)定义颜色为“可见光”
(2)定义“天空”。例如,仪器是指向正上方还是指向水 平线的?还是其它。
重复
• 连续测量7天。
对照
• 首先需要有一个“仪器对照”,保证相应的波长是可以被 测量到的。需要阳性对照和阴性对照。 • 其次还要保证天空确实是被测量到了
实验清单
1、测量在一定波长范围内的可见光。每一个特定波长的光 都要有一个阳性对照。每个测量都要有一个阴性对照,保证 仪器不会做出错误的报告。 2、在每次测量时仪器都指向同一个方向。 3、在一定时间内(24h)对天空进行实验。 4、在实验的时间内每5min进行一次测量。
随机区组设计
随机区组设计
• 随机区组设计(randomized blocks design):指根据局部 控制和随机原则进行的,将试验单位按性质不同分成与重 复数一样多的区组(窝组),使区组内非试验因素差异最 小而区组间内非试验因素差异最大,每个区组均包括全部 的处理。区组内各处理随机排列,各区组独立随机排列。
试验开始前,就要想好统计分析方法
试验设计的基本要素
• 处理因素:指对受试对象给予的某种外部干预或措施,简 称处理。 与前面讲过的试验因素相同。 • 受试对象:是处理因素的客体。 与前面讲过的试验单位相同。 • 处理效应:是处理因素作用于受试对象的反应,是研究结 果的最终体现。
试验误差及其控制途径
• 试验误差包括系统误差和随机误差。 • 试验误差的来源及控制途径 (1)试验材料固有的差异
选择纯合一致的试验材料
(2)试验条件不一致 可分组
合理的试验设计
(3)操作技术不一致
改进操作管理制度,使之标准化 (4)偶然性因素的影响
试验设计的基本原则(1)
• 重复:主要作用是估计试验误差。 重复数的多少,可根据试验的要求和条件而定。 • 随机:指一个重复中的某一处理或处理组合被安排在哪一 个试验单位,不能有主观成见。
B C A
F E C
A G E
E H G
H B D
G A H
C D F
D F B
例8.2
• 方差分析的结果表明,品种间和区组间的平均数均有显 著性差异。 • 需要对8个品种产量的平均数进行多重比较。 • 区组间的F值极显著,说明区组的土壤肥力是有极显著差 别的。因为研究的目的不是研究区组效应,所以一般不 对区组间的差异进行多重比较。
如何建立模型?
• 给出一个框架性问题:MuRF1(蛋白质)的功能是什么? • 通过获得归纳演绎空间提出第一个实验问题: MuRF1是否与某些已知功能的蛋白质相似呢?
可用生物信息学的方法解决。
答案: MuRF1与E3泛素连接酶相似。 • 功能审视: MuRF1是否与E3泛素连接酶的功能相同?
• 进行功能性实验并利用实验数据建立模型。
试验排列示意图
区组1
3
8
4
6
2
5
9
1
7
区组2
5
6
2
3
7
9
1
8
4
区组3
2
4
7
8
6
3
9
5
1
随机区组设计的优点
(1)设计简单 (2)富于弹性,单因素、多因素以及综合性的试验都可应用 (3)能提供无偏的误差估计
(4)对试验区的形状要求不严,不同区组亦可分散设置在不
同地段上。
随机区组设计的不足
不允许处理数太多,至多不超过20个,最好10个左右。
以一个生物学例子为例
• 实验目的:摄食足以引起肥胖的高脂肪的大鼠和正常饮食 的大鼠相比,肝脏哪些基因的表达发生了变化? • 实验设计中需要确定的问题: (1)实验方法:成对实验 (2)饲喂时间:12h(发现早期基因) 取样时间:早上7点
利用基因芯片测定基因表达量
(3)在每个时间点,需要多少大鼠肝脏样品呢?
相关主题