当前位置：文档之家› 生物统计-试验设计

生物统计-试验设计

一本不错的书：
D.J.格拉斯著, 丛羽生等译. 生命科学实验设计指南.
科学出版社, 2008.
5. 是什么构成了实验问题的合理解释？
实验问题的合理解释(1)
• 对于“天空是什么颜色的”这个问题，运用科学的手段，能不能找到一个正确、符合事实、又从科学角度可以接受的答案呢？（1）提出一系列问题，如天空是蓝色的？绿色的？黄色的？红色的？（2）测量中午时所有可见光的波长。
SSe ：试验误差的平方和
SSt=SSA+SSB+SSAB
dfT=dft+dfr+dfe
dft=dfA+dfB+dfAB
二因素随机区组设计试验结果的统计分析(3)
• 各项的方差
s SS / df s SS / df
2 A A 2 B B
A
B
s
2 AB 2 r
SS AB / df
r r
AB
时间进程
• 在时间上进行多次测量叫做时间进程。可以用于了解任何特定的点上的测量是否具有代表性，以及在不同的条件下系统是否会发生基础性变化。 • 每5min测量一次。 • 在时间进程实施之前，科学家已对“天空是什么颜色的？” 预言了一个简单的答案。随着时间进程的发展，发现天空不只是一个颜色；相反，它在时时变化着。因此，科学家不能仅仅给出一个简单的结论来。而是，需要建立一个适应这些数据的新模型。
（2）有限的结论：天空在正午是蓝色的。
6. 如何用实验结论来描绘现实？
假设与模型
• 假设与模型的区别假设先于实验，它仅是一个猜测或推测。相反，模型的建立是在实验完成之后，因此是以积累的数据为基础的。 • 模型建立是一个基于归纳、联想、从个体到整体对积累的事实进行理解的过程。
科研工作：通常有一个假设
（3）得出结论：天空是蓝色的。
实验问题的合理解释(2)
• 天空真的是蓝色吗？（1）连续测量。30天，27天是蓝色，3天是灰色的（阴天）（2）显著性检验：差异显著
（3）认为，“天空是蓝色的”正确。
实验问题的合理解释(3)
• 或许会有人有疑问。 • 因为他的测量从来没有在夜间进行，甚至，在正午以外的时间也没有进行过。 • 所以，（1）我们还不能认为这个实验已经完整地回答了问题。如果在晚上进行测量，这个模型就被质疑了。
• 局部控制整个试验环境分解成若干个相对一致的小环境，称为区组（block）、窝组（fossa）或重复，再在小环境内分别设置一套完整的处理，在局部对非处理因素进行控制，称为局部控制（block control）。例如：作物产量测定试验
以大动物为受试对象的试验
试验设计的基本原则(3)
• 对照阳性对照、阴性对照等
二因素随机区组设计试验结果的统计分析(1)
• 区组作为一个因素，所以需要做三因素的方差分析 • 但是，Excel只有二因素的方差分析，所以需要自己计算部分结果
二因素随机区组设计试验结果的统计分析(2)
• 平方和和自由度的分解 SST=SSt+SSr+SSe SSt: 处理间的平方和，SSr：区组间的平方和
生物统计学课件
Hale Waihona Puke 试验设计及其统计分析主要内容
• 试验设计的基本原理 • 随机区组设计 • 平衡不完全区组设计
• 裂区设计
• 拉丁方设计 • 正交设计 • 作业
试验设计的基本原理
试验设计的概念
• 广义而言，试验设计是指整个研究课题的设计，包括试验方案的拟订、试验单位的选择、分组的排列、试验过程中生物性状和试验指标的观察记载、试验资料的整理和分析等。 • 狭义而言，试验设计是指试验单位的选择、分组与排列方法。 • 生物统计学中的试验设计主要指狭义的试验设计。
最终的实验设计
1、10只大鼠饲喂正常饲料 2、10只大鼠饲喂高脂肪饲料 3、每组中的大鼠按年龄、性别和起始体重配对
4、每周测量大鼠体重和血清化学参数。当大鼠呈现肥胖和胰岛素不敏感时，取出大鼠肝脏做分析。 5、但研究结束时，发现500个基因显著变化。重复1次时， 450个同样变化，重复2次时，430个同样变化，重复3次时， 425个同样变化。因此，他建立了一个大鼠在高脂肪饮食下，肥胖大鼠肝脏基因变化的模型。
• 从20个肝脏所得的数据，进行子集分析。 • 任何一个更少的数据组能否得到与20个数据组相同的结果 • 发现任何一组10个肝脏数据都能覆盖20个肝脏的所有数据，即n=10即可。
模型的预测能力
• 用300个基因作为一个模型，是否可以预测新一组动物的基因变化？ • 但这个验证实验被实施后，科学家仅能证实其中的200个基因。 • 为什么？
• 发现基因表达水平数据波动很大，即使mRNA是来自相同的肝脏。
改进的研究方案—重复
• 20个处理样品、20个对照样品（n=20） • 每个样品分成3份 • 120张芯片，基因表达数据
• 数据分析，发现300个基因的表达水平显著变化。其中，处理组的leptin表达水平上调了3倍。
到底需要重复多少次？
5、重复测量7天以获得具有统计学意义的数据。
收集并分析数据，诠释实验结果
• 注意：如果次数少，要看看是否有统计学意义。
11. 实验重复 ----获得数据用以模拟未来结果的过程
确定具有统计意义的测量数目
• 从统计计算中，我们可以得知一个实验必须包含数据的数目。 • 具统计意义的测量数目，部分由研究系统的可变性来指示。通过一定量的重复就能确定系统的可变性。即：先通过一系列的测量来评估系统的可变性，从而估计在新实验中所需的具统计意义的数据量。
提出一个模型： MuRF1具有与E3泛素连接酶相同的功能。
8. 设计实验 ----定义、时间安排和重复实验
定义术语
• 实验是根据问题或假说来进行的。 • 以“天空是什么颜色的？为例来讨论如何设计实验。 • 首先需要定义术语：
（1）定义颜色为“可见光”
（2）定义“天空”。例如，仪器是指向正上方还是指向水平线的？还是其它。
重复
• 连续测量7天。
对照
• 首先需要有一个“仪器对照”，保证相应的波长是可以被测量到的。需要阳性对照和阴性对照。 • 其次还要保证天空确实是被测量到了
实验清单
1、测量在一定波长范围内的可见光。每一个特定波长的光都要有一个阳性对照。每个测量都要有一个阴性对照，保证仪器不会做出错误的报告。 2、在每次测量时仪器都指向同一个方向。 3、在一定时间内（24h）对天空进行实验。 4、在实验的时间内每5min进行一次测量。
随机区组设计
随机区组设计
• 随机区组设计（randomized blocks design）：指根据局部控制和随机原则进行的，将试验单位按性质不同分成与重复数一样多的区组（窝组），使区组内非试验因素差异最小而区组间内非试验因素差异最大，每个区组均包括全部的处理。区组内各处理随机排列，各区组独立随机排列。
试验开始前，就要想好统计分析方法
试验设计的基本要素
• 处理因素：指对受试对象给予的某种外部干预或措施，简称处理。与前面讲过的试验因素相同。 • 受试对象：是处理因素的客体。与前面讲过的试验单位相同。 • 处理效应：是处理因素作用于受试对象的反应，是研究结果的最终体现。
试验误差及其控制途径
• 试验误差包括系统误差和随机误差。 • 试验误差的来源及控制途径（1）试验材料固有的差异
选择纯合一致的试验材料
（2）试验条件不一致可分组
合理的试验设计
（3）操作技术不一致
改进操作管理制度，使之标准化（4）偶然性因素的影响
试验设计的基本原则(1)
• 重复：主要作用是估计试验误差。重复数的多少，可根据试验的要求和条件而定。 • 随机：指一个重复中的某一处理或处理组合被安排在哪一个试验单位，不能有主观成见。
B C A
F E C
A G E
E H G
H B D
G A H
C D F
D F B
例8.2
• 方差分析的结果表明，品种间和区组间的平均数均有显著性差异。 • 需要对8个品种产量的平均数进行多重比较。 • 区组间的F值极显著，说明区组的土壤肥力是有极显著差别的。因为研究的目的不是研究区组效应，所以一般不对区组间的差异进行多重比较。
如何建立模型？
• 给出一个框架性问题：MuRF1（蛋白质）的功能是什么？ • 通过获得归纳演绎空间提出第一个实验问题： MuRF1是否与某些已知功能的蛋白质相似呢？
可用生物信息学的方法解决。
答案： MuRF1与E3泛素连接酶相似。 • 功能审视： MuRF1是否与E3泛素连接酶的功能相同？
• 进行功能性实验并利用实验数据建立模型。
试验排列示意图
区组1
3
8
4
6
2
5
9
1
7
区组2
5
6
2
3
7
9
1
8
4
区组3
2
4
7
8
6
3
9
5
1
随机区组设计的优点
（1）设计简单（2）富于弹性，单因素、多因素以及综合性的试验都可应用（3）能提供无偏的误差估计
（4）对试验区的形状要求不严，不同区组亦可分散设置在不
同地段上。
随机区组设计的不足
不允许处理数太多，至多不超过20个，最好10个左右。
以一个生物学例子为例
• 实验目的：摄食足以引起肥胖的高脂肪的大鼠和正常饮食的大鼠相比，肝脏哪些基因的表达发生了变化？ • 实验设计中需要确定的问题：（1）实验方法：成对实验（2）饲喂时间：12h（发现早期基因）取样时间：早上7点
利用基因芯片测定基因表达量
（3）在每个时间点，需要多少大鼠肝脏样品呢？

e商务文档

生物统计-试验设计

相关文档推荐：