当前位置:
文档之家› 第二章 试验资料的整理与特征数
第二章 试验资料的整理与特征数
– 由于试验的初始条件相差较大,种类、品质、数量、 条件未控制相同 ,测量的仪器不准 、 标准试剂未经校 正,以及观测、记载、抄录、计算中的错误所引起。
5、准确性与精确性
• 准确性(accuracy)是指统计数接近参数真 值的程度,是说明测定值对真值符合程度 的大小。 • 精确度(precision)是指样品中的各个变量 间变异程度的大小。
• 整理资料的基本方法是根据资料的特性将其整理 成统计表、 绘制成统计图。 • 通过统计表、图可以大致看到所得资料集中、离 散的情况。 • 并利用所收集得来的数据计算出几个统计量,以 表示该资料的数量特征、估计相应的总体参数。
2、提供由样本推论总体的科学方法;
• 试验的目的在于认识总体的规律,但 总体庞大,一般无法实施。
例如 调查作物受某种病虫害危害情况,将作物性 状分为高抗、抗、中抗、中感、感病5个级别,分
别用1,2,3,4,5表示,统计样本内各种级别的
植株数。
不同类型的资料相互间是有区别的,但有时可 根据研究的目的和统计方法的要求将一种类型 资料转化成另一种类型的资料。
例如,临床化验动物的白细胞总数得到的资料 属于计数资料。 根据化验的目的,可按白细胞总数正常或不正 常分为两组,清点各组的次数,计数资料就转 化为质量性状次数资料; 如果按白细胞总数过高、正常、过低分为三组 , 清点各组次数 ,就转化成了半定量资料 。
3、效应与互作
• 引起试验差异的作用称为效应。 – 如栽培试验中的肥料、密度等。 – 组织培养中的温度、培养基种类、激素 浓度等。 – 效应可分正效应、负效应。
互作:指两个获两个以上处理因素间的 相互作用产生的效应。
4、随机误差与系统误差
• 在试验中由于无法控制的随机因素引起的差异叫 随机误差(random error)或抽样误差 (sampling error) 。 • 系统误差或片面误差(lopsided error)是指在试验 过程中,人为因素所引起的差错。
它的各个观察值须以整数表示,两个相 邻整数间不容许任何带有小数的值存在。 该类资料也称非连续性变异数据或离散型 数据(discrete data)。
2、质量性状资料 质量性状是指只能观察而不能测量的 性状。如花药、茎、种子、果实、叶片 的颜色、籽粒的饱满度、芒的有无等。 质量性状本身不能用数值表示,要获 得这类性状的资料,须对其观察结果作数 量化处理。数量化方法可分为以下两种:
• 高通量和高复杂性的数据收集
– 高速计算机和传感器以及某些实验科学可产生海量数据(例如人类基因 组) – 需要新工具来组织和提取重要信息。 – 对于具有大量变量的巨型数据,需要更广泛的有偏估计理论。
生物统计简史
• 现代遗传学之父孟德尔(G.J.Mendel,17821884)利用豌豆进行实验,于1865年发现 了生物遗传的基本定律,被称为是将数学 应用于生物学的第一人。
(1)计量资料(measurement data)
凡用称量、测量等量测手段得到的 数量性状资料。 各个观察值不一定是整数,两个 相邻的整数间可有带小数的任何数值 出现; 计量资料也称之为连续性数据 (continuous data).
(2)计数资料(count data)
指用计数方式得到的数据资料.
• 法国人棣莫弗(A.de moivre,1667-1754) 于1718年用n!的近似公式导出正态分布 的频率曲线,作为二项分布的近似。 • 德国科学家高斯(G.F.Gauss,17771885)在观察研究误差理论时,从另一 角度也独立发现了正态分布密度称为高 斯分布。
• 高尔顿(F.Galton,1822-1911)引入了 中位数,百分位数,应用统计方法研究 人种特性,分析父母与子女的变异,探 索其遗传规律,提出分布、相关、回归 等重要的统计学概念的方法,开辟了生 物学研究的新领域,并首先提出生物统 计学(Biometry)一词。被后人推崇为 生物统计学的创始人。
从总体中抽取一部分个体作为总体的代 表来研究。被抽取的这些个体称为样本 (sample); 从总体中获得样本的过程称为抽样 (sampling)。
样本容量(sample size):样本容量常记为n。 大样本与小样本: 通常把n≤30的样本叫小样本; n >30的样本叫大样本。
总体与样本的关系
由样本推断总体虽然有很大可靠 性,也有一定错误率。俗语说“不 可不信,不可全信”,这是我们对 待统计推断的正确态度。
159 157 151 153 152 154 147 163 154 159
151 160 157 158 162 157 158 158 157 170
152 150 155 161 155 162 155 154 165 158
1.求极差R 极差(range)为资料中的最大观察值与
最小观察值的差数,它表示了整个样
• 皮尔逊(K.Pearson,1857-1936)是高尔 顿的得意门生,他花了近50年的时间和 精力,把生物统计学上升到通用方法论 的高度。主要贡献有变异系数的处理、 分布曲线、卡方检验、回归与相关的发 展等。 • 高尔顿和皮尔逊于1895年成立了伦敦生 物统计学实验室。1901年创办 《Biometrika》杂志。
155 153 156 141 153 156 151 163 158 154
150 144 160 156 155 162 157 154 164 157
159 156 155 145 162 151 156 158 148 167
Байду номын сангаас
157 150 160 156 154 152 153 152 164 157
• 生物统计学不仅在传统生物学、医学和 农学中被广泛应用,而且在分子生物学 研究中也发挥着重要作用。 • 例如,绘制基因连锁图; • 制图函数的获得; • DNA序列同源性分析; • 基因芯片数据的分析; • 组学分析; • QTL位点的定位等都是建立在统计学基 础上。
应用现状
• 生物统计被应用到下面这些领域的研究问题中:
(1)统计次数法 在一个样本内,分别统计具有某种性 状、不具有该性状的个体数,这种数 量化的资料又叫次数资料。 例如 1.调查国光苹果的裂果情况; 2.一个玉米果穗上甜粒与非甜 粒的比率。
(2)分级法 先根据性状的变异情况分级,给每级 分 别赋予一个适当的数值作代表值,然后统 计样本中属于各个级别的个体数。
i=R/组数
为了便于计算,组距一般取整数。 本例R=29,分为10组, 故组距: (i)=29/10=2.9≈3.0(cm)
3.确定组中值(midvalue)与组限(class limit)
组中值是各组区间的中点值,它可作为 各组的代表值,最好取整数或与观察值位 数一致。一般先确定第一组的组中值,通 常选接近资料中最小观察值为宜。
第一章 试验资料的整理与特证数的计算
第一节 试验资料的搜集与整理
数量性状(quantitative character)是指能够
以量测或计数的方式表示其特征的性状 。 观察测定数量性状而获得的数据就是数量性状
资料 ( data of quantitative
characteristics)。
• 数量性状资料的获得有量测和计数 两种方式 。 • 因而数量性状资料 又分为计量资料 和计数资料两种。
生物统计学
• 统计学是用于在可得到的信息既有限 又富于变化时,从中得出关于总体的 和过程的结论的一套科学原理和技术。 • 统计是关于从数据中学习的科学。
• 生物统计学是数理统计在生物学研究 中的应用,它是用数理统计的原理和 方法来分析和解释生物界各种现象和 试验调查资料的科学。
生物统计学的功能
1、提供整理和描述数据的科学方法;
2、参数与统计数
用总体的全体观察值计算的、描述总 体的特征数称为参数(parameter)。
如:总体平均数 ---- μ
总体方差----
2
由样本的全体观察值计算的、描述样本 的特征数称为统计数(statistics)。
如:样本平均数---- x
样本均方---- s
2
统计上,通常由样本统计数估计或推 断总体相应参数。
例 九个组中值分别为:
142,145 ,148, 151, …, 169
组限即各组的界限,常用L表示, 同一组中数值小者称为下限,数值大 者称为上限。
例的组限分别为: 141---143 144---146 147---149 |
168---170
为避免归组时出现差错,组限一定要
明确,不能有重叠、交叉。 组限的小数位数比观察值多取一位; 4.数据归组
– – – – – – 公共卫生,包括流行病学、 营养学和环境卫生学 基因组学和族群遗传学 医学 生态学 生物检定法 农学
未来需求
• 传统方法的改进
– 多重比较 (微阵列) – 主成分 (主成分曲线) – 似然分析 (随机过程的似然分析)
• 新方法
– – – – machine learning neural network 随机过程:有限 Markov 链、点过程,Gaussian 随机场 隐 Markov 模型和Monte Carlo 算法
本的变异幅度.
R=max{xi}-min{xi} 本例:R=170-141=29(cm)
2.确定组数与组距
确定适当的组数,应考虑:
(1)观察值个数的多少; (2)极差(R)的大小; (3) 便于计算; (4) 能反映出资料的真实面貌。
组距是每个组区间的上限与下限之差,常
用i表示。组距、组数、极差有如下关系:
• 皮尔逊的学生戈赛特(W.S.Gosset,18761937)对样本标准差进行了研究,于1908 年以笔名“Student”《Biometrika》上发 表论文,提出了t分布和t检验,创立了小样 本代替大样本检验的理论和方法。