概论名词:生物统计:将概率论和数理统计的原理应用到生物学中以分析和解释其数量资料的科学试验设计:试验工作未进行之前应用生物统计原理,来制定合理的试验方案,包括选择动物,分组和对比以及相应的资料搜集整理和统计分析的方法。
总体与样本⏹数据具有不齐性。
⏹根据研究目的确定的研究对象的全体称为总体(population);⏹含有有限个个体的总体称为有限总体;⏹包含有无限多个个体的总体叫无限总体;⏹总体中的一个研究单位称为个体(individual);⏹从总体中随机抽出一部分具有代表性的个体称为样本(sample);⏹样本中所包含的个体数目叫样本容量或大小,常记为n。
⏹通常把n≤30的样本叫小样本,n >30的样本叫大样本。
随机抽取(random sampling) 的样本是指总体中的每一个个体都有同等的机会被抽取组成样本。
变数与变异数列、变量:⏹变数:研究中对样本个体的观察值。
⏹变量:相同性质的事物间表现差异性的某种特征。
如:身高、体重。
⏹变异数列:将变数按从小到大的顺序排列的一组数列。
参数与统计量⏹由总体计算的特征数叫参数(parameter);⏹由样本计算的特征数叫统计量(staistic)。
准确性与精确性⏹准确性(accuracy)也叫准确度,指观测值与其真值接近的程度。
若x与μ相差的绝对值|x-μ|小,则观测值x的准确性高;反之则低。
⏹精确性(precision)也叫精确度,指重复观测值彼此接近的程度。
若观测值彼此接近,即任意二个观测值xi、xj相差的绝对值|xi -xj |小,则观测值精确性高;反之则低。
⏹调查或试验的准确性、精确性合称为正确性。
由于真值μ常常不知道,所以准确性不易度量,但利用统计方法可度量精确性。
随机误差与系统误差随机误差也叫抽样误差(sampling error) ,是由于许多无法控制的内在和外在的偶然因素所造成。
带有偶然性质,在试验中,即使十分小心也难以消除。
随机误差影响试验的精确性。
统计上的试验误差指随机误差。
这种误差愈小,试验的精确性愈高。
系统误差也叫片面误差(lopsided error),是试验处理之外的其他条件明显不一致所带来的偏差。
是由于试验动物的初始条件相差较大,饲料种类、品质、数量、饲养条件未控制相同,测量的仪器不准、标准试剂未经校正,以及观测、记载、抄录、计算中的错误所引起。
系统误差影响试验的准确性。
系统误差是一种有原因的偏差,因而在试验过程中要防止这种偏差的出现。
随机误差是偶然性的。
整个试验过程中涉及的随机波动因素愈多,试验的环节愈多,时间愈长,随机误差发生的可能性及波动程度愈大。
随机误差不可避免,但可减少,这主要依赖控制试验过程,尤其那些随机波动性大的因素。
系统误差是可以通过试验条件及试验过程的仔细操作而控制的。
实际上一些主要的系统性偏差较易控制,而有些细微偏差则较难控制。
平均数、标准差 无偏估计量:当一个统计量的数学期望等于所估计的总体参数时,则称此统计量为该总体参数的无偏估计量中位数的计算方法因资料是否分组而有所不同。
分组资料中位数的计算方法 1、当n 为奇数时:Md= 2、当n 为 偶 数 时已分组资料中位数的计算方法若资料已分组,编制成次数分布表,则可利用次数分布表来计算中位数,其计算公式为:L — 中位数所在组的下限; i — 组距;f — 中位数所在组的次数; n — 总次数;c — 小于中数所在组的累加次数。
例题:某奶牛场68头健康母牛从分娩到第一次发情间隔时间 整理成次数分布表如表所示,求中位数。
例题:将100头长白母猪的仔猪一月窝重(单位:kg )资料整理成次数分布表如下,求其加权数平均数。
2/)1(+n x2)12/(2/++=n n d x x M )2(c n f i L M d -+=5.70)16268(201557)2(=-+=-+=c n f i L M d平均数适用于对称分布,特别是正态分布资料。
中位数适用于各种分布类型的资料,特别适合大样本偏态分布资料或者一端或两端无确切数值的资料。
G 。
例题:某波尔山羊群1997—2000年各年度的存栏数见表3—3,试求其年平均增长率。
G ==lg-1[(-0.368-0.398–0.602)] =lg -1(-0.456)=0.3501例题:有8份血清的抗体效价分别为1:5, 1:10, 1:20, 1:40, 1:80, 1:160,1:320,1:640,求平均抗体效价。
平均抗体效价为: 1:57几何平均数:适用于成等比数列的资料,特别是服从对数正态分布资料。
如畜禽 、水产养殖的 增长率,抗体的滴度,药物的效价,畜禽疾病的潜伏期等。
众数:资料 中出现次数最多的那个观测值或次数最多一组的组中值,称为众数,记为M0。
)(2.451004520kg f fx x ===∑∑n n n n x x x x x x x x G 1)(321321 ⋅⋅=⋅⋅=)]lg lg (lg 1[lg 211n x x x n+++- 57.566403201608040201058=⨯⨯⨯⨯⨯⨯⨯=G适用于大样本;较粗糙如前述的 50枚受精种蛋出雏天数次数分布中,以22出现的次数最多,则该资料的众数为22天。
标准差:用平均数作为样本的代表,其代表性的强弱受样本资料中各观测值变异程度的影响。
全距(极差):是表示变异程度最简便的统计量。
当资料很多而又要迅速对变异程度作出判断,可以用全距。
离均差以平均数为标准,求出各个观测值与平均数的离差,(观测值偏离平均数的性质和程度,有负,离均差之和为零,即(= 0 ,而 不 能) 表示所有观测值的总偏离程度。
平均绝对离差:Σ| |/n 。
平均绝对离差可以表示资料中各观测值的变异程度 ,但包含绝对值符号先将各 个离 均差平方,即)2 ,再求 离均差平方和 ,平方和,记为SS ;时,分母用自由度 n-1, 于是, 采 用统计量统计量 均 方 ( mean square 缩写为MS ),又称样本方差自由度=n-K ,K 为限制条件的个数。
,记为σ2。
对于有限总体而言,σ2的计算公式为: S2 的平方根叫做样本标准 差,记为S,记为σ。
对于有限总体而言,σ的计算公式为: 在统计学中,常用样本标准差S 估计总体标准差σ。
标准差的计算方法对于未分组或小样本资料 , 可直接利用公式来计算标准差。
对于次数分布表的大样本资料,采用加权法计算标准差。
计算公式为: 例:用某纯系蛋鸡200枚蛋重资料的次数分布表计算标准差标准差的特性标准差的大小,受资料中每个观测值的影响,如观测值间变异大,标准差也大,反之则小。
在各观测值加上或减去一个常数,其数值不变。
每个观测值乘以或除以一个常数a ,则所得的标准差是原来标准差的a 倍或1/a 倍。
资料服从正态分布时,⏹ 68.26%的观测值在( ±S )范围内; ⏹ 95.43%的观测值在( ±2S )范围内; ⏹ 99.73%的观测值在( ±3S )范围内。
也就是说全距近似地等于6倍标准差,可用(全距/6)来粗略估计标准差。
变异系数 :衡量资料中各观测值变异程度的另一个统计量 。
标准差与平均数的比值称为变异系数,记为C·V 。
和 (或)平 均数不同对两个或多个资料变异程度比较的影响。
注意,变异系数的大小,同时受平均数和标准差两个统计量的影响,因而在利用变异系数表示资料的变异程度时,最好将平均数和标准差也列出。
常用概率分布随机现象或不确定性现象,有如下特点:对一次或少数几次观察或试验而言,其结果呈现偶然性、不确定性;在相同条件下进行大量重复试验时,其试验结果呈现出某种特定的规律性——频率的稳定性,称之为随机现象的统计规律性。
随机试验与随机事件随机试验 根据某一研究目的,在一定条件下对自然现象所进行的观察或试验统称为试验。
满足下述三个特性称为 一个随机试验(random trial ),简称试验: (1)试验可以在相同条件下多次重复进行;(2)每次试验的可能结果不止一个 ,并且事先知道会有哪些可能的结果; (3)每次试验总是恰好出现这些可能结果中的一个 ,但在一次试验之前却不能肯定这次试验会出现哪一个结果。
5524.31200200/1.1070511.5755071/)(222=--=--=∑∑∑∑f f fx fx S x x x %100⨯=⋅xSV C %100⨯=⋅x S V C随机事件随机试验的每一种可能结果,称为随机事件(random event),简称事件(event),通常用A、B、C等来表示。
基本事件:不能再分的事件称为基本事件(elementary event),也称为样本点(sample point)。
复合事件:由若干个基本事件组合而成的事件。
如“取得一个编号是2的倍数”是一个复合事件。
由“ 取得一个编号是2 ”、“ 是4”、“是6、“是8”、“是10”5个基本事件组合而成。
必然事件(certain event 在一定条件下必然会发生的事件,用Ω表示。
如,在严格按妊娠期母猪饲养管理的要求饲养的条件下,妊娠正常的母猪经114天左右产仔。
不可能事件(impossible event),在一定条件下不可能发生的事件,用ф表示。
必然事件与不可能事件实际上是确定性现象,为了方便起见,把它们看作为两个特殊的随机事件。
概率:在相同条件下进行n次重复试验,如果随机事件A发生的次数为m,那么m/n称为随机事件A的频率(frequency);当试验重复数n逐渐增大时,随机事件A的频率越来越稳定地接近某一数值p ,p称为随机事件A的概率。
这样的概率称为统计概率或者后验概率。
概率的古典定义:有很多随机试验具有以下特征:样本空间中的基本事件只有有限个;所有基本事件的发生是等可能的;试验的所有可能结果两两互不相容。
具有上述特征的随机试验,称为古典概型。
若随机事件的概率很小,例如小于0.05、0.01、0.001,称之为小概率事件。
把小概率事件在一次试验中看成是实际不可能发生的事件称为小概率事件实际不可能性原理,亦称为小概率原理。
小概率事件实际不可能性原理是统计学上进行假设检验(显著性检验)的基本依据。
例:患结核病为3%,患沙眼为4%,则10000中患任一种病的概率、人数P(A∪B )=P(A)+P(B)-P (A∩B)=0.03+0.04-0.03×0.04=0.06880.0688 ×10000=688人标准正态分布的概率计算利用下列关系式,可计算常用概率:P(0≤u<u1)=Φ(u1)-0.5P(u≥u1) =Φ(-u1)P(|u|≥u1)=2Φ(-u1)P(|u|<u1)=1-2Φ(-u1)P(u1≤u<u2)=Φ(u2)-Φ(u1)例已知u~N(0,1),试求:(1) P(u<-1.64)=? =0.05050(2) P (u≥2.58)=? =Φ(-2.58)=0.024940(3) P (|u|≥2.56)=? =2Φ(-2.56)=2×0.005234 =0.010468(4) P(0.34≤u<1.53) =? =Φ(1.53)-Φ(0.34) =0.93669-0.6331=0.30389关于标准正态分布,以下几种概率应当熟记:P(-1≤u<1)=0.6826 P(-2≤u<2)=0.9545 P(-3≤u<3)=0.9973P(-1.96≤u<1.96)=0.95 P (-2.58≤u<2.58)=0.99P(μ-σ≤x<μ+σ)=0.6826P (μ-2σ≤x <μ+2σ) =0.9545 P (μ-3σ≤x <μ+3σ) =0.9973 P (μ-1.96σ≤x <μ+1.96σ) =0.95 P (μ-2.58σ≤x <μ+2.58σ)=0.99 双侧概率(两尾概率)和单侧概率随机变量x 落在平均数μ加减不同倍数标准差σ区间之外的概率称为双侧概率(两尾概率),记作α。