当前位置:文档之家› 生物统计学与试验设计(电子教材)

生物统计学与试验设计(电子教材)

《生物统计学与试验设计》教案第一章绪论:一、教学学时:4二、教学要点:1. 生物统计学与试验设计在生物科学研究中的意义、地位和作用,生物学试验设计、调查设计的原则,试验误差及其控制;2.生物统计学与试验设计的一些常用基本概念;3.试验资料的分类,各类资料的次数分布表和次数分布图的制作方法;平均数、极差、方差、标准差、变异系数的具体计算方法。

三、教学难点:各类资料的次数分布表和次数分布图的制作,平均数、极差、方差、标准差、变异系数的计算。

第一节生物统计学概念生物统计学与试验设计,英文名称是Biostatistics and Experimental Design,是研究生物的遗传与变异、试验处理间及试验处理与环境间数量关系的一门科学,是数理统计原理在生物科学中的应用,是一门收集、整理和分析统计数据的方法科学,其目的是探索数据的内在数量规律性,在生物科学的发展中起着很重要的作用,已成为生命科学中非常重要的组成部分。

一、提供试验或调查设计的方法试验设计这一概念有广义与狭义之分,广义的试验设计是指试验研究课题设计,也就是指整个试验计划的拟定,包含课题名称、试验目的,研究依据、内容及预期达到的效果,试验方案,供试单位的选取、重复数的确定、试验单位的分组,试验的记录项目和要求,试验结果的分析方法,经济效益或社会效益的估计,已具备的条件,需要购置的仪器设备,参加研究人员的分工,试验时间、地点、进度安排和经费预算,成果鉴定,学术论文撰写等内容。

狭义的试验设计主要是指试验单位(如动、植物)的选取、重复数目的确定及试验单位的分组。

生物统计中的试验设计主要指狭义的试验设计。

合理的试验设计能控制和降低试验误差,提高试验的精确性,为统计分析获得试验处理效应和试验误差的无偏估计提供必要的数据。

调查设计这一概念也有广义与狭义之分,广义的调查设计是指整个调查计划的制定,包括调查研究的目的、对象与范围,调查项目及调查表,抽样方法的选取,抽样单位、抽样数量的确定,数据处理方法,调查组织工作,调查报告撰写与要求,经费预算等内容。

狭义的调查设计主要包含抽样方法的选取,抽样单位、抽样数目的确定等内容。

生物统计中的调查设计主要指狭义的调查设计。

合理的调查设计能控制与降低抽样误差,提高调查的精确性,为获得总体参数的可靠估计提供必要的数据。

简而言之,试验或调查设计主要解决合理地收集必要而有代表性资料的问题。

二、提供整理、分析资料的方法整理资料的基本方法是根据资料的特性将其整理成统计表、绘制成统计图。

通过统计表、图可以大致看到所得资料集中、离散的情况。

并利用所收集得来的数据计算出几个统计量,以表示该资料的数量特征、估计相应的总体参数。

统计分析最重要的内容是差异显著性检验。

通过抽样调查或控制试验,获得的是具有变异的资料。

产生变异的原因是什么?是由于进行比较的处理间,例如不同品种、不同饲料配方间有实质性的差异或是由于无法控制的偶然因素所引起?显著性检验的目的就在于承认并尽量排除这些无法控制的偶然因素的干扰,将处理间是否存在本质差异揭示出来。

显著性检验的方法很多,常用的有t检验——主要用于检验两个处理平均数差异是否显著;方差分检验——主要用于由质量性状得析——主要用于检验多个处理平均数间差异是否显著;2来的次数资料的显著性检验等。

第二节生物统计的常用术语一、总体与样本根据研究目的确定的研究对象的全体称为总体(population),其中的一个研究单位称为个体(individual);总体的一部分称为样本(sample)。

含有有限个个体的总体称为有限总体。

包含有无限多个个体的总体叫无限总体。

例如在生物统计理论研究上的服从正态分布的总体、服从t分布的总体,包含一切实数,属于无限总体。

在实际研究中还有一类假想总体。

例如进行几种饲料的饲养试验,实际上并不存在用这几种饲料进行饲养的总体,只是假设有这样的总体存在,把所进行的试验看成是假想总体的一个样本。

样本中所包含的个体数目叫样本容量或大小(sample size)。

样本容量常记为n。

通常把n≤30的样本叫小样本,n>30的样本叫大样本。

生物统计一般是通过样本来了解总体。

这是因为或者总体是无限的、假想的;即便是有限的但包含的个体数目相当多,要获得全部观测值须花费大量人力、物力和时间;或者观测值的获得带有破坏性。

研究的目的是要了解总体,然而能观测到的却是样本,通过样本来推断总体是统计分析的基本特点。

为了能可靠地从样本来推总体,要求样本具有一定的含量和代表性。

只有从总体随机抽取的样本才具有代表性。

所谓随机抽取(random sampling)是指总体中的每一个个体都有同等的机会被抽取组成样本。

二、参数与统计量为了表示总体和样本的数量特征,需要计算出几个特征数。

由总体计算的特征数叫参数(parameter);由样本计算的特征数叫统计量(statistic)。

常用希腊字母表示参数,例如用μ表示总体平均数,用σ表示总体标准差;常用拉丁字母表示统计量,例如用x表示样本平均数,用S表示样本标准差。

总体参数由相应的统计量来估计,例如用x估计μ,用S估计σ等。

三、准确性与精确性准确性(accuracy)也叫准确度,指在调查或试验中某一试验指标或性状的观测值与其真值接近的程度。

设某一试验指标或性状的真值为μ,观测值为x,若x与μ相差的绝对值|x -μ|小,则观测值x的准确性高;反之则低。

精确性(precision)也叫精确度,指调查或试验中同一试验指标或性状的重复观测值彼此接近的程度。

若观测值彼此接近,即任意二个观测值x i 、x j相差的绝对值|x i -x j|小,则观测值精确性高;反之则低。

准确性、精确性的意四、随机误差与系统误差试验中出现的误差分为两类:随机误差(random error)与系统误差(systematic error)。

随机误差也叫抽样误差(sampling error),这是由于许多无法控制的内在和外在的偶然因素如试验动物的初始条件、饲养条件、管理措施等尽管在试验中力求一致但不可能绝对一致所造成。

随机误差带有偶然性质,在试验中,即使十分小心也难以消除。

随机误差影响试验的精确性。

统计上的试验误差指随机误差。

这种误差愈小,试验的精确性愈高。

系统误差也叫片面误差(lopsided error),这是由于试验动物的初始条件如年龄、初始重、性别、健康状况等相差较大,饲料种类、品质、数量、饲养条件未控制相同,测量的仪器不准、标准试剂未经校正,以及观测、记载、抄录、计算中的错误所引起。

系统误差影响试验的准确性。

图1-1(c)、(d)所表示的情况,则是由于出现了系统误差的缘故。

第三节平均数、标准差与变异系数介绍平均数(mean)、标准差(standard deviation)与变异系数(variation coefficient)三个常用统计量,前者用于反映资料的集中性,即观测值以某一数值为中心而分布的性质;后两者用于反映资料的离散性,即观测值离中分散变异的性质。

一、平均数平均数是统计学中最常用的统计量,用来表明资料中各观测值相对集中较多的中心位置。

平均数主要包括有算术平均数(arithmetic mean)、中位数(median)、众数(mode)、几何平均数(geometric mean)及调和平均数(harmonic mean),现分别介绍如下。

(一)算术平均数算术平均数是指资料中各观测值的总和除以观测值个数所得的商,简称平均数或均数,记为x 。

算术平均数可根据样本大小及分组情况而采用直接法或加权法计算。

(一)直接法 主要用于样本含量n ≤30以下、未经分组资料平均数的计算。

设某一资料包含n 个观测值:x 1、x 2、…、x n ,则样本平均数x 可通过下式计算:nx nx x x x n i i n ∑==+++=121 其中,Σ为总和符号;∑=n i i x 1表示从第一个观测值x 1累加到第n 个观测值x n 。

当∑=n i ix 1在意义上已明确时,可简写为Σx ,(3-1)式即可改写为:nx x ∑= (二)加权法 对于样本含量n ≥30以上且已分组的资料,可以在次数分布表的基础上采用加权法计算平均数,计算公式为:∑∑∑∑==++++++===f fx f x f f f f x f x f x f x k i i ki i i kk k 11212211 式中:i x —第i 组的组中值;i f —第i 组的次数;k —分组数 第i 组的次数f i 是权衡第i 组组中值x i 在资料中所占比重大小的数量,因此f i 称为是x i 的“权”,加权法也由此而得名。

(三)平均数的基本性质1、样本各观测值与平均数之差的和为零,即离均差之和等于零。

0)(1=-∑=x x n i i 或简写成∑=-0)(x x2、样本各观测值与平均数之差的平方和为最小,即离均差平方和为最小。

∑=n i 1(x i -x )2<∑=n i 1(x i - a )2 (常数a ≠x ) 或简写为:∑-2)(x x <∑-2)(αx对于总体而言,通常用μ表示总体平均数,有限总体的平均数为: N x n i i ∑==1μ (3-3)式中,N 表示总体所包含的个体数。

当一个统计量的数学期望等于所估计的总体参数时,则称此统计量为该总体参数的无偏估计量。

统计学中常用样本平均数(x )作为总体平均数(μ)的估计量,并已证明样本平均数x 是总体平均数μ的无偏估计量。

(二)中位数将资料内所有观测值从小到大依次排列,位于中间的那个观测值,称为中位数,记为M d 。

当观测值的个数是偶数时,则以中间两个观测值的平均数作为中位数。

中位数简称中数。

当所获得的数据资料呈偏态分布时,中位数的代表性优于算术平均数。

中位数的计算方法因资料是否分组而有所不同。

(一)未分组资料中位数的计算方法 对于未分组资料,先将各观测值由小到大依次排列。

1、当观测值个数n 为奇数时,(n+1)/2位置的观测值,即x (n+1)/2为中位数;M d =2/)1(+n x2、当观测值个数为偶数时,n/2和(n/2+1)位置的两个观测值之和的1/2为中位数,即:2)12/(2/++=n n d x x M(二)已分组资料中位数的计算方法 若资料已分组,编制成次数分布表,则可利用次数分布表来计算中位数,其计算公式为:)2(c n f i L M d -+= 式中:L —中位数所在组的下限;i —组距;f —中位数所在组的次数;n —总次数;c —小于中数所在组的累加次数。

(三)几何平均数n 个观测值相乘之积开n 次方所得的方根,称为几何平均数,记为G 。

它主要应用于畜牧业、水产业的生产动态分析,畜禽疾病及药物效价的统计分析。

相关主题