第五章统计推断•总体与样本之间的关系-从总体到样本的研究。
-由样本推断总体:样本统计量的分布规律一般是正态分布、t 分布、χ2分布和F分布。
•对总体做统计推断的两种途径–先对所估计的总体做一假设,然后通过样本数据推断这个假设是否接受,这种途径称为统计假设检验(statistical test of hypothesis)–通过样本统计量估计总体参数,称为总体参数估计(estimation of population parameter)•本章重点讲解统计推断的一般原理以及对总体平均数及标准差的推断。
一、假设检验假设检验就是根据总体的理论分布和小概率原理,对未知或不完全知道的总体提出两种被此对立的假设,然后由样本的实际结果,经过一定的计算,作出在一定概率意义上应该接受的那种假设的推断。
如果抽样结果使小概率发生,则拒绝假设,如抽样结果没有使小概率发生,则接受假设。
小概率原理在一次试验中,某事件几乎是不会发生的,若根据一定的假设条件计算出来的该事件发生的概率很小,而在一次试验中它竟然发生了,则可认为原假设条件不正确,给予否定。
在生物统计的显著性检验中,通常取5%或1%小概率为显著性水平,记为“α”例5.1 根据以往的经验,用一般疗法治疗某种疾病,其死亡率为40%,治愈率为60%。
今用一种新药治疗染上该病的6名患者,这6人均治愈了,问该新药是否显著优于一般疗法?小概率原理用于显著性检验例5.2用实验动物作实验材料,现从一批动物(σ= 0.4)中抽取含量n= 10的样本并已经计算出平均值为10.23 g。
已知这批动物饲养时间较长,不可能小于10g,问此批动物材料是否是抽自于μ=10的总体中?解:1 样本平均数满足何种分布?2 从正态分布表查出P = 0.03438< 0.05,这是一个小概率事件,该样本几乎不可能抽自μ = 10.00 g的总体。
单侧检测(one-sided test)•上尾检验(upper tailed test):拒绝H0后,接受μ>μ0,如下左图。
•下尾检验(lower tailed test):拒绝H0后,接受μ < μ0 ,如下右图。
•双侧检验(two-sided test):拒绝H0后,接受μ≠μ0,如下图。
•由于单侧检验时利用了已知有一侧是不可能的这一条件,从而提高了它的辨别力,所以单侧检验比双侧检验的辨别力更强些。
•实际应用时,要尽量选用单侧检验,但要根据实际情况而定。
二、假设检验中的两类错误是真实的,却否定了它,又叫弃真错误。
1. Type Ⅰ error(α错误),如果H0是错误的,却接受了它,又叫纳伪错误。
2. Type Ⅱerror (β类错误),如果H0例5.3 用实验动物作实验材料,现从一批动物(σ= 0.4)中抽取含量n= 10的样本并已经计算出平均值为10.20 g。
已知这批动物饲养时间较长,不可能小于10g,问此批动物材料是否是抽自于μ=10的总体中?方法1方法2图 5-2 两种类型的错误样本抽自HA:u=10.3g,但却错误的接受H0:u=10.0 g的概率为0.2327。
关于两种类型错误的三点解释•当μ1越接近于μ0时,犯Ⅱ型错误的概率愈大;当μ1越远离μ0时,犯Ⅱ型错误的概率愈小。
•在样本含量和样本平均数都固定时,为了降低犯Ⅰ型错误的概率α(就应将图5-2中的竖线右移),必然增加犯Ⅱ型错误的概率。
•为了同时降低α和β就需增加样本含量。
三、假设检验的步骤●对样本所属总体提出假设,无效假设记作H0,备择假设,记作H A。
●确定显著水平在进行无效假设和备则假设之后,要确定一个否定H0的概率标准,这个标准叫显著水平或概率水平。
●在H0正确的前提下,根据抽样分布的统计数,进行假设检验的概率计算。
●根据显著水平α的统计数(如u值)的临界值,进行差异是否显著的推断。
四、均值检验5.1 单个样本的统计假设检验5.1.1 σ已知单个平均数显著性检验:u检验例5.5母猪的怀孕期为114天,今抽测10头母猪的怀孕期分别为116、115、113、 112、114、117、 115、 116、 114、113(天),试检验所得样本的平均数与总体平均数114天有无显著差异?根据题意,本例应进行双侧t检验。
1、提出无效假设与备择假设2、计算u值3、建立H0的拒绝域:因HA:μ> μ0,故为上尾单侧检验,当μ> μ0.05时拒绝H0,a=0.05的上侧分位数μ0.05=1.645。
4、结论:因为m> μ0.05所以拒绝H0,接受HA.上述样本很可能不是抽自N (377.2,3.32)的总体,抽出样本的那个总体的平均数是大于377.2的某个值,即栽培条件的改善显著提高了豌豆籽粒重量。
5.1.2 σ未知时平均数显著性检验:t检验例5.5 母猪的怀孕期为114天,今抽测10头母猪的怀孕期分别为116、115、113、112、114、117、 115、 116、 114、 113(天),试检验所得样本的平均数与总体平均数114天有无显著差异?根据题意,本例应进行双侧t检验。
1、提出无效假设与备择假设2、计算t值3、查临界t值,作出统计推断由df=9,查t值表(附表3)得t0.05(9)=2.262,因为|t|<t0.05, P>0.05, 故不能否定H0:μ= 114, 表明样本平均数与总体平均数差异不显著,可以认为该样本取自母猪怀孕期为114天的总体。
5.1.3 变异性的显著性检验:χ2检验例5.6一个混杂的小麦品种,株高标准差σ0=14cm,经提纯后随机抽取10株,它们的株高为:90, 105, 101, 95, 100, 100, 101, 105, 93,97,考察提纯后的群体是否比原群体整齐?1、小麦株高是服从正态分布的随机变量2、提出假设关于备择假设的说明:小麦经提纯后只能变得更整齐,绝不会更离散,即s只能小于σ0,因此HA:σ<σ0。
3、显著性水平规定α=0.054、统计量的值:5、建立的拒绝域:因H A:σ<s0,故为下尾单侧检验,当χ2<c21-α时拒绝H0,从附表6中可以查出χ29,0.99= 2.09,拒绝H0,接受HA,提纯后株高比原株高整齐。
6、结论,因χ2<χ29,0.99EX5.1某鱼场按常规方法所育鲢鱼苗一月龄的平均体长为7.25 cm,标准差为1.58cm,为提高鱼苗质量,现采用一新方法进行育苗,一月龄时随机抽取100尾进行测量,测得其平均体长为7.65cm,试问新育苗方法与常规方法有无显著差异?解题过程EX5.2某鱼塘水中的含氧量,多年平均为4.5mg·L-1,现在该鱼塘设10个点采集水样,测定水中含氧量分别为:4.33,4.62,3.89,4.14,4.78,4.64,4.52,4.55,4.48.4.26mg·L-1,试检验该次抽样测定的水中含氧量与多年平均值有无显著差别。
解题过程小结5.2 两个样本的显著性差异检验•单个样本的显著性检验需要事先能够提出合理的参数假设值和对参数有某种意义的备择值。
然而,实际工作中很难提出,故限制了实际应用。
•在实际应用时,常常选用两个样本,一个作为处理,一个作为对照,在这两个样本之间作比较,判定它们之间的差异是否用偶然性解释,若不能用偶然性解释时,则认为它们之间存在足够显著的差异,从而判断这两个样本来自两个不同的总体。
5.2.1 两个方差的检验(方差齐性分析)—F检验1假定从两个正态总体中,独立地抽取含量分别为n1和n2的两个随机样本,计算出s12和s22.总体平均数可以相等也可以不等.2零假设H0:σ1= σ2.备择假设HA:σ1 >σ2若已知σ1不可能小于σ2 。
HA: σ1 <σ2若已知σ1不可能大于σ2。
HA:σ1 ≠σ2 包括σ1 >σ2和σ1<σ2。
3 显著性水平:经常用α=0.05和α=0.01两个水平。
4 统计检验量:F df1,df2=s12/s22, df1=n1-1 df2=n2-1 。
5 建立H0的拒绝域:σ1>σ2,上尾单侧检验,F >Fα时拒绝σ1<σ2,下尾单侧检验,F <F1-α时拒绝σ1≠σ2,,双侧检验, F >Fα/2及F <F1-α/2时拒绝。
6作出结论并解释。
例5.7 测定了20位青年男子和20位老年男子的血压值(收缩压mmHg)如下表所示。
问老年人血压值个体间的波动是否显著高于青年人?解:根据检验的基本程序:(1)人类血压值是服从正态分布的随机变量,而且上述两样本是独立获得的。
(2)假设:H:σ1=σ2HA:σ1<σ2(由于老年人的血压值波动只会大于青年人,单侧)(3)显著性水平:根据问题的要求(是否显著),选α=0.05。
(4)统计量的值:Fdf1,df2=S12/s22,根据表中数据计算可得S12=193.4,s22=937.7,故F=0.206。
(5)建立H0的拒绝域: 由于HA :σ1<σ2,故为下尾单侧检验,当F<F0.95时拒绝H。
查表可得F19,19,0.95=1/ F19,19,0.05=0.459(6)结论:F<F0.95,所以结论是拒绝H,接受HA。
即老年人的血压值在个体间的波动高于青年人。
5.2.2 标准差(σi)已知时,两个平均数间差异显著性的检验—u检验例5.8调查两个不同渔场的马面鲀体长,每一渔场调查200条。
平均体长分别为19.8cm和18.5cm。
σ1=σ2=7.2cm。
问在α=0.05水平上,第一渔场的马面鲀体长是否显著高于第二渔场的?解:(1)假设:H0:μ1=μ2,HA:μ1>μ2(2)确定显著性水平:α=0.05。
(3)计算统计量。
(4)建立H0的拒绝域:因HA:μ1>μ2,故为上尾单侧检验。
当u>u0.05时拒绝H0,由附表查出u0.05=1.645。
5.2.3 标准差(σi)未知,但相等时,两个平均数间差异显著性的检验—成组数据t检验检验程序与5.2.2基本相同,只是所使用的统计量不同,当两个总体的标准差相等时,检验统计量t由下式给出:•在H0:μ1=μ2下变为在平均数检验中应用最为广泛。
先做方差齐性检验(F-双侧检验)判断σi 是否相等;按上式计算统计量t,进行t检验以判断两个平均数之间差异是否显著。
例 5.9 研究两种激素类药物对肾组织切片的氧消耗的影响,结果是:研究第一种药物的样本数为9,平均数为27.92,样本方差为8.673。
研究第二种药物的样本数为6,平均数为25.11,样本方差为1.843。
问两种药物对肾组织切片氧消耗的影响差异是否显著?解:第一步,做方差齐性检验:H0:σ1=σ2,HA:σ1≠σ2,α=0.05F8,5=8.673/1.843=4.71,F8,5,0.025=6.757F8,5,0.975=1/4.817=0.208,F8,5,0.975<F<F0.025,结论是接受H0(σ1=σ2)第二步,做平均数之间差异的显著性检验:H0:μ1=μ2, HA:μ1≠μ2,α=0.05;计算统计量t=2.168。