(标准抽样检验)理论分布和抽样分布第四章理论分布和抽样分布在上章样本分布及其特征的基础上本章将讨论总体的分布及其特征。
首先介绍间断性变数总体的理论分布,包括二项分布和泊松分布;其次介绍连续性变数总体的理论分布,即正态分布;最后介绍从这两类理论分布中抽出的样本统计数的分布,即抽样分布。
为了说明这些理论分布,必须首先了解概率的基本概念和计算法则。
第一节事件、概率和随机变量一、事件和事件发生的概率在自然界中一种事物,常存在几种可能出现的情况,每一种可能出现的情况称为事件,而每一个事件出现的可能性称为该事件的概率(probability)。
例如种子可能发芽,也可能不发芽,这就是两种事件,而发芽的可能性和不发芽的可能性就是对应于两种事件的概率。
若某特定事件只是可能发生的几种事件中的一种,这种事件称为随机事件(randomevent),例如抽取一粒种子,它可能发芽也可能不发芽,这决定于发芽与不发芽的机会(概率),发芽与不发芽这两种可能性均存在,出现的是这两种可能性中的一种。
事件发生的可能性(概率)是在大量的实验中观察得到的,例如棉田发生盲蝽象为害的情况,并不是所有的棉株都受害,随着观察的次数增多,我们对棉株受害可能性程度大小的把握越准确、越稳定。
这里将一个调查结果列于表4.1。
调查5株时,有2株受害,受害株的频率为40%,调查25株时受害频率为48%,调查100株时受害频率为33%。
可以看出三次调查结果有差异,说明受害频率有波动、不稳定。
而当进一步扩大调查的单株数时,发现频率比较稳定了,调查500株到2000株的结果是受害棉株稳定在35%左右。
表4.1在相同条件下盲蝽象在某棉田危害程度的调查结果调查株数(n) 5 25 50 100 200 500 1000 1500 2000受害株数(a) 2 12 15 33 72 177 351 525 704棉株受害频率(a/n) 0.40 0.48 0.30 0.33 0.36 0.354 0.351 0.350 0.352现以n代表调查株数,以a代表受害株数,那么可以计算出受害频率p=a/n。
从棉株受害情况调查结果看,频率在n取不同的值时,尽管调查田块是相同的,频率p却不同,只有在n 很大时频率才比较稳定一致。
因而,调查株数n较多时的稳定频率才能较好地代表棉株受害的可能性。
统计学上用n较大时稳定的p近似代表概率。
然而,正如此试验中出现的情况,尽管频率比较稳定,但仍有较小的数值波动,说明观察的频率只是对棉株受害这个事件的概率的估计。
统计学上通过大量实验而估计的概率称为实验概率或统计概率,以表示。
此处P代表概率,P(A)代表事件A的概率,P(A)变化的范围为0~1,即0≤P(A)≤1。
随机事件的概率表现了事件的客观统计规律性,它反映了事件在一次试验中发生可能性的大小,概率大表示事件发生的可能性大,概率小表示事件发生的可能性小。
若事件A发生的概率较小,如小于0.05或0.01,则认为事件A在一次试验中不太可能发生,这称为小概率事件实际不可能性原理,简称小概率原理。
这里的0.05或0.01称为小概率标准,农业试验研究中通常使用这两个小概率标准。
除了随机事件外,还有必然事件和不可能事件,它们是随机事件的特例。
对于一类事件来说,如在同一组条件的实现之下必然要发生的,称为必然事件;例如,水在标准大气压下加热到100℃必然沸腾。
相反,如果在同一组条件的实现之下必然不发生的,称为不可能事件。
例如,水在标准大气压下温度低于100℃时,不可能沸腾。
必然事件和不可能事件发生的概率为1和0。
二、事件间的关系在实际问题中,不只研究一个随机事件,而是要研究多个随机事件,这些事件之间又有一定的联系。
例如,在种子发芽试验中,显然“发芽”和“不发芽”之间是有一定联系的。
为了表述类似上述事件之间的联系,下面说明事件之间的几种主要关系。
(一)和事件事件A和B至少有一个发生而构成的新事件称为事件A和B的和事件,记为A+B,读作“或A发生,或B发生”。
例如,有一批种子,包含有能发芽的和不能发芽的。
若A为“取到能发芽种子”,B为“取到不能发芽种子”,则A+B为“或者取到能发芽种子或者取到不能发芽种子”。
事件间的和事件可以推广到多个事件:事件A1、A2、…、A n至少有一发生而构成的新事件称为事件A1、A2、…、A n的和事件,记为A1+A2+…+A n=。
(二)积事件事件A和B同时发生所构成的新事件称为事件A和B的积事件,记作AB,读作“A和B 同时发生或相继发生”。
事件间的积事件也可以推广到多个事件:事件A1、A2、…、A n同时发生所构成的新事件称为这n个事件的积事件,记作A1A2…A n=。
(三)互斥事件事件A和B不可能同时发生,即AB为不可能事件,记作A·B=V,称事件A和B互斥或互不相容。
例如,有一袋种子,按种皮分黄色和白色。
若记A为“取到黄色”,B为“取到白色”,显然A和B不可能同时发生,即一粒种子不可能既为黄色又为白色,说明事件A和B互斥。
这一定义也可以推广到n个事件。
(四)对立事件事件A和B不可能同时发生,但必发生其一,即A+B为必然事件(记为A+B=U),AB为不可能事件(记为A·B=V),则称事件B为事件A的对立事件,并记B为。
例如,上面A为“取到黄色”,B为“取到白色”,A与B不可能同时发生,但是,任意抽取一粒种子,其皮色不是黄色就是白色,即A和B必发生其一,因此,A和B互为对立事件。
(五)完全事件系若事件A1、A2、…、A n两两互斥,且每次试验结果必发生其一,则称A1、A2、…、A n为完全事件系。
例如,仅有三类花色:黄色、白色和红色,则取一朵花,“取到黄色”、“取到白色”和“取到红色”就构成完全事件系。
(六)事件的独立性若事件A发生与否不影响事件B发生的可能性,则称事件A和事件B相互独立。
例如,事件A为“花的颜色为黄色”,事件B为“产量高”,显然如果花的颜色与产量无关,则事件A与事件B相互独立。
三、计算事件概率的法则(一)互斥事件的加法假定两互斥事件A和B的概率分别为P(A)和P(B)。
则事件A与B的和事件的概率等于事件A的概率与事件B的概率之和,即P(A+B)=P(A)+P(B)。
加法定理对于多个两两互斥的事件也成立:假定A1、A2、…、A n n个事件彼此间均是两两互斥的事件,其概率依次为P(A1),P(A2),…,P(A n),则A1,A2到A n和事件的概率P(A1+A2+…+A n)等于P(A1),P(A2),…,P(A n)之和,即P(A1+A2+…+A n)=P(A1)+P(A2)+…+P(A n)。
例如,一捆花中红、黄、白花的概率分别为0.2、0.3、0.5,那么我们随机抽取一朵非白色花的概率为0.5(=0.2+0.3),这只是由加法定理得到的两个事件概率之和。
(二)独立事件的乘法假定P(A)和P(B)是两个独立事件A与B各自出现的概率,则事件A与B同时出现的概率等于两独立事件出现概率P(A)与P(B)的乘积,即P(AB)=P(A)P(B)乘法定理对于n个相互独立的事件也成立。
假定P(A1),P(A2),…,P(A n)是n个相互独立事件各自出现的概率,则该n个事件同时出现的概率P(A1A2…A n)等于各自出现概率之乘积,即P(A1A2…A n)=P(A1)P(A2)…P(A n)。
现有4粒种子,其中3粒为黄色、1粒为白色,采用复置抽样。
试求下列两事件的概率:(A)第一次抽到黄色、第二次抽到白色;(B)两次都抽到黄色。
由于采用复置抽样(即每一次抽出观察结果后又放回再进行下一次抽样),所以第一次和第二次的抽样结果间是相互独立的。
采用概率的古典定义,可以求出抽到黄色种子的概率为0.75,抽到白色种子的概率为0.25。
因此,有P(A)=P(第一次抽到黄色种子)P(第二次抽到白色种子)=0.25×0.75=0.1875,P(B)=P(第一次黄色种子)P(第二次黄色种子)=0.75×0.75=0.5625。
(三)对立事件的概率若事件A的概率为P(A),那么其对立事件的概率为:(四)完全事件系的概率例如“从10个数字中随机抽得任何一个数字都可以”这样一个事件是完全事件系,其概率为1。
(五)非独立事件的乘法如果事件A和B是非独立的,那么事件A与B同时发生的概率为事件A的概率P(A)乘以事件A发生的情况下事件B发生的概率P(B|A),即:P(AB)=P(A)P(B|A)四、随机变量随机变量是指随机变数所取的某一个实数值。
用抛硬币试验作例子,硬币落地后只有两种可能结果:币值面向上和国徽面向上,用数“1”表示“币值面向上”,用数“0”表示“国徽面向上”。
把0,1作为变量y的取值。
在讨论试验结果时,就可以简单地把抛硬币试验用取值为0,1的变量来表示。
P(y=1)=0.5,P(y=0)=0.5同理,用“1”表示“能发芽种子”,其概率为p;用“0”表示“不能发芽种子”,其概率为q。
显然p+q=1,则P(y=1)=p,P(y=0)=q=1-p。
用变量y表示水稻产量,若y大于500kg的概率为0.25,大于300kg且等于小于500kg的概率为0.65,等于小于300kg的概率为0.1。
则用变量y的取值范围来表示的试验结果为P(y ≤300)=0.10,P(300<y≤500)=0.65,P(y>500)=0.25。
对于前两个例子,当试验只有几个确定的结果,并可一一列出,变量y的取值可用实数表示,且y取某一值时,其概率是确定的,这种类型的变量称为离散型随机变量。
将这种变量的所有可能取值及其对应概率一一列出所形成的分布称为离散型随机变量的概率分布:变量y i y1y2y3…y n概率P1P2P3…P n也可用函数f(y)表述,称为概率函数。
对于上面水稻产量的例子,变量y的取值仅为一范围,且y在该范围内取值时,其概率是确定的。
此时取y为一固定值是无意义的,因为在连续尺度上一点的概率几乎为0。
这种类型的变量称为连续型随机变量。
对于随机变量,若存在非负可积函数f(y)(-∞<y<+∞),对任意a 和b(a<b)都有P(a≤y<b)=则称y为连续型随机变量(continuousrandomvariate),f(y)称为y的概率密度函数(probabilitydensityfunction)或分布密度(distributiondensity)。
因此,它的分布由密度函数所确定。
若已知密度函数,则通过定积分可求得连续型随机变量在某一区间的概率。
总之,随机变量可能取得的每一个实数值或某一范围的实数值是有一个相应概率的,这就是所要研究和掌握的规律,这规律称为随机变量的概率分布。
随机变量完整地描述了一个随机试验,它不仅告诉我们随机试验的所有可能结果,而且告诉我们随机试验各种结果出现的可能性大小。