当前位置:文档之家› 第6章 样本及抽样分布121126

第6章 样本及抽样分布121126

第6章 样本与抽样分布第6章的教学要求:1.理解总体、个体、简单随机样本及其分布的概念.2.了解直方图和条形图、经验分布函数.会求经验分布函数.3.了解样本均值、样本方差与样本标准差、样本原点矩、众数和中位数等数字特征,并会根据数据计算这些数字特征的方法.4.了解2χ分布、t 分布、F 分布.会查表计算上α分位数.5.理解统计量的概念,掌握来自正态总体的抽样分布.在概率论中,一切的分析和运算都是基于分布已知这个假设进行的.但在实际问题中,情况往往并非如此,常常是我们对所要研究的随机变量知道不多或知之甚少.这时需要经试验或观测,获得反映随机变量信息的数据,并以概率论为理论基础,对数据进行整理、分析,从而对研究对象的性质和统计规律做出合理、科学的估计和推断.这就是数理统计基本的和主要的任务.数理统计研究统计的一般原理与方法.本章主要介绍数理统计中的基本概念、基本分布和正态抽样分布及性质.§6.1 总体与样本6.1.1 总体和个体在数理统计中,概括性地说,把研究对象的全体称为总体,把总体中的每个元素称为个体. 例如,研究……学生,……总体,……个体.但在实际中,我们说研究……学生,一般是带有“目的性”的.如:我们想研究学生的……,根据这种“目的性”,我们研究对象的全体就具体为“……”、个体则为“……”.因此,也说——总体是研究对象的某数量指标.记数量指标为X ,则X 是随机变量.例如,若X 是表示学生的……数量指标,则每个个体的指标值即为X 的取值.注意到,在进行研究时,个体的指标值事先是不知道的,我们一般是通过“随机抽样”的方式来获得个体的指标值及有关情况——即总体X 的取值及其分布的.因此,数量指标X 是一个随机变量.总体中所包含的个体的数量称为总体容量.根据总体容量的有限或无限,分为有限总体和无限总体.6.1.2 样本和简单随机样本通常人们以随机抽样的方式了解总体分布.把从总体中抽取出的一部分个体称为总体的一个样本,样本中的个体称为样品,样本中所包含的个体的数目称为样本容量.由于是通过样本来了解总体,所以样本应该具有代表性. 如何获得具有代表性的样本?获得具有代表性的样本最常采用的方法是:在相同条件下对总体X 进行n 次重复且独立的随机观测,把n 次观测的结果按试验的次序记为12,,,n X X X .采用这种有放回抽取得到的样本12,,,n X X X 是相互独立的随机变量,且均与总体X 有相同的分布,因此它具有代表性,这个样本称为简单随机样本.样本的一次观测值记为12,,,n x x x ,称为样本的一个样本值,这里n 即是样本容量.如果没有特别说明,在今后的讨论中所提到的样本都指简单随机样本,并简称为样本.怎样才能获得简单随机样本呢?对有限总体来说,采用有放回抽取方式就可以得到简单随机样本.但是有放回抽取在实际中有时使用起来不太方便.采用不放回抽取方式取得的样本则不是简单随机样本,但是当总体容量比样本容量大很多时,可以把它当作简单随机样本.对无限总体来说,抽走少量样本后不影响总体的构成或影响很小,因此常采用不放回抽取.6.1.3 样本的联合分布设12,,,n X X X 是来自总体X 的样本.如果总体X 的分布函数为()X F x ,那么样本12,,,n X X X 的联合分布函数为121(,,,)()nn X i i F x x x F x ==∏. (6.1)当X 为连续型随机变量且概率密度函数为()X f x 时,样本12,,,n X X X 的联合概率密度函数为121(,,,)()n n X i i f x x x f x ==∏. (6.2)当X 为离散型随机变量且概率分布为(){}X f x P X x ==(x 取遍X 的所有可能的取值)时,样本12,,,n X X X 的联合概率分布为1211221(,,,){,,,}()nn n n X i i f x x x P X x X x X x f x ======∏. (6.3)例6.1 设总体X 服从参数为p 的0-1分布,则X 的概率分布为1(){}(1),0,1x x X f x P X x p p x -===-=.于是样本12,,,n X X X 的联合概率分布为121(,,,)()(1)n n ns n s n X k k f x x x f x p p -==∏=-,其中(1,2,,)=k x k n 取1或0,而1==∑nn k k s x .例6.2 设总体2~(,)X N μσ,则样本12,,,n X X X 的联合概率密度函数为22211211()()22 (,,,)()e ni i i nn X i i nx x ni f x x x f x μμσσ==----==∏∑==.6.1.4 直方图与条形图1.直方图在实际统计工作中,首先接触到的是一系列数据,样本数据的整理是统计研究的基础.整理数据最常用的方法之一是给出数据的频数分布表或频率分布表.在研究连续性随机变量总体的分布时,通常用由一组矩形组成的图形直观地表示频数、频率分布表,这个图形就称为样本的频率直方图,简称直方图.绘制直方图的一般步骤见书P 135或新书P 165. 例6.3(P 136(新书P 166)) 2.条形图如果样本数据很少,以及在研究离散型随机变量总体的分布时,一般用条形图来直观地反映频数、频率分布表.条形图的制作方法:(1)统计出样本观测值12,,,n x x x 的频数与频率表;(2)在x 轴上的每个i x 处画出以样本数据中出现i x 的频数或频率为高度的一条线段.例6.4(P 167) 6.1.5 经验分布函数根据总体X 的样本值12,,,n x x x ,按如下方法可以得到一个函数.将总体X 的样本观测值12,,,n x x x 由小到大重新排序为12(1)(1)(2)(2)()(),,,,,,,,,,mm m n n n x x x x x x其中(1)(2)()m x x x <<<,12+++=m n n n n .定义函数(1)()(1)1()0,,1(),(1,2,,1),1,.k n i k k i m x x F x n x x x k m n x x +=⎧<⎪⎪=≤<=-⎨⎪⎪≥⎩∑ (6.4)()n F x 称为总体X (关于样本观测值12,,,n x x x )的经验分布函数或样本分布函数.对于给定的样本值12,,,n x x x ,经验分布函数()n F x 与总体分布函数()F x 有类似的性质.例6.5(P 168)定理6.1(格利文科(Glivenko )定理) 对于任意实数x ,经验分布函数()n F x 以概率1一致收敛于总体分布函数()F x ,即{lim sup ()()0}1n n x P F x F x →∞-∞<<+∞-==. (6.5)格利文科定理表明,当样本容量充分大,经验分布函数是对总体分布函数的很好近似.这一结论是数理统计依据样本来推断总体特征的理论基础. 作业(P 169):1. 2.-3.§6.2 样本的数字特征6.2.1 样本的基本数字特征假设12,,,n X X X 是来自总体X 的一个样本,12,,,n x x x 为它的观测值.样本均值 11==∑ni i X X n观测值 11==∑ni i x x n .样本方差 2211()1==--∑n i i S X X n 观测值 2211()1==--∑n i i s x x n .样本标准差 =S观测值 =s 样本k 阶原点矩 11,1,2,n kk i i A X k n ===∑; 观测值 11,1,2,===∑nk k i i a x k n .样本k 阶中心矩 11(),2,3,==-=∑nk k i i B X X k n ;观测值 11(),1,2,==-=∑nk k i i b x x k n .显然,()10=-=∑ni i X X ,样本一阶原点矩是样本均值.容易证明:()22211==-=-∑∑n ni i i i X X X nX .显然,样本的二阶中心矩与样本方差之间有如下关系:221n B S n-=.6.2.2 样本的简易数字特征1.众数众数是指一组数据中出现频数最高的数值,常用0M 表示. 例6.6(P 141(新书P 171))众数可以不唯一.比如出现频数最高的位置特征有两个,那么众数就有两个.如数据2,1,2,3,1,3,1,4,3,5,2,6的众数有1,2,3三个.如果数据的分布没有明显的集中趋势或不存在频数最高峰值,众数也可能不存在.例如,测得10名运动员的体重(单位:公斤)分别为76,77,82,84,83,83.5,81,82.5,90,95,其值各不相同,故认为不存在众数.由于这些数都集中在83左右,故可以说:83公斤左右的人比较集中.2.中位数中位数是指一组数据按大小排序后处于“中间”位置上的数值,常用e M 表示.考虑到观测数有偶数或奇数两种情况,中位数用如下方法确定.设12,,,n x x x 为来自总体X 的样本观测值,将样本观测值由小到大进行排序,记为(1)(2)(),,,n x x x ,则中位数定义为12221(),2+⎧⎪⎪=⎨+⎪⎪⎩n e n n x n M x x n (),()(+1)当为奇数,当为偶数. (6.6) 例6.7(P 172)作业(P 172):1.(2),(4)-(7) 3.(1)-(3) 4. 6. 5.§6.3 三个常用的抽样分布2χ分布、t 分布和F 分布都是由正态分布导出的分布,是试验统计中常用的分布,在数理统计中占有十分重要的地位.1.2χ分布(卡方分布)定义6.1 若12,,,n X X X 相互独立且都服从(0,1)N ,则随机变量22212=+++n X X X X所服从的分布称为自由度为n 的2χ分布,记作2()~X n χ. 2()n χ分布的概率密度函数为12221, 0,()220, 0.--⎧>⎪⎪⎛⎫=Γ⎨ ⎪⎝⎭⎪⎪≤⎩n xnx e x n f x x (6.7) 其中10()(0)+∞--Γ=>⎰x x e dx ααα是Γ函数.从图6.3可以看出,当自由度3n ≥,2()n χ分布密度函数的曲线均为单峰曲线,且随着自由度n 的增大,2()n χ分布的密度函数图形逐渐变得对称,接近于正态分布的密度函数曲线.图6.3 2()n χ分布的概率密度函数图像2χ分布有如下两条重要性质.性质1 若22(),()~~X n Y m χχ,且X 与Y 相互独立,则~+X Y 2()+n m χ.性质2 若2()~X n χ,则,2EX n D X n ==()(). 定义6.2 设2()~X n χ,对于任意给定的(01)αα<<,使2{()}P X n αχα>= (6.8)成立的2()n αχ称为自由度为n 的2χ分布的上α分位数.图6.4 2χ分布的上α分位数示意图2χ分布的上α分位数的值可通过2χ分布表(见附录)查得.当45n >时,也可用下面的(6.9)式得到上α分位数的近似值.其中z α是标准正态分布的上α分位数.2.t 分布定义6.3 若X 与Y 相互独立,且2~(0,1),~()X N Yn χ,则随机变量T =所服从的分布称为自由度为n 的t 分布,记作()~T t n . ()t n 分布的概率密度函数为12212()1,2+-+⎛⎫Γ ⎪⎛⎫⎝⎭=+-∞<<+∞ ⎪⎛⎫⎝⎭ ⎪⎝⎭n n x f x x n n . (6.10) 从图6.5可以看出,()t n 分布的密度函数的图形关于y 轴是对称的,且当n 很大时,图形几乎与标准正态分布的密度函数曲线重叠.图6.5 ()n t 分布的概率密度函数图像t 分布有这样的性质:若()~T t n ,则0(1),(2)2=>=>-nE T n D T n n ()(). 定义6.4 设()~T t n ,对于任意给定的(01)αα<<,使{()}P T t n αα>= (6.11)成立的()t n α称为自由度为n 的()t n 分布的上α分位数.图6.6 t 分布的上α分位数示意图()t n 分布的上α分位数的值可通过t 分布表(见附录)查得(表中列出了45n ≤常用α的上α分位数的数值).当45n >时,t 分布接近标准正态分布,这时()≈t n z αα. 注意,由()t n 分布的对称性易知,1()()t n t n αα-=-. (6.12)3.F 分布定义6.5 若X 与Y 相互独立,且2212(),()~~X n Y n χχ,则随机变量12X n F Y n =所服从的分布称为第一自由度为1n 、第二自由度为2n 的F 分布,记作12(,)~F F n n .12(,)F n n 分布的概率密度函数为112112221112122221,0,()220, 0.+--⎧+⎛⎫Γ ⎪⎪⎛⎫⎛⎫⎝⎭⎪+>⎪ ⎪ ⎪=⎛⎫⎛⎫⎨⎝⎭⎝⎭ΓΓ ⎪ ⎪⎪⎝⎭⎝⎭⎪≤⎪⎩n n n n n n n n x x x n n f x n n x (6.13)12(,)F n n 分布的概率密度函数的图形如图6.7所示.图6.7 12(,)F n n 分布的概率密度函数图像F 分布具有这样的性质:若12(,)~F F n n ,则211(,)~F n n F. 定义6.6 设12(,)~F F n n ,对于任意给定的(01)αα<<,使12{(,)}P F F n n αα>= (6.14)成立的12(,)F n n α称为第一自由度为1n 、第二自由度为2n 的F 分布的上α分位数.图6.8 F 分布的上α分位数示意图F 分布的上α分位数的值可通过F 分布表(见附录)查得(表中列出了一些常用α值的上α分位数).上1-α分位数则可由下式得到.112211(,)(,)-=F n n F n n αα. (6.15)例如,由附表E 可以查得0.05(10,11) 2.85=F ,然后利用(6.15)式得0.950.0511(11,10)0.3509(10,11) 2.85===F F .作业(P 177):1.-6.§6.4 常用统计量及其分布6.4.1 统计量的概念样本是总体的代表,包含有总体的许多信息,但这些信息比较分散,一般不能直接用于对总体进行统计推断,必须进行整理、加工,将有用的信息集中起来.以样本作为自变量的样本函数就是样本信息集中的一种表现,人们就是利用它来对总体进行统计推断的.定义6.7 设12,,,n X X X 是来自总体X 的样本,12,,,n x x x 是样本的观测值,而12(,,,)n g t t t 为一个已知的n 元函数.若样本函数12(,,,)n g X X X 中不含有未知参数,则称12(,,,)n g X X X 为样本的统计量,称12(,,,)n g x x x 为统计量的观测值.在§6.2中介绍的样本的基本数字特征都是统计量.但1=∑ni i i c X (其中(1,2,,)=i c i n 是未知参数)不是统计量.6.4.2 来自正态总体的常用统计量及其分布正态分布是应用最为广泛的一种分布,而由正态总体的样本均值与样本方差所构成的统计量的分布则是统计推断中最常采用的抽样分布.定理6.2 设12,,,n X X X 是来自正态总体2(,)N μσ的样本,X 为样本均值,则有(1)2~(,)X N n μσ;~(0,1)X N ;(3)221~()=-⎛⎫⎪⎝⎭∑nii X n μχσ.12(,)F n n 定理 6.3 若12,,,n X X X 是来自正态总体2(,)N μσ的样本,其样本均值和样本方差分别为11==∑n i i X X n 和2211()1n i i S X X n ==--∑,则 (1)222(1)~(1)--n S n χσ; (2)X 与2S 相互独立;~(1)-X t n . 定理6.4 若112,,,n X X X 与212,,,n Y Y Y 是来自正态总体211(,)N μσ和222(,)N μσ相互独立的两个样本,,X Y 和2212,S S 分别是两个样本的样本均值和样本方差,则有(1)22121212~,⎛⎫--+ ⎪⎝⎭X Y N n n σσμμ;(2)2212122212~(1,1)--S S F n n σσ;(3)当22212σσσ==时,12)~(2)+-X Y t n n其中222112212(1)(1),2-+-==+-n S n S S S n n ωω 例 6.8(P 179)例 6.9(P 179) 作业(P 180):1.-4.。

相关主题