第六章样本与抽样分布§6.1 数理统计的基本概念一.数理统计研究的对象例:有一批灯泡,要从使用寿命这个数量指标来看其质量,设寿命用X表示。
(1)若规定寿命低于1000小时的产品为次品。
此问题是求P(X 1000)=F(10000),求F(x)? (2)从平均寿命、使用时数长短差异来看其质量,即求E(x)?、D(x)?。
要解决二个问题1.试验设计抽样方法。
2.数据处理或统计推断。
方法具有“从局部推断总体”的特点。
二.总体(母体)和个体1.所研究对象的全体称为总体,把组成总体的每一个对象成员(基本单元)称为个体。
说明:(1)对总体我们关心的是研究对象的某一项或某几项数量指标(或属性指标)以及他们在整体中的分布。
所以总体是个体的数量指标的全体。
(2)为研究方便将总体与一个R.V X对应(等同)。
a.总体中不同的数量指标的全体,即是R.V.X的全部取值。
b.R.V X的分布即是总体的分布情况。
例:一批产品是100个灯泡,经测试其寿命是:1000小时1100小时1200小时20个30个50个X 1000 1100 1200P 20/100 30/10050/100(设X表示灯泡的寿命)可知R.V.X的分布律,就是总体寿命的分布,反之亦然。
常称总体X,若R.VX~F(x),有时也用F(x)表示一个总体。
(3)我们对每一个研究对象可能要观测两个或多个数量指标,则可用多维随机向量(X,Y,Z, …)去描述总体。
2.总体的分类有限总体无限总体三.简单随机样本.1.定义6.1 :从总体中抽得的一部分个体组成的集合称为子样(样本),取得的个体叫样品,样本中样品的个数称为样本容量(也叫样本量)。
每个样品的测试值叫观察值。
取得子样的过程叫抽样。
样本的双重含义:(1)随机性:用(X1,X2,……X n) n维随机向量表示。
X i表示第i个被抽到的个体,是随机变量。
(i=1,2,…n)(2)确定性:(x1,x2,……x n)表示n个实数,即是每个样品Xi观测值x i(i=1,2,…n)。
2.定义6.2:设总体为X,若X1,X2……X n相互独立且与X同分布,则称(X1,X2 (X)n)为来自总体X的容量为n的简单随机样本(简称样本)。
3.已知总体的分布写出子样的分布(1)已知总体X~F(x),则样品X i~F(x i) i=1,2…n样本(X1,X2…X n)的联合分布为:F(x 1,x 2…x n )=P(X 1≤x 1,X ≤2x 2…X ≤n x n) =∏=ni 1P(X ≤x i) =∏=ni 1F(x i) 若总体X ~f(x ),样品X i ~f(x i ) i=1,2……n样本(X 1,X 2……X n)的联合密度是 : f(x 1,x 2……x n )=∏=ni 1f(x i)例:总体X ~N(),2σμ,写出该总体样本(X 1,X 2…X n)的 联合密度。
(2)若总体X 是离散型随机变量,一般给出分布律:P(X=x k ) = p k . k=1,2……要写出概率函数f(x )即f(x )=P(X=x k )=i k p i k =1,2….., n i ,...,2,1=例: 总体X ~π(λ)写出该总体样本(X 1,X 2,…X n )的联合概率函数例:总体X ~B(1,p), 0<p <1写出其样本(X 1,X 2,……X n)的联合概率函数。
四 经验分布函数与直方图1.样本的经验分布函数(1)定义:设(x 1, x 2,…x n )是来自总体X 的一组样本值。
将它们按由小到大排序为:x 1*≤x 2*≤…≤x i *≤…≤x n * 对任意的实数x ,定义函数:F n * (x)=⎪⎪⎩⎪⎪⎨⎧<-=<≤<**+**x x n k x x x nk x x n k k 11,...2,1011 则称F *n (x )为总体X 的经验分布函数。
(2)格列文科定理:设总体X的分布函数、经验分布函数分别为F(x)、F n*(x),则有:P {}0)()(=-*+∞<<∞-∞→XFxFSupLimnxn=1上式表明,当∞→n,概率为1的有F)(x n均匀地趋于F(x)。
2总体的概率密度的估计−直方图(第一版)[p143 例6.3]可以用SAS下的interactive data analysis 模块演示。
五 统计量与样本的数字特征1 定义6.3: 设X 1,X 2,…,X n 是来自总体X 的容量为n 的样本,g(x 1, x 2,…,x n )是定义在R n或R n子集上的普通函数。
如果g 中不含有任何未知量,则称g(X 1,X 2,…,X n )为统计量。
2.常用的统计量(样本的数字特征)定义6.4:设X 1,X 2,…,X n 是来自总体X 的样本,则称∑∆=ni X n X 11 为样本均值()∑--=∆n i X X n S 12211为样本方差,...3,2,1,11==∑=∆K X n M n i Ki K 为样本k 阶原点矩 为样本k 阶中心矩3.重要性质定理6.1:设总体X 不论服从什么分布,只要其二阶矩存在,即E(X)=μ、D(X)=б2都存在,则: (1) E(X )=E(X)=μ(2)D(X )=n 1D(X)=n2σ(3) E(S 2)=D(X)=б2重要恒等式:()21212X n X X X nini-=-∑∑§6.2 抽样分布统计量是样本的函数,它是一个随机变量。
统计量的分布称为抽样分布。
一. 三个重要分布(一)2χ分布1. 定义6.5:设X 1,X 2,…X n 相互独立,均服从N(0,1),则称随机变量222221...n n X X X χ=+++服从自由度为n的2χ分布,记为()n 2χ,即:)(~22n n χχ。
2.定理3.8:)(2n χ的概率密度为⎪⎩⎪⎨⎧=>⎪⎭⎫ ⎝⎛Γ≤--0,210 ,0221222),(y n y e y yn n n y χ其中⎰+∞--=Γ01)(dt x e t tx定理的说明见P146页。
3.图形.分布函数图:data Kf;do x=0 to 30 by0.1;y= PROBCHI(x, 8);output;end;run;proc gplot data=kf;plot y*x=1 ;symbol1v=none i=join r=1c=black; run;密度函数图:n=1,5,15data kf;do y=0to20by0.1;z0=(y**(-0.5)*exp(-y/2))/(2**0.5* GAMMA(0.5));z1=(y**(1.5)*exp(-y/2))/(2**2.5* GAMMA(2.5)); z2=(y**(6.5)*exp(-y/2))/(2**7.5* GAMMA(7.5)); output;end;run;proc gplot data =kf;plot z0*y=1 z1*y=1 z2*y=1 /overlay ; symbol1 v =none i =join r =1 c =black; run;求概率:自由度为n=25, P{X<34.382}的概率这样求。
data ;p=PROBCHI(34.382,25); put p=; run ;其它可类推。
4.性质①若)(~22n χχ,则E(2χ)=n ,D(2χ)=2n②若),(~1221n χχ),(~2222n x χ且它们相互独立,则)(~2122221n n ++χχχ③若n X X X ,...,,21相互独立,均服从N (μ,σ2),则~)(11222∑-=niX X μσ)(2n χ④总体X 服从参数为λ的指数分布;X 1,X 2,…,X n 是来自该总体的样本.则:2(~2)(221_nX n niX χλλ∑=(二).t 分布定义6.6:设X ~N (0,1),Y ~χ2(n)且它们相互独立,则称随机变量n Y X T n/=服从自由度为n 的t 分布,记为t(n),即)(~n t T n 。
定理3.9:n T 的概率密度为212)1()2()21(),(+-+Γ+Γ=n n n n n n t T t π -∝<t<+∝性质:(1)t 分布的密度是偶函数,图形为:n=1, 10, 100时data student;do t=-3 to 3 by 0.01;z1=(gamma(1)*(1+t**2)**(-1))/((3.1415926)**0.5*gamma(0.5));z10=(gamma(5.5)*(1+t**2/10)**(-5.5))/((10*3.1415926)**0.5*gamma(5));z100=(gamma(50.5)*(1+t**2/100)**(-50.5))/(100*(3.1415926)**0.5*gamma( 50));output;end;run;proc gplot data=student;plot z1*t=1 z10*t=1 z100*t=1/ overlay ;symbol1v=none i=join r=1c=black;run;类似N(0,1)图形,n越大峰值越高。
分布函数图:n=10.data t;do x=-5to5by0.1;y=PROBT(x, 10);output;end;run;proc gplot data=t;plot y*x=1 ;run;(2)可证明当n >45时,t 分布与()1,0N 接近。
(3)当n>2时,E(T)=0,2)(-=n nT D (证略)(三)F 分布定义 6.7:设V ~χ2(m),W ~χ2(n),且它们相互独立,则称随机变量nW m VF n m =,服从第一自由度为m 、第二自由度为n 的F 分布,记为F(m,n), 即F m,n ~F(m,n)。
定理3.10:F m,n 为服从第一自由度为m ,第二自由度为n的F 分布的随机变量, 则其密度函数为⎪⎪⎩⎪⎪⎨⎧=>+ΓΓ+Γ<+--0y )1())(()2()2()2(0y 0212),,(n m m y n m y n m n m n m n m n m y F图形: 给定m,n 可画出一个密度图形密度函数图:data f;%macro a(m,n,x);data a;do y=0 to 2 by 0.01;F&x=(gamma((&m+&n)/2)*(&m/&n)**(&m/2)*y**(&m/2-1))/(gamma(&m/2)*gamma (&n/2)*(1+(&m*y/&n))**(&m+&n)/2);output;end;data F;merge a f;%mend a;%a(10,25,1);%a(10,5,2);run;proc gplot data=f;plot F1*y=1 F2*y=1 / overlay ;symbol1v=none i=join r=1c=black;run;易推知:1~F(n,m)①若F~F(m,n),则F②若X~t (n),则X2~F(1,n)练习:书上P151有证明。