当前位置:文档之家› 数理统计第一章

数理统计第一章

第1章抽样调查§1.1 引言数理统计学是数学的一个重要分支.它研究怎样有效地收集、整理和分析带有随机性的数据,以对所考查的问题作出推断或预测,直至为采取一定的决策和行动提供依据和建议.若在以上句子中去掉“带有随机性的”这几个字,那就是统计学的研究范围.统计学就是数据科学(《数理统计学讲义》,高教出版)。

数理统计学是这样一门学科:它使用概率论和数学的方法,研究怎样收集(通过试验和观察)带有随机误差的数据,并在设定的模型下(称为统计模型)之下,对数据进行分析(称为统计分析),以对所研究的问题作出推断(称为统计推断)(《概率论与数理统计》,中科大出版,陈希孺).由以上关于数理统计学的概念的阐述可以看出数理统计面对的对象就是数据,而数据的“质量”对最终的得出的结论的可靠性有着重大影响.对于普查的数据,数据的有效性、准确性很重要(这类数据的研究不属于数理统计学的范畴).对于抽查数据,数据的概率性质很重要.本章简要地介绍抽样调查的一些概念和技术以及相关理论.在数理统计学中还有另一种获取数据的方法--试验设计(将在后面介绍).抽样调查是从总体中抽取一小部分个体以获取总体的有关信息.根据研究对象即总体的不同特点需要设计不同的抽样方法以获取高“质量”的数据.抽样技术在很多领域都有应用.抽样技术本质上具有概率性—总体中每个个体都以特定的概率出现在样本中(简称为入样),并且样本的实际构成是随机的. 随机抽样至少有以下的益处:∙ 抽取个体的随机性排除了调查者的偏见,即使是无意识的。

∙ 与完全枚举(即普查)相比,小样本减少很多成本,调查更省时。

∙随机抽样的结论实际上可能比完全枚举更精确。

小样本的数据质量更容易监控,完全枚举需要大量的调查人员去实施,由此可能带来更多业务不精的职员。

∙ 随机抽样技术使得抽样误差估计变得可能。

∙ 在抽样设计时,通常可以确定出满足预设误差水平的样本容量。

以上的讨论中涉及“总体”和“个体”和“样本”三个名词.总体指研究对象的全体.而组成总体的各个成员称为个体.依总体中个体数有限和无限,总体分为有限总体和无限总体.本章讨论的总体都是有限总体.在具体的统计问题中,我们总是关注总体中成员的某项(或多项)数量指标.总体中的N 个成员的数量指标值记为N x ,,x ,x 21.如果将总体中的成员依据某一属性分成r 类,我们可以用数值r ,, 1(或11,0-r ,, )分别代表各个类别(称为分类数据或属性数据),最常见的是分为二类(比如正品与次品,男性与女性),我们称之为二分变量.例1.1 作为本章的第一个例子,我们利用Herkson(1976)的研究来解释一些思想.总体由393=N 个短期居留医院组成.我们关注于医院一个月内出院人数.令i x 表示1968年1月份第i 个医院的出院人数,那么总体为39321x ,,x ,x .总体均值为6.814,总体标准差为7.589.总体的数值都是知道的,我们可通过频数直方图显示总体数值的分布,见P139图7.1.这里举这个例子是为了教学目的,后面还会用这个例子来说明一些方法和思想.实际中,我们往往是不知道总体的数值,而是希望通过抽样而获得的数据去了解总体的信息,比如估计总体均值等.在统计问题中,我们特别关注的是总体的一些数值特征,或参数. 总体均值(population mean )∑==Ni ix N 11μ 在分类数据中,各类别的比例.总体总数(population total)∑==Ni i x 1τ总体方差(population variance)∑==N i i 2)-x(N 121μσ在二分情况下,总体方差为p)p -1(.总体标准差(population standard deviation)2σσ=.一般地,总体的特征数(或参数)是未知的,而我们要做的工作就是通过观察到的数据即样本来获取总体参数的信息.样本是指按照一定的抽样方案(或试验方案)从总体中抽取的若干个个体.由于抽取个体的目的是要调查其某项(或多项)数量指标,因此所得的样本表现为抽取的各个个体的数量指标。

记它们的数量指标为n X ,,X 1.我们称n X ,,X 1为样本,抽取的个体数n 称为样本容量. 由于抽样是随机安排的,因此n X ,,X 1是n 个随机变量(或向量).它们的联合分布依赖于总体的分布及抽样方案.抽样观察完成后便得到n 个具体的观察值n x ,,x 1,称n x ,,x 1为样本值, )x ,,(x n 1是)X ,,(X n 1的一次实现.以后样本值简称为样本,因此以后说到样本可以是n 个随机变量,也可以是n 个的观察值,这就是所谓的样本的二重性.在不会引起混淆时都用n x ,,x 1表示样本.§1.2 简单随机抽样最初级的抽样方法是简单随机抽样:每个个体都以相同的概率入样.简单随机抽样有放回的简单随机抽样(也称为有重复简单随机抽样)和不放回的简单随机抽样(也称为无重复简单随机抽样)两种方式.有放回的简单随机抽样所得的样本)X ,,(X n 1的概率特性有(1) 各个i X 具有相同的分布;(2) n X ,,X 1相互独立.不放回的简单随机抽样所得的样本)X ,,(X n 1的概率特性有(1)各个i X 具有相同的分布;(2)n X ,,X 1不相互独立. 任意指定的n 个个体组成样本的概率均为n NC 1。

两种方式下的样本的第一条概率特性相同,这是由“每个个体都以相同的概率入样”的缘故.一般而言,简单随机抽样都是指不放回的随机抽样.这里引入有放回的随机抽样是因为(1)放回的随机抽样的样本的概率性质更为简单;(2)给不放回的随机抽样提供一个比较对象.例如,若总体中N 个个体的数量指标值N x ,,x ,x 21各不相同,那么i X 的概率质量函数为 N ,,,j ,N)x X P(j i 211=== 若总体中N 个个体的数量指标值有相同的,各个体的不同取值记为m 1,ςς ,,且取值j ς的个体数为j n )m ,,,j ( 21=,那么i X 的概率质量函数为 m ,,,j ,N n )X P(jj i 21===ς若总体为二分变量,那么i X ~)p ,(B 1,其中p 总体中取值为1的个体的比例.我们往往关心总体均值、总体总数、总体方差等总体参数的估计,通常用样本均值(sample mean ) ∑==n i i X n X 11 作为总体均值μ的估计.作为总体总数的一个估计,我们考虑X N T =由于样本n X ,,X 1是随机的,所以样本均值X 也是随机的,它的概率分布称为抽样分布.X 的抽样分布决定了X 估计μ的精度,粗略地讲,抽样分布越紧密地集中在μ附近,估计越好.例1.2 为了解释抽样分布的概念,我们再一次考虑393个医院的总体.当然,在实践中,总体是未知的.出于教学的目的,我们考如来自这个总体的样本均值的抽样分布.例如,假如我们想寻找容量为16的样本均值的抽样分布,原则上,我们可以得到所有的16393C 个样本,并计算每个样本的均值.但是这样的样本个数是2810阶,这显然是不可行的.因此我们利用称之为模拟的技术.我们抽取很多个容量同为n 的样本,计算均值,然后绘制其直方图,用以估计抽样分布.图7.2(见P141)显示了样本容量为32,16,8和64的500次模拟结果.值得注意的是该图的三个特征:1. 所有的直方图集中在总体均值6.814上.2. 随着样本容量的增加,直方图发散程度降低.3. 尽管总体直方图(图7.1)关于均值不对称,但图7.2的直方图接近于对称.一般而言,得出X 的精确抽样分布很困难.下面计算X 的期望、方差,以了解该估计量的统计性质,并由此看出该估计的优良性. 首先在简单随机抽样下,i X 的期望、方差分别为 μςςς====∑∑==m j j j mj j j j i n N )(X P )E(X 111 211)(σμς==∑=m j 2j j i -(n N X Var ) 以上性质无论放回抽样还是不放回抽样都成立,但对于协方差)X ,X Cov j i ((j i ≠)会不一样,在放回抽样时)X ,X Cov j i (0=;而不放回抽样时,)X ,X Cov j i (12--=N σ,由以上讨论易得性质1.2.1 简单随机抽样下, τμ==)T (E )X E(要注意的是,由于X 是随机的,结论μ=)X (E 可以解释“平均地”μ=X .一般地利用样本构造的统计量θˆ估计总体参数θ时,如果无论θ取何值,总有θθ=)(E ˆ,我们称θˆ为θ的无偏估计.因此X 是μ的无偏估计.但这并不意味着X 会恰好等于μ,X 与μ总会有偏差的,为此还需考验该估计的精度.一般地我们可用均方误差2)ˆˆθθθθ-=(E ),MSE( 来衡量估计的精度.称),MSE(θθˆ为标准误差.易得2)ˆˆˆθθθθθ-+=E ()ar(V ),MSE( θθ-)(E ˆ称为偏差或偏倚.若θˆ为θ的无偏估计,那么 )ar(V ),MSE(θθθˆˆ= 性质1.2.2 在简单随机抽样下,(1) 若放回抽样,则 n )X Var(2σ=, n X σσ= 22σn N )T (Var =,nN T σσ= (2) 若不放回抽样,则)111(2---=N n n )X Var(σ )111(22---=N n n N )T (Var σ, (3)在二分情形下,p )X E(=,n)p -(p )X (Var 1=,(放回抽样时) )1111---=N n (n )p -(p )X (Var ,(不放回抽样时) 可以看出,样本均值的精度与n 和σ有关,两种抽样方式X 的方差相差一个因子1111--=---N n N N n 称它为有限总体校正.比值N n 称为抽样比例,若抽样比例非常小时 111---N n 1≈ 两种抽样方式下样本均值的方差差别不大.例1.3 如果无重复地抽取医院总体,样本容量为32=n ,那么样本均值的标准差为392311327.58911132)(-=---==N n X Var X σσ 0.10096.02.104=⨯= 为了说明0.100=X σ是精度合理的度量,再次审视图7.2b,观测到大部分样本均值在总体均值(814)的2倍标准误差之内,也就是说大部分样本均值在)1014,614(内. 例1.4 在医院总体中,小于1000个出院人数的比例是654.0=p .如果利用样本比例pˆ估计这个总体比例,可得该估计的标准误差为08.096.032346.0654.0111)1(ˆ=⨯⨯=----=N n n p p p σ 总体方差2σ是一个重要的总体参数,也需要通过样本对其作出估计,并且由上面的讨论可看出样本均值作为总体均值的估计时,其精度与总体方差有关,在实现中总体方差未知,我们可由样本对其作出估计,从而对样本均值作为总体均值的估计时的精度作出评估. 下面是一个常用的2σ的估计量 ∑==n i i 2)X -X (n 121ˆσ 性质1.2.3 在简单随机抽样下,(1) 若放回抽样,则 n )n ()E(221ˆσσ-= (2) 若不放回抽样,则 )11ˆ22-N N (n )n ()E(σσ-= 由此可见2ˆσ是2σ的有偏估计,而且总有 22ˆσσ<)E( 也即该估计系统地偏小,为了具有无偏性,我们可对以上估计作如下修正∑==ni i )X -X (-n S 12211,(放回抽样时), 21221111~S N-N )X -X ()N -N (-n S n i i ==∑=,(不放回抽样时), 从无偏性角度,2S (或2~S )优于2ˆσ.但从均方误差准则角度,2σˆ往往优于2S (或2~S ).在实际中人们往往不希望把总体方差估计得偏小,因此总体方差的估计常用2S (或2~S ).我们易得下面结论 性质1.2.4 样本均值X 的方差)X (Var 的无偏估计为 n S S 22=,(放回抽样时), )Nn (n S S 2X -=1~2,(不放回抽样时) 性质 1.2.5 在二分总体中,p 的估计X p=ˆ的方差)p (Var ˆ的无偏估计为 1ˆ1ˆˆ-n )p -(p S 2p =,(放回抽样时), )N n (-n )p -(p S 2p -=11ˆ1ˆˆ,(不放回抽样时) 如果我们知道了实际的总体方差2σ,那么可用σ来度量p,X ˆ的估计精度;如果总体方差2σ未知(实际中2σ通常未知),那用估计的标准误差替代他们,这是通常的做法.例 1.5 从医院总体中抽取一个样本容量为50的样本,并算得样本均值为5.938=x ,标准差为53.614=s .那么可得样本均值X 的方差的估计为 )1(ˆ22N n n s X-=σ6592= X 的估计标准误差是 19.81ˆ=X σ注意,真正的标准误差是 78392491507.589)(=-==X Var X σ例1.6 令p 为出院人数少于1000人的医院比例,从医院总体中抽取一个样本容量为50的样本,其中有26个医院出院人数少于1000.那么p 的估计值为52.05026ˆ==ppˆ的方差的估计为 0045.0)1()ˆ1(ˆˆ2ˆ=--=Nnn p p p σ pˆ的估计标准误差为 067.0ˆˆ=p σ以上例子说明通过简单随机抽样不仅可以得到未知的总体参数的估计,还可以利用样本数据的估计的标准误差刻画估计的误差水平.总结如下表:前面己经讨论了样本均值X 的期望与方差,在理想情况下,我们想知道X 的抽样分布,这样做就可以告诉我们估计精度的一切特征.然而,在没有总体本身的信息时,我们是不能确定抽样分布的.但由中心极限定理我们可以导出其近似分布----正态分布,这种近似可以用来计算估计误差的概率限.若随机变量序列 ,X ,,X ,X n 21独立同分布,且期望,EX i μ=方差2σ=i VarX ,记∑==ni i n X n X 11,那么中心极限定理知nX n /σμ-依分布收敛于标准正态分布)1,0(N .也即当n 充分大时,n X 近似服从正态分布)/,(2n N σμ.由以上结论可知,若n X ,,X ,X 21是从某总体中按放回的简单随机抽样方法得到的样本,总体均值和方差分别为μ和2σ,那么当样本容量n 充分大时,X 近似服从正态分布)/,(2n N σμ.若n X ,,X ,X 21是从某总体中按不放回的简单随机抽样方法得到的样本,此时情况所有不同,诸i X 并不独立,且让样本容量n 趋于无穷是没有意义的.但是当样本容量n 很大,且相对于N 仍很小时,X 近似服从正态分布),(2N σμ.由以上的近似分布,我们可以近似地计算用X 估计μ时误差小于某常数δ的概率)|δμ<-X P(|, )|δμ<-X P(|12-Φ≈)(Xσδ, 或)|δμ>-X P(|]1[2)(XσδΦ-≈ 例1.7 再次考虑医院总体,容量为64的样本均值的标准差为 5.67392631647.589)(=-==X Var X σ那么样本均值X 近似服从正态分布)5.67,(2μN ,这里814=μ为总体均值.由此可近似地计算出样本均值与总体均值的绝对偏差在100以上的概率)100|>-μX P (|138.0]5.671001[2=Φ-≈)(例1.8 续例1.6 p 的真实值为6540.,p 的估计值为520ˆ.p=,两者差距为134.0|ˆ=-p p|,下面近似计算两者的绝对偏差超过134.0的概率. 由于pˆ近似服从正态分布)064.0,(2p N ,因而 )134.0|ˆ>-p pP(|04.0]064.0134.01[2=Φ-≈)( 我们看到这样的样本非常“不幸”,超过这个误差的发生几率仅是4%.§1.3 比例的估计上一节简单随机抽样奠定了抽样调查的理论基础.在此基础上,这一节和下一节介绍抽样调查的一些高深话题.这一节,我们考虑比例估计,假设观察到总体成员的两个数值x 和y .感兴趣的是比例xy Ni iNi ixy r μμ==∑∑==11 这里∑==Ni i y y N 11μ,∑==N i i x x N 11μ比例在抽样调查中经常出现.例如,如抽取家庭,可以计算下面的比例:如果y 是家庭中年龄为20-30岁的失业男性人数,x 是家庭中年龄为20-30岁的男性人数,那么r 是年龄为20-30岁的男性失业比例. 如果y 是周食品消费支出,x 是家庭成员数,那么r 是人均家庭周食品消费支出.在农业调查中,y 可能是种植小麦亩数,x 是所有的亩数.等等. 下面考虑比例的估计问题,设有样本n ,,,i ),Y ,X i i 21=(,很自然地利用XYR =估计r .我们希望能推导出该估计量的期望E(R)和方差)R (Var 的表达式.但是由于R 是X 和Y 的非线性函数,得出期望E(R)和方差)R (Var 的显出表达式行不通.但可以得到他们近似式,下面不加证明地给出结论.性质1.3.1 在简单随机抽样下,XYR =的近似方差为 )r -r ()R Var(Y X Y X xσσσμ212222+≈)r -r ()-N -n -(nxy y x 2xσσσμ211111222+= 其中 )X (Var X =2σ,)Y (Var Y =2σ,)Y ,X (Cov Y X =σ∑==N i x i x)-x (N 1221μσ,∑==N i y i y )-y (N 1221μσ,∑==N i y i x i xy )-y )(-x (N 11μμσxy σ称为x 和y 的总体协方差.而总体相关系数定义为yx xyσσσρ=以上)R (Var 的近似式又可表示为 )r -r ()-N -n -(n)R (Var y x y x 2xσρσσσμ211111222+≈ 由以上近似结果可以看出,R 的方差取决于多种因素,其中的因素之一是x 与y 的相关性,x 与y 具有强的正相关性时,会减少方差.x μ是影响方差的另一因素,||x μ越小,方差越大,这也好理解,因此||x μ越小,比率XYR =的波动幅度会变大. 性质1.3.2 在简单随机抽样下,XYR =的近似期望为 )-r ()-N -n -(n r E(R)y x x xσρσσμ2211111+≈由以上近似结果可以看出,R 不是r 的无偏估计,其偏差的阶是n /1,所以它对均方误差的贡献是21n /,而方差的阶是n /1,因此对于大样本而言,估计的标准误差主要取决于方差,而偏差可忽略不计. 在大样本下,R 近似服从正态分布.利用近似分布,我们可以构造r 的置信区间.也可以找出这种估计的误差的概率限.为了估计R 的标准误差或者说为了具体地计算出R 的标准误差.还必须估计出x μ,22y x ,σσ以及ρ,r .前三者分别用2x S ,X 和2y S 估计,r 用R 估计.为估计ρ,我们先对总体协方差作如下估计:∑==n i i i xy )Y -)(Y X -X (-n S 111 那么ρ的估计为yx xy S S S =ρˆ因此R 的估计方差为)S S R -S S R (X)-N -n -(n S y x y x Rρˆ21111122222+≈ r 的近似α-1的置信区间为R S U R 2/1α-±.例1.9 假设调查了100个最近购房的居民,得到每个购房者的每月按揭付款额和月总收入。

相关主题