第五章 统计量及其分布§ 5.1 总体与样本内容概要1 总体 在一个统计问题中,研究对象的全体称为总体,构成总体的每个成员称为个体若关心的是总体中每个个体的一个数量指标,则该总体称为一维分布。
若关心的是总体中的每个个体的两个数量指标,则该总体称为二维总体,二维总体就是一个二维分布,余此类推。
2 有限总体与无限总体 若总体中的个数是有限的,此总体称为有限总体。
若总体中的个数是无限的,此总体称为无限总体。
实际中总体的个体数大多是有限的。
当个体数充分大时,将有限总体看作无限总体是一种合理的抽象。
3 样本 从总体中随机抽取的部分个体组成的集合称为样本,样本的个体称为样本,样本个数称为样本容量或样本量。
样本常用n 个指标值1x ,2x , ,n x 表示.它可看作n 维随机变量,又可看作其观察值,这由上下文加以区别。
4 分组样本 只知样本观测值所在区间,而不知具体值的样本称为分组样本。
缺点:与完全样本相比损失部分信息。
优点:在样本量较大时,用分组样本即简明扼要,又能帮助人们更好的认识总体。
5 简单随机样本 若样本 1x ,2x , ,n x 是n 个相互独立的具有同一分布(总体分布)的随机变量,册称该样本为简单随机样本,仍简称样本。
若总体的分布函数为F(x),则其样本的(联合)分布函数为()∏=ni ix F 1;若总体的密度函数为P(x),则其样本的(联合)密度函数为∏=ni x p 1)(;若总体的分布列为{p(x i )},则其样本的(联合)分布列为∏=ni x p 1)(;习题与解答5.11. 某地电视台想了解某电视栏目(如:每晚九点至九点半的体育节目)在该 地区的收视率情况,于是委托一家市场咨询公司进行一次电话访查。
(1)该项研究的总体是什么? (2)该项研究的样本是什么?解:(1)该项研究的总体是该地区全体电视观众;(2)该项研究的样本上一该地区被电话访查的电视观众。
2. 为了了解统计学专业本科毕业生的就业情况,我们调查了某地区30名2000年毕业生的统计学专业本科生实习期满的月薪情况。
(1)什么是总体?(2)什么是样本?(3)本量是多少?解:(1) 总体是该地区2000年毕业的统计学专业本科生实习期满后的月薪; (2) 样本是被调查的30名2000年毕业的统计学专业本科生实习期满后的月薪; (3) 样本量为30。
3.设某厂大量生产某种产品,其不合格品率p 未知,每m 件产品包装为一盒。
为了检查产品的质量,任意抽取n 盒,查其中的不合格品数,试说明什么是总体,什么是样本,并指出样本的分布。
解:总体为该厂生产的每盒产品中的不合格品数;样本是任意抽取的n 盒中每盒产品的不合格数;样本中每盒产品中的不合格品数为1x ,…,n x ,因i x ~b(m,p),i =1,2,…,n,所以样本(x 1,x 2,…,x n )的分布为().,)1(1111n t nm t n i i x m x ni i x x t p p x m p p x m ii ++=-⎪⎪⎭⎫ ⎝⎛⎪⎪⎭⎫ ⎝⎛=-⎪⎪⎭⎫ ⎝⎛---=∏∏ 其中 4.假设一位运动员在完全相同的条件下重复进行n 次打靶,试给出总体样本的统计描述。
解: 若以P 记运动员打靶命中的概率,并以“1”记打靶命中,记“0”记打靶未命中,则总体为运动员打靶命中与否,该总体可由一个二点分布表示:样本为由n 个0或组成的集合,若记i x 为第i 次打靶命中情况,则i x ~b(1,p),i=1,2,…,样本(x 1,x 2,…,x n )的分布为11(1)(1)ii nx x t n t i Pp p p --=-=-∏,其中t=n x x ++ 1。
5. 某厂生产的电容器的使用寿命服从指数分布,为了解其平均寿命,从中抽出n 件厂品测其实际使用寿命,试说明什么是总体,什么是样本,并指出样本的分布解: 总体是该厂生产的电容器的寿命,或者可以说总体是指数分布,其分布为Exp(λ); 样本是该厂中抽出的n 个电容器的寿命;记第i 个电容器的寿命为i x ,则i x ~ Exp(λ),i=1,2,…,n,样本(x 1,x 2,…,x n )的分布为t n ni x e e iλλλλ-=-=∏1,其中t=n x x ++ 1。
6. 美国某高校根据毕业生返校情况记录,宣布该校毕业生的资为五万美元,你对此有和评论。
解: 毕业生返校记录是全体毕业生中的一个特殊群体(子总体)的一个样本,它只能反映该子总体的特征,不能反映全体毕业生状况,故此说法有骗人之嫌。
7. 设有N 个厂品,其中有M 个次品,进行放回抽样。
定义i x 如下:⎩⎨⎧=次取得正品。
第次取得次品,第i i x i ,0,1 求样本n x x x ,,,21 的联合分布。
解: 总体的分布列为 ,1)0(,)1(NMX P N M X P -==== 也可以写成 .1,0,1)(1=⎪⎭⎫⎝⎛-⎪⎭⎫ ⎝⎛==-x N M N M x X P xx因此样本n x x x ,,,21 的联合分布列为1121(,,,)11,0,1,iixx tn tnn i i M M M M p x x x x N N N N --=⎛⎫⎛⎫⎛⎫⎛⎫=-=-= ⎪ ⎪⎪ ⎪⎝⎭⎝⎭⎝⎭⎝⎭∏其中12n t x x x =+++ .8.设离散总体的分布列为.,,2,1,1)(n k Nk X P ===现进行不返回抽样,(x 1,x 2,…,x n )为样本,11ni i x x n ==∑为样本均值,求)(_x E 与()Var x (表示成N 的函数)。
解: 由于N 有限,抽样是不返回的,所以样本n x x x ,,,21 中诸i x 的分布列与总体的分布列相同,但诸i x 间不相互独立,即此样本不是简单随机样本。
以下我们先求诸i x 的期望,方差与协方差:122221222,11(1)1(),1,2,,221()()[()]2(1)(21)11,1,2,,,62121()()()(),12Ni k Ni i i k Ni j i j i j k k N N N E x i n N N k N Var x E x E x NN N N N N i n N k l N Cov x x E x x E x E x N N ==≠++==⋅==+⎛⎫=-=- ⎪⎝⎭+++-⎛⎫=-== ⎪⎝⎭+⎛⎫=-⋅=⋅- ⎪-⎝⎭∑∑∑其中222111(1)(1)(21)46(1)(1)(32),12NN Nk k k N N N N N kl k k NN N N ≠==+++⎛⎫=-=- ⎪⎝⎭=+-+∑∑∑代回原协方差表达式,可得2,(1)(1)(32)(1)()12(1)41,,1,2,,,12i j N N N N N Cov x x N N N i ji j N +-++=--+=-≠= 且由此可得样本均值_x 的期望与方差21212211()()21()()(,)1(1)11(1)(1)().121212ni i nN i i j i i j N E x E x nVar x Var x Cov x x n n N N n n N N n n n==≠+==⎡⎤=+⎢⎥⎣⎦⎡⎤-+=--⋅=+-⎢⎥⎣⎦∑∑∑5.2 样本数据的整理与显示内容提要1. 经验分布函数 若将样本观测值n x x x ,,,21 由小到大排列,得有序样本,)()2()1(n x x x ≤≤≤ 用有序样本定义如下函数,,1,,2,1,, ,1,/,0)()()1()()1(n k k n x x n k x x x x x n k x F ≥-=<≤<⎪⎩⎪⎨⎧=+当当当则称)(x F n 为该样本的经验分布函数 。
格里纹科定理 设n x x x ,,,21 是取自总体分布函数为是的样本,)()(x F x F n 该样本的经验分布函数,则当n →∞时:(sup |()()|)1n x P F x F x -∞<<∞-=。
此定理表明:当n 相当大时,经验分布函数的一个是总体分布函数)()(x F x F n 良好的近似,它是经典统计学的一块基石。
2. 频数频率分布表 有样本数据n x x x ,,,21 制作频数频率分布表的操作步骤如下: ● 确定组数k ;● 确定每组组距,通常取每组组距相等为d ; ● 确定每组组限;● 统计样本数据落入每个区间的频数,并计算频率。
综合上述,列入表中,即得该样本的频数频率分布表,该表就是一个分组样本,它能简明扼要的样本特点表示出来。
不足之处是该表依赖于分组,不同的分组方式有不同的频数频率分布表。
3. 样本数据的图形表示 (1)直方图● 利用频数频率分布表上的区间(横坐标)和频数(纵坐标)可作出频数直方图; ● 若把纵坐标改为频率就得频率直方图;● 若把纵坐标改为频率/组距,就得到单位频率直方图。
这时长条矩形的面积之和为1 此三种直方图的差别仅在纵坐标的设置上,直方图本身无变化。
(2)茎叶图把样本中的每个数据分为茎与叶,把茎放于一侧,叶放于另一侧,就得到一张该样本的茎叶图,比较两个样本时,可画出背靠背的茎叶图。
茎叶图保留数据中的全部信息,当样本量较大时数据很分散,横跨二,三个数量级时,茎叶图并不实用。
习题与解答5.21. 以下是某工厂通过抽样调查得到的10名工人一周内生产的产品149,156,160,138,149, 153,153,169,156,15.试由这批数据构造经验分布函数并作图。
解:此样本容量为10,经排序可得到有序样本;,153,149,138)5()4()3()2()1(=====x x x x x 169,160,156)10()9()8()7()6(=====x x x x x其经验分布函数及其图形分布如下⎪⎪⎪⎪⎩⎪⎪⎪⎪⎨⎧≥<≤<≤<≤<≤<≤<=.169,1,169160,9.0,160156,8.0,156153,5.0,153149,3.0,149138,1.0,138,0)(x x x x x x x x F n2. 下表是经过整理后得到的分组样本;组序 1234 5分组区间 (38,48) (48,58) (58,68) (68,78) (78,88)频数34832试写出此分组样本的经验分布函数。
解: 样本的经验分布函数为⎪⎪⎪⎪⎩⎪⎪⎪⎪⎨⎧≥<≤<≤≤<≤<=,5.77,1,5.775.67,9.0,5.675.57,75.0,5.575.47,35.0,5.475.37,15.0,5.37,0)(x x x x x x x F n3.假如某地区30 名 2000年某专业毕业生实习期满后的月薪数据如下:7388669509711164871104412248081096102512037759501232992914825157********1130108110711091132099911201086909(1)该批数据的频率分布表(分6组);(2)画出直方图。