当前位置:文档之家› 统计学提纲第五章总结

统计学提纲第五章总结

统计学提纲第五章总结————————————————————————————————作者:————————————————————————————————日期:第五章抽样推断第一节抽样推断的相关基本概念一、抽样调查(一)什么是抽样调查抽样调查是按随机原则从总体中选取部分单位进行观察,用所获得的样本数据推算总体数量特征的一种非全面调查。

(二)抽样调查的特点:1.按随机原则去抽取调查单位。

随机原则也就是机会均等的原则,每个单位被抽中的机会相等。

其目的是保证抽出的样本是随机样本。

2.以样本数据估计总体参数或检验总体的某种假设。

抽样调查虽仅是直接调查被抽取的那一部分样本,但其目的是着眼于研究总体的数量特征。

3.抽样误差可以事先计算并加以控制。

(三)抽样调查的适用范围:1.能够解决全面调查无法或难以解决的问题;2.对能取得全面资料,但不必进行全面调查的情况。

3.可以补充和订正全面调查的结果;4.可用于对总体的某种假设进行检验,为行动决策提供依据。

(四)抽样调查的基本形式基本形式有简单随机抽样、类型随机抽样、等距抽样、整群抽样。

1.简单随机抽样按随机原则直接从总体中抽选样本单位进行调查。

这里,不论是重复抽样还是不重复抽样,每个单位都有相等的中选机会。

2.类型随机抽样(分层抽样)先将总体单位按某一标志分类,然后按随机原则直接从各类中抽取一定的样本单位进行调查。

3.等距抽样(机械抽样或系统抽样)它是先将总体单位按某一标志进行排列,再按照一定的间隔抽取样本单位进行调查。

4.整群抽样(集团抽样)整群抽样是先将总体单位按某一标志进行分群,再按随机原则从各群中抽取部分群,对抽中的群的所有单位进行调查是抽样组织方式。

二、抽样推断的概念及主要内容(一)抽样推断是在抽样调查的基础上,以样本实际数据计算的样本指标推算总体相应数量特征的一种统计分析方法。

(二)抽样推断的主要内容为:参数估计和假设检验三、抽样的有关基本概念(一)全及总体和样本总体1.全及总体简称总体,又称母体,它是指所要认识的研究对象的全体。

也就是具有某种共同性质的许多单位的集合体。

2.样本总体简称样本,又称子样,是从全及总体中抽取,代表全及总体的那部分单位的集合体。

全及总体是我们所要研究的对象,而样本总体则是我们所要观察和采集数据的对象,两者是有区别。

(二)样本容量和样本个数1.样本容量是指样本所包含的单位数。

2.样本个数又称样本可能数目,也就是从一个总体中可能抽取的样本个数。

重复抽样时:; 不重复抽样时:对于一次抽样调查,全及总体是唯一确定的,而一个全及总体可能抽出很多个样本总体;样本的个数和样本的容量有关,也和抽样的方法有关。

(三)参数和统计量1.根据全及总体各个单位的标志值或标志属性计算的,反映总体某一数量特征的综合指标称为全及指标,也称为总体参数,简称参数。

2.由样本总体各单位标志值或标志属性计算的,反映样本数量特征,并用以估计全及指标的综合指标称为样本指标,或称为抽样指标、统计量。

统计量有:样本平均数nx x ∑= 抽样成数p x =样本方差:()nx x ∑-=22σpq p p =-=)1(2σ样本标准差:()nx x ∑-=2σ[注意:()12-=∑-n S x x ]σ1(p=)pq-p=对于一个问题,全及总体是唯一确定的,而一个总体有多少样本;总体指标值是唯一确定的;而统计量是样本变量的函数,也就是样本统计量就有多种取值。

(四)重复抽样和不重复抽样重复抽样:从有N个单位的总体中,每次随机抽取1个单位,登记其标志表现后放回,再从总体中重新抽取,一直抽取n次。

不重复抽样:从有N个单位的总体中,每次随机抽取1个单位,登记其标志表现后不放回,再从总体中重新抽取,一直抽取n次。

第二节抽样误差一、误差调查资料的检查是指对资料的准确性、完整性、及时性检查(一)登记性误差凡是由于错误判断事实、错误登记事实或错误计算而发生的误差,登记性误差在全面调查与非全面调查中都可能存在。

它分为1.偶然登记性误差;2.系统登记性误差其特点是具有明显的倾向性和一贯性。

(二)代表性误差在没有登记性误差的条件下,由于用样本指标代表总体指标而产生的误差,它分为:1.偏差凡是由于违反随机原则抽样而产生的代表性误差,又称为系统性代表误差、非偶然性代表误差。

2.抽样误差 是指由于随机抽样的偶然因素,使样本的结构不足以代表总体各单位的结构,而引起抽样指标和总体指标之间的误差,也称为随机误差、偶然性代表误差。

抽样误差既不包括登记误差,也不包括系统性代表误差。

影响抽样误差的因素有:总体各单位标志值的差异程度;样本的单位数;抽样的方法;抽样调查的组织形式。

二、抽样平均误差。

抽样平均误差是反映抽样误差一般水平的指标,它反映了抽样指标与总体指标的平均离差程度,即样本指标与总体指标的标准差。

通常用抽样平均数的标准差来衡量MX x x ∑-=2)(μ MP p p∑-=2)(μi x X 为第i 个样本的平均数;为总体平均数; M 为样本个数i p P 为第i 个样本的成数;为总体成数;M 为样本个数抽样平均误差的作用首先表现在它能够说明样本指标代表性的大小。

平均误差大,说明样本指标对总体指标的代表性低;反之,则说明代表性高。

抽样平均数的平均数=总体平均数。

抽样平均误差的计算: (一)简单随机抽样条件下:1、重复抽样: nnσσμ==22、不重复抽样:)1(2--=N nN nσμ当总体单位数N 很大时,)1(2N n n-=σμ当N 很大且很小时,nσμ=其中,σ为总体标准差,n 为样本单位数,在总体标准差未知,用样本标准差2()1x x x S n -'=-∑代替σ;但如果是大样本时,可以用样本标准差nx x S x ∑-=2)(代替xS '。

(二)分层抽样条件下: 分类 1 2 … k 合计 总体单位数 … N 总体标准差 … 样本单位数 …n抽重复抽样:不重复抽样:若总体标准差未知时,可用样本标准差代替。

分层抽样为等比例抽样时: (三)整群抽样条件下:由于整群抽样一般采用不重复抽样,因而有:其中,R 为总体群数;r 为样本群数;为群(组)间方差。

为第i 群的样本平均数;为全样本平均数,。

三、抽样极限误差抽样极限误差是指用绝对值形式表示的样本指标与总体指标之间偏差的最大允许范围。

Xx x -=∆ Pp p -=∆即:x x x X x ∆+≤≤∆- p p p P p ∆+≤≤∆- 四、抽样误差的概率度抽样极限误差以抽样平均误差为标准单位来衡量。

即把极限误差 △x 或 △p 相应除以x μ或p μ,得出相对的误差程度t 倍,t 称为抽样误差的概率度。

于是有:x x t μ=∆或p p t μ=∆概率度与概率保证程度之间的几个数值关系:概率度1234概率保证程度 68.27% 95.45% 99.73% 99.99%五、样本容量的确定 在简单随机抽样下:1.在重复抽样的条件下,样本容量的确定:222xt n ∆=σ 22)1(x p p t n ∆-=2.在不重复抽样的条件下,样本容量:22222xx xNt n N t σσ=∆+ 222(1)(1)p Nt p p n N t p p -=∆+-第三节 抽样估计一、抽样估计的的概念抽样估计就是利用实际调查计算的样本指标值来估计相应的总体指标值。

抽样估计有点估计和区间估计两种估计量是根据样本数据来估计总体参数的形式。

一般情况下估计量就是样本统计量。

估计量的优良标准:(1)无偏性 要求样本指标值的平均数等于被估计的总体指标值,即无系统性误差。

(2)有效性 要求作为优良估计量的方差(标准差)应比其它估计量的方差(标准差)小,即估计量的数学期望等于总体参数;(3)一致性 当作为优良估计量的样本容量充分大时,抽样指标也应充分地靠近总体指标. 即估计量的误差随着样本容量的增大而减小。

二、点估计参数的点估计:直接以样本指标作为相应总体参数的估计量。

总体平均数的估计:用样本平均数估计总体平均数 三、区间估计参数的区间估计:根据给定的概率保证程度的要求,利用实际抽样资料,指出总体被估计值的上限和下限。

抽样估计的置信度是表明抽样指标和总体指标的误差不超过一定范围的概率保证程度。

注意:抽样估计的置信度并不是概率度,但两者之间存在一一对应的关系。

2.区间估计步骤:(1)计算抽样平均数和标准差。

(2)计算抽样平均误差(3)计算抽样极限误差x x t μ=∆(4)根据给定的抽样极限误差计算总体平均数的上下限x x x X x ∆+≤≤∆-如果抽样误差的概率度已给出,查《正态分布概率表》得出置信度。

四、抽样估计的精度x x X x x-∆==误差率 估计精度=1-误差率误差率是抽样的相对误差率。

概率保证程度,置信区间长度及估计精度的关系:概率保证程度越大,置信区间长度越长,估计精度越低;反之,概率保证程度越小,置信区间长度越短,估计精度越高。

例1、某学校进行一次统计学测验,为了解学生的考试情况,随机从全校统计学考生中抽选部分学生进行调查,所得资料如下:成绩60以下60-70 70-80 80-9090以上 组中值 55 65758595人数 102022408(1)试以95.45%的可靠性估计该校学生统计学的平均成绩的范围;(2)试以95.45%的可靠性估计该校学生成绩在80分以上的学生所占的比重的范围;(3)如果其它条件不变,将允许极限误差缩小一半,应抽取多少名学生?解:1、该校学生统计学平均成绩的范围: 计算样本平均数:∑∑∑∑⋅==ii iii i ff x f f x x 1008951055⨯++⨯=Λ=76.6(分)计算样本标准差:∑∑-=ii ff x x 2)(σ=11.38(分) 计算抽样平均误差:nxσμ=100377.11==1.1377(分)查《正态概率表》得出误差概率度t=2计算抽样极限误差:△x =t μx =2×1.1377=2.2754 该校学生考试的平均成绩的区间范围是: x-△x ≤X≤x+△x76.6-2.2754≤X≤76.6+2.275474.32≤X≤78.89在95.45%概率保证程度下,该校学生的平均成绩74.32%—78。

89.99%之间。

2、估计该校学生成绩在80分以上的学生所占的比重的范围 计算样本成数平均数:48=0.48100x p == 计算样本成数标准差:(1)0.480.520.4996p p σ=-=⨯=计算抽样平均误差:0.49960.04996100pnσμ=== 查《正态概率表》得出误差概率度t=2 计算抽样极限误差:20.049960.09992p p t μ∆==⨯=80分以上学生所占的比重的范围:p p p P p ∆+≤≤∆-P=p ±△p =0.48±0.09992 0.3801≤P≤0.5799在95.45%概率保证程度下,该校学生成绩在80分以上学生所占的比重在38.01%—57.99%之间。

相关主题