当前位置：文档之家› 数据的抽样与抽样分布

数据的抽样与抽样分布

纯随机抽样：在抽取样本时，必须保证总体中的每一个可能元素被抽中的概率是相等的，并且总体中每一个单位被包括在样本中的可能性也是相等的。机械抽样：在从总体中抽取样本时，按照时间或空间的等距间隔进行抽取。类型抽样：首先将总体按照一定的标志划分成许多性质相近的类型或组别，然后在每种类型中按随机原则抽取单位组成样本的抽样方式。整群抽样：是把总体分为许多群，然后在这些群中随机地抽取某些“群”作为样本。
抽样的作用
从理论上讲，只要能对所研究的现象进行反复地、全面地观察，就可以找出其统计规律性。但是在实际中，全面观察或反复观察要耗费大量的人、财、物，而且有时是无法做到的。因此，我们就可以采用从总体中抽取部分单位作为样本进行观察，取得某些数据资料后，再推断总体的特征。我们称这样的统计方法为抽样推断统计。
因此，当我们要根据样本统计量推断总体参数时，不必考虑总体的分布形态，只需要运用正态分布理论，用样本的资料通过推断抽样分布的平均数，来估计总体平均数。中心极限定理是统计推断理论中最重要的定理。中心极限定理证明，样本容量足够大时，抽样分布趋于正态分布。在统计学中，被广泛采用的粗略法则是：样本容量不小于30，就可以用正态分布作为抽样分布的近似值。
抽样方法
从总体中抽取样本的方法总的来说有两个：一是随机抽样，其特点是总体中的任何一个个体单位都有被抽中作为样本的机会，而且每个样本被抽中的机会均等。另一种是非随机抽样或称为判断抽样，其特点是抽样人员根据自己对事物的了解，从总体中有目的的选择部分单位作为样本。
常用的随机抽样方式
样本容量与抽样平均误差的关系
x
n
抽样平均误差是度量样本平均数在总体平均数周围分散程度的一个指标。 x 越小，表示样本平均数在总体平均数周围越集中，用这样的样本统计量去推断总体参数，其精确度就越高，反之， x 越大，我们在推断总体参数时的精确度就越低，所以，要提高推断的精确度，我们希望 x 越小越好。
x
有限总体校正系数
从无限总体中抽样，可以认为每次取样不会改变下次抽样的条件。但是对于有限总体而言，如果采用不放回抽样，随着抽样工作的进行，总体的成分就会不断发生变化，即每次抽样后，各单位被抽中的概率就会发生变化，因此抽样平均误差变为：
当n/N<0.05 时，可以省略有限总体修正系数。
N n x N 1 n

有限总体修正系数，由于n永远大于1，所以系数永远小于1，因此，有限总体的抽样平均误差比无限总体的抽样平均误差要小。
抽样分布概念
对于一个总体容量为N的总体，无论是有限总体或无限总体，只要所要求的抽样的样本容量n小于总体容量，即n<N，那么可能抽取的样本就不止一个。在一般情况下，从同一总体中抽取的不同样本，其统计量的值也是不同的。若我们把从某个总体中抽取样本容量为n的所有样本的样本统计量作为一组随机变量的话，则这一组随机变量的概率分布叫做“抽样分布”。
如果我们增加样本容量，例如n=5 增加到n=20，就会提高每个样本数据的平均效果，样本平均数的分散程度会更小，也就是说抽样平均数的平均标准误差会因为样本容量的增加而减少，而总体的分布不会因为样本容量的变化而改变。 n=20 n=5
从正态分布中抽样的样本平均数抽样分布的性质
从正态总体中抽样，抽样分布也必定是正态分布；从正态总体中抽样，抽样分布的平均数一定等于总体平均数；即μ x= μ 从正态总体中抽样，抽样分布的平均标准误差比总体标准差要小，而且随着样本容量的增加，平均标准误差越来越小。可以证明平均标准误差σ x 与总体标准差σ 的关系是：
总体分布、样本分布和抽样分布
总体分布
μ S1 S22 σ
X3
平均数的抽样分布
μx
x
虽然样本平均数与总体平均数不完全相等，但是它们一定趋向于总体平均数的附近。
从正态总体中抽样
从一个正态分布的总体中抽取样本为n的样本，样本平均数在总体平均数以下和以上出现的机会是相等的。由于样本平均数是由n个数据平均而得，因此它掩盖了样本中各个具体数据的差异。可以肯定地说，样本平均数的分散程度会比总体中单个数据的分散程度要小些。即抽样平均数的平均标准误差比总体标准差要小些。
从以上我们可以得出，无论所研究的总体分布是正态分布还是非正态分布，从总体中抽取一定容量的样本，全部可能样本所构成的抽样分布对于下述两点始终成立：（1）抽样分布的平均数等于总体平均数；（2）随着样本容量的增加，抽样分布趋于正态分布。
*总体分布与平均数抽样分布之间的这种关系称为 “中心极限定理”。
数据的抽样与抽样分布
第一节统计抽样与抽样误差第二节抽样分布与中心极限定理第三节抽样分布其他问题
第一节统计抽样与抽样误差
无论是总体数据还是样本数据，其统计特征都是可以用平均数、中位数以及标准差等指标来描述。当我们对样本数据计算统计特征的指标时，所得到的结果就叫做“样本统计量”，如果用总体的数据计算平均数或标准差，由于它们描述的是总体的数字特征，我们就称这些指标为“总体参数”。一般来说，参数指的是描述总体分布特征或反映总体模型的统计指标；统计量是指样本分布的特征指标。
抽样误差
统计抽样的目的在于根据样本统计量推断总体参数。在计算样本统计量时，样本不同，统计量之间会存在一定的差异，这是随机抽样自身固有的差异，即不论按什么方法组织抽样，不同样本的平均数、标准差，必定存在一定的差异。统计上，某个样本统计量与另一个样本统计量之间的差异，及某个样本的统计量与总体参数之间的差异，就称为抽样误差。
x

n
从非正态总体中抽样
现实问题中，有许多现象并不服从正态分布。从一个非正态总体中抽样，抽样分布是否仍然满足上述三个基本性质呢？经过实证检验，即使从非正态总体中抽样，随着样本容量的增加，平均数抽样分布也将趋于正态分布。而且其抽样分布的平均数与总体平均数也是相等的。
中心极限定理

e商务文档

数据的抽样与抽样分布

相关文档推荐：