样本及其抽样分布基本概念
概率论与数理统计优质学案
第六章
样本及抽样分布
第1,2节 基本概念
一、总体、个体 二、随机样本、直方图 三、样本函数与统计量 四、小结
一、总体与个体
一个统计问题总有它明确的研究对象.
研究对象的全体称为总体(母体), 总体中每个成员称为个体.
总体
总体 …
研究某批灯泡的心每个 个体的一项(或几项)数量指标和该数量指标 在总体中的分布情况. 这时,每个个体具有 的数量指标的全体就是总体.
直方图
5
8
4.5
7
4 6
3.5 5
3
2.5
4
2
3
1.5 2
1
1 0.5
0
0
140
150
160
170
180
190
200
147
157
167
177
187
197
三、统计量
由样本推断总体特征,需要对样本进行 “加工”,“提炼”.这就需要构造一些样本的 函数,它把样本中所含的信息集中起来.
1. 代表性: X1,X2,…, Xn中每一个与所考察的 总体X有相同的分布. 2. 独立性: X1,X2,…, Xn是相互独立的随机变量.
满足上述两条性质的样本称为简单随机样本. 获得简单随机样本的抽样方法称为简单随机抽样.
为了使大家对总体和样本有一个明确的 概念,我们给出如下定义:
定义 一个随机变量X或其相应的分布 函数F(x)称为一个总体.
4. 直方图 4.1 频数--频率分布表
样本数据的整理是统计研究的基础,整理数据的最 常用方法之一是给出其频数分布表或频率分布表。
例3 为研究某厂工人生产某种产品的能力, 我们随机调查了20位工人某天生产的该种产品 的数量,数据如下
160
196 164 148 170
175
178 166 181 162
容量为n的样本可以看作n维随机变量.但 是,一旦取定一组样本,得到的是n个具体的数
(x1, x2 ,, xn ) ,称此为样本的一次观察值,简称 样本值.
2. 简单随机样本
抽取样本的目的是为 了利用样本对总体进行统 计推断,这就要求样本能很 好的反映总体的特性且便 于处理.为此,需对抽样提 出一些要求,通常有两条:
形成如下的分组区间 [a0 , a1) , [a1, a2), …, [ak-1 , ak)
其中a0 略小于最小观测值, ak 略大于最大观测值.
(4) 统计样本数据落入每个区间的个数——频数,
并列出其频数频率分布表。
表1 例3 的频数频率分布表
组序 分组区间 组中值 频数 频率
1 [147,157) 152 4 0.20
当有限总体包含的个体的 总数很大时, 可近似地将它看 成是无限总体.
二、随机样本,直方图
1. 样本的定义 为推断总体的分布及各种特征,按一定的
规则从总体中抽取若干个体进行观察试验,以 获得有关总体的信息.这一抽取过程称为“抽 样”.所抽取的部分个体称为样本.通常记为
(X1, X2, , Xn)
样本中所包含的个体数目n称为样本容量.
定义:
设 X 是具有分布函数F ( x)的随机变量, 若 X1, X 2 , , X n 是具 有同一 分布函 数F ( x)、相互 独立的 随 机 变 量, 则 称 X1, X 2 ,, X n 为 从 总 体X (或 总 体 F ( x))中抽取的容量为n 的简单随机样本, 简称样
本. 它们的观察值x1, x2 , , xn 称为样本值, 又称为
灯泡的寿命
国产轿车每公里 的耗油量
该批灯泡寿命的 全体就是总体
所有国产轿车每公里耗 油量的全体就是总体
由于每个个体的出现带有随机性,即相应 的数量指标值的出现带有随机性。从而可把 此种数量指标看作随机变量,我们用一个随 机变量或其分布来描述总体。为此常用随机 变量的符号或分布的符号来表示总体。
通常,我们用随机变量X , Y , Z,…, 等表 示总体。当我们说到总体,就是指一个具有 确定概率分布的随机变量。
X 的 n 个独立的观察值.
样本 ( X1, X 2, , X n ) 所有可能取值的全体称
为样本空间, 记为 。x1 , x2 , , xn 称为中
的样本点
3.样本的分布
定理 设( X1, X 2 , , X n )为来自总体X的样本. (1)若总体X的分布函数为F (x),则样本( X1, X 2, , X n )
161
168 166 162 172
156
170 157 162 154
对这20个数据(样本)进行整理,具体步骤如下:
(1) 对样本进行分组:作为一般性的原则,组数通 常在5~20个,对容量较小的样本;
(2) 确定每组组距:近似公式为 组距d = (最大观测值 最小观测值)/组数;
(3) 确定每组组限: 各组区间端点为 a0, a1=a0+d, a2=a0+2d, …, ak=a0+kd,
n
的分布函数为 F (xi ). i 1
(2)若总体X的分布密度为f (x),则样本( X1, X 2, , X n )
n
的分布密度为 f (xi ). i 1
(3)若总体X的分布律为P{X xi*} p(xi*)(i 1, 2, ),
n
则样本( X1, X 2 , , X n )的分布律为 p(xi ). i 1
2 [157,167) 162 8 0.40
3 [167,177) 172 5 0.25
4 [177,187) 182 2 0.10
5 [187,197) 192 1 0.05
合计
20 1
累计频率(%) 20 60
85 95 100
4.2 直方图
直方图是频数分布的图形表示,它的横坐标表 示所关心变量的取值区间,纵坐标有三种表示 方法:频数,频率,最准确的是频率/组距,它 可使得诸长条矩形面积和为1。凡此三种直方图 的差别仅在于纵轴刻度的选择,直方图本身并 无变化。
如:研究某批灯泡的寿命时,我们关心的数 量指标就是寿命,那么,此总体就可以用随 机变量X表示,或用其分布函数F(x)表示.
总体
F(x)
寿命X可用一概 率分布来刻划
某批 灯泡的寿命
有限总体和无限总体
实例 某工厂10月份生产的灯泡寿命所组成的 总体中, 个体的总数就是10月份生产的灯泡数, 这是一个有限总体; 而该工厂生产的所有灯泡寿 命所组成的总体可近似地看成一个无限总体, 它 包括以往生产和今后生产的灯泡寿命.