当前位置:文档之家› 第5章 参数估计基础

第5章 参数估计基础

第五章 参数估计基础一、样本均数的抽样分布与抽样误差内 容1. 抽样误差和抽样分布2. 样本均数抽样分布和抽样误差1. 抽样误差和抽样分布n误差泛指实测值和真实值之差。

按其产生原因与性质分两 大类:系统误差和随机误差。

抽样误差是一种随机误差。

n抽样误差由于生物固有的个体变异,从某一总体中随机抽取一个样 本,所得样本统计量与相应总体参数往往是有差异的,这种 差异称为抽样误差(sampling error)。

n误差产生的原因n系统误差:由受试对象、研究者、仪器设备、研究方法等确定性 原因造成,有倾向性,可避免。

n随机误差:由多种无法控制的偶然因素引起的,无倾向性,不可 避免。

n抽样误差:产生的根本原因是个体变异、产生的直接原因是抽样。

n抽样分布n由于抽样误差存在,从同一总体中随机抽取若干份样本, 所得样本统计量是不一致的,差异无法避免但其存在一定的分布规律。

n 正态分布总体样本均数抽样分布的电脑试验n假定某年某地所有13岁女生的身高服从总体均数为155.4 cm ,总 体标准差为5.3cm 的正态分布 。

用计算机从该总体中 随机抽样,每次抽取30例组成一份样本,重复抽样100次,计算 每份样本的平均身高。

() 2 155.4,5.3 N 2. 样本均数抽样分布和抽样误差n电脑试验表明,正态分布总体样本均数抽样分布具有以 下特点:n样本均数恰好等于总体均数极其罕见;n样本均数之间存在差异;n样本均数围绕总体均数,中间多、两边少,左右基本对称,呈 近似正态分布;n样本均数间的变异小于原始变量值间的变异。

PERCENT30x MIDPOINT0 . 0 0 . 1 0 . 2 0 . 3 0 . 4 0 . 5 0 . 6 0 . 7 0 . 8 0 . 9 1 . 0 1 . 1 1 . 2 1 . 3 1 . 4 1 . 5 1 . 6 1 . 7 1 . 8 1 . 9 2 . 0 2 . 1 2 . 2 2 . 3 2 . 4 2 . 5 2 . 6 2 . 7 2 . 8 2 . 9 3 . 0 3 . 1 3 . 2 3 . 3 3 . 4 3 . 5 3 . 6 3 . 7 3 . 8 3 . 9 4 . 0 4 . 1 4 . 2 4 . 3 4 . 4 4 . 5 4 . 6 4 . 7 4 . 8 4 . 9 5 . 0n 非正态分布总体样本均数抽样分布的电脑实验n图 (a ) 是正偏峰分布原始数据对应的直方图,用计算机随机抽取 样本量分别为5, 10, 30和50的样本各1000份,计算样本均数并绘 制4个直方图。

(a ) 原始数据n =5P E RC E N T30m m MI D P O I NT0 . 0 0 . 1 0 . 2 0 . 3 0 . 4 0 . 5 0 . 6 0 . 7 0 . 8 0 . 9 1 . 0 1 . 1 1 . 2 1 . 3 1 . 4 1 . 5 1 . 6 1 . 7 1 . 8 1 . 9 2 . 0 2 . 1 2 . 2 2 . 3 2 . 4 2 . 5 2 . 6 2 . 7 2 . 8 2 . 9 3 . 0 3 . 1 3 . 2 3 . 3 3 . 4 3 . 5 3 . 6 3 . 7 3 . 8 3 . 9 4 . 0 4 . 1 4 . 2 4 . 3 4 . 4 4 . 5 4 . 6 4 . 7 4 . 8 4 . 9 5 . 0n=10PERCENT30mm MIDPOINT0 . 0 0 . 1 0 . 2 0 . 3 0 . 4 0 . 5 0 . 6 0 . 7 0 . 8 0 . 9 1 . 0 1 . 1 1 . 2 1 . 3 1 . 4 1 . 5 1 . 6 1 . 7 1 . 8 1 . 9 2 . 0 2 . 1 2 . 2 2 . 3 2 . 4 2 . 5 2 . 6 2 . 7 2 . 8 2 . 9 3 . 0 3 . 1 3 . 2 3 . 3 3 . 4 3 . 5 3 . 6 3 . 7 3 . 8 3 . 9 4 . 0 4 . 1 4 . 2 4 . 3 4 . 4 4 . 5 4 . 6 4 . 7 4 . 8 4 . 9 5 . 0n=30PERCENT30mm MIDPOINT0 . 0 0 . 1 0 . 2 0 . 3 0 . 4 0 . 5 0 . 6 0 . 7 0 . 8 0 . 9 1 . 0 1 . 1 1 . 2 1 . 3 1 . 4 1 . 5 1 . 6 1 . 7 1 . 8 1 . 9 2 . 0 2 . 1 2 . 2 2 . 3 2 . 4 2 . 5 2 . 6 2 . 7 2 . 8 2 . 9 3 . 0 3 . 1 3 . 2 3 . 3 3 . 4 3 . 5 3 . 6 3 . 7 3 . 8 3 . 9 4 . 0 4 . 1 4 . 2 4 . 3 4 . 4 4 . 5 4 . 6 4 . 7 4 . 8 4 . 9 5 . 0n=50PERCENT30mm MIDPOINT0 . 0 0 . 1 0 . 2 0 . 3 0 . 4 0 . 5 0 . 6 0 . 7 0 . 8 0 . 9 1 . 0 1 . 1 1 . 2 1 . 3 1 . 4 1 . 5 1 . 6 1 . 7 1 . 8 1 . 9 2 . 0 2 . 1 2 . 2 2 . 3 2 . 4 2 . 5 2 . 6 2 . 7 2 . 8 2 . 9 3 . 0 3 . 1 3 . 2 3 . 3 3 . 4 3 . 5 3 . 6 3 . 7 3 . 8 3 . 9 4 . 0 4 . 1 4 . 2 4 . 3 4 . 4 4 . 5 4 . 6 4 . 7 4 . 8 4 . 9 5 . 0(d ) n =30 (e ) n =50(b ) n =5 (c ) n =10n 中心极限定理表明n从正态总体 中随机抽取例数为 n 的多个样本,样本均数服从正态分布;即使是从偏态总体中随机抽样,当 n 足够大时(如 n >30),样本均数也近似正态分布,且样本均数的均数等于原分 布的均数。

( ) 2, N m sn均数抽样误差n由固然存在的个体变异和抽样造成的样本均数与样本均数 及样本均数与总体均数之间的差异称为均数的抽样误差。

小 结1. 抽样分布和抽样误差n样本统计量抽样分布n误差含义及误差产生原因2. 样本均数抽样分布和抽样误差n正态分布总体样本均数抽样分布规律n非正态分布总体样本均数抽样分布规律第五章 参数估计基础二、样本频率的抽样分布与抽样误差内 容1. 样本均值抽样分布和抽样误差回顾2. 样本频率抽样分布和抽样误差1. 样本均值抽样分布和抽样误差 (1)正态分布总体样本均数抽样分布特点(2)非正态分布总体样本均数抽样分布规律(3)均值标准误的含义和计算(1)正态分布总体样本均数抽样分布特点n样本均数等于总体均数的情况极其罕见; n样本均数之间存在差异;n样本均数围绕总体均数,呈近似正态分布; n样本均数标准误小于原始变量的标准差。

(2)非正态分布总体样本均数抽样分布规律n虽然原分布是偏态分布,但当抽取样本量n足够大时(如 n>30) 样本均数也近似正态分布,且样本均数的均数等 于原分布的均数。

(3)均值标准误的含义和计算2. 样本频率的抽样分布与抽样误差 电脑摸球实验,表% 20 = p 时的随机抽样结果( 50 = i n )黑球比例(%)样本频数 样本频率(%) 8 2 2.00 10 4 4.00 12 8 8.00 14 7 7.00 16 11 11.00 18 13 13.00 20 19 19.00 22 11 11.00 24 11 11.00 26 6 6.00 28 3 3.00 30 4 4.00 32 1 1.00 合计100100.00n样本频率抽样误差n从同一总体中随机抽出观察单位相等的多个样本,样本率与总体 率及各样本率之间都存在差异,称为频率的抽样误差。

n样本频率的标准误n表示样本频率抽样误差大小的指标即为频率的标准误。

小 结1. 样本均值抽样分布和抽样误差知识回顾2. 样本频率抽样分布和抽样误差n样本频率分布规律n频率标准误含义和计算第五章 参数估计基础三、t 分布的概念与特征正态分布在统计应用中,可以把任何一个均数为µ,标准差为σ的正态分布N (µ , σ 2 )转变为 µ=0 σ=1的标准正态分布,即将正态变量值X 用 来代替。

由于 服从正态分布,故 服从标准正态分布N (0,1)。

X XX Z s m- = sm- = X Z 一、t 分布的概念3实际资料的分析中,由于σ 往往未知,故标准化转换演变为:服从 υ = n ­1 的 t 分布,即:XS X t m - = nS X S X X / m m - = - 45υ=∞(标准正态分布)υ=5υ=1 0 1 2 3 4 5­1 ­2 ­3 ­4 ­5 f (t )0.10.20.3 61. t 分布曲线是单峰分布,它以0为中心,左右对称。

2. t 分布的形状与样本例数 n 有关。

自由度越小,则越大,t 值越分散,曲线的峰部越矮,尾部则偏高。

3. 当 n →∞时,则 S 逼近 σ,t 分布逼近标准正态分布。

t 分布不是一条曲线,而是一簇曲线。

t 分布曲线特点:X S 8与单侧概率相对应的 t 值用 表示,与双侧概率相对应的t 值用 表示。

由于 t 分布是以0为中心的对称分布,表中只列出了正值, 故查表时,不管 t 值正负只用绝对值表示。

正确使用 t 界值表( ) n a , t ( ) n a , 2 / t 9第五章 参数估计基础四、总体均数和概率的区间估计一、参数估计的概念统计推断包括参数估计和假设检验。

参数估计就是用样本指 标(统计量)来估计总体指标(参数)。

点估计(point estimation)参数估计区间估计(interval estimation)1. 点估计用样本统计量直接作为总体参数的估计值。

例如 于2000年测得某地27例健康成年男性血红蛋白量的 样本均数为125g/L ,试估计其总体均数。

,即认为2000年该地所有健康成年男性血红蛋白 量的总体均数为125g/L 。

X μ ®2. 区间估计按预先给定的概率(1-α)估计总体参数的可能范围,该范围 就称为总体参数的1-α置信区间(confidence interval, CI)。

预先给定的概率(1-α)称为置信度,常取95%或99%。

相关主题