当前位置:文档之家› 第六章教育统计学

第六章教育统计学

第六章 抽样分布及总体平均数的推断教学目的:通过本章学习,同学们应理解抽样分布、小概率事件、显著性水平、统计推断的两类错误等基本概念,并熟练掌握总体参数估计和总体平均数的显著性检验的方法。

第一节 抽样分布一、抽样分布的基本概念三种不同性质的分布:1.总体分布:总体内数据的频数分布;2.样本分布:样本内数据的频数分布;3.抽样分布:某种统计量的概率分布。

平均数的抽样分布:从某一总体中抽出的,容量为n 的一切可能样本平均数的分布。

【如】:样本平均数的抽样分布、相关系数的抽样分布。

二、平均数抽样分布的几个定理1.从总体中随机抽出容量为n 的一切可能样本平均数之平均数等于总体平均数。

)()(1.6μ=X EE 表示平均的符号.2.容量为n 的样本平均数在其抽样分布上的标准差,与总体标准差成正比,与样本容量n 的方根成反比。

)(2.6nx σσ=x σ:是平均数抽样分布上的标准差(一般称作平均数的标准误)。

3.从正态总体中,随机抽取的容量为n 的一切可能样本平均数的分布也呈正态分布。

4.虽然总体不是正态分布,如果样本容量n 很大,平均数的抽样分布也近似正态分布。

※:标准误越小,表明统计量与参数值越接近。

三、样本平均数与总体平均数离差统计量的形态1.总体为正态分布,总体标准差σ已知时,平均数的离差统计量呈标准正态分布。

可写作)(3.6nX Z σμ-=2.总体为正态分布,但总体σ未知,平均数的离差统计量呈t 分布。

(1)总体标准差的估计量:)(14.6xn nS σ⋅-=。

:为贝塞尔氏校正系数.1-n n(2)平均数的标准误的估计量:)(1/15.6-=⋅-==n n n nnS S x x X σσ(3)平均数的离差统计量:)(16.6--=-=n X S X t x Xσμμ注:。

而变化和随着x X t σ(4)t 分布的特点① 单峰对称,曲线与基线永不相交; ② t 值有正有负,也可为零;③ t 分布是随d f =n -1而变化的一簇分布; 参看教材86页。

图例6.1和表6.1图6.1 自由度为1,2,5, t 分布曲线与正态曲线比较图表6.1 中央面积为0.95不同自由度t 的临界值自由度2 4 6 20 30 ∞ t 值 ±4.30±2.78±2.45±2.09±2.04±1.96中央面积不变,d f 不同,t 的临界值不同。

d f 无限大时t 分布与正态分布重合。

※ 自由度:公式(6.6)中的n -1统计学中称为自由度(用d f 表示,即d f =n -1)。

自由度:是指总体参数估计量中变量值能独立自由变化的个数。

【例如】:中,1)()(1122--=-⋅-=⋅-=∑∑n x x nx x n n n nS x δ 。

可以自由变化个的限制,只有因受到)(10)(x x n x x --=-∑第二节总体平均数的估计推断统计有两种形式:参数估计和假设检验。

一、总体平均数估计的基本原理1.点估计点估计:用一个样本统计量的值估计出一个具体的总体参数值,就称作点估计。

如把样本平均数当作总体平均数。

点估计的评价标准:(1)无偏性:一切可能样本统计量与总体参数的离差和为零。

【如】:∑=-的无偏估计量。

该统计量就为总体参数,0)(μxx :为无偏估计量,x σ:为有偏估计量。

所以x n ns σ•-=1(2)有效性:当总体参数不止有一种无偏估计量时,某一统计量的一切可能样本值的方差小者为有效性高,方差大者为有效性低。

【如】:x 的有效性高, M 0、M d 的有效性低。

(3)一致性:当n 无限增大时,估计量的值越来越接近它所估计的总体参数值,则这种估计量是总体参数的一致性估计量。

注:点估计既不能指明估计误差大小,也不能说明正确估计的概率大小。

2、区间估计(1)区间估计:是指以统计量的抽样分布为理论依据,按一定概率要求,由样本统计量的值估计出总体参数值的所在范围。

(2)平均数区间的估计原理:当总体σ已知时,根据平均数抽样分布定理,在95%的置信度上估计:)()(7.695.096.196.1=<-<-nx P σμ将括号内的不等式整理可得:)()(8.695.096.196.1=+<<-nX nX P σμσnX nX σσ96.196.1+-为置信下限,为置信上限。

的区间估计已知条件下总体平均数二、σ。

可按标准正态分布处理较大)时,(或总体不呈正态,但已知,总体为正态分布n σ【例】:某区高一学生的英语统考成绩的标准差为6分,从此次考试的试卷中随机抽出100份试卷,算得平均分为71分。

试求全区平均成绩的95%和99%的置信区间:解:∵布估计,所以可按标准整态分已知,且总体为正态,30100>=n σ1.95%的置信区间为:95.018.7282.6995.0100696.171100696.17195.096.196.1)()()(=<<=⨯+⨯-=+<<-<<μσμσμP P nX nX P2. 99%的置信区间为:99.058.258.2)(=+<<-nX nX P σμσ99.0)55.7245.69(99.0)100658.271100658.271().58.299.0(==⨯+⨯-±<<<<μμP P Z 时临界值为分布下中央面积为※:置信度越高,置信区间就越大。

三、σ未知条件下总体平均数的区间估计1.基本原理当σ已知时,用Z 估计;当σ未知时,其原理与σ已知时基本相同,只是临界值不固定。

95%置信度的临界值可写作:t (df )0.05/2;99%置信度的临界值可写作:t (df )0.01/2。

)()()()(11.699.010.695.02/01.0)(2/01.0)(2/05.0)(2/05.0)(=⋅+<<⋅-=⋅+<<⋅-X df X df X df X df S t X S t X P S t X S t X P μμXS 为标准误,有不同的计算公式。

公式的三种不同形式2.小样条件下的估计【例】:某研究人员对红星小学五年级学生进行智力测查,从测查结果中随机抽出16个学生的智力分数,求得平均智力为106分,标准差为5分,试计算该校五年级学生智力分数的99%的置信区间.分布估计。

,所以应按未知,且解:总体为正态,t n 3016<=σ99%的置信区间为:99.082.10918.10299.0116596.2106116596.210696.2116599.0)()(1)(2/01.0)15()(2/01.0)(=<<=-⨯+<<-⨯-∴=-=-==⋅+<<⋅-μμσμP P t n S S t X S t X P xX X df X df 且查表知,)(12.6nS S X =)(113.6-=n S xX σ)()1(/)(14.622--=∑∑n n n X X S X页。

请参看教材:表示样本的标准差。

:表示样本容量;计量;:表示总体标准差的估9190-x n S σ我们有99%的把握说该校五年学生的平均智力在102.18至109.82之间. 3.大样本条件下的估计总体为正态,σ未知,但n 较大,t 分布接近z 分布,在这种条件下,既可按t 分布估计,也可按z 分布估计。

t 估计准确性高,而z 估计简便。

【例】:从某大学的四级英语试卷中随机抽出200份,算出7,68==x X δ。

求该校四级英语平均成绩的95%的置信区间。

%的置信区间为:分布估计,,可按但未知当9530200,Z n >=σ95.096.196.1)11(=-+<<--n X n X P xxσμσ95.0199796.168199796.168)(=⨯+<<⨯-μP95.0976803.67).(=<<μP:。

中也可不减11-n第三节假设检验的基本原理以平均数为例,看假设检验的基本原理。

从已知总体抽出的容量为n 的一切可能样本的平均数形成的分布如右图,现有一个随机样本,其平均数为X ,这个样本是来自0μ这一已知总体吗?原理,视其在以0μ为中心的平均数抽样分布上出现的概率大小而定。

若样本平均数在抽样分布中出现的概率较大,则认为样本所属总体和已知总体为同一总体;若样本在抽样分布中出现的概率较小,则认为样本所属总体与已知总体有显著性差异。

一、假设假设有两种:研究假设和统计假设统计假设:是指对样本所属总体的参数水平或分布形态的推测。

假设检验中一般有两个相互对立的假设:零假设(虚无、消解假设)和备择假设(期望假设),分别用H0和H1表示。

零假设的实质:无差异。

备择假设的实质:有差异。

假设检验是从零假设出发的。

二、小概率事件样本统计量的值在其抽样分布上出现的概率小于或等于事先规定的水平,则该事件就为小概率事件。

小概率事件是否发生,是对零假设做出取舍的依据。

三、显著性水平统计学中把拒绝零假设的概率称为显著性水平,用α表示。

常用α=0.05和α=0.01两个水平。

显著性水平与α值成反序关系。

单侧与双侧(参看教材96页)。

四、统计决断的两类错误1、I型错误:零假设为真而被拒绝。

这类错误也称α错误。

2、Ⅱ型错误:零假设为假而被保留,即备择假设为真而被拒绝(参看教材117页图6.3b)。

这类错误也称β错误。

3、减少两类错误的方法减小α值,会增大β值。

(1)α错误由研究者对差异标准的要求决定。

(2)在α值不变的情况下,减小β错误的方法有两种:一是合理安排拒绝区域;二是增大样本容量。

用图示说明。

第四节总体平均数的显著性检验根据一个样本信息推断样本所属总体与已知总体是否有差异的检验就称为平均数的显著性检验。

检验的基本过程:1.提出假设;三种常见的假设形式:(1)00:μμ=H01:μμ≠H (2)00:μμ≤H01:μμ>H (3)00:μμ≥H 01:μμ<H2.选择检验统计量并计算其值;3.确定检验形式;4.统计决断。

一、σ已知条件下总体平均数的显著性检验【例】:某校初一年级英语测验的平均成绩为78分,标准差为7分。

实验班40名学生的平均成绩为79.5分,问实验班成绩与全年级的成绩有无显著性差异?检验:其值选择检验统计量并计算)()提出假设:(::27878110≠=μμH H假定总体为正态分布,总体σ已知,所以采用z 检验36.1407785.79=-=-=n X Z σμ(3)确定检验形式没有资料说明实验班的成绩过去是高于还是低于全年级的成绩,所以采用双侧检验。

(4)统计决断05.096.136.12/05.0||>∴=<=P Z Z因此,在0.05水平上保留零假设,拒绝备择假设,结论为实验班的成绩与全年级的成绩差异不显著。

相关主题