当前位置:文档之家› 统计学题库

统计学题库

第五、六、七章:抽样推断1.总体分布、样本分布、抽样分布总体分布:总体中各个数据的分布样本分布:样本中各个数据的分布抽样分布:样本统计量的概率分布总体的分布通过直方图观察,但一般不可能得到所有的数据,也就不能直接观察到总体分布。

只要知道总体的分布类型和反映总体分布特征的参数就能够满足需要。

样本分布也称为经验分布,样本来源于总体,会包含总体的信息和特征,特别当样本容量较大时,样本的分布会很接近总体分布,但样本是随机抽取的,一般与总体分布有一定差异。

抽样分布是说明样本分布特征的统计量的分布,对它的理解是建立在反复抽样的基础上,样本是随机抽取的,不同的样本会有不同的统计量值,一个总体可以有很多个不同的样本,这样一个统计量就会有很多不同的取值,这些不同值的分布就是抽样分布。

由于在实践中对于同一总体我们不会反复抽取很多样本,因此,抽样分布一般不能直接观察到,仅是一种理论分布。

抽样分布揭示了样本统计量与总体参数的内在联系,为统计推断提供了理论基础。

2.总体单位与抽样单位、样本容量与样本可能数目3.统计量、总体参数及统计量的标准化统计量是样本数据的函数,在实际抽样之前,由于是样本随机的,统计量也是随机的,但在抽取样本之后,样本已经确定,统计量也就是确定的,不包含任何未知变量。

总体参数是说明统计总体的数据特征值,一般是确定但未知的,是待估计的。

统计量的标准化是统计推断的必要过程,是将具体的统计量转化为已知分布的统计量,转化以后就可以确定一定区间的概率。

4.统计误差、抽样误差、抽样标准误差与抽样边际误差统计误差是统计调查得到的值与客观实际值之间的差异。

包括抽样误差和非抽样误差。

非抽样误差又称工作误差或调查误差,是指调查登记过程中由于登记、过录、计算等原因引起的误差。

在全面调查和非全面调查中都有可能存在。

抽样误差也称为随机误差,是指在坚持了随机抽样的情况下,由于样本的随机性造成样本统计量与总体参数的差异。

样本是随机的,样本的统计量也是随机的,而总体参数是唯一的,因而抽样误差也是随机的。

在总体参数未知的情况下,一个具体样本的统计量与总体参数的实际抽样误差是不能直接观察到的,但在平均意义上,抽样误差是能够计算求得并可以控制的。

抽样误差一般用抽样标准误差来表示。

抽样标准误差是样本统计量的标准差,在抽样方法(重复或不重复)、抽样方式(抽样组织形式)和样本容量一定的条件下,对一个总体来讲,抽样标准误差是一定的,不是随机变量。

在现实生活中,一般仅取一个样本,不可能将所有可能样本都抽到,因此抽样标准误差仅是一种理论上的误差,不可能直接观察到。

影响因素有总体数据离散程度、样本容量大小、抽样组织形式、抽样方法。

抽样边际误差是抽样推断中所允许的误差,又称抽样极限误差,是指在一次抽样估计中,配合一定置信水平所确定的误差范围,一般由调查需求者——客户提出,即是人为规定的。

最初规定时表现为有量纲的绝对数,在统计推断中一般将其标准化,以抽样标准误差作为其计量单位,即以抽样极限误差对抽样平均误差的倍数来表示。

抽样边际误差与抽样标准误差不存在确定的大小关系。

抽样标准误差是客观的,抽样边际误差是人为规定的,可以比抽样标准误差大,也可以比抽样标准误差小。

抽样极限误差不是最大可能误差,最大可能误差是指所有可能样本的统计量与总体参数的离差中的最大值。

5.正态分布、标准正态分布、t分布6.无偏性、有效性与一致性7.点估计:直接以样本统计量的值作为参数的估计值,不能说明估计的误差和可靠概率。

8. 区间估计:以一个区间的形式说明总体参数可能的范围。

可以给出估计结果的误差大小和可靠概率。

9. 置信区间与置信水平、估计精确性与可靠性置信区间是由样本统计量与抽样边际误差确定的一个随机区间,它的区间宽度是由抽样边际误差确定的,具体位置是由样本统计量决定。

区间的宽度表明估计误差的大小,说明估计的精确性。

置信水平是一个概率值,是所有可能的随机置信区间中覆盖总体参数真值的比例。

说明估计结果的可靠性。

一般来讲置信水平是由统计需求者对统计工作提出的要求。

在其他条件如抽样方法、方式、样本容量等不变时,置信区间与置信水平是一对矛盾,即要提高精确性(缩小置信区间),就得降低可靠性(置信水平降低),若要提高可靠性(加大置信水平),就得容忍较大的误差。

要想同时提高精确性和可靠性,就得增加样本容量,或改进抽样方式、方法。

10.最小样本容量的确定影响最小样本容量的因素有总体数据的差异程度(总体方差)、置信水平、边际误差以及抽样方式和方法。

总体差异程度越大、所要求的置信水平越高、边际误差越小,所需的样本容量就越多。

11.假设检验的基本思想通过样本统计量与假设的总体参数比较来判断假设是否正确。

两者一般不一致,产生差异的原因有:1.条件差异;2.随机差异。

不同的差异原因产生的差异程度不同,一般情况下,随机差异经常存在,但差异程度不大,如果差异程度较大,说明除随机差异外还有其他条件差异。

假设检验的原理是小概率事件在一次试验中不应该发生,或者说发生的概率很小。

在正常条件下,样本统计量与总体参数之间的差异比较小,即该差异较小的概率较大,而该差异较大的概率很小,也就是说在一次试验中,样本统计量与总体参数的差异如果较大,则说明产生差异的原因不只是随机因素,应该还有其他原因。

12.假设检验依据的是小概率原理:反证法若我们的假设是正确的,出现象样本这样的情况的概率是很小的,而这么小概率的事件在一次抽样或实验中是不应该出现的,而现实却出现了,说明我们的前提假设很可能是不成立的。

13.小概率标准即显著性水平在抽样前依需要确定;多小的概率为小,即小概率“小”的程度由我们事先规定,当样本这种情况出现的概率小于我们想象的概率时就拒绝原假设。

即αp时,就可以拒绝原假设。

<14.假设检验的结果的正确表述。

假设检验的结果只能是拒绝或不拒绝原假设,而不能证明原假设成立;大概率事件不能证明原假设成立,因为出现这种情况的总体不是唯一的,但出现小概率事件在很大程度上说明原假设不成立。

不能否定原假设时,只是目前的证据不足以否定原假设,但不能说原假设就是对的。

15.统计假设检验的结果不是绝对正确。

统计结果不能教条地理解,不是以绝对的把握否定什么或肯定什么,只是在概率的意义上成立。

依据样本的信息对关于总体的假设作出判断,无论是拒绝还是不拒绝,都有可能犯错。

16.原假设与备择假设原假设的建立(1)将能够带来严重后果的错误置于原假设位置(2)谨慎性原则:不能轻易地认为总体发生变化,坚持不变的原则(3)希望原则:将希望获得强有力支持的命题放在备择假设位置(4)根据对总体的了解情况确定另外注意:●等号总在原假设上;●两类错误地位不对等,也就是原假设和备择假设地位不等。

假设检验是在原假设成立的前提下定义“小概率”的,不能够轻易否定原假设,拒绝原假设的可能性不大,除非有强有力的证据,也就是说原假设和备择假设被拒绝的可能性不等。

原假设与备择假设:原假设与备择假设是互斥的,但表现形式不一定是对立的。

17.两类错误——弃真与取伪假设检验的结果可能是错误的,有可能犯两类错误弃真和取伪弃真:原假设为真而被拒绝,也称为第一类错误。

犯这种错误的概率一般用α表示。

α事先确定。

取伪:原假设为假而我们没有拒绝,也称为第二类错误。

犯这种错误的概率一般用β表示,只有在知道总体真实分布时才能求得β的值,但在假设检验中不知道总体的真实分布,所以无法求得β的具体值。

α与β是一对矛盾,我们要减小犯第一类错误的概率α,就得容忍较大的犯第二类错误的概率β,在其他条件不变时,无法同时减小α与β。

要同时减小α与β,就得增加样本容量n或改变抽样方式、方法。

18.双侧检验与单侧检验当我们只关心差异大小,而不关心差异的方向时,应进行双侧检验;当我们只关心某一方向的差异大小时,应进行单侧检验。

19.检验统计量 总体均值检验:总体服从正态分布,总体方差已知或大样本时检验Z 总体服从正态分布,总体方差未知,小样本时检验t 总体比例检验:大样本时检验Z 20.P 值是一个概率值,是指当原假设为真是得到样本观察结果或比样本更极端结果的概率。

第八章 方差分析分析对象:定性变量对定量变量影响分析,是通过比较均值是否相等来判断的。

基本原理:将数据间的差异分为随机误差和系统误差。

基本步骤:计算均值→计算离差平方和→计算均方→构造F 统计量→检验 种类:单因素、双因素(无交互作用、有交互作用)第九章:相关与回归1.函数关系与相关关系2.相关系数:密切程度和方向3.相关系数的检验:样本相关系数是依据样本计算的,样本是随机的,样本相关系数也是随机的,样本数据是相关的,并不能说明总体数据间也是相关的,需统计检验。

4.相关分析与回归分析 Y 对X 回归方程◆ 相关分析中不区分自变量、因变量,两变量地位平等,回归分析中要区分自变量与因变量。

◆ 相关分析中两变量都为随机变量,回归分析中,因变量是随机变量,自变量一般是非随机变量。

◆ 相关分析的目的是分析两个变量相关的程度,回归分析要得到自变量对因变量的影响方式,并用数学方程式表达出来,可以进行预测和控制。

5.高斯假定关于回归模型误差项的假定:数学期望为0 方差相等 正态分布 独立6.最小平方法依∑-2)ˆ(yy 最小的原理拟合回归方程的方法。

估计值i y ˆ实际上是当自变量i x x =时,对应因变量y 所有可能取值的平均值,既)()(x f y E =,最小二乘具有如下特征:最小∑∑-=-2)ˆ(0)ˆ(yy yy7.回归系数说明自变量每变动一个单位,因变量平均变动的程度。

一元线性回归中回归系数的正负号与相关系数一致。

8.回归变差与剩余变差9.估计标准误差10.判定系数第十章:时间数列1.时间数列平稳序列、非平稳序列时间序列模型:四种因素(趋势、季节、周期、随机)相互独立时用加法模型,存在相互影响时用乘法模型。

2.环比增长速度与定基增长速度3.年度化增长率4.增长百分之一绝对值5.移动平均:关键是合理确定移动步长k,k越大,对序列数据变化反映越迟缓,对随机变动因素剔除得越多;k越小对序列数据变化反映越快,对随机变动剔除得越少。

有简单移动平均和加权移动平均。

6.指数平滑是一种特殊的加权平均法,是以上期的实际值与预测值作为本期预测值的一种方法,本质上是历史各期的加权平均,并且从近期到远期各数据的权数以指数速度下降。

以第一期的实际值作为第一期的预测值关键是确定合理的平滑系数α,时间数列随机波动较大时,选择较大的α,否则选择较小的α。

7.季节比率及取值范围季节比率说明现象发展季节波动程度的相对数,大于1,说明为旺季,小于1为淡季,如果季节比率均接近1,说明没有季节波动。

以季度数据计算的季节指数之和应为4,以月份数据计算的季节指数之和应为12。

相关主题