当前位置:文档之家› 统计学(第四版)期末复习资料

统计学(第四版)期末复习资料

第一章统计和统计数据名词解释1.统计学:收集处理分析解释数据并从数据中得出结论的科学。

2.描述统计:研究数据收集处理汇总图表描述概括与分析等统计方法。

3.推断统计:研究如何利用样本数据来推断总体特征的统计方法。

4.分类数据:只能归于某一类别的非数字型数据。

5.顺序数据:只能归于某一有序类别的非数字型数据。

6.数值型数据:按数字尺度测量的观察值。

7.总体:包含所研究的全部个体(数据)的集合。

8.样本:从总体中抽取的一部分元素的集合。

9.参数:用来描述总体特征的概括性数字度量。

10.变量:说明现象某种特征的概念。

11.分类变量:说明事物类别的一个名称。

12.顺序变量:说明事物有序类别的一个名称。

13.数值型变量:说明事物数字特征的一个名称。

14.概率抽样:随机抽样,遵循随机原则进行的抽样,总体中每个单位都有一定的机会被选入样本。

15.非概率抽样:不随机,根据研究目的对数据的要求,采用某种方式从总体中抽出部分单位对其实施调查。

16.简单随机抽样:从包括总体的N个单位的抽样框中随机,一个个抽取n个单位作为样本,每单位等概论。

17.分层抽样:将抽样单位按某种特征或某种规则划分为不同的层,然后从不同层中独立、随机地抽取样本。

18.整群抽样:总体中若干单位合并为组,群,抽样时直接抽取群,然后对中选群中的所有单位全部实施调查。

19.系统抽样:总体中所有单位按顺序排列,在规定范围内随机抽取一单位作为初始单位,然后按事先规则确定其它样本单位。

20. 抽样误差:由于抽样的随机性引起的样本结果与总体真值之的误差简答题。

1.概率抽样与非概率抽样比较:性质不同,非概不依据随机原则选样本,样本统计量分布不确切,无法使用样本的结果对总体相应参数进行推断。

操作简便,时效快,成本低,专业要求不很高。

概率抽样依据随机原则抽选样本,理论分布存在,对总体有关参数可进行估计,计算估计误差,得到总体参数的置信区间。

提出精度要求。

2.数据收集方法的选择:抽样框中有关信息,目标总体特征,调查问题的内容,有形辅助物的使用,实施调查的资源,管理与控制,质量要求3.误差的控制:抽样误差是抽样随机性带来的,不可避免可以计算,改大样本量。

选择合适改进的抽样框,设计好的调查问卷,调查过程的质量控制。

第二章用图表展示数据。

名词解释1.频数:落在某一特定类别或组中的数据个数。

2.频数分布:各个类别及其相应的频数形成的分布。

3.比例:一个样本(或总体)中各个部分的数据占全部数据比值。

4.比率:一个样本(或总体)中各不同类别数据之间的比值。

5.组距:是一个组的上限与下限的差6.组距分组:是将全部变量依次划分为若干个区间,将这一区间的变量值作为一组。

7.组中值=下限值+上限值/2 上下限的中间值8.直方图:用矩形的宽度和高度(即面积)来表示频数分布的图形。

9.茎叶图:由茎和叶两部分组成的、反应原始数据分布的图形。

10.箱线图:由一组数据的最大值、最小值、中位数和两个四分位数5个特征值绘制而成的、反应原始数据分布图形。

简答题。

1.数据透视表作用:可以对数据表重要信息按使用者的习惯或分析要求进行汇总和作图,形成一个符合需要的交叉表2.数据分布表的制作步骤:确定组数,确定组距,根据分组整理成频数分布表,上组限不在内不重不漏3.直方图与条形图的差别:首先条形图是用条形的长度表示各类别频数的多少,宽度是固定的;直方图用面积表示各组频数的多少,矩形的高度表示每一组的频数或频率,宽度则表示各组的组距,高宽均有意义。

其次由于分组数据具有连续性,直方图的各矩形通常是连续排列,而条形图则是分开排列。

最后条形图主要用于展示分类数据,直方图主要用于展示数值型数据。

4.茎叶图与直方图的区别:茎叶图既能给出数据的分布情况,又能保留原始数据的信息。

直方图通常适用于批量数据,茎叶图小批量数据。

饼图与环形图差别:环形图中空洞,样本或总体中每一部分用环中的一段表示。

饼图只能显示一个样本或总体各部分所占的比例,环形图可以同时绘制多个,有利比较研究。

5.好图形具备特征:显示数据,读者注意集中图形内容,避免歪曲,强调数据之间比较,服务明确目的,对图形统计描述与文字说明。

6.图形优劣准则:好图应当使复杂的观点简明、确切、高效阐述,最短时间内以最少的笔墨给读者提大信息,多维,表述数据真实情况。

7.制作统计表设计注意:合理安排表结构,包括表号总标题单位,上下两横线粗,中间细,必要注释、来源。

第三章用统计量描述数据。

名词解释1.众数:一组数据中出现频数最多的数值2.中位数:一组数据排序后处于中间位置上的数值。

3.四分位数:一组数据排序后处在25%和75%位置上的数值。

4.平均数:又称均值,是全部数据的算术平均值5.四分位差:75%位置上的四分位数与25%位置上的四分位数之差。

顺序数据。

6.极差:也称全距,一组数据的最大值与最小值之差。

7.方差:各数据与其平均数离差平方的平均数。

8.标准差:方差的平方根。

9.标准分数:也称标准化值或 z 分数,某个数据与其平均数的离差除以标准差后的值。

10.离散系数:一组数据的标准差与其相应的平均数之比。

11.偏态:对数据分布对称性的测度。

测度偏态的统计量偏态系数。

12.偏态系数:对数据分布不对称性的度量值。

13.峰态:对数据分布平峰或尖峰程度的测度,测度峰态的统计量则是峰态系数。

14.峰态系数:对数据分布峰态的度量值。

简答题。

1.数据分布的特征三方面:数据分布的集中趋势,离散程度,形状众数的特点:不受极端值影响,分布角度上看是具有明显集中趋势点的数值,众数可能不存在也可能有多个。

2.众数、中位数和平均数的关系:从分布角度看,众数M0是最高峰值,中位数Me是数据中间位置上值,平均数是全部数据的算术平均。

左偏X<Me<Mo。

3.众数、中位数和平均数的特点与应用场合:众数是一组数据的峰值,不受极端值影响,缺点是不唯一,在数据量较多时才有意义,数据量少时不宜,主要作分类数据的集中趋势测度值。

中位数是一组数据中间位置上的代表值,不受极端影响,数据分布偏斜程度较大时,中位数好,主要适合作顺序数据的集中趋势测度值。

平均数是对数值型数据计算的,利用了全部数据信息,应用广泛,数据呈对称或接近对称分布时3个代表值接近相等,此时选择平均数作为集中趋势代表值,其主要缺点是易受数据极端值的影响。

对于偏态分布的数据,平均数的代表性较差。

偏态程度较大数据用中位数或众数比平均好。

4.异众比率的应用场合:主要用于衡量众数对一组数据的代表程度,大,代表性差。

主要适合分类数据的离散程度。

顺序数据和数值型也可。

5.标准分数的性质:平均数为0,标准差为16.经验法则:一组数据对称分布时,约有68%的数据在平均数1个标准差范围内。

95% 99%7.切比雪夫不等式:不对称 75% 2个标准差 89% 3个 94 4个 1-1/k28.离散程度的测量值应用场合:分类数据用异众,顺序数据四分位,数值数据方差标准差,不同样本数据离散系数。

9.偏态系数的用途:0对称,>1 <-1高偏 0.5-1 -1—0.5中偏,接近0,偏度低,正值右偏。

第四章名词解释1.概率:对事件发生的可能性大小的度量值。

2.参数:对总体特征的某个概括性度量。

3.统计量:对样本特征的某个概括性度量,是样本的函数。

4.抽样分布:样本统计量的概率分布,是由样本统计量的所有可能取值形成相对频数分布。

简答题。

1.正态分布曲线的性质:(1)f(x)>=0整个概率密度曲线都在x轴上方(2)曲线相对x=μ对称,在x=μ处最大值f(μ)=1/σ(3)曲线陡缓程度由σ决定,越大,越缓;(4)x趋于无穷时,曲线以x轴为渐近线。

第五章参数估计名词解释1.参数估计:是用样本统计量去估计总体的参数。

2.估计量:用于估计总体参数的统计量的名称。

3.估计值:估计参数时计算出来的统计量的具体值。

4.点估计:用样本估计量的取值直接作为总体参数θ的估计值5.区间估计:在点估计的基础上,给出总体参数估计的一个估计区间,该区间通常由样本统计量加减估计误差组成.6.置信区间:由样本统计量构造出的总体参数在一定置信水平下的估计区间。

7.置信水平:也称为置信度或置信系数,在重复构造的总体参数的多个置信区间中包含总体参数真值的次数所占的比例。

第六章假设检验。

名词解释1.假设检验:先对总体参数提出某种假设,然后利用样本信息判断假设是否成立的过程。

2.原假设:也称零假设,是研究者想收集证据予以反对的假设,3.备择假设:也称研究假设,是研究者想收集证据予以支持的假设,简答题。

1.假设检验的步骤:1提出原假设H0和备择假设H12确定适当的检验统计量3确定显著性水平α和临界值及拒绝域4根据样本数据计算检验统计量的值P5将检验统计量值与临界值比较,作出拒绝或接受原假设的决策。

2.假设检验和参数估计有什么相同点和不同点?参数估计和假设检验是统学推断的两个组成部分,都是利用样本对总体进行某种推断,然而推断的角度不同。

参数估计讨论的是样本统计量估计总体参数的方法,总体参数μ在估计前是未知的。

而在参数假设检验中,则是先对μ的值提出一个假设,然后利用样本信息去检验这个假设是否成立。

第七章分类变量的推断。

名词解释1.χ2 拟合优度检验:利用χ2 停机梁来判断某个分类变量个类别的观察频数与某一理论频数或期望频数是否一直的检验方法。

2.列联表:有两个或两个以上分类变量交叉分类的频数分布表。

3.χ2 独立性检验:利用χ2 统计量来判断两个分类变量是否独立的检验方法。

3.φ系数:测度两个分类变量之间相关程度的统计量,主要用于2X2列联表。

4.Cramer’s V 系数:测度两个分类变量之间相关程度的统计量,可用于rXc的列联表。

5.列联系数:测度两个分类变量之间相关程度的统计量,主要用于大于2X2列联表。

简答题。

1.一致性检验和独立性检验的区别:首先,两种检验抽取样本的方法或对观察值进行测定的方法有所不同,如果在各类别中分别进行,属于拟合优度检验,如果事先未分类,抽取样本后根据研究内容分类形成列联表就是独立性检验。

其次,两者检验假设的内容有差异,似~通常假设各类别总体比例等于某个期望概率,而独立性检验中,原假设则假设两个变量之间相互独立。

最后,计算期望频数时,在拟合优度检验中利用原假设中的期望概率,用观察频数乘以期望概率,直接得到期望频数,如果独立性检验,则假设两个变量的分类是独立的,因而两个水平的联合概率是两个单独的概率的乘积。

2.简述φcV相关系数各自的特点:φ2X2列联表,0-1范围,0完全相关|φ|=1完全相关,绝对值越大,相关程度越高, φ无上限;c大于2X2列联表,相互独立时 c=0,不可能大于1,最大值依赖于列联表的行数列数,且随着R、C的增大而增大。

相关主题