当前位置:文档之家› 广东海洋大学统计学要点

广东海洋大学统计学要点

复习题
1. 什么是统计学?为什么统计学可以通过对数据的分析达到对事物性质的认识?
统计学是一门关于统计设计、搜集、整理、分析统计数据的方法科学,其目的是探索数据内在的数量规律性,以达到对客观事物的科学认识。

统计学可以通过对数据的分析达到对事务性质的认识是有客观事物本身的特点和统计方法的特性共同决定的。

(1)从客观事物方面来说,根据辩证法的基本原理,任何客观事物都是必然性与偶然性的对立统一。

同样,任何一个数据也都是必然性与偶然性共同作用的结果,是二者作用的对立统一。

(2)从统计方法来看,统计学提供了一系列的方法,专门用来收集数据、整理数据、显示数据的特征,进而分析和探索(或推断)出事物总体的数量规律性。

2.解释总体与样本、参数和统计量的含义。

(1)总体:是我们所要研究的所有基本单位(通常是人、物体、交易或者事件)的总和,是在至少一种共性的基础上由许多独立的个别事物所组成的整体。

(2)样本:是总体的一部分单位,是从总体中抽出的一部分被实际调查的子集合体。

(3)参数:是对总体特征的数量描述,是研究者想要了解的总体的某种特征值,参数通常是一个未知的常数。

(4)统计量:根据样本数据计算出来的一个量,是对样本数据特征值的数量描述。

3.解释总体分布、样本分布和抽样分布的含义。

(1)总体分布:整体取值的概率分布规律,通常称为总体分布。

(2)样本分布:从总体中抽取容量为n的样本,得到n个样本观测值的概率分布,则为样本分布。

(3)抽样分布:就是由样本n 个观察值计算的统计量的概率分布。

4.简述描述统计学和推断统计学的概念及其联系。

(1)描述统计是用图形、表格和概括性的数字对数据进行描述的统计方法;推断统计是根据样本信息对总体进行估计、假设检验、预测或其他推断的统计方法。

(2)两者间联系:一方面反映了统计发展的前后两个阶段,另一方面也反映了统计方法研究和探索客观事物内在数量规律性的先后两个过程。

5. 简述中心极限定理。

中心极限定理就是对于一个抽自任意总体(均值为µ,方差为σ2),样本容量为n的随机样本。

当n充分大时(通常要求n≥30),样本均值的抽样分布将近似于一个具有μ、方差为σ2/n的正态分布。

6.解释置信水平、置信区间、显著性水平的含义,它们有什么联系。

(1)置信水平:置信区间中包含总体参数真值的次数所占的比率,也称置信系数。

(2)置信区间:在区间估计中,由样本统计量所构造的总体参数的估计区间。

(3)显著性水平:是指当原假设实际上正确时,检验统计量落在拒绝域的概率。

联系:置信区间越宽,置信水平越高,显著性水平越低。

样本统量的概念很宽广(譬如样本均值、样本中位数、样本方差等等,)到现在为止,不是所有的样本统计量和总体分布的关系都能被确认,只是常见的一些统计量和总体分布之间的关系已经被证明。

例如:样本均值的分布,根据中心极限定理,不管总体分布是什么(不管事正态分布还
是非正太分布,已知或者未知),都会近似的服从正态分布(条件是样本足够大),而且均值相等,样本标准差是总体标准差的根号N倍关系
8.抽样推断时为什么必须遵循随机原则抽取样本?
只有遵循随机原则从总体中抽取样本,才能排除主观因素等非随机因素对抽样调查的影响,从而使样本单位的分布接近总体单位的分布,样本对总体才具有较大的代表性。

这样,根据样本的调查资料来估计和推断总体的数量特征才能较为科学和准确。

9.简述假设检验的一般步骤。

(1)陈述原假设H0和备择假设H1;(2)从所研究的总体中抽了不起一个随机样本;(3)确定一个适当的检验统计量,并利用样本数据算出来具体数值;(4)确定一个适当的显著性水平a,并计算出其临界值,指定拒绝域;(5)将统计量的值与临界值进行比较,并做出决策:若统计量的值落在拒绝域内,拒绝原假设H0,否则不拒绝原假设H0。

也可以直接利用P值作出决策,P值小于显著性水平的拒绝H0,否则不拒绝H0。

10.简述第Ⅰ类错误和第Ⅱ类错误的概念,它们发生的概率之间存在怎样的关系?
答:当原假设为真时拒绝原假设,所犯的错误称为第Ⅰ类错误,又称为弃真错误,犯第Ⅰ类错误的概率通常记为a。

当原假设为假时没有拒绝原假设,所犯的错误称为第Ⅱ类错误,又称为取伪错误,犯第Ⅱ类错误的概率通常记为b。

两者的关系:当a增大时,b减小;当b增大时,a减小。

11.简述众数、中位数和均值的特点和应用场合。

(1)众数是将数据按大小顺序排队形成次数分配后,在统计分布中具有明显集中趋势点的数值,是数据一般水平代表性的一种。

特点:可能没有众或有多个众数,最容易计算,但不是永远存在,同时作为集中趋势代表值应用的场合很少,一般在农贸市场上。

(2)中位数是数据排序后,位置在最中间的数值。

特点:很容易理解、很直观,它不受极端值的影响。

(3)均值是算术平均数,是数据集中趋势的最主要测度值。

特点:数据信息提取得最充分,在整个统计方法中应用最广,对经济管理和工程等实际工作也是最重要的方法之一。

12. 为什么要计算离散系数?
离散系数是用来对两组数据的差异程度进行相对比较的,因为比较相关的两组数据的差异程度时,方差和标准差是以均值为中心计算出来的,受变量值水平和计量单位的影响,因而有时直接比较方差是不准确的,需要剔除均值大小不等的影响,计算并比较离散系数。

13.方差分析的基本假设有那些?
(1)每个总体都应服从正态分布。

也就是说,对于因素的每一个水平,其观测值是来自正态分布总体的简单随机样本。

(2)各个总体的方差σ2必须相同。

也就是说,对于各组观察数据,是从具有相同方差的正态总体中抽取的。

(3)观察值是独立的。

14. 一组数据的分布特征可以从那几个方面进行测定?
一组数据的分布特征可以从以下3个方面进行测度:(1)集中趋势的测度(众数、中位数、分位数、均值、几何平均数、切尾均值)。

(2)离散程度的测度(极差、内距、方差和标准差、离散系数)。

(3)偏态与峰度的测度(偏态及其测度、峰度及其测度)。

15.简述样本容量与置信水平、总体方差、允许误差的关系。

样本容量与置信水平成正比,在其他条件不变的情况下,置信水平越大,所需的样本容量也就
越大;样本容量与总体方差成正比,总体的差异越大,所要求的样本容量也越大;样本容量与允许误差成反比,可以接受的允许误差越大,所需的样本容量就越小。

16.比较单侧检验和双侧检验的区别。

(1)问题的提法不同,双侧检验研究的是新方法与旧方法是否有差异;单侧检验研究的是新方法明显好于旧方法还是新方法明显不如旧方法。

(2) 建立假设的形式不同,双侧检验的假设是H0: u=u0, H1: u ≠u0;单侧检验的假设是H0: u≤u0, H1: u>u0或H0: u>u0, H1: u≤u0 。

(3)否定的区域不同,双侧检验的否定区域是IZ I> Z a/2;单侧检验的否定区域是Z<-Za 或Z>Za
加权算术平均数中的权数,指的就是标志值出现的次数或各组次数占总次数的比重,在计算平均数时,由于出现次数多的多的标志值对平均数的形成影响大些,出现次数少的标志值对平均数的形成影响小些,因此就把次数成为权数,在分组数列的条件下,当各组标志出现的次数或各组次数所占比重均相等时,权数就失去权衡轻重的作用,这时用加权算术平均数计算的结果与用简单加权算术平均数的结果相同
总体参数是固定的,未知的,置信区间是一个随机区间。

置信水平为95%的置信区间的含义是指,在相同条件下多次抽样下,在所有构造的置信区间里大约有95%
包含总体参数的真值。

假设检验中犯第一类错误的概率被称为显著性水平,显著性水平通常是人们事先给出的一个值,用于检验结果的可靠性度量,但确定了显著性水平等于控制了反第一类错误的概率,但第二类错误的概率却是不确定的,因此作出“拒绝原假设”的结论,其可靠性是确定的,但作出“不拒绝假设”的结论,其可靠性是难以控制的。

)()(0
010*********
010********∑∑∑∑∑∑∑∑∑∑∑∑-+-=-⨯=q p q p q p q p q p q p q
p q
p q p q p q p q p 以下计算出来的是一组与上述指数体系相对应的销售额、销售价格和销售量的数据。

请根据以下数据解释该指数体系的含义。

这表明,报告期和基期相比,销售量增长了30%,即2160万元,这是由销售价格提高了8.33%,是销售额增加了600万元和销售量增长了20%,是销售额增加了1560万元这两个因素共同作用的结果。

相关主题