1. 什么是统计学?为什么统计学可以通过对数据的分析达到对事物性质的认识?统计学是一门关于统计设计、搜集、整理、分析统计数据的方法科学,其目的是探索数据内在的数量规律性,以达到对客观事物的科学认识。
统计学可以通过对数据的分析达到对事务性质的认识是有客观事物本身的特点和统计方法的特性共同决定的。
(1)从客观事物方面来说,根据辩证法的基本原理,任何客观事物都是必然性与偶然性的对立统一。
同样,任何一个数据也都是必然性与偶然性共同作用的结果,是二者作用的对立统一。
(2)从统计方法来看,统计学提供了一系列的方法,专门用来收集数据、整理数据、显示数据的特征,进而分析和探索(或推断)出事物总体的数量规律性。
2.解释总体与样本、参数和统计量的含义。
(1)总体:是我们所要研究的所有基本单位(通常是人、物体、交易或者事件)的总和,是在至少一种共性的基础上由许多独立的个别事物所组成的整体。
(2)样本:是总体的一部分单位,是从总体中抽出的一部分被实际调查的子集合体。
(3)参数:是对总体特征的数量描述,是研究者想要了解的总体的某种特征值,参数通常是一个未知的常数。
(4)统计量:根据样本数据计算出来的一个量,是对样本数据特征值的数量描述。
3.解释总体分布、样本分布和抽样分布的含义。
(1)总体分布:整体取值的概率分布规律,通常称为总体分布。
(2)样本分布:从总体中抽取容量为n的样本,得到n个样本观测值的概率分布,则为样本分布。
(3)抽样分布:就是由样本n个观察值计算的统计量的概率分布。
4.简述描述统计学和推断统计学的概念及其联系。
(1)描述统计是用图形、表格和概括性的数字对数据进行描述的统计方法;推断统计是根据样本信息对总体进行估计、假设检验、预测或其他推断的统计方法。
(2)两者间联系:一方面反映了统计发展的前后两个阶段,另一方面也反映了统计方法研究和探索客观事物内在数量规律性的先后两个过程。
5. 简述中心极限定理。
中心极限定理就是对于一个抽自任意总体(均值为µ,方差为σ2),样本容量为n的随机样本。
当n 充分大时(通常要求n≥30),样本均值的抽样分布将近似于一个具有μ、方差为σ2/n的正态分布。
6.解释置信水平、置信区间、显著性水平的含义,它们有什么联系。
(1)置信水平:置信区间中包含总体参数真值的次数所占的比率,也称置信系数。
(2)置信区间:在区间估计中,由样本统计量所构造的总体参数的估计区间。
(3)显著性水平:是指当原假设实际上正确时,检验统计量落在拒绝域的概率。
联系:置信区间越宽,置信水平越高,显著性水平越低。
7. 几何平均数的适用条件分别是什么?几何平均数的使用条件:总指标等于各个变量连乘积的值,一般用来计算社会经济问题的平均发展速度。
8. 抽样推断时为什么必须遵循随机原则抽取样本?只有遵循随机原则从总体中抽取样本,才能排除主观因素等非随机因素对抽样调查的影响,从而使样本单位的分布接近总体单位的分布,样本对总体才具有较大的代表性。
这样,根据样本的调查资料来估计和推断总体的数量特征才能较为科学和准确。
9. 简述假设检验的一般步骤。
(1)陈述原假设H0和备择假设H1;(2)从所研究的总体中抽了不起一个随机样本;(3)确定一个适当的检验统计量,并利用样本数据算出来具体数值;(4)确定一个适当的显著性水平a,并计算出其临界值,指定拒绝域;(5)将统计量的值与临界值进行比较,并做出决策:若统计量的值落在拒绝域内,拒绝原假设H0,否则不拒绝原假设H0。
也可以直接利用P值作出决策,P值小于显著性水平的拒绝H0,否则不拒绝H0。
10.相关系数(r)绝对值的大小是如何来反映两个变量之间线性关系显著性的?相关系数r是根据从总体中抽取的随机样本的观测值x和y计算出来的,它是对总体相关系数p的估计。
当r=0,表明没有线性相关关系;当0<▏r▏<1时,存在一定的线性相关关系;若r>0,表明x 和y为正相关,若r<0,表明y为负相关;当▏r▏=1时,表明x和y完全线性相关,若r=1,表明x和y完全正相关;若r=-1,表明x和y完全负相关。
11.简述众数、中位数和均值的特点和应用场合。
(1)众数是将数据按大小顺序排队形成次数分配后,在统计分布中具有明显集中趋势点的数值,是数据一般水平代表性的一种。
特点:可能没有众或有多个众数,最容易计算,但不是永远存在,同时作为集中趋势代表值应用的场合很少,一般在农贸市场上。
(2)中位数是数据排序后,位置在最中间的数值。
特点:很容易理解、很直观,它不受极端值的影响。
(3)均值是算术平均数,是数据集中趋势的最主要测度值。
特点:数据信息提取得最充分,在整个统计方法中应用最广,对经济管理和工程等实际工作也是最重要的方法之一。
12. 为什么要计算离散系数?离散系数是用来对两组数据的差异程度进行相对比较的,因为比较相关的两组数据的差异程度时,方差和标准差是以均值为中心计算出来的,受变量值水平和计量单位的影响,因而有时直接比较方差是不准确的,需要剔除均值大小不等的影响,计算并比较离散系数。
13.标准差是如何来反映一组数的离散程度的?标准差是方差的正平方根,而方差是描述某个变量与平均数的偏离程度,标准差越大,离散程度越大;标准差越低,离散程度越低。
14.方差分析的基本假设有那些?(1)每个总体都应服从正态分布。
也就是说,对于因素的每一个水平,其观测值是来自正态分布总体的简单随机样本。
(2)各个总体的方差σ2必须相同。
也就是说,对于各组观察数据,是从具有相同方差的正态总体中抽取的。
(3)观察值是独立的。
15. 简述相关分析和回归分析的区别与联系。
二者的联系在于:(1)具有共同的研究对象:都是对变量间相关关系的分析,是研究变量之间不确定性统计关系的重要方法。
(2)它们均是统计方法,不能揭示现象之间的本质关系。
二者的区别在于:(1)它们在研究目的上有明显区别。
相关分析主要是判断两个或两个以上变量之间是否存在相关关系,并分析变量间相关关系的形态和程度。
回归分析主要是对存在相关关系的现象间数量变化的规律性作出测度。
在相关关系中,变量之间是平等关系,不存在自变量和因变量。
而在回归分析中必须明确划分自变量和因变量。
(2)它们在对变量的处理上也有明显区别。
只有当变量间存在相关关系时,用回归分析去寻求相关的具体数学形式才有实际意义。
在定量分析时,先对变量进行相关分析,当变量之间确实存在相关关系时,再对变量进行回归分析。
16. 一组数据的分布特征可以从那几个方面进行测定?一组数据的分布特征可以从以下3个方面进行测度:(1)集中趋势的测度(众数、中位数、分位数、均值、几何平均数、切尾均值)。
(2)离散程度的测度(极差、内距、方差和标准差、离散系数)。
(3)偏态与峰度的测度(偏态及其测度、峰度及其测度)。
17.简述样本容量与置信水平、总体方差、允许误差的关系。
样本容量与置信水平成正比,在其他条件不变的情况下,置信水平越大,所需的样本容量也就越大;样本容量与总体方差成正比,总体的差异越大,所要求的样本容量也越大;样本容量与允许误差成反比,可以接受的允许误差越大,所需的样本容量就越小。
18.比较单侧检验和双侧检验的区别。
(1)问题的提法不同,双侧检验研究的是新方法与旧方法是否有差异;单侧检验研究的是新方法明显好于旧方法还是新方法明显不如旧方法。
(2) 建立假设的形式不同,双侧检验的假设是H0: u=u0, H1: u ≠u 0;单侧检验的假设是H0: u≤u0, H1: u>u0或H0: u>u0, H1: u≤u0 。
(3)否定的区域不同,双侧检验的否定区域是IZ I> Z a/2;单侧检验的否定区域是Z<-Za 或Z>Za19.甲企业近四年产品销售量分别增长了9%、7%、8%、6%;乙企业这四年产品的次品率也正好是9%、7%、8%、6%。
这两个企业这四年的平均增长率和平均次品率的计算是否一样?为什么?不一样。
因为计算的对象不同,所使用的方法不同。
平均增长率要将增长率变成发展速度后,通过几何平均法求出平均发展速度后减去1得平均增长率,即: 四年的平均增长率=()()()()%100%61%81%71%914-+⨯+⨯+⨯+平均次品率是以每年的产品量(包括次品)为权数对每年的次品率进行加权算术平均得到的,设四年的产品量分别为A 、B 、C 、D ,则四年的平均次品率=(9%A+7%B+8%C+6%D )/(A+B+C+D)20解释置信水平为95%的置信区间的含义。
总体参数是固定的,未知的,置信区间是一个随机区间。
置信水平为95%的置信区间的含义是指,在相同条件下多次抽样下,在所有构造的置信区间里大约有95%包含总体参数的真值。
21样本统计量的分布和总体分布的关系是什么?答:样本统计量包括样本均值、样本比率、样本方差。
(1)样本均值总体分布的关系:a 无论是重复还是不重复抽样,样本均值的数学期望始终等于总体均值;b 在重复抽样条件下,样本均值的方差为总体方差的1/n ;在不重复抽样条件下,样本均值的方差为(2)样本比率与总体分布的关系:a 样本比率p 的数学期望等于总体比率π;b 在重复条件下, ;在不重复条件下,用修正系数加以修正,(3)样本方差与总体分布的关系:对于来自正态总体的简单随机样本,则比值的抽样分布服从自由度为(n-1)的x ²分布。
17. 如何理解权数的意义?在什么情况下,应用简单算术平均数和加权算术平均数计算的结果是一致的? 答:加权算术平均数中的权数,指的就是标志值出现的次数或各组次数占总次数的比重。
在计算平 均数时,由于出现次数多的标志值对平均数的形成影响大些,出现次数少的标志值对平均数的形成影响小些,因此就把次数称为权数。
在分组数列的条件下,当各组标志值出现的次数或各组次数所占比重均相等时,权数就失去了权衡轻重的作用,这时用加权算术平均数计算的结果与用简单算术平均数的结果相同。
19. 什么是显著性水平?它对于假设检验决策的意义是什么?答:假设检验中犯第一类错误的概率被称为显著性水平。
显著性水平通常是人们事先给出的一个值,用于检验结果的可靠性度量,但确定了显著性水平等于控制了犯第一错误的概率,但犯第二类错误的概率却是不确定的,因此作出“拒绝原假设”的结论,其可靠性是确定的,但作出“不拒绝原假设”的结论,其可靠性22. 在总量指标的两因素分析中,指数体系如下:)()(0010*********010********∑∑∑∑∑∑∑∑∑∑∑∑-+-=-⨯=q p q p q p q p q p q p qp qp q p q p q p q p以下计算出来的是一组与上述指数体系相对应的销售额、销售价格和销售量的数据。
请根据以下数据解释该指数体系的含义。