统计学总复习第一章绪论1、统计学是一门什么学科?2、统计学的分类3、掌握统计学几组基本概念的区别与联系如何确定总体总体单位和总体单位数第二章统计数据的搜集统计数据的误差(这些误差是否可以计算和控制)第三章统计数据的整理与显示1、统计分组的作用(1)划分现象的类型(2)揭示现象的内部结构(3)分析现象之间的依存关系2、统计数据的显示方法统计表统计图3、组距分组的组中值的计算4、箱线图的分析第四章统计数据分布特征的度量1、集中趋势度量有哪些?哪些受极端值的影响?2、离散程度的度量有哪些?3、哪些是位置平均数?哪些是数值平均数?4、总体标准差样本标准差离散系数的计算5、两组数据如何比较各平均数的代表性、均衡性、稳定性?(1)平均数相同时,比较它们的标准差的大小,谁小就谁的平均数就具有代表性、均衡性、稳定性。
谁大谁的平均数就不具有代表性、均衡性、稳定性,也就是数据更加分散(2)平均数不同时,比较它们的离散系数的大小,谁小就谁的平均数就具有代表性、均衡性、稳定性。
谁大谁的平均数就不具有代表性、均衡性、稳定性,也就是数据更加分散(3)如果比较两组数据中同一个人的哪个成绩好,则需要使用哪个度量值?参考教材p1294、计算:简单算术均值加权算术均值几何均值5、众数、中位数、均值的比较分清在哪种情况下:x <e m <0m x =0m =e m x > e m >0m(1).若某总体次数分布呈轻微左偏分布,则下列关系式成立的有( ) A.x > e m >0m B.x <e m <0m C.x >0m >e m D.x <0m <e m 6、数据分布向左右偏,意味着分布的数量关系是怎样的?参考教材p133分析例题:下面是3个不同班级的考试得分人数分布草图,横轴是分数,纵轴是各分数的人数所占比率。
得分是从0到100分;假设及格分数是50分。
a 班b 班c 班025507510002550751000255075100请简析并得出结论:(1).对于每一个班级,及格的百分数大约是50%,还是大大地超过50%或大大地低于50%?(2).有一个班级中有两个非常不同的学生组,一组在考试中考得相当差,而另一组则非常出色。
这是哪一个班级?(3).图中b 班,有较多的人得分在40-50范围内还是在90-100范围内?答案 (1)、c 班及格的百分数大约是50%,a 班大大地超过50% b 班大大地低于50% (2)、b 班(3)、b 班,有较多的人得分在90-100范围内6、正态分布的两组数据什么是表示数据的中心位置 ?什么是表示数据分布的分散与集中程度?(使用符号表示。
)7、书上p113作业题(5).以下是根据8位销售员一个月销售某产品的数量制作的茎叶图30267855654则该产品销售量的中位数为( )。
A .5 B .45 C .56.5 D .7.5 8、掌握各种情况下中位数的计算(6).某车间三个班生产同种产品,6月份劳动生产率分别为 2.3.4(件/工日),产量分别为400.500.600件,则该车间平均劳动生产率计算式应为()。
A.33432=++B.13.31500600450034002=⨯+⨯+⨯C.88.24323=⨯⨯ D.9.24600350024001500=++(7).若两个变量的平均水平接近,标准差越大的变量,其( )A.平均值的代表性越好 B.离散程度越大C.稳定性越高 D.上述三种都不对P115计算题(6).对10名成年人和10名幼儿的身高(厘米)进行抽样调查,结果如下:成年组166 169 172 177 180 170 172 174 168 173 幼儿组68 69 68 70 71 73 72 73 74 75 (1)要比较成年组和幼儿组的身高差异,你会采用什么样的指标测度值?为什么?(2)比较分析哪一组的身高差异大?答案:(1) 离散系数,因为它消除了不同组数据水平高地的影响。
(2)成年组身高的离散系数:024.01.1722.4==sv;幼儿组身高的离散系数:032.03.713.2==sv;由于幼儿组身高的离散系数大于成年组身高的离散系数,说明幼儿组身高的离散程度相对较大。
第五章时间序列分析1、时间序列一般由时间和统计指标两个基本要素构成2、时期数与时点数的确定3、逐期增长量大致相同时可建线性模型,环比发展速度大致相同可建指数模型,对吗?4、增长量平均增长量增长速度平均增长速度的计算5、发展速度与总速度的关系6、计算题p151-152(1)、某公司2009年一季度职工人数和总产值资料如下:月份 1 2 3 4月初工人数(人) 500 515 530 560工业总产值(万元)1600 1650 1850 2000(1)计算一季度的月平均工人数;(2)计算一季度的月平均工业总产值;(3)计算一季度的月平均劳动生产率;(4)计算一季度工人平均劳动生产率。
(3)、某地历年粮食产量资料如下:年份2003 2004 2005 2006 2007 2008 2009 产量(万吨)241 246 252 257 262 276 281 要求:(1)用最小平方法建立线性模型;(∑=0t)(2)预测2012年的粮食产量。
7、季节指数的分析据各季度商品销售额数据计算的季节指数分别为∶一季度70%,二季度95%,三季度110%,四季度125%。
受季节因素影响最大的是()。
A.一季度B.二季度C.三季度D.四季度8、季节指数的和是多少?第六章统计指数分析1、总指数与个体指数2、总指数的计算方法有哪些?3、综合指数:总量指标指数公式数量指标指数公式质量指标指数公式4、同度量因素、指数化指标相互关系5、CPI 通货膨胀率货币购买力6、计算题1).随着零售业市场竞争的日益加剧,各零售商不断推出新的促销策略。
某商场利用“十一黄金周”采取部分商品的大幅度降价策略,旨在通过降价赢得顾客、提高商品的销售额,同时也可以进一步调整商品的结构。
为分析降价对销售额带来的影响,公司收集了降价前一周和降价后一周的主要商品的有关销售数据,如下表几种主要商品的销售数据商品名称计量单位价格(元)p 销售量q降价前p0 降价后p1 降价前q0 降价后q1甲台300 200 50 80乙套800 500 100 180丙件90 50 150 300要求:(1)降价后与降价前相比,三种商品的总销售额增长的百分比是多少?销售额增长的绝对额是多少?(2)以降价后的销售量为权数,计算三种商品的平均降价幅度是多少?由于降价而减少的销售额是多少?(3)以降价前的价格为权数,计算三种商品的销售量平均增长幅度是多少?由于销售量增长而增加的销售额是多少?2)某企业2018年5月份产品销售额为1000万元,比4月份增长10%,剔除物价上涨的因素,其产品销售额实际增长6%,试计算:(1)该企业产品销售额5月份比4月份增加多少万元?(2)与4月份比较,5月份该企业由于产品销售量提高而增加多少万元产品销售额?(3)该企业5月份比4物价上涨多少?由于物价上涨而增加多少万元产品销售额?(要求:写出计算公式).某地区生活品零售价格上涨6%,生活品销售量增长8%,那么生活品销售额是()。
A.下降114.48%B.下降14.48%C.增长114.48%D.增长14.48%3).本年与上年相比,若物价上涨15%,则本年的1元()。
A.只值上年的0.85元B.只值上年的0.87元C.与上年的1元钱等值D.无法与上年比较第七章抽样分布1、随机抽样与随机原则根据随机原则从总体中直接抽选部分单位构成样本的方法。
也称概率抽样特点按随机原则抽取样本抽取样本时使每个单位都有一定的机会被抽中每个单位被抽中的概率是已知的,或是可以计算出来的某一总体单位能否被抽中,与其它单位是否被抽中没有关联2、抽样的方法与抽样的组织形式中抽样误差存在的区别(比较他们的误差大小)3、抽样分布:样本统计量的概率分布4、随机抽选样本的方式:重复抽样不重复抽样复习本章课件幻灯片7-95、中心极限定理6、样本均值的抽样分布特征(1)样本均值的数学期望(2)样本均值的方差及标准差重复抽样不重复抽样(不作为重点)7、总体正态分布的表示方法、抽样分布的正态分布表示方法8、z分布、t分布9、z 分布的概率与z 值的对应关系(需要记住的6个置信度的z 值)概率度z 1 1.65 1.96 2 2.58 3 置信概率φ(z) 68.27%90%95%95.45%99%99.73%第八章 参数估计1、参数估计的基本方法有哪些?点估计和区间估计2、理解点估计的评价标准: 无偏性、有效性、一致性3、区别抽样的平均误差(抽样的标准差)抽样的极限误差(边际误差)4、置信水平(置信度)与精确度的关系5、计算题总体均值的区间估计、总体比例的区间估计(1) 重复抽样条件下,总体分布状态和标准差已知的条件下1)一家食品生产企业以生产袋装食品为主,为对产量质量进行监测,企业质检部门经常要进行抽检,以分析每袋重量是否符合要求。
现从某天生产的一批食品中采用重复抽样方式随机抽取了25袋,测得其平均重量为105.36克,包装重量的合格率为96%。
已知产品重量的分布服从正态分布,且总体标准差为10克。
试估计:(Z α=1.65 Z α/2=1.96)①该批产品平均重量的置信区间,置信水平为95%。
(参考参数估计ppt43-44) ②该批产品包装重量的合格率的置信区间,置信水平为95%(2) 重复抽样条件下,总体分布状态和标准差未知的条件下1) 已知某种灯泡的寿命服从正态分布,现从一批灯泡中采用重复抽样方式随机抽取16只,测得其平均使用寿命为1490小时,标准差为24.77小时。
试建立该批灯泡平均使用寿命95%的置信区间。
(参考参数估计ppt48-492).某企业生产一批灯泡10000只,采用重复抽样方式随机抽取100只作耐用时间试验和合格检验,测算结果,平均使用时间为2000小时,标准差为12小时,其中有20只不合格。
要求:(1)确定该批灯泡平均耐用时间95%的置信区间;(Z α=1.65 Z α/2=1.96 t α(n-1)≈1.65t α/2(n-1)=2.131)(2)确定该批灯泡合格率95.45%的置信区间;(Z α=1.69 Z α/2=2 0.005(4001)(1)22.582n t t α--=≈(1)0.01(4001) 2.325n t t α--==)6、影响样本容量的因素有哪些,如何影响的?p226第九章假设检验1、假设的设定原假设与备选假设决策中的假设、研究中的假设、声明中的假设2、假设检验的逻辑思维是什么?3、两类错误是什么?他们的关系是什么?4、显著性水平α、临界值、检验的统计量、拒绝区域、接受区域5、双侧检验、单侧检验(左检、右检)6、显著性水平α下在不同的假设条件下的zα或zα/2是如何取值的?7、假设检验计算题σ2 未知的总体均值检验(特大样本)【例1】某企业职工的月均收入均值为2400元,方差未知、分布状态未知的条件下,近来该企业的经济效益有所提高,为调查企业职工的收入是否有变化,从该企业随机抽取100人,得出其月平均收入为2450元,标准差为300元,试以=0.05检验该企业职工的收入是否有显著性变化?【例8】某企业职工的月均收入服从均值为2400元,方差未知的正态分布,近来该企业的经济效益有所提高,为调查企业职工的收入是否随之提高了,从该企业随机抽取100人,得出其月平均收入为2450元,标准差为300元,试以=0.05检验该企业职工的收入是否有显著性提高?(课件例题)书上作业题3、一项调查显示,每个家庭每天看电视的平均时间为6.5小时,该调查中包括200个家庭,α=0.01,样本标准差为2.2个小时。