《应用统计学》复习题主要内容:1. 统计数据的定义统计数据是对现象进行测量的结果。
2. 统计数据的分类按照所采用的计量尺度不同分为:分类数据、顺序数据和数值型数据。
按照收集方法分为:观测数据和实验数据。
按照现象与时间的关系分为:截面数据和时序数据。
3. 总体与样本的识别包含所研究的全部个体(数据)的集合称为总体。
从总体中抽取的一部分元素的集合,称为样本。
4. 统计调查的主要方式统计调查分为抽样调查、普查、统计报表 5. 常用的概率抽样方法6. 如何利用随机数字表抽取简单随机样本7. 如何整理频数分布表8. 如何选择合适的图形(条形图;柱状图;饼图;点线图;直方图;茎叶图;雷达图) 9. 数据集中趋势的度量指标(众数;中位数;四分位数;平均数) 10. 数据离散程度的度量指标(极差;方差和标准差;离散系数) 11. 样本均值和样本方差的抽样分布11. 点估计(总体比例的估计; ,估计μX 22S σ估计) 12. 区间估计(大样本情况:nz x σα2± 或者2x z α±13. 假设检验的基本原理和具体步骤14. 大样本情形下的假设检验结果的分析和讨论(nx z σμ0-= 或者x z =课本练习题:习题 1. 指出下面数据的类型 (1)年龄(岁) (2)性别 (3)汽车产量(4)购买商品时的支付方式(现金、信用卡、支票) (5)员工对企业某项改革措施的态度(赞成、中立、反对)答案:1、数值型 2、分类数据 3、数值型 4、分类型 5、顺序数据习题 2. 概念辨析一家研究机构从IT从业者中随机抽取500人作为样本进行调查,其中60%回答他们的月收入在5000元以上,50%的人回答他们的消费支付方式是使用信用卡。
(1)这一研究的总体是什么?(2)月收入是分类变量、顺序变量还是数值变量?(3)消费支付方式是分类变量、顺序变量还是数值型变量?(4)这一研究涉及截面数据还是时间序列数据?请指出这里的总体与样本,个体与变量,参数(值)与统计量(值)。
答案:1、总体是全体IT从业者。
样本是随机抽取的500人。
2、月收入是数值型变量3、消费支付方式是分类变量4、涉及截面数据习题3. 某行业管理局所属40个企业2002年的产品销售收入数据如下(万元)(1)根据上面的数据进行适当的分组,编制频数分布表。
(2)如果按规定:销售收入在125万元以上为先进企业,115-125万元为良好企业,105-115万元为一般企业,105万元以下为落后企业,请按先进企业、良好企业、一般企业、落后企业进行分组并给出相应的频数分布。
答案:1、步骤:确定组数(10以内)-确定组间距(最大值减最小值除以组数)-调整组数并将数据分组-统计频数-绘制频数分布表(如书中61页表3.15)-画出条形图(如62页图表3.17)2、按照题中分组方式将企业分类统计并绘制频数分布表(如519页答案)习题4、一家汽车零售店的10名销售人员5月份销售的汽车数量(台)排序如下:2 4 7 10 10 10 12 12 14 15(1)计算汽车销售量的众数、中位数和平均数(2)根据定义公式计算四分位数+(3)计算销售量的标准差(4)说明汽车销售量分布的特征答案:1、出现频数最多的变量值称为众数(10),排序后处于中间位置的变量值称为中位数(10),数据加和后除以个数称为平均值(只考简单平均)2、先找出中位数后在其中的一半数据中再用原来方法找出中位数(7、12)3、各个值减去平均值再平方求和4、画出直方图判断图形(左偏分布)如书中523页4.1答案。
习题5. 某银行为缩短顾客到银行办理业务等候的时间,准备采用两种排队方式试验:一种是所有顾客都进入一个等待队列;另一种是顾客在3个业务窗口列队3排等待。
为比较哪种排队方式使顾客等待的时间更短,银行在两种排队方式各随机抽取9名顾客,得到第一种排队方式的平均等待时间为7.2秒,标准差为1.97秒;第二种排队方式的等待时间(单位:秒)为:5.5 6.6 6.7 6.8 7.1 7.3 7.4 7.8 7.8。
(1)画出第二种排队方式等待时间的茎叶图(2) 计算第二种排队方式等待时间的平均数和标准差 (3) 比较两种排队方式等待时间的离散程度(4) 如果让你来选择一种排队方式,你会选择哪一种?试说明理由。
答案:1、茎叶图不考2、平均数和标准差如题4计算方法3、计算离散系数V=标准差S/平均数x4、选择离散系数小的一种 如书中523页4.3答案习题6. 从均值为200、标准差为50的总体中,抽取n=100的简单随机样本,用样本均值x 估计总体均值。
(1)x 的数学期望是多少 (2)x 的标准差是多少 (3)x 的抽样分布是什么(4)样本方差2s 的抽样分布是什么 答案:1、x 数学期望是总体平均值200, 2、x 的标准差是X σ=5 3、x 的抽样分布是正态分布。
见书中526页6.1答案习题7. 从一批零件中随机抽取36个,测得其平均长度为149.5cm ,标准差为1.93cm. (1) 试确定该种零件平均长度95%的置信区间(2) 在上面的估计中,你使用了统计中的哪一个重要定理?请简单解释这一定理(不考) 答案:n=36, x =149.5,S=1.93, α=0.051、利用公式:2x z α±=x ±0.052Z=149.5±1.96⨯=(148.9,150.1)见书中528页7.10答案习题8. 某乐器厂以往生产的乐器采用的是一种镍合金弦线,这种弦线的平均抗拉强度不超过1035 Mpa 。
现产品开发小组研究了一种新型弦线,他们认为其抗拉强度得到了提高,但要寻找证据予以支持。
在对研究小组开发的产品进行检验时,应该采取以下哪种形式的假设?为什么?(1){ H 0:μ≤1035;H 1:μ>1035} (2){ H 0:μ≥1035;H 1:μ<1035} (3){ H 0:μ=1035;H 1:μ≠1035} 答案:选择1,见书中529页8.1答案 习题9. 一条产品生产线用于生产玻璃纸,正常状态下要求玻璃纸的横向延伸率为65。
质量控制监督人员需要定期进行抽检,如果证实玻璃纸的横向延伸率不符合规格,该生产线就必须立即停产调整。
监控人员应该怎样提出原假设和备择假设,来达到判断该生产线是否运转正常的目的? 答案: 0H:μ=65,1H:μ≠65 见书中529页8.3答案习题10. 某种纤维原有的平均强度不超过6克,现希望通过改进工艺提高其平均强度。
研究人员测得了100个关于新纤维的强度数据,发现其均值为6.35克。
假定纤维强度的标准差仍保持为1.19克不变,在5%的显著性水平下对该问题进行假设检验。
(1) 选择检验统计量并说明其抽样分布是什么 (2) 检验的拒绝规则是什么(3) 计算检验统计量的值,你的结论是什么 答案:μ=6, n=100, x =6.35,σ=1.19, ɑ=0.05H:μ≤6,1H:μ>6nx z σμ0-=>0.05Z (0.05Z =1.64)2、如果Z>0.05Z 则拒绝0H3、因Z=2.94>1.64,所以拒绝原假设 见书中529页8.5答案课堂练习题:1. 到商场购物停车变得越来越困难,管理人员希望掌握顾客找到停车位的平均时间。
为此某个管理人员跟踪了50名顾客并记录下他们找到车位的时间。
这里管理人员感兴趣的是_____ A.管理人员跟踪过的50名顾客 B.上午在商场停车的顾客 C.在商场停车的所有顾客 D.到商场购物的所有顾客 这里的数据是____ A.观测数据 B.实验数据 C.时间序列数据 D.截面数据2. 某小规模会计师事务所共有30家客户。
为了要想办法增加客户满意度,现决定从中随机找5家客户进行访谈。
请问如何选择这5家客户?3. 为了调查我校学生购书费用的支出,现按照如下方式进行抽样调查: A. 从男生中抽取60名学生调查,从女生中抽取40名学生调查; B. 从全校抽取4个班级的学生进行调查;C. 将全校学生的名单按拼音顺序排列后,每隔50名学生抽取一名学生进行调查. 请指出具体的抽样方法4. 一家公司的人力资源部主管需要研究公司雇员的饮食习惯,改善公司餐厅的现状。
他将问卷发给就餐者,填写后再收上来。
他的收集数据的方法属于——为了解居民对小区物业服务的意见和看法,管理人员随机抽取了50户居民,上门通过问卷进行调查。
这种数据收集方法属于——A. 自填式问卷调查B. 面访式问卷调查C. 实验调查D. 观察式调查5. 某钢铁公司所属企业职工人数如下表所示:工厂男职工女职工合计炼铁厂 4 400 1 800 6 200炼钢厂 3 200 1 600 4 800轧钢厂900 600 1 500合计8 500 4 000 12 500设事件A=“抽中的职工为男性”,事件B=“抽中的职工为炼钢厂职工”。
分别求事件A和B 的概率。
6. 假定某公司职员每周的加班津贴服从均值为50元、标准差为10元的正态分布,那么全公司中有多少比例的职员每周的加班津贴会超过70元,又有多少比例的职员每周的加班津贴在40元到60元之间呢?7. Norris 电子公司生产一种用于各类电子产品的高强度灯泡。
为了试图增加灯泡的使用寿命,产品设计小组已开发了一种新型灯泡丝。
现生产和测试了100个新灯丝灯泡,收集了新(1) 试对用新灯丝生产的所有灯泡的使用寿命进行推断。
(2) 若假定灯泡的使用寿命大于65小时的产品为合格品,试对合格品所占比率进行估计。
(3) 若假定原来灯泡的使用寿命为70小时,试问新灯丝灯泡的质量是否好于原来的灯泡?8. 一家食品生产企业以生产袋装食品为主,为对产量质量进行监测,企业质检部门经常要进行抽检,以分析每袋重量是否符合要求。
现从某天生产的一批食品中随机抽取了25袋,测得每袋重量如下所示:112.5;101.0;103.0;102.0;100.5;102.6;107.5;95.0;108.8;115.6;100.0;123.5;102.0;101.6;102.2;116.6;95.4;97.8;108.6;105.0;136.8;102.8;101.5;98.4;93.3已知产品重量的分布服从正态分布,且总体标准差为10g。
试估计该批产品平均重量的置信区间,置信水平为95%。
9. 一家保险公司收集到由36投保个人组成的随机样本,得到每个投保人的年龄(周岁)数据如下表。
试建立投保人年龄90%的置信区间.23 35 39 27 36 44 39 49 4836 42 46 43 31 33 34 39 5042 53 45 54 47 24 38 34 3234 28 39 36 44 40 45 48 45。