第28卷第3期20199河南教育学院学报!自然科学版)Journal of Henan Institute of Education(Natural Science Edition)Vol.28No.3Sep.2019dot:10.3969/j.issn.1007-0834.2019.03.011统计学中几个典型案例分析刘倩(西安电子科技大学数学与统计学院,陕西西安710071)摘要:在统计概率课程的教学中,转变教师的教育观念、更新教学内容已经成为当前提高课程教学质量的关键.在教学中教师应该注重理论知识与实际结合,通过引入大量的生动案例,培养学生统计思维的能力,并创造实践环境、夯实学生的基础知识,激发学生的学习兴趣•关键词:统计思—;案例教学;统计建模中图分类号:G642.0;0212,1文献标志码:A文章编号:1007-0834(2019)03-0049-050引言统计是研究如何有效地收集、整理和分析带有随机性的数据以及由数据分析结果做出决策,为人们制定决策提供依据.日常生活中随处可见随机现象,概率就是研究随机现象统计规律的学科,它为人们认识客观世界提供了重要的思维模式和解决问题的方法,同时也为统计学的发展提供了坚实的理论基础.正如英国著名社会改革家、统计学家乔治威尔斯所说:“统计思维总有一天会像读和写一样成为一个有效率公民的必备能力.”然而,统计与概率知识被学生难以驾驭,这主要是由以下3个方面造成的.1)传统的统计与概率教学体系是把统计与概率作为应用数学的一个分支,注重讲授统计、概率的基本原理及计算方法,忽视学生对方法产生背景和思想的理解,因此,传统的课堂教学模式人为地割裂了数学理论、教学方法与现实世界的联系,最终使得学生不能灵活运用所学知识分析解决具体问题.2)由于统计与概率的内容从小学到初、高中均有涉及,学生从经历简单的数据统计过程,即从学习收集、整理和描述数据的方法到逐渐体会到抽样的必要性,从能够根据数据分析的结果做出简单的判断与预测到掌握用样本估计总体的思想,并进一步学习描述数据的方法和体会概率的意义.学生在教师引导下,已经逐步从“经历”过渡到“从事”某些简单统计活动.然而,已有的一些先入为主的概念和方法使得学生误以为大学阶段的统计知识不过如此,思想上不重视.但事实上,大学阶段除了要求学生掌握统计推断的一般理论和方法,厘清统计学中主要概念和方法产生的直观背景和实际意义,引导学生用数学的语言描述和研究随机现象外,更注重培养学生对数据的理解和分析能力,使其具备一定的综合应用所学知识分析和解决一些实际问题的能力,并为后续课程奠定基础.3)教学过程中多以概率论为教学重点,而真正在实际中有重要应用价值的数理统计部分往往被轻视,使得学生在学完整门课程后仅仅记住了几个抽象的分布和定理,把统计学片面地理解为简单的加减乘除计算公式,甚至连最基本的数据处理分析方法和软件都不会应用.随着西方统计学教学方法的逐步渗透,我国现代统计学教学体系也在不断进行改革,在教学中也越来越注重统计思想的传授、统计方法的实际应用.“如何将统计思想更好地传授给学生”已成为统计学教学面临的一个难题.我们必须遵从人类思维模式的发展规律,将形象思维与逻辑思维相结合,在情感、态度与价值观层面上,注重贴近生活,注重解决实际问题.笔者认为统计教学必须通过案例进行,通过案例建立学生的统计直觉,体会统计思维与确定性思维的差异,并建议通过计算机模拟帮助学生理解统计思想和原理,从而增强学生用统计思想和方法提出问题、分析问题和解决问题的能力,而不应把统计问题简单处理成数字运算.此收稿日期#2019-04-03基金项目:西安电子科技大学高等教育教学改革研究项目“大学助推中学教改、吸引高考优质生源的途径探索”作者简介:刘倩(1979―),女,陕西西安人,西安电子科技大学数学与统计学院副教授,博士,主要研究方向:数理统计.50河南教育学院学报!自然科学版)2019外,应结合工科学生的专业要求,对课程内容的讲授有取有舍,教学内容要吐故纳新、与时俱进.应尽量给学生提供参与实践活动的机会,可以结合数学建模或者统计建模大赛.在有限的课时内,既要完成教学内容,又要增加实践环节,这些都是课堂教学过程中亟待解决的矛盾.本文主要通过回顾统计学中几个经典教学案例,探讨如何通过实际问题情境,在课堂教学中逐步培养学生的统计思维的能力.1经典案例分析1.1敏感性问题研究一全概率公式的应用敏感性问题(sensitive question)是指所调查的内容涉及商业机密或者个人隐私而不愿或不便于公开表态或陈述的问题.例如学生在考试中的作弊现象、青少年的婚前性行为、社会上的赌博吸毒以及企业偷税漏税等都属于这一类问题.对于敏感性调查,如果直接提问,被调查者往往会拒绝回答或不提供真实情况,从而大大增加调查中的非抽样误差.通常对此类调查采用经过特别设计的调查方法,即随机化回答(randomized response)技术,目的是消除被调查者的顾虑,使他们能够如实回答问题.而在调查中,所使用的理论基础正是公式.当需要从已知的简单事件的概率推算出未知的复杂的事件的概率时,经常把一个复杂事件分解为若干个互不相容的简单事件之和,再通过分别计算这些简单事件的概率,最后利用概率的可加性得到最终结果•这里,全概率公式起到了“化整为零、各个击破”的作用.下面是一个具体的例子.例#在调查服用过兴奋剂的运动员在全体运动员中所占的比例P时,如果采用直接的问卷方式,被调查者通常不会真实回答.为得到实际的P同时又不侵犯个人隐私,调查人员请被调查者在一个装有黑、白两种小球的箱子中任意摸出一球,观察颜色后放回(不说出).假设该箱子中有"个白球,G个黑球,然后请他对问卷中如下2个问题选择回答“是”或者“否”:问题1当你摸到白球时,请回答:你的手机号码末尾数字是奇数吗?问题2当你摸到黑球时,请回答:你服用过兴奋剂吗?因为回答只是在“是”或者“否”中选一个,所以没有人知道被调查者回答的是哪个问题,更不知道他是否服用过兴奋剂.假设运动员随机选定数字,并且能按要求回答问题,当回答“是”的概率为P1时,求P&解对任意一个运动员,用B表示他回答“是”,用彳表示他摸到白球,则!(L)=£,!(-L)=斗,!(-L)=p,"+b2用公式得P1=!(-)=!(L)!(-L)+!(L)!(-L)=七•斗+丄于"+b2a+b假定调查%个人,得到?个“是”的回答,那么用频率丄作为概率P1的近似.当%足够大时,相信能得到%较可靠的服用兴奋剂的比例p.在本案例中,调查人员可以通过增加箱子黑球的个数,收集更多的有效信息.全概率公式与敏感性问题的有机结合可以极大地调动学生的学习热情,并使学生掌握全概率公式的应用方法.1.2眼见为实一极大似然估计细心的读者可能会发现这样一个矛盾,在概率部分的讨论中,以产品抽样检验为例,都会事先假定产品中的次品数为已知,然后根据它计算种种概率;而在实际问题中,情况恰恰相反,次品数是未知的,并且正是我们希望通过抽样检查确定的.这一点也正是概率论与数理统计的主要区别.这个矛盾可以通过下面的办法解决.不难理解,抽出来的样本质量情况在某种程度上放映了整批产品的质量情况,例如,如果整批产品中次品很多,则抽查的样本中含有次品的可能性就相当大;反之,若产品中极少次品,则从中抽查一两件产品而得到次品的可能性就很小,因而样本中所含次品数的多少就为估计整批产中的次数供某于这个课的研究,数理统计的要容但是由于抽样带有随机性,因而不同的抽样可能得到不同的结果,所以有必要对各种结果出现的可能性大小进行讨论,这为根据样本情况推断整批产品情况提供了理论依据,而这种研究正是概率论的任务.由此第3期刘倩:统计学中几个典型案例分析51可见,概率论与数理统计有着密切的联系&例2已知甲、乙两名射手命中靶心的概率分别为0.9及0.4.今有一张靶纸,上面的弹着点表明为10枪6中,已知这张靶纸肯定是甲、乙之一射手所射,问是谁所射?解从直观上看,甲射手的枪法上乘,射击成绩不至于这么差;而乙射手的枪法似乎又不足以打出这么好的成绩,但是二者取一,还是更像乙所射.下面分别计算可能性.建立一个统计模型:设甲、乙射中与否分别服从参数为P1=0.95=0.4的两点分布,今有样本<,<2,…,<,其中有6个观察值为1,4个为0,由此估计总体的参数p是0.9还是0.4.这里因为参数空间只有两个点:,=10.9,0.40,不妨计算一下参数是哪个的可能性大.若是甲所射,即参数P=0.9,则“10枪6中”这一事件发生的概率为1010D(P1)=P1)<(1-P1)10J2?=0,96x0.14.0.00005;类似地,若是乙所射,即参数P=0.4,则该事件发生的概率为1010D(P2)=P”2?'"1-p2)10J)<s=0.46x0.64.0.0005.尽管是乙所射的可能性也不大,但毕竟比是甲射的概率大了10倍,因此在参数空间只有两点的情况下,概率D(P)的最大值在P=0.4处发生,因此有理由认为是乙所射,即用0.4作为参数p的估计,p =P2=0.4.这个例子是学习极大似然估计的一个经典案例.虽然比值法[1]是学生的常用方法,但它仅适用于待估参数是离散的情形,连续情形时,就有必要引入极大似然估计的概念了.总之,极大似然估计的出发点是基于这样一个统计原理:在一次试验中,某一事件已经发生,比如已经得到某个具体的样本<,<,…,<,则必然认为发生该事件的概率最大.极大似然估计'2]最早是由德国数学家高斯在1821年提出,后来在1912年由现代数理统计的奠基人之一的英国统计学家FISHER重新提出,并且证明了这个方法的一些性质.极大似然估计这个名称也是由FISHER给出的,从字面上理解就是通过对样本的考察,认为待估参数最像是取什么值即作为对参数的估计.这种实际问题和历史事实相结合的教学方式,可以在很大程度上激发学生的学习兴趣.1.3感冒特效新药的疗效一非参数假设检验假设检验是统计中的一个重要概念.在课堂教学过程中,教师首先通过一些具体例子告诉同学建立原假设与备择假设的原则,其次让学生熟悉掌握假设检验的基本思想一实际推断原理,即小概率事件在一次试验中实际上几乎不会发生.作假设检验一定是对原假设有所怀疑,希望予以否定.假设检验的基本思路正是小概率意义下的反证法:在假设原假设成立的条件下,如果小概率事件发生了,那么根据实际推断原理,就有充分的理由拒绝原假设,从而接受备择假设.参数假设检验除了可以利用小概率原理进行推断之外,往往还可以利用区间估计的方法解决,学生易于理解.那么相比于参数检验,非参数检验问题实际上很难用参数估计的方法解&给一个中的体&例3某研究所推出一种感冒特效新药,为证明其疗效,选择200名患者为志愿者,将他们均分为两组,分别不服药或服药,观察3d后痊愈的情况,得到表1数据.问新药是否确有明显疗效?表1200名患者数据/人Tab.1Data of200patients/person分组痊愈者未痊愈者合计未服药者4852100服药者5644100合计10496200从数据来看,新药似乎有一定疗效,但效果不明显,服药者在这次试验中的情况比未服药者好,完全可能是由随机因素造成的.对于新药上市关系到千万人的健康,一定要采取慎重的态度.这就需要用一种统计方法检验药效,假设检验就是在这种场合下的常用手段.具体来说,先不轻易地相信新药的作用,因此提出假设“新药无效”.除非抽样结果显著地说明这假设不合理,否则将不能认为新药有明显的疗效.这种提出假设然后作出否定或者不否定的判断通常称为显著性检验.很明显,该案例属于非参数检验问题,即总体分布类型未知.非参数检验正是不依赖总体分布的具体形52河南教育学院学报!自然科学版)2019式的统计方法•在该案例中,首先引导学生将新药是否有明显疗效的问题转换为病人痊愈与服药是否相互独立的问题,从而选择合适的方法.非参数检验最主要的方法就是皮尔逊卡方拟合优度检验,该检验法使用范围广,不管总体是一维的还是多维的,是离散型的还是连续型的;总体分布中的参数可以是已知的,也可以是未知的;甚至不仅可以用于全样本,也可以用于截尾样本,还可以用于成群数据.更重要的是,皮尔逊卡方拟合优度检验的一个重要应用就是本例所需的独立性的检验.解样本中每个研究对象考察两个随机变量:x表示是否痊愈,y表示是否服药.<取两个值:痊愈,未痊愈.y同样取两个值:未服药,服药.要研究这两个随机变量是否独立,这是一个二元列联表的独立性检验问题.据此检验H0:<与y相互独立.根据题意,令%=200,%11=48,%12=52,%21=56,%22=44,%1.=100,%2.= 100,%.1=104,%.2=96,构建皮尔逊卡方检验统计量并带入以上各值得到%.1%.2%1-%2-给定显著性水平$=0.25,查表得处_$(1)=x2.75(1)=1-323>1.282,所以接受H。