统计典型例题2.1.1简单随机抽样例题:某学校有学生1200人,为了调查教师授课情况,打算抽取一个容量为50的样本,问此样本若采用简单随机抽样将如何获取?点拨:简单随机抽样有两种:抽签法和随机数法。
尽管此题的总体中的个体数不算少,但依题意其操作却是等可能的。
解析:(方法一)首先,把学生编号0001,0002,…..1200.如果抽签法,则做1200个形状、大小相同的号签,然后将这些号签放在同一个箱子里,进行搅拌均匀。
抽签时,每次从中抽出1个号签,连续抽取50次,就得到一个容量为50的样本。
(方法二)首先把学生编号0001,0002,…..1200.如果用随机数法,使用各个5位数的前四位,任意取,如9038,1212,6404,5940,1321…所取得大于1200的为无效号吗,小于等于1200的为有效号码。
一直取够50人为止。
2.1.2系统抽样例题:某工厂有1003名工人,从中抽取10人参加体检,试用系统抽样进行具体检验。
点拨:由于总体容量不能被样本容量整除,需要先剔除3名工人,使得总体容量能被样本容量整除,取K=1000/10=100,然后再利用系统抽样的方法进行。
解析:(1)利用随机数法剔除3名工人(2)将剩余的1000名工人编号0001---1000(3)分段,取间隔K=1000/10=100,将总体均分为10组,每组含100个工人(4)从第一组即编号为0001---0100中随机抽取一个号L(5)按编号将L,100+L,200+L,…900+L共10个号选出。
这10个号所对应的工人组成样本。
能力提升:一般的,从N个编号中抽取 n个号码入样,若采用系统抽样,分段间隔为:A.当N/n为整数时,间隔为K=N/nB.当N/n不是整数时,从N中随机剔除m个个体,使得(N- m)/n 是个整数,间隔为K=(N- m)/nC.综上所述,抽样的间隔为K=[N/n]2.1.3分层抽样例题:一个单位有职工160人,其中有业务员112人,管理人员16人,后勤服务人员32人,为了解职工的工作效率,要从中抽取容量为20的样本,用分层抽样的方法进行抽样,写出过程。
点拨:分层抽样中各层抽取的个体数依据各层个体数之比来分配,确定各层抽取的个体数之后,可采用简单随机抽样或者系统随机抽样在各层中抽取个体。
解析:首先,三部分所含个体数之比为112:16:32=7:1:2,设三部分各抽个体数为7X,X,2X,则由7X+X+2X=20得X=2。
故业务人员、管理人员、后勤服务人员抽取的个数分别为:14,2和4.然后,对三部分人员分别按照系统抽样或者随机抽样的办法选出相应的人,这样就得到了一个容量为20的样本。
拓展提升:解决此类问题的关键在于对概念的正确理解以及在每一次抽样的步骤中所采用的抽样方法,应注意语言叙述的完整性。
2.2.1用样本的频率分布估计总体分布例题1:有一容量为50的样本,数据的分组及各组的频率数如下:[)[)[)[)10154303591520535408,;,;,;,;[)[)[)20251040453253011,;,;,. (1) 列出样本的频率分布表; (2) 画出频率分布直方图.(3) 估计总体数据出现在[10,25)的概率 数据段 [)1015,[)1520, [)2025, [)2530, [)3035, [)3540, [)4045, 总计 频数 4 5 10 11 9 8 3 50 频率 0.080.100.200.220.180.160.061.00(2)频率分布直方图:(3)由频率分布直方表可以看出,数据出现在[10,25)的频率是0.38,所以我们估计总体出现在这段范围的概率为0.38能力提升:总体分布反映了总体在各个范围内取值的概率,利用样本的频率分布,可以近似地估计总体分布,利用样本在某一范围的频率,可以近似地估计总体在这一范围的概率。
对每一组样本取其一代表值,一般去其中值,近似的看成离散型变量,可以近似的估计出其总体的均值。
例题2:. 某赛季甲、乙两个篮球运动员每场比赛的得分情况如下:甲:11,15,24,26,31,31,36,36,37,39,44,49,50乙:7,13,14,16,23,26,27,33,38,39,51(1)请你用茎叶图表示上面的数据;(2)将这两组数据进行比较分析,得到什么结论?解析:(1)用茎叶图表示如下:(2)从茎叶图中可看到甲运动员每场比赛的得分情况大致对称,中位数为36;乙运动员每场比赛的得分情况除一个特殊得分外,也大致对称,中位数为26.因此甲运动员的得分发挥比较稳定,总体得分高于乙运动员.2.2.2用样本的数字特征估计总体数字特征例1:甲、乙两种冬小麦试验品连续5年的平均单位面积产量见表(1) 求两种小麦的平均年产量(2) 试根据这组数据估计哪一种小麦品种产量较稳定答案:(1)10,10(2)20.02s =甲,20.244s =乙22s s <乙甲∴即甲稳定.点拨:方差(标准差)体现了一组数据的波动大小。
方差越大,样本数据的波动就越大,稳定性就越差。
本题中,比较产量的稳定性就是在比较波动的大小。
【举一反三】某化肥厂甲、乙两个车间包装肥料,在自动包装传送带上每隔30分钟抽取一包产品,称其重量,分别记录抽查数据如下: 甲:102,101,99,98,103,98,99; 乙:110,115,90,85,75,115,110. (1) 这种抽样方法是哪一种? (2) 估计甲、乙两个车间产品的平均数与方差,并说明哪个车间产品较稳定? 解:(1)这种抽样方法是系统抽样; (2)甲车间的平均数为11(10210199981039899)1007x =++++++=, 甲车间的方差22222211[(102100)(101100)(99100)(98100)(103100)7s =-+-+-+-+-22(98100)(99100)] 3.43+-+-≈乙车间的平均数为21(110115908575115110)1007x =++++++=, 乙车间的方差为22222221[(110100)(115100)(90100)(85100)(75100)7s =-+-+-+-+-22(115100)(110100)]228.57+-+-≈12x x =∵,2212s s <,所以甲车间产品较稳定.2.3变量间的相关关系例1:下列关系中,带有相关关系的是(BD )A.正方形的变长与面积之间的关系B.水稻产量与施肥之间的关系C.人的身高与年龄之间的关系D.降雪量与交通事故之间的关系解析:两变量之间的相互关系有两种:函数关系和带有随机性的相关关系。
A为函数关系B为不严格的函数关系,因而是相关关系C 人的身高与年龄不是函数关系,也不是相关关系,因为人的年龄到了一定时期身高就不会发生明显变化了,因而它们不具有相关关系。
D降雪量与交通事故的发生之间具有相关关系点拨:变量间存在两种关系:函数关系和相关关系,前者是确定的,后者是不确定的,数学中只有统计部分研究不确定关系。
例2:假设关于某种设备的使用年限x和所支出的维修费用y(万元)有如下统计资料:若y对x呈线性关系,求(1)线性回归方程(2)估计是用年限为10年时维修费用是多少?点拨:知道y 与x 是线性相关关系,无需再进行相关性检验,直接利用公式求回归系数。
否则应先进行检验。
如果两个变量不是相关关系,即使求取回归方程也毫无意义,因为用这个方程估测是不准的。
解析:(1)x =4,y =5,521ii x=∑=90,51i i i x y =∑=112.3于是2112.35451.239054b -⨯⨯==-⨯ a=y bx -=5-1.234⨯=0.08 回归方程为y=1.23x+0.08(2)当x=10年时,代入方程得维修费大约是12.38万元例下表是某小卖部6天卖出热茶的杯数与当天气温的对比表:((2)你能从散点图中发现温度与饮料杯数近似成什么关系吗? (3)如果近似成线性关系的话,请求出回归直线方程来近似地表示这种线性关系.(4)如果某天的气温是-5℃时,预测这天小卖部卖出热茶的杯数.解析:(1)煤气消耗量(百万立方米)y x =6.0573+ 0.0811r =0.99613025201510500123 4 52煤气使用户数(万户)(2)相关关系(3)yˆ=0.08+6.06x ; (4)x 0=4.5+0.5=5,代入得yˆ=30.38, 所以煤气量约达3038万立方米.点拨:在尚未断定两个变量是否具有相关性情况下,应该先进行相关检验,在确认具有相关关系后,再求其回归方程并用方程估计。
选修2-3 3.1回归分析的基本思想及其初步应用例题1:某种书每册的成本费y (元)与印刷册数x (千册)有关,经统计得到数据如下:检验每册书的成本费y 与印刷册数的倒数x之间是否具有线性相关关系,如有,求出y 对x 的回归方程。
解析:首先设变量1u x=,题目所给的数据变成如下表所示的数据由公式得ˆˆ 1.125,8.973ab ==ˆ 1.1258.973yx =+ 最后回代1u x =,可得8.973ˆ 1.125y x=+点拨:进行相关检验,有时也用作散点图,并观察所给的数据列成的点是否在一条直线附近,这样既直观又方便。
但由于存在误差,有时又很难说这些点是否分布在一条直线附近,这时必须用样本相关系数对其进行相关性检验。
例题2:为了研究某种细菌随时间x 变化,繁殖的个数,收集数据如下:(1) 用天数作解释变量,繁殖个数作预报变量,作出这些数据的散点图 (2) 描述解释变量与预报变量之间的关系(3) 计算残差、相关指数R 2.解析:(1)略(2)由散点图看出样本点分布在一条指数函数y=2C x1eC 的周围,于是令Z=lny,则由计数器算得ˆZ=0.69X 1.112+ 则有0.69x 1.112ˆy=e +n2i i=1ˆe∑=n2ii i=1ˆ(y y)-∑=3.1643n2i i i=1ˆ(yy )-∑=n22ii=1y ny -∑=25553.3 R 2=1-3.164325553.3=0.9999即解释变量天数对预报变量繁殖细菌得个数解释了99.99%.点拨:非线性回归问题有时候并不给出经验公式。
这时我们可以画出散点图,把他与学过的各种函数比如幂指对函数图象做比较,挑选一种跟这些散点拟合得最好的函数,然后采用适当的置换,把问题化为线性回归分析问题。
3.2独立性检验的基本思想及其初步应用例题1: 利用独立性检验来考虑两个分类变量X 和Y 是否有关系时,通过查阅上表来确定断“X 和Y 有关系”的可信度。
如果k>5.024,那么就有把握认为“X 和Y 有关系”的百分比为( D ) A.25% B.75% C.2.5% D.97.5%例题2: 在研究色盲与性别的关系调查中,调查了男性480人,其中有38人患色盲,调查的520个女性中6人患色盲, (1)根据以上的数据建立一个2×2的列联表;(2)若认为“性别与患色盲有关系”,则出错的概率会是多少 解析:(1)(2)假设H :“性别与患色盲没有关系” 先算出K 的观测值:21000(385144426)27.1448052044956k ⨯⨯-⨯=⨯⨯⨯= 则有2(10.808)0.001P K ≥= 即是H 成立的概率不超过0.001, 若认为“性别与患色盲有关系”,则出错的概率为0.001。