【知识点:统计】一.简单随机抽样1.总体和样本总体:在统计学中 , 把研究对象的全体叫做总体.个体:把每个研究对象叫做个体.总体容量:把总体中个体的总数叫做总体容量.为了研究总体的有关性质,一般从总体中随机抽取一部分:,,,研究,我们称它为样本...其中个体的个数称为样本容量....。
2.简单随机抽样,也叫纯随机抽样。
就是从总体中不加任何分组、划类、排队等,完全随机地抽取调查单位。
特点是:每个样本单位被抽中的可能性相同(概率相等),样本的每个单位完全独立,彼此间无一定的关联性和排斥性。
简单随机抽样是其它各种抽样形式的基础。
通常只是在总体单位之间差异程度较小和数目较少时,才采用这种方法。
3.简单随机抽样常用的方法:(1)抽签法;⑵随机数表法;⑶计算机模拟法;⑷使用统计软件直接抽取。
在简单随机抽样的样本容量设计中,主要考虑:①总体变异情况;②允许误差围;③概率保证程度。
4.抽签法:(1)给调查对象群体中的每一个对象编号;(2)准备抽签的工具,实施抽签(3)对样本中的每一个个体进行测量或调查例:请调查你所在的学校的学生做喜欢的体育活动情况。
5.随机数表法:例:利用随机数表在所在的班级中抽取10位同学参加某项活动。
二.系统抽样1.系统抽样(等距抽样或机械抽样):把总体的单位进行排序,再计算出抽样距离,然后按照这一固定的抽样距离抽取样本。
第一个样本采用简单随机抽样的办法抽取。
d(抽样距离)=N(总体规模)/n(样本规模)三.分层抽样1.分层抽样(类型抽样):先将总体中的所有单位按照某种特征或标志(性别、年龄等)划分成若干类型或层次,然后再在各个类型或层次中采用简单随机抽样或系用抽样的办法抽取一个子样本,最后,将这些子样本合起来构成总体的样本。
2.分层抽样是把异质性较强的总体分成一个个同质性较强的子总体,再抽取不同的子总体中的样本分别代表该子总体,所有的样本进而代表总体。
3.分层的比例问题:(1)按比例分层抽样:根据各种类型或层次中的单位数目占总体单位数目的比重来抽取子样本的方法。
四.样本频率分布图1.作图步骤:(1)求极差(一组数据中最大值和最小值得差)(2)决定组距和组数; (3)将数据分组;(4)计算各小组的频率,列频率分布表;(5)画频率分布直方图2.特点:(1)以面积的形式反映数据落在各小组的频率大小;.13)2(总和等于)各小长方形的面积的(频率组距频率组距小长方形的面积=⨯=五.茎叶图适用围:在样本数据较少时,用茎叶图表示数据的效果较好,它不但可以保留所有信息,而且可以随时记录。
当样本数据较多时,茎叶图就不太方便了。
六.用样本的数字特征估计总体的数字特征 1、本均值:nx x x x n+++=212、.样本标准差:nx x x x x x s s n 222212)()()(-++-+-==3.用样本估计总体时,如果抽样的方法比较合理,那么样本可以反映总体的信息,但从样本得到的信息会有偏差。
在随机抽样中,这种偏差是不可避免的。
虽然我们用样本数据得到的分布、均值和标准差并不是总体的真正的分布、均值和标准差,而只是一个估计,但这种估计是合理的,特别是当样本量很大时,它们确实反映了总体的信息。
4.(1)如果把一组数据中的每一个数据都加上或减去同一个共同的常数,标准差不变 (2)如果把一组数据中的每一个数据乘以一个共同的常数k ,标准差变为原来的k 倍 五.两个变量的线性相关1、概念: (1)回归直线方程 a x b y+=ˆ (2)回归系数 ∑∑∑∑====--=---=n i i ni ii ni i ni i ixn x yx n yx x x y y x xb 1221121)())((x b y a-=2.最小二乘法 3.直线回归方程的应用(1)描述两变量之间的依存关系;利用直线回归方程即可定量描述两个变量间依存的数量关系(2)利用回归方程进行预测;把预报因子(即自变量x )代入回归方程对预报量(即因变量Y )进行估计,即可得到个体Y 值的容许区间。
(3)利用回归方程进行统计控制规定Y 值的变化,通过控制x 的围来实现统计控制的目标。
(4)回归直线一定经过样本的中心点(x ,y ),据此性质可以解决有关的计算问题. 【例题讲解】1. 某同学使用计算器求30个数据的平均数时,错将其中一个数据105输入为15,那么由此求出的平均数与实际平均数的差是( ) A 3.5 B 3- C 3 D 5.0-2. 设有一个直线回归方程为2 1.5y x =-,则变量x 增加一个单位时( )A y 平均增加1.5个单位B y 平均增加2个单位C y 平均减少1.5个单位D y 平均减少2个单位3. 从N 个编号中抽取n 个入样,若采用系统抽样方法进行抽取, 则分段间隔应为( )An N B n C ⎥⎦⎤⎢⎣⎡n N D 1+⎥⎦⎤⎢⎣⎡n N4.从某厂生产的802辆轿车中抽取80辆测试某项性能.请合理选择抽样方法进行抽样,并写出抽样过程.5. 为了了解参加运动会的2000名运动员的年龄情况,从中抽取100名运动员;就这个问题,下列说法中正确的有 ;① 2000名运动员是总体;②每个运动员是个体;③所抽取的100名运动员是一个样本; ④样本容量为100;⑤这个抽样方法可采用按年龄进行分层抽样;⑥每个运动员被抽到的概率相等6. 数据70,71,72,73的标准差是______________7. 数据123,,,...,n a a a a 的方差为2σ,平均数为μ,则(1)数据123,,,...,,(0)n ka b ka b ka b ka b kb ++++≠的标准差为 ,平均数为(2)数据123(),(),(),...,(),(0)n k a b k a b k a b k a b kb ++++≠的标准差为 ,平均数为8. 用样本频率分布估计总体频率分布的过程中,下列说确的是( )A 总体容量越大,估计越精确B 总体容量越小,估计越精确C 样本容量越大,估计越精确D 样本容量越小,估计越精确9画出茎叶图并分析两个班学生的数学学习情况【课堂练习】1. 相关关系与函数关系的区别是2. 从10个篮球中任取一个,检验其质量,则应采用的抽样方法为_______________3. 下列说法错误的是 ( )A 在统计里,把所需考察对象的全体叫作总体B 一组数据的平均数一定大于这组数据中的每个数据C 平均数、众数与中位数从不同的角度描述了一组数据的集中趋势D 一组数据的方差越大,说明这组数据的波动越大4. 要了解全市高一学生身高在某一围的学生所占比例的大小,需知道相应样本的( )A 平均数B 方差C 众数D 频率分布5. 要从已编号(160)的60枚最新研制的某型导弹中随机抽取6枚来进行发射试验,用每部分选取的间隔一样的系统抽样方法确定所选取的6枚导弹的编号可能是( )A 5,10,15,20,25,30B 3,13,23,33,43,53C 1,2,3,4,5,6D 2,4,8,16,32,486. 数据123,,,...,n a a a a 的方差为2σ,则数据1232,2,2,...,2n a a a a 的方差为( )A22σB 2σC 22σD 24σ7. 已知样本9,10,11,,x y 的平均数是10,则xy8. 有50件产品编号从1到50,现在从中抽取5件检验,用系统抽样确定所抽取的编号为( )A 5,10,15,20,25B 5,15,20,35,40C 5,11,17,23,29D 10,20,30,40,509.(2013·武夷模拟)用系统抽样法要从160名学生中抽取容量为20的样本,将160名学生随机地从1~160编号,按编号顺序平均分成20组(1~8号,9~16号,…,153~160号),若第16组抽出的为126,则第1组中用抽签的方法确定的是________. 10.(2012·)样本(x 1,x 2,…,x n )的平均数为x ,样本(y 1,y 2,…,y m )的平均数为y (x ≠y ).若样本(x 1,x 2,…,x n ,y 1,y 2,…,y m )的平均数z =αx +(1-α)y ,其中0<α<12,则n ,m 的大小关系为( ).A .n <mB .n >mC .n =mD .不能确定11.已知施化肥量x 与水稻产量y 的试验数据如下表,则变量x 与变量y 是________相关(填“正”或“负”).12.(2013·调研)已知x,y取值如下表:x 014568y 1.3 1.8 5.6 6.17.49.3从所得的散点图分析可知:y与x线性相关,且y^=0.95x+a,则a=( ).A.1.30 B.1.45 C.1.65 D.1.8013.某班同学利用国庆节进行社会实践,对[25,55]岁的人群随机抽取n人进行了一次生活习惯是否符合低碳观念的调查,若生活习惯符合低碳观念,称为“低碳族”,否则称为“非低碳族”,得到如下统计表和各年龄段人数频率分布直方图:(1)补全频率分布直方图; (2)求n,a,p的值.14以下是某地搜集到的新房屋的销售价格y和房屋的面积x的数据:(1)画出数据对应的散点图;(2)求线性回归方程,并在散点图中加上回归直线;(3)据(2)的结果估计当房屋面积为2150m时的销售价格15.(2012·揭阳调研)某校高一某班的某次数学测试成绩(满分为100分)的茎叶图和频率分布直方图都受了不同程度的破坏,但可见部分如图,据此解答下列问题:组数分组低碳族的人数占本组的频率第一组[25,30)1200.6第二组[30,35)195p第三组[35,40)1000.5第四组[40,45) a 0.4第五组[45,50) 300.3第六组[50,55] 150.3(1)求分数在[50,60]的频率及全班人数;(2)求分数在[80,90]之间的频数,并计算频率分布直方图中[80,90]间的矩形的高.16.已知某单位有50名职工,现要从中抽取10名职工,将全体职工随机按1~50编号,并按编号顺序平均分成10组,按各组抽取的编号依次增加5进行系统抽样.(1)若第5组抽出的为22,写出所有被抽出职工的;(2)分别统计这10名职工的体重(单位:公斤),获得体重数据的茎叶图如图所示,求该样本的方差;(3)在(2)的条件下,从这10名职工中随机抽取两名体重不轻于73公斤(≥73公斤)的职工,求体重为76公斤的职工被抽取到的概率.【课后作业】1.一个容量为20的样本,已知某组的频率为0.25,则该组的频数为__________2.用随机数表法从100名学生(男生25人)中抽取20人进行评教,某男生被抽取的机率是___________________3.(2013·质检)市某高中有高一学生600人,高二学生500人,高三学生550人,现对学生关于消防安全知识了解情况进行分层抽样调查,若抽取了一个容量为n的样本,其中高三学生有11人,则n的值等于________4. 一个容量为20的样本数据,分组后组距与频数如下表:组距 [)20,10 [)30,20 [)40,30 [)50,40 [)60,50 [)70,60频数234542则样本在区间(),50-∞ 上的频率为__________________5. 某单位有老年人28人,中年人54人,青年人81人,为调查身体健康状况,需要从中抽取一个容量为36的样本,用分层抽样方法应分别从老年人、中年人、青年人中各抽取 _________人、 人、 人6. 某学校共有教师490人,其中不到40岁的有350人,40岁及以上的有140人 为了了解普通话在该校中的推广普及情况,用分层抽样的方法,从全体教师中抽取一个容量为70人的样本进行普通话水平测试,其中在不到40岁的教师中应抽取的人数为多少人?7. 如图,从参加环保知识竞赛的学生中抽出60名,将其成绩(均为整数)整理后画出的频率分布直方图如下:观察图形,回答下列问题:(1)79.589.5这一组的频数、频率分别是多少?(2)估计这次环保知识竞赛的及格率(60分及以上为及格)统计答案【例题答案】 例1. B 少输入9090,3,30=平均数少3,求出的平均数减去实际的平均数等于3- 例2. 0.7140.720= 例3. C 剔除零头 4.[审题视点] 因为802不能整除80,为了保证“等距”分段,应先剔除2个个体. 解 由于总体及样本中的个体数较多,且无明显差异,因此采用系统抽样的方法,步骤如下:第一步:先从802辆轿车中剔除2辆轿车(剔除方法可用随机数法);第二步:将余下的800辆轿车编号为1,2,…,800,并均匀分成80段,每段含k =80080=10个个体;第三步:从第1段即1,2,…,10这10个编号中,用简单随机抽样的方法抽取一个编号(如5)作为起始编号;第四步:从5开始,再将编号为15,25,…,795的个体抽出,得到一个容量为80的样本.解决系统抽样问题的两个关键步骤为:(1)分段的方法应依据抽取的样本容量而定,即根据定义每段抽取一个样本.(2)起始编号的确定应用简单随机抽样的方法,一旦起始编号确定,其他编号便随之确定 5.④,⑤,⑥ 2000名运动员的年龄情况是总体;每个运动员的年龄是个体; 57071727371.5,4X +++== 222215[(7071.5)(7171.5)(7271.5)(7371.5)]4s =-+-+-+-= 7 (1)kσ,k b μ+(2)k σ,k kb μ+(1)1212......n nka b ka b ka b a a a X k b k b n nμ+++++++++==⋅+=+22212222121[()()...()]1[()()...()]n n s ka b k b ka b k b ka b k b na a a k nμμμμμμσ=+--++--+++--=-+-++-=(2)1212()()...()...n nk a b k a b k a b a a a X k nb k nb n nμ+++++++++==⋅+=+22212222121[()()...()]1[()()...()]n n s ka kb k kb ka kb k kb ka kb k kb nka a a k nμμμμμμσ=+--++--+++--=-+-++-=8. C 9. 解:甲班 乙班2 56 6 2 8 6 6 4 27 4 6 82 8 2 4 5 6 8 6 9 2乙班级总体成绩优于甲班 【课堂练习】1.函数关系是两个变量之间有完全确定的关系,而相关关系是两个变量之间并没有严格的确定关系,当一个变量变化时,另一变量的取值有一定的随机性2. 简单随机抽样3. B 平均数不大于最大值,不小于最小值4 D5 B60106=,间隔应为10 6. D 22222111111(),(22)4()4,n nn i i i i i i X X X X X X n n n σσ====--=⋅-=∑∑∑7.96 9101150,20x y x y ++++=+=,2211(10)(10)10x y ++-+-=,22220()192,()220()192,96x y x y x y xy x y xy +-+=-+--+=-=-8.D 间隔为10 9. 6 解析 设第1组抽取的为b ,则第n 组抽取的为8(n -1)+b ,∴8×(16-1)+b =126,∴b =6,故第1组抽取的为6.10.解析 依题意得x 1+x 2+…+x n =n x ,y 1+y 2+…+y m =m y ,x 1+x 2+…+x n +y 1+y 2+…+y m =(m +n )z =(m +n )αx +(m +n )(1-α)y ,∴n x +m y =(m +n )αx +(m +n )(1-α)y ,∴⎩⎪⎨⎪⎧n =m +n α,m =m +n1-α,于是有n -m =(m +n )[α-(1-α)]=(m +n )(2α-1),∵0<α<12,∴2α-1<0,∴n -m <0,即m >n . 答案 A11 .正12.解析 依题意得,x =16×(0+1+4+5+6+8)=4,y =16×(1.3+1.8+5.6+6.1+7.4+9.3)=5.25.又直线y ^=0.95x +a 必过样本中心点(x ,y ),即点(4,5.25),于是有5.25=0.95×4+a ,由此解得a =1.45,选B.13.[审题视点] (1)要补全频率分布直方图,关键是计算出第二组的频率;(2)灵活运用关系式:频率组距×组距=频率,频数样本容量=频率求解. 解 (1)第二组的频率为1-(0.04+0.04+0.03+0.02+0.01)×5=0.3,所以小长方形的高为0.35=0.06.频率分布直方图如图所示.(2)第一组的人数为1200.6=200,频率为0.04×5=0.2, 所以n =2000.2=1 000. 由(1)知,第二组的频率为0.3,所以第二组的人数为1 000×0.3=300,所以p =195300=0.65.第四组的频率为0.03×5=0.15,所以第四组的人数为1 000×0.15=150,所以a =150×0.4=60.(1)绘制频率分布直方图时需注意:①制作好频率分布表后可以利用各组的频率之和是否为1来检验该表是否正确;②频率分布直方图的纵坐标是频率组距,而不是频率. (2)由频率分布直方图进行相关计算时,需掌握下列关系式:频率组距×组距=频率. 14. 解:(1)数据对应的散点图如图所示:(2)1095151==∑=i i x x ,1570)(251=-=∑=x x l i i xx , 308))((,2.2351=--==∑=y y x x l y i i i xy设所求回归直线方程为a bx y +=,则1962.01570308≈==xx xyl l b 8166.115703081092.23≈⨯-=-=x b y a ,故所求回归直线方程为8166.11962.0+=x y(3)据(2),当2150x m =时,销售价格的估计值为: 2466.318166.11501962.0=+⨯=y (万元)15.解 (1)分数在[50,60]的频率为0.008×10=0.08.由茎叶图知,分数在[50,60]之间的频数为2,所以全班人数为20.08=25. (2)分数在[80,90]之间的频数为25-2-7-10-2=4,频率分布直方图中[80,90]间的矩形的高为425÷10=0.016. 16.解 (1)由题意,第5组抽出的为22.因为k +5×(5-1)=22,所以第1组抽出的应该为2,抽出的10名职工的分别为2,7,12,17,22,27,32,37,42,47.(2)因为10名职工的平均体重为 x =110(81+70+73+76+78+79+62+65+67+59)=71,所以样本方差为:s 2=110(102+12+22+52+72+82+92+62+42+122)=52. (3)从10名职工中随机抽取两名体重不轻于73公斤的职工,共有10种不同的取法:(73,76),(73,78),(73,79),(73,81),(76,78),(76,79),(76,81),(78,79),(78,81),(79,81).记“体重为76公斤的职工被抽取”为事件A ,它包括的事件有(73,76),(76,78),(76,79),(76,81)共4个. 故所求概率为P (A )=410=25. 【课后作业】1. 5 =频数频率样本容量 2 15 每个个体被抽取的机率都是2011005= 3.解析 由n 600+500+550=11550,得n =33(人). 4. 0.7 140.720= 5 61218,, 总人数为36363628548116328654128118163163163++=⨯≈⨯≈⨯≈,,,,6. 解:而抽取的比例为701,4907=,在不到40岁的教师中应抽取的人数为 1350507⨯= 7.解:(1)频率为:0.025100.25⨯=,频数:600.2515⨯=(2)0.015100.025100.03100.005100.75⨯+⨯+⨯+⨯=。