第二章统计一、统计学的基本数学思想统计的基本数学思想:用样本估计总体,即通常不直接去研究总体,而是通过从总体中抽取一个样本,通过研究样本的情况来估计总体的相应情况. 所以样本的数据选取至关重要!所以样本必须具有代表性、广泛性和随机性.二、抽样方法目的:获取有代表性的样本为了使所抽的样本具有代表性,有以下抽样方法:(1)简单随机抽样n≤,定义:设一个总体含有N个个体,从中逐个不放回地抽取n个个体作为样本()N 如果每次抽取时总体内的各个个体被抽到的机会都相等,称这种抽样方法为简单随机抽样特点:①被抽取样本的总体中个体有限②逐个不放回抽样③每次抽取时,总体中各个个体被抽到的可能性相同分类:①抽签法定义:把总体中的N个个体编号,把号码写在号签上,将号签放在一个容器中,搅拌均匀后每次从中抽取一个号签,连续抽取n次,就得到一个容量为n的样本②随机数法定义:利用随机数表、随机数骰子或计算机产生的随机数进行抽样优点:操作简单易行缺点:只能在个体不多的情况下进行.如果总体中的个体数很多,抽签法编号的工作量大;使用随机数表也不方便快捷;“搅拌均匀”也非常困难.最终使样本失去代表性(2)系统抽样步骤:①采用随机的方式将总体中的个体编号.为简便起见,有时可直接利用个体所带有的号码,如考生的准考证号、街道上各户的门牌号,等等②确定分段的间隔k ,对编号进行分段.当n N (n 是样本容量)是整数时,取 n N k =;若nN (n 是样本容量)不是整数,可以先从总体中剔除几个个体, 使得总体中剩余的个体数能被样本容量整除③在第1段用简单随机抽样确定起始的个体编号()k l l ≤④按照事先确定的规则抽取样本(通常是将l 加上间隔k ,得到第2个编号 ()k l +,再将(()k l +加上k ,得到第3个编事情k l 2+,这样继续下去,直到 获取整个样本)思考:为什么n N k =?k l ≤? (3)分层抽样定义:一般地,在抽样时,将总体分成互不交叉的层,然后按一定比例,从各层独立 地抽取一定数量的个体,将各层抽取的个体合在一起作为样本,这种抽样方法 是一种分层抽样步骤:①分层②按比例确定每层抽取个体的个数③各层(方法可以不同)④合成样本例子:调查某高一学生的平均身高、某高中生的视力三、样本估计总体(单一数据)目的:对样本进行处理样本处理的两种方式:(1)图表 (2)样本的数字特征考题三种:(1)图表 (2)样本的数字特征 (3)图表⇒样本的数字特征(1)图表类型:频率分布表、频率分布直方图、频率分布折线图、总体密度曲线、茎叶图 步骤:1.求极差2.决定组距和组数:分组合适即可. 一般样本容量越大,分组越多.组距极差组数=例:样本容量不超过100时,按照数据的多少,常分为5-12 组3.将数据分组4.列频率分布表5.频率分布直方图由频率分布表来画频率分布直方图注意:<1>纵坐标表示的是组距频率<2>由<1>可知小长方形的面积=组距=⨯组距频率频率 <3>在频率分布直方图中,各小长方形的面积的总和等于16.频率分布折线图将频率分布直方图中各小长方形上端中点连接,就得到频率分布折线图7.总体密度曲线当总体中的个体较多时,抽取样本的的容量就增加,若作图时组数增加, 组距减少,相应的频率分布折线图越接近一条光滑曲线,即是总体密度曲线. 总体密度曲线是一个函数图像,所以,统计学和函数也有一定的关系8.特例:茎叶图优点:<1>能反映原始数据<2>展示数据的分布情况:众数、中位数、平均数(2) 样本数字特征(众数、中位数、平均数、标准差、方差)设样本数据为x x x x n ,......,,21 则标准差公式:()()()[]22221.......1x x x x x x n s n -++-+-=方差()()()[]222212......1x x x x x x n s n -++-+-= 思维:有标准差的公式我们可知:标准差反映数据的分散程度(解释:有标准差可知0≥s ,故当s 取最小值0时,数据不分散,即:n x x x x ====........321)(3)由图表求样本的数字特征①由频数分布直方图求样本的数字特征众数:最高矩形的中点中位数:中位数左右直方图的面积相等平均数:频数分布直方图每个小矩形的面积乘以小矩形底边中点的横坐标之和(此 处与后面的期望一致,两者有一定的关系,稍后在学)标准差、方差:略,此处不研究! 故现阶段求方差、标准差只能利用原始数据 ②由总体密度曲线求样本的数字特征:略,此处不研究思路:由频数分布直方图还原原始数据后再求标准差、方差四、样本预测未来(变量之间的关系)变量之间的关系核心思路:通过研究两变量之间的关系来预测未来(1)图表散点图:既然是研究变量之间的关系,图像是最好的选择!所以说建立直角坐标系, 将相应的对应关系描在坐标系中,即可得到散点图(类似函数描点)回归直线:如果散点图中点的分布从整体上看大致在一条直线附近,则就说这两条 直线具有线性关系,这条直线叫做回归直线变量间的线性关系:正相关、负相关回归直线的方程求法:设为b kx y += ()()()⎪⎪⎪⎩⎪⎪⎪⎨⎧-=--=---=∑∑∑∑====x k y b x n x y x n y x x x y y x x k n i i n i i i n i i n i i i 1221121 回归直线的特点是:必过()y x ,,这是考查点!预测未来:将0x x =代入回归直线的方程b kx y +=即可求出0y 第三章 概率一、基本概念(1)必然事件:在条件S 下,一定会发生的事件,叫相对于条件S 的必然事件(2)不可能事件:在条件S 下,一定不会发生的事件,叫相对于条件S 的不可能事件(3)确定事件:必然事件和不可能事件统称为相对于条件S 的确定事件(4)随机事件:在条件S 下可能发生也可能不发生的事件,叫相对于条件S 的随机事件(5)频数与频率:在相同的条件S 下重复n 次试验,观察某一事件A 是否出现,称n 次试 验中事件A 出现的次数A n 为事件A 出现的频数;称事件A 出现的比例()nn A f A n =为 事件A 出现的频率:对于给定的随机事件A ,如果随着试验次数的增加,事件A 发生 的频率()A f n 稳定在某个常数上,把这个常数记作P (A ),称为事件A 的概率(6)频率与概率的区别与联系:随机事件的频率,指此事件发生的次数A n 与试验总次数n 的比值nn A ,它具有一定的稳定性,总在某个常数附近摆动,且随着试验次数的不断 增多,这种摆动幅度越来越小。
我们把这个常数叫做随机事件的概率,概率从数量上 反映了随机事件发生的可能性的大小.频率在大量重复试验的前提下可以近似地作为 这个事件的概率.(求概率的两种方法!高考选择题的命题点!)二、概率的基本性质基本概念:(1)事件的包含、并事件、交事件、相等事件(2)若A ∩B 为不可能事件,即A ∩B=ф,那么称事件A 与事件B 互斥;(3)若A ∩B 为不可能事件,A ∪B 为必然事件,那么称事件A 与事件B 互 为对立事件(4)当事件A 与B 互斥时,满足加法公式:P(A ∪B)=P(A)+P(B);若事件 A 与B 为对立事件,则A ∪B 为必然事件,所以P(A ∪B)=P(A)+P(B)=1, 于是有P(A)=1—P(B)基本性质:(1)必然事件概率为1,不可能事件概率为0,因此0≤P(A)≤1(2)当事件A 与B 互斥时,满足加法公式:P(A ∪B)= P(A)+ P(B(3) 事件A 与B 为对立事件,则A ∪B 为必然事件,所以P(A ∪B)=P(A)+P(B) =1,于是有P(A)=1—P(B)(4)互斥事件与对立事件的区别与联系,互斥事件是指事件A 与事件B 在 一次试验中不会同时发生,其具体包括三种不同的情形:(1)事件A 发生且事件B 不发生;(2)事件A 不发生且事件B 发生;(3)事件 A 与事件B 同时不发生,而对立事件是指事件A 与事件B 有且仅有一 个发生,其包括两种情形;(1)事件A 发生B 不发生;(2)事件B 发生事件A 不发生三、古典概型(1)古典概型的使用条件:试验结果的有限性和所有结果的等可能性(2)古典概型的解题步骤①求出总的基本事件数②求出事件A 所包含的基本事件数,然后利用公式()总的基本事件个数包含的基本事件数A A P =四、几何概型(1)几何概率模型:如果每个事件发生的概率只与构成该事件区域的长度(面积或体积) 成比例,则称这样的概率模型为几何概率模型(2)几何概型的概率公式()积)的区域长度(面积或体试验的全部结果所构成积)的区域长度(面积或体构成事件A A P = (3)几何概型的特点:①试验中所有可能出现的结果(基本事件)有无限多个②每个基本事件出现的可能性相等课本例题解析:例1、(课本探究,119P )再投筛子试验中,可以定义许多事件,例如:目的:理解事件之间的关系,并能进行概率运算{}点出现11=C ;{}点出现22=C ;{}点出现33=C ;{}点出现44=C{}点出现55=C ;{}点出现66=C{}11出现点数不大于=D {}32出现点数大于=D ;{}53出现点数小于=D ; {}7出现点数小于=E ;{}6出现点数大于=F{}出现点数为偶数=G ;{}出现点数为奇数=H 解析:事件的包含:H C ⊆1、31D D ⊆、E D ⊆3等等相等事件:11D C =并事件:当1C ∩2C =Φ,且当2D 发生,则事件1C 或2C 发生,即是:12C D =∪2C (21C C +)交事件:3D ∩E =4C 、2D ∩E =4C +5C +6C互斥事件:21C C 与、21D D 与等等. 则()()()2121C P C P C C P +=对立事件:H G 与,对立事件必定是互斥事件!满足概率的加法公式!例2、(课本古典概率模型的概念,124P )目的:理解古典概率?(1)试验中所有可能出现的基本事件只有有限个(2)每个基本事件出现的可能性相等我们将具有这两个特点的概率模型称为古典概率模型解析:(1)假设试验中所有可能出现的基本事件有无限个,则是几何概率模型(2)例:扔一枚硬币,出现正面朝上的概率?若扔一枚图钉,顶尖朝上的概率 呢?扔一枚硬币,会出现两种情况:一正、一负,故总的基本事件个数为2. 其中正面朝上的基本事件个数为1,且两种情况出现的可能性相等,所以21==负正P P 若扔一枚图钉,会出现两种情况:顶尖朝上、顶尖朝下,故总的基本事件个数为 2. 其中顶尖朝上的基本事件个数为1,但两种情况出现的可能性不相等,所以21≠≠负正P P 例、3 (课本几何概率模型概念,136P )目的:研究古典概率与几何概率之间的内在联系解析:(1)几何概率模型出现的基本事件是无限多个,这是和古典概率模型的地方(2)既然几何概率是无限多种情况,我们方法是:建立直角坐标系,将所有情 况以坐标点的形式描在平面直角坐标系中,由于点动成面,所以这个面的 面积就代表了“总的基本事件个数”,其中满足事件A 的所有坐标点构成 的面的面积代表“事件A 包含的基本事件数”,故:()积)的区域长度(面积或体试验的全部结果所构成积)的区域长度(面积或体构成事件总的基本事件个数包含的基本事件数A A A P == (3)综合上述:古典概率和几何概率是一种思维过程!例4、 (课本例题,139P )如图3.3-3的正方形中内接一个圆,随机往正方形中撒一把豆子,用用随机模拟的方法估计圆周率的值目的:概率的两种求法:(1)统计学 (2)概率学解析:(1)统计学:收集(样本)、处理数据(样本).数据:设随机撒一把豆子N 粒,其中落在圆内的豆子数为n 粒. 类似于 每次扔一个豆子,独立重复N 次,其中有n 次扔在圆内,这是独 立重复事件,得到数据:n 个圆内、()n N -个圆外处理数据:设事件A 为落在圆内,故落在正方形中的豆子数落在圆内的豆子数=A P =Nn 得出结论:在一次试验中,落在圆内的概率为N n (2)概率学:几何概率设圆的半径为r ,事件A 为豆子落在圆内,则一次试验中落在圆内的概率:()()222r r A A P π==积)的区域长度(面积或体试验的全部结果所构成积)的区域长度(面积或体构成事件 (3)统计学与概率学的关系:则可得:落在正方形中的豆子数落在圆中豆子数正方形的面积圆的面积=即:()222r r N n π=. 故Nn 4=π 思考:(2016全国卷3,10)从区间[]1,0内随机抽取n 2个数n x x x x ....,,321, n y y y y ....,,321,构成n 个数对()11,y x 、()22,y x 、()33,y x ....()n n y x ,,其中 两数的平方和小于1的数对共有m 个,则采用随机模拟的方法得到的圆周率π 的近似值为( ) m n A 4.m n B 2. n m C 4. n m D 2.。