当前位置:文档之家› 人教A版高中数学选修2-3统计案例知识点归纳

人教A版高中数学选修2-3统计案例知识点归纳

统计案例1. 随机变量 在一次实验中随着实验结果改变而改变的变量。

举例:扔硬币的实验结果用1表示正面向上,用0表示背面向上,则实验得到1还是0是随着扔硬币的结果决定的,这就是一个随机变量。

2. 离散型随机变量 结果是可一一列出的(不论数量有限还是无限,教材中只有限)的随机变量称为离散型随机变量。

比如一个人的寿命是有无限种可能值的,所以寿命不是离散型随机变量,但是如果定义随机变量“寿命大于等于50岁时Y=1,寿命不足50岁时Y=0”,则Y 是一个离散型随机变量。

3. 离散型随机变量的概率分布列 列举出{X=x i }所有取值及取值时对应概率P(X=x i )=p i 的表称为离散型随机变量的概率分布列(i=1、2、3、4、5……)。

举例:著名古典概型掷骰子,定义随机变量X 为掷骰子的点数,根据古典概型,所有结果的概率都是11333,则3≤X ≤6,P(3≤X ≤6)=p 3+p 4+p 5+p 6=2/3。

有时为了简单起见,也可只用P(X=x i )=p i 来表示X 的分布列。

离散型随机变量的概率分布列具有如下两个性质:1.任一分布列的所有的p i 大于等于0。

即任何分布列里的任一概率大于等于0。

2.同一分布列的所有p i 总和为1。

即概率和为1。

4. 两点分布 离散型随机变量中X 只有两种取值(也就是只有两种结果)的情况,通常是0和1,例5. 超几何分布 这种概率分布列的文字表述通常是如下类型的字眼:在含有M 个有特性(比如残次品)的总共N 个个体中不放回地(不放回这个特征要跟二项分布区分)抽取n 个个体,其中恰有X 个有特性的物品,则通过组合方式(抽取结果跟顺序无关所以用组合C 不用排列A )计算可以得到{X=k}的概率为)。

(m k C C C k x P nN kn MN k M ,3,2,1,0)(⋯===-- 其中kM C 代表在M 个有特性个体中抽到k 件的办法数 k n M N C --代表在N -M 个没有特性的个体中抽到n -k 件的办法数 n N C 代表在N 个个体中抽n 件的办法数∈N +) 来自课本的典型案例:某工厂生产100件产品中有5件残次品,现不放回的抽取3件,求取到次品数X 的分布列和至少取到1件次品的概率。

按照描述,)(3,2,1,0)(3100351005===--k C C C k x P k k , 其中k C 5代表在5个残次品中抽到k 件的办法数k C --35100代表在100-5个正常产品中抽到3-k 件的办法数5100C 代表在100件全体产品中任抽5件的办法数6. 条件概率 对于任何两个事件A 和B ,在已知事件A 发生的条件下,事件B 发生的概率叫做条件概率,用符号P(B|A)表示。

P(A)P(AB)A)|P(B =。

举例:小明跟小黄不约而同出去玩的概率是0.4,小明出去玩的概率是0.5,求小黄出去玩的概率。

设事件A “小明出去玩”,事件B “小黄出去玩”,事件AB “两人不约而同出去玩”,P(B|A)代表“小明出去玩的前提下小黄出去玩”则P(AB)=0.4 P(A)=0.5 则P(B|A)=0.8。

条件概率的性质:1.条件概率也是概率,所以0≤P(B|A)≤1。

2.如果B 和C 是互斥事件,则P(B ∪C|A)=P(B|A)+P(C|A)举例:记事件A “扔骰子点数不少于3”事件B “扔骰子点数是5”,事件C “扔骰子点数是6”,B 和C 是互斥事件,B ∪C 是“扔骰子点数是5或6”,很容易知道P(B|A)=P(C|A)=1/4。

则P(B ∪C|A)=P(B|A)+P(C|A) =1/2。

7. 事件的相互独立性 对于任何两个事件A 和B ,若A 与B 的发生互不影响,则称A 、B 为相互独立事件。

相互独立事件有两大性质:1.若A 与B 相互独立,则P(B|A)=P(B),P(AB)=P(A)P(B)=P(B|A)P(A),反之若P(AB)=P(A)P(B),可判断A 与B 相互独立。

2.若A 与B 相互独立,则B A B A B A 与,与,与都是相互独立事件。

举例:上文中的小黄出去玩和小明出门玩是相互独立事件,不受对方影响。

所以事实上“小明出去玩的前提下小黄出去玩”和“小黄出去玩”的概率是相同的,即P(B|A)=P(B)。

同样“小黄出去玩”和“小明不出去玩”是相互独立事件。

8. 独立重复实验:在相同条件下重复做的n 次试验称为独立重复实验。

由于每次实验跟另外的实验都是相互独立事件,所有实验的P(A)不受其它实验结果的影响,所以P(A 1A 2A 3A 4……A n )=P(A 1)P(A 2)P(A 3)P(A 4)……P(A n ),其中A i 指第i 次实验的结果(i=1,2,3,4……)。

9. 二项分布 这种概率分布列的文字表述通常是如下类型的字眼:n 次独立重复试验(通常是只有两种结果或只考虑两种结果的试验,参考随机变量的两点分布)中,用X 表示事件A 发生的次数,设每次试验中事件A 发生的概率为p ,则不发生的概率为1-p ,则事件A 发生k 次的概率分布列为),2,1,0(,)1()(n k p p C k X P k n kk n ⋯⋯=-==-,这时称随机变量X 服从二项分布,记作),(~p n B X ,并称p 为成功概率。

举例:投硬币10次,现令正面向上概率为0.7,则恰好正面向上7次的概率可表示为7107710)7.01(7.0)7(--==C X P 即71077103.0*7.0*)7(-==C X P10. 离散型随机变量的均值和方差关于离散型随机变量的均值,可参考初中学过的加权平均数,其本质就是加权平均。

有E(X)=x 1p 1+x 2p 2+x 3p 3+x 4p 4+……+x n P n ,此时称E(X)为随机变量的均值或数学期望。

假定b aX Y +=(其中a,b为常数),则Y也是随机变量,且此时有),(n i x X P b ax Y P i i ,3,2,1)()(⋯⋯===+=通过计算可得E(Y)=aE(X)+b两个特殊情况:1.若X 服从两点分布,则E(X)=p 2.若),(~p n B X 即X 服从二项分布,则E(X)=np),3,2,1(,))(()(12n i p X E x X D i ni i ⋯⋯=-=∑=,即将所有x i 和E(X)相减的差进行平方,再分别乘以对应的p i ,最后将所有的乘积相加即得该分布列的方差。

其算术平方根称为标准差。

同以前学过的统计学一样,随机变量的方差和标准差代表了随机变量与其数学期望偏离的大小程度。

特殊情况:1.若X 服从两点分布,则D(X)=p(1-p)2.若),(~p n B X 即X 服从二项分布,则D(X)=np(1-p)11. 正态分布正态分布曲线起源于一般的频率直方图,例如对抛硬币进行独立重复实验,理论上进行越来越多的次数后,画出的频率直方图会越来越近一条钟型曲线。

这条曲线的方程式是或近似是222)(21)(σμσπ--=x e x f ,其中x 是任意实数,μ和σ是实数且σ>0。

此时,随机变量X 落在(a,b]区间的概率有如下式子:dx x b X a P ba)(Φ)(σ,μ⎰=≤<因此可以得到:如果对于任何实数a,b(a<b),随机变量X 满足dx x b X a P ba)(Φ)(σ,μ⎰=≤<,则称X 的分布为正态分布,记作。

其中dx x b X a P ba)(Φ)(σ,μ⎰=≤<代表在正态曲线中作x=a 与x=b 与曲线围成的图形的面积。

由于整个曲线与x 轴围成的图形面积为1,因此作x=a 与x=b 与曲线围成的图形的面积实际就是b X a ≤<的概率。

如左图即为σμσμ+-和范围内围成的图形的面积,即是X 落在这个范围内的概率大小正态分布曲线有以下特点:1.曲线位于x 轴上方且与x 轴永不相交。

2.曲线是单峰的,它关于直线μ=x 对称,在此处有最大值πσ213.曲线与x 轴之间的面积为14.σ决定曲线形状,σ越大曲线越“矮胖”,反之越“高瘦”;μ决定曲线对称轴,因此决定了曲线的位置。

正态分布有三个以下常用的面积大小(概率)数据6827.0)(≈+≤<-σμσμX P9545.0)22(≈+≤<-σμσμX P 9973.0)33(≈+≤<-σμσμX P实战中如出现求)2(σμσμ+≤<-X P 这样不对称的,可以先根据三个常用数据和关于直线μ=x 对称性先求出)2(σμμ+≤<X P 和)(μσμ≤<-X P 这两个概率再相加。

12. 回归分析()()()e a x b yxb y a x x xyx x b ni iini i++=-=---=∑∑==ˆˆ211回归直线方程的参数和形式如上。

相比必修部分,回归方程加入了随机误差e 这个因素,这个因素指每个样本点和回归方程的偏离程度,因此每个点的e 是不同的。

对于e 有如下性质:任意样本和对应的回归直线中2)(0)(σ==e D e E 。

D(e)越小,回归直线“预报”真实值的精度越高(课本原话)或者认为样本点离回归直线越近。

实际应用中,对于每一个实际的i y 和用回归直线得到的i y ˆ,有如下公式 )ˆ(ˆˆa x b y y y ei i i i +-=-= 此处e ˆ称为相应于点),(i i y x 的残差 回归直线方程必过(x ,y ),此点称为样本点的中心。

回归方程的其它应用可参考必修部分变量的相关关系内容。

当出现指数模型时,可先对纵坐标取对数化为一次函数模型,求出线性回归方程后再取指数转回指数模型。

13. 统计案例的独立性检验通常用来研究两个分类变量有无关联。

例如课本上的吸烟与患肺癌两个变量。

将分类变量放在同一张通常的列联表是这样的,设置两个分类变量X 和Y ,对应取值{x 1和x 2}和{y 1和y 2}随机变量K ,))()()(())((22d b c a d c b a bc ad d c b a K ++++-+++=,2K 越大则说明两个分类变量越可能有关系。

判定标准如下。

841.32≤K 两个分类变量无关841.32>K 两个分类变量X 和Y 有95%的把握说有关联,即犯错概率5%以下 635.62>K 两个分类变量X 和Y 有99%的把握说有关联,即犯错概率1%以下 828.102>K 两个分类变量X 和Y 有99.9%的把握说有关联举例:如上课本肺癌列联表828.10632.562>≈K ,两个分类变量患癌和吸烟有99.9%的把握说有关联。

相关主题