当前位置:文档之家› 六西格玛系列之统计学-第3章概率

六西格玛系列之统计学-第3章概率

第三章 概率3.1概率在统计学中(统计推断中)的作用基于样本数据作出的推断是不确定的,一个样本很少能完美精确的叙述它所来自的总体,总是存在一定范围内的误差,因此关于估计(推断)不确定程度的度量(推断的可靠性)在统计学中十分重要。

我们用概率来度量估计(推断)的不确定程度(推断的可靠性)3.2事件、样本空间和概率试验是获得一个观测值或进行一次测量的过程简单事件是一个试验的基本结果,它不能分解为更简单的结果维恩(Venn)图样本空间(S)用一个封闭的图形表示,包含一个称作样本点的点集,每个点代表一个简单事件,样本空间(S)中的样本点的个数等于与试验相关的简单事件个数维恩图为解决概率问题提供了一个简单直接的方法,画图通常可以使问题一目了然简单事件的概率是进行试验时度量简单事件将会发生的可能性的一个数。

当试验重复的次数S SS非常多时,概率可以用观测到的简单事件的次数的比例来近似,大数定律表述了当试验被不断地重复进行时,一个结果发生次数的相对频率趋近于这个结果的真实(理论)概率。

有些试验不可能重复,因此不可能通过反复的试验来估算概率(如投资一个项目时,投资成功的概率),可以通过确定类似投资成功的比例来估算概率从生产线抽取一个产品(试验),它的样本空间S{产品有缺陷,产品无缺陷},已知生产线受控时,10%的产品是有缺陷的,求产品无缺陷的概率1.不能将等概率指派给简单事件,即产品无缺陷的概率不是50%2.生产线可能是失控的,因此不能将生产线受控时的缺陷率10%当作产品无缺陷的概率3.可以通过收集一段时间内缺陷产品和无缺陷产品的个数来近似的估计两个简单事件的概率对于一个简单事件E,E的概率记为P(E)1.0P(E i)1(所有简单事件的概率必须在0和1之间)样本空间中所有简单事件的概率之和等于1)事件是简单事件的一个指定集合(投掷骰子的试验中,观测到的点数为奇数)事件A的概率等于事件A所包含的简单事件概率之和[P(1)+ P(3)+ P(5)]计算任意事件概率的步骤a定义试验,即描述获得观测值(测量值)的过程及记录的观测值(测量值)类型b定义并列举简单事件c指派简单事件的概率d确定事件所包含简单事件的集合e求事件所包含简单事件的概率之和3.3复合事件复合事件是两个或更多事件的组合事件A和事件B的并(A或B)是在一次单独的试验中,事件A与事件B所包含的简单事件之和事件A和事件B的交 (A和B)是在一次单独的试验中,事件A与事件B同时包含的简单事件考虑有等可能简单事件S{1,2,3,4,5,6}的投掷骰子试验事件A{投掷出一个偶数点}={2,4,6}事件B{投掷出一个小于等于3的数}={1,2,3}事件C{投掷出一个大于1的数}={2,3,4,5,6}求多个事件并和交的概率时,先求两个事件并和交的概率,再将结果和下一个事件求并和交的概率3.4补事件事件A的补事件(A c)是所有不在事件A中的简单事件组成的事件,P(A)+P(A c)=1,在很多概率问题中,计算事件的补事件的概率要比计算事件本身的概率更容易3.5条件概率投掷一颗均匀的骰子时,观测到偶数(事件A)的概率是1/2,假如已经知道某次投掷骰子的结果是小于等于3的一个数(事件B),事件A发生的概率就应该为1/3,因为事件B发生后样本空间从6个简单事件缩减到了3个在给定事件B发生的前提条件下,事件A发生的条件概率抽取生产线10000Pcs零件,分别用工厂标准和客户标准对零件进行检验,事件I表示零件用工厂标准检验合格(检验合格后才能出货给客户),事件B表示零件用客户标准检验合格(符合客户要求),求工厂检试验分别用工厂标准和客户标准对零件进行检验包含4个简单事件如下表P(I)工厂标准检验合格的概率=P(I和B)+P(I和B c)=0.80+0.02=0.82P(B)客户标准检验合格的概率=P(I和B)+P(I c和B)=0.80+0.15=0.95P(I)比P(B)小说明工厂的检验标准比客户检验标准严格3.6并和交的概率法则1.A和事件B是互斥事件2.如果事件B(A)的发生不改变事件A(B)事件A和事件B为独立事件,不独立的事件称作相关事件3.独立事件和互斥事件3.1互斥事件可以由维恩图证明或说明,独立事件不可以,一般检查独立性的最好办法是确3.2互斥事件是相关事件。

因为我们假定事件B已经发生,那么事件A就不可能发生(除非其中有一个事件的概率为0,否则结果总成立)3.33.43.7贝叶斯法则利用概率进行推断的早期尝试是统计方法论的一个分支,称作贝叶斯统计方法,17世纪中叶英国伟大的哲学家托马斯·贝叶斯所用的逻辑是将未知的条件概率转换为已知的条件概率无人监控系统检测到闯入者的概率(设计概率)为0.90,但是天气(晴天/阴天/雨天)会影响无人监控系统检测到闯入者的概率,已知系统实际检测到闯入者时,天气有75%是晴天,20%是阴天,5%是雨天。

系统不能检测到闯入者时,天气有60%是晴天,30%是阴天,10%是雨天。

利用这些信息求已知天气为雨天时系统检测到闯入者的概率事件D为系统检测到闯入者,D c系统不能检测到闯入者已知P(D)=0.90,P(D c)=1.00-0.90=0.10;P(晴天|D)=0.75,P(阴天|D)=0.20,P(雨天|D)=0.05;P(晴天|D c)=0.60,P(阴天|D c)=0.30,P(雨天|D c)=0.10,求P(D|雨天)根据条件概率的计算公式,为了求P(D|雨天)需要知道和P(雨天)= P(雨天|D)*P(D)=0.05*0.90=0.045= P(雨天|D c)* P(D C)=0.10*0.10=0.01=0.045+0.01=0.055(和是两个互斥且完备的事件),P(D|雨天)=0.045/0.055=0.818贝叶斯法则给定k个互斥且完备的自然状态(事件)A1,A2,…,A k和一个观测(测量)到的事件E上面的例子中P(D)=A1,P(D c)=A2是互斥且完备的自然状态(事件),{雨天}为一个观测(测量)到的事件EP(D|雨天)=P(D)P(雨天|D)/[ P(D)P(雨天|D)+ P(D c) P(雨天|D c)]=0.90*0.05/[0.90*0.05+0.10*0.10]=0.818P(D|晴天)=P(D)P(晴天|D)/[ P(D)P(晴天|D)+ P(D c) P(晴天|D c)]=0.90*0.75/[0.90*0.75+0.10*0.60]=0.918P(D|阴天)=P(D)P(阴天|D)/[ P(D)P(阴天|D)+ P(D c) P(阴天|D c)]=0.90*0.20/[0.90*0.20+0.10*0.30]=0.8573.8计数法则1.乘法法则从k个大小为n1,n2,…,n k的每个集合中抽取一个元素,不同结果的个数S=n1*n2*…*n k一个产品可以通过3条不同航线运输,每个航线有4个不同路径,k=2,n1为3条不同航线,n2为每条航线的4个不同路径,则不同结果的个数S=3*4=12,决策树表示法从装配线选择10个产品检查,每个产品分为有缺陷和无缺陷,求简单事件的个数k=10,每个集合包括2个元素,S=210=10242.排列法则从N个元素的集合中抽取n个元素并将n个元素按不同次序排列,不同结果的个数SN!(N的阶乘)=N(N-1)(N-2)…(2)(1),0!=120个候选人竞争3个不同的机械工程师岗位E1,E2,E3(需要考虑次序)乘法法则解法,k=3,{担任岗位E1的候选人n1=20},{担任岗位E2的候选人(E1有人以后)n2=19},{担任岗位E3的候选人(E1和E2有人以后)n3=18},S=20*19*18=6840排列法则解法,N=20,n=3,S=20*(20-1)(20-3+1)=6840从一个起点依次通过5个城市中的每一个N=5,n=5,S=5!/0!=1203.分割法则将N个元素的集合分割成分别包括n1,n2,…,n k(n1+n2+…+n k=N)个元素的k组,不同结果的个数假设有12个程序员,3个安排编写程序A,4个编写程序B,5个编写程序C,有多少种安排的方法k=3,N=12,n1=3,n2=4,n3=5,4.组合法则从N个元素中抽取n个元素,不考虑n个元素的次序,不同结果个数S=组合法则是分割法则k=2时的特殊情况3.9概率和统计清晰的建立概率和统计之间的连接非常重要。

贝叶斯法则论证了概率可以用于统计推断,传统的统计推断以稍微不同的方式利用概率某公司为了证明生产的新型化学柱头螺栓比传统机械柱头螺栓有更强的保持能力和更大的负载能力(张力负荷强度)。

从一天生产的化学柱头螺栓中随机选择3个测量张力负荷强度,这3个螺栓的张力负荷强度均大于12000,已知传统机械柱头螺栓有16%的张力负荷强度大于12000定义事件A1{化学柱头螺栓1张力负荷强度大于12000},A2{化学柱头螺栓2张力负荷强度大于12000},A3{化学柱头螺栓3张力负荷强度大于12000}3个化学柱头螺栓的张力负荷强度都大于120001) P(A2) P(A3)(3个螺栓是从大量产品中随机选取的,即第一个螺栓的张力负荷强度大于12000不影响第二个螺栓的张力负荷强度大于12000)。

假定新型化学柱头螺栓不比传统机械柱头螺栓强或弱(化学柱头螺栓张力负荷强度的相对频率分布与传统机械柱头螺栓基本一致),即P(A i)=0.161) P(A2) P(A3)=0.16*0.16*0.16=0.04096(在统计学上这是不太可能发生的)而从一天生产的化学柱头螺栓中随机选择3个测量张力负荷强度,这3个螺栓的张力负荷强度均大于12000,说明新型化学柱头螺栓比传统机械柱头螺栓有更强的保持能力和更大的负载能力(张力负荷强度)这是稀有事件对统计推断的一个应用,从中可以看出概率的基本原则起着重要的作用3.10随机抽样在统计推断中,如何从总体中选取样本至关重要,因为样本的概率将用于推断总体的特征。

随机选择和随机化的概念是进行统计推断的的关键之一简单随机样本指所有可能的样本有相等的选中概率,从有N个元素的总体中抽取有n个元素的样本,每个样本被选中的概率相等,被选中的概率均为从10个(总体)零件中随机抽取5个(样本)测量尺寸Minitab计算随机数据来自列的样本概率抽样按照随机原则进行抽样,不加主观因素,组成总体的每个元素都有被抽中的概率(非零概率),可以避免样本出现偏差,样本对总体有很强的代表性1.简单随机样本(SPS抽样)2.系统样本(SYS抽样)3.分层随机样本(STR抽样)4.整群样本非概率抽样按主观意向进行抽样(非随机的),组成总体的很大部分元素没有被抽中的机会(零概率),使推断很容易出现倾向性偏差有放回抽样属于概率抽样,无放回抽样属于非概率抽样,实际抽样通常为无放回抽样,当回抽样与有放回抽样每个样本被选中的概率基本上是相等的。

相关主题