数理统计学作业专业:飞行器设计姓名:刘炜华学号: 201303020022013年9月1.数据的采集及说明1.1数据的搜集方法及说明当复合材料结构开始大量应用之后,在实际使用中可以积累大量的故障统计数据,航空公司在对故障数据进行收集和统计之后,可以对故障数据作故障率直方图和故障频率分布图来进行故障频率信息的统计和分析。
表 1是一架飞机在某段时间内故障间隔飞行小时,下面以该数据集为基础简单估计该架飞机在该时间段内的故障率曲线分布。
表1某飞机一段时间内故障间隔飞行小时1.2.数据整理1.表中共有 100 个维修数据,找出其中的最大值为max 652L =小时,最小值为min 1L =小时; 2.计算组数:根据经验公式:1 3.32lg k n =+, 计算得1 3.32lg 1 3.32lg1008k n =+=+≈,所以将数据分为8组; 3.计算组距:max min 6521828L L t k --∆==≈; 4.根据公式计算并将所得的结果列成表2:频率:/j j W f n =表2故障频率分析过程计算结果5.计算得:202.98X =,167.0697S =;根据公式3113()1.1035(1)nii XX V n S=-==-∑6.计算峰度:根据公式4124()3.4853(1)nii XX V n S=-==-∑1.3.直方图与折线图图1-1故障频数直方图图1-2故障频率折线图图1-3故障频率直方图图1-4累计频率折线图从频率直方图即图3中可以看出,靠近左侧的数据出现较多。
通过比较频率曲线和指数分布曲线可以看出,该图显示故障呈现典型的指数分布,所以说明趋势方程是指数函数。
趋势线方程代表故障频数随时间的发展趋势,据此可以预测未来某一时间段内的故障数,来实现故障相关维修成本的估算。
1.4.经验分布函数根据定义得出,总体X 的经验分布函数为:0,1(),1652,1,2,...,991001,652n x k F x x k x <⎧⎪⎪=≤<=⎨⎪≥⎪⎩使用Matlab 软件绘出经验分布函数图像,如图4所示。
图1-5经验分布函数图像通过比较图4和图5可以看出累计频率曲线与经验分布函数曲线基本一致。
说明当样本容量很大时,经验分布函数逼近随机变量X 的分布函数F (x )。
在这个意义上,当分布函数F (x )未知时,经验分布函数F n (x )可以考虑作为F (x )的估计量。
1.5.概率分布种类表2概率分布种类(1)连续均匀分布连续型均匀分布,如果连续型随机变量X具有如下的概率密度函数,则称X 服从[,]a b上的均匀分布(uniform distribution),记作[,]X U a b。
概率密度函数:1()a xb f x b a⎧≤≤⎪=-⎨⎪⎩其它分布函数:0()1x a x a F x a x b b a <⎧⎪-⎪=≤<⎨-⎪⎪⎩x>b期望为:()2a b E X +=,方差为:2()[]12b a Var X -=。
图1-6分布图像(2)伯努利分布伯努利分布:又名两点分布或者0-1分布,是一个离散型概率分布,为纪念瑞士科学家雅各布·伯努利而命名。
若伯努利试验成功,则伯努利随机变量取值为 其概率质量函数为:11,()(1)10,0x xX px f x p p q p x -=⎧⎪=-=≡-=⎨⎪⎩其它期望为:()E X p =,方差为:()(1)Var x p p =- (3)几何分布几何分布(Geometric distribution )指的是以下两种离散型概率分布中的一种: (1)在伯努利试验中,得到一次成功所需要的试验次数 X 。
X 的值域是 { 1, 2, 3, ... };(2)在得到第一次成功之前所经历的失败次数 Y = X − 1。
Y 的值域是 { 0, 1, 2, 3, ... }。
呈几何分布的随机变量X 的期望和方差为:211(),()pE X Var X pp -==呈几何分布的随机变量的期望和方差为:211(),()ppE Y Var Y pp--==图1-7概率质量函数图1-8累计分布函数(4)泊松分布泊松分布:Poisson 分布又称泊松小数法则(Poisson law of small numbers ),是一种统计与概率学里常见到的离散概率分布,由法国数学家西莫恩·德尼·泊松(Sim éon-Denis Poisson )在1838年时发表。
泊松分布的概率质量函数为: ()!k e P X k k λλ-==期望和方差为:(),()E X Var X λλ==图1-9概率质量函数图1-10累积分布函数(麦克斯韦-玻尔兹曼分布是一个概率分布,在物理学和化学中有应用。
最常见的应用是统计力学的领域。
任何(宏观)物理系统的温度都是组成该系统的分子和原子的运动的结果。
这些粒子有一个不同速度的范围,而任何单个粒子的速度都因与其它粒子的碰撞而不断变化。
然而,对于大量粒子来说,处于一个特定的速度范围的粒子所占的比例却几乎不变,如果系统处于或接近处于平衡。
麦克斯韦-玻尔兹曼分布具体说明了这个比例,对于任何速度范围,作为系统的温度的函数。
它以詹姆斯·克拉克·麦克斯韦和路德维希·玻尔兹曼命名。
这个分布可以视为一个三维矢量的大小,它的分量是独立和正态分布的,其期望值为0,标准差为a 。
如果i X 的分布为2(0,)X N a ,那么Z =就呈麦克斯韦-玻尔兹曼分布,其参数为a 。
5. 复合泊松分布: 假设也就是说,N 是一个随机变量,其分布为期望为λ的泊松分布,且为同分布的随机变量,他们相互独立,且与N 也独立。
则在变量个数()给定的条件下,这个独立同分布的随机变量和的概率分布:是一个良定的分布。
N = 0时,Y 也为0,此时Y | N=0有退化的分布。
复合泊松分布可以通过将(Y ,N )的联合分布在N 上边缘化而得到,而联合分布可以通过结合条件分布Y | N 和N 的边缘分布而得到。
6. 狄拉克δ函数(Dirac Delta function ),有时也说单位脉冲函数。
通常用δ表示。
在概念上,它是这么一个“函数”:在除了零以外的点都等于零,而其在整个定义域上的积分等于1。
严格来说狄拉克δ函数不能算是一个函数,因为满足以上条件的函数是不存在的。
但可以用分布的概念来解释,称为狄拉克δ分布,或δ分布,但与费米-狄拉克分布是两回事。
在广义函数论里也可以找到δ函数的解释,此时δ作为一个极简单的广义函数出现。
在实际应用中,δ函数或δ分布总是伴随着积分一起出现。
δ分布在偏微分方程、数学物理方法、傅立叶分析和概率论里都和很多数学技巧有关。
2.总体分布的参数估计从前面的分布图像可以看出,函数分布为指数分布。
概率密度函数为:,0(,)0,0x e x f x x λλλ-⎧≥=⎨<⎩其1()E x λ=。
2.1矩估计由于11ni i X X N ==∑,根据矩法估计定义,直接令()E x X =,即1X λ=。
由于202.98X =所以110.0049202.98X λ==≈2.2最大似然估计λ的似然函数为11()exp()exp()exp()nnnn i i i i L x x nx λλλλλλλ===-=-=-∑∏令()0dL d λλ=,得0n nx λ-=,解得1xλ=, 所以λ的极大似然估计量为10.0049Xλ=≈。
2.3参数区间估计(1)、方差2σ未知,求数学期望μ的置信区间假设复合材料故障时间服从正态分布,若取0.95的置信水平,则估计复合材料平均故障时间过程如下。
设X 表示复合材料故障时间,依照假设知2(,)X N μσ ,则复合材料平均故障时间为()E X μ=,实质上就是估计正态分布参数μ,但方差2σ未知。
于是,参数μ的估计量选用样本均值X ,统计量选用(1)X T t n =- 。
复合材料故障时间应为单侧区间估计,估计的准则为(1))1X P t n αα≥-=-。
使用Matlab 计算所得结果为:以0.95的概率保证复合材料的平均故障寿命不低于175.2399h 。
上面是假设样本服从正态分布,从而计算的置信区间。
但是本次样本不服从所以进行一下计算。
因为2χ分布表只到45所以只选择22个数据进行检验,其均值249x =。
总体X 的概率密度函数为0(,)0xe xf x x λλλ-⎧>=⎨≤⎩令2Y X λ=,根据求随机变量的函数的分布方法,的2Y X λ=服从参数为2的2χ 分布,记为2(2)Y χ ,概率密度函数为2/21/22/21,0(2/2)2(),0y Y y e y f y o y --⎧>⎪Γ=⎨⎪≤⎩而()Y f y 与λ无关。
再根据2χ 分布的可加性,知2221244(44)i i Z X X λλχ===∑给定置信水平为0.95,使220.9750.025((44)44(44))0.95P X χλχ<<=经查表的220.9750.025(44)27.575,(44)64.201χχ==,故221220.9564.20127.575X X P λ⎧⎫<<=⎨⎬⎩⎭由于249x =,得1λ的置信水平为0.95的置信区间为(85.326,198.658)(2)、数学期望μ,2σ均未知,求方差2σ的置信区间取样本函数222(1)(1)n S G n χσ-=-由此得221/2/22(1)(1)(1)1n P n n ααχχασ--⎧⎫-≤≤-=-⎨⎬⎩⎭因此2σ的置信区间为22221/2/211,(1)(1)n n S S n n ααχχ-⎡⎤--⎢⎥--⎣⎦,使用Matlab 软件进行计算,结果σ的置信区间为:(150.3794,190.1789)。
3 参数的假设检验3.1样本统计数据的t 检验如果要求复合材料故障时间不低于202.98小时,可否认为样本材料都合格。
假设样本服从正态分布。
因为T 分布表只到n=45,所以随机选择采集到的样本中的46个数。
计算均值为4611195.468946i i x x ===∑。
原假设和备择假设01:300:300H vsH μμ≥<选取检验统计量,当原假设为真时,检验统计量为(1)X t t n =-给定显著性水平0.05α=,使0.95((45))0.05P t t ≤=查t 分布表得临界值为0.95(45) 1.6794t =-,则拒绝域为(, 1.6794]-∞-。
计算结果为:0.3049t ==-由于0.3049 1.6794t =->-,因此接受原假设,可以认为复合材料故障时间不低于202.98小时。