当前位置:文档之家› 数理统计大作业

数理统计大作业

数理统计学大作业学院航空航天工程学部专业飞行器设计班级航宇二班学号142103130228 姓名张立指导教师姜永负责教师沈阳航空航天大学2014年12月目录 (2)前言 (3)一、采集样本数据整理及SPSS统计软件的实现 (4)1.1、数据的收集方法及说明 (4)1.2、数据整理:给出频数、频率分布表及偏度和峰度 (4)1.3、画出直方图和折线图 (6)1.4、经验分布函数和图形 (6)1.5、各种概率分布 (7)二、给出总体分布的参数估计 (12)2.1、矩估计法 (12)2.2、最大似然估计 (12)2.3、参数区间估计 (13)三、参数的假设检验 (16)3.1. 样本统计数据的t检验 (16)3.2样本统计数据的2χ检验 (17)四、非参数假设检验(2χ拟合优度检验) (18)4.1、2χ拟合优度检验 (18)五、结论 (20)参考文献 (21)数理统计学是研究有效地运用数据收集与数据处理、多种模型与技术分析、社会调查与统计分析等,对科技前沿和国民经济重大问题和复杂问题,以及社会和政府中的大量问题,如何对数据进行推理,以便对问题进行推断或预测,从而对决策和行动提供依据和建议的应用广泛的基础性学科。

随着科学技术的发展,数理统计的作用在国民生活中越来越重要,特别是现在随着大数据的时代来临,迫切的需要我们对大量数据的处理能力,当然这些大量的数据不可能用人工计算,有很多可以实际应用的数理统计软件,这次大作业我使用的是SPSS软件。

由于数理统计是一门实用性极强的学科,在学习中要紧扣它的实际背景,理解统计方法的直观含义。

了解数理统计能解决那些实际问题。

对如何处理抽样数据,并根据处理的结果作出合理的统计推断,该结论的可靠性有多少要有一个总体的思维框架,这样,学起来就不会枯燥而且容易记忆。

例如估计未知分布的数学期望,就要考虑到:1.如何寻求合适的估计量的途径,2.如何比较多个估计量的优劣。

这样,针对1按不同的统计思想可推出矩估计和极大似然估计,而针对2又可分为无偏估计、有效估计、相合估计,因为不同的估计名称有着不同的含义,一个具体估计量可以满足上面的每一个,也可能不满足。

掌握了寻求估计的统计思想,具体寻求估计的步骤往往是“套路子”的,并不困难,然而如果没有从根本上理解,仅死背套路子往往会出现各种错误.一、采集样本数据整理及SPSS 统计软件的实现1.1、数据的收集方法及说明我的这次作业采取的数据是机械加工零件中,车床C6140其中一个传动轴的长度,由于这零件是大批量生产,数据很多,我选取了其中的100个数据进行计算,数据具体如下:84 69 73 77 88 83 65 74 79 67 67 89 74 85 92 80 87 71 80 67 77 76 77 73 53 68 79 81 67 76 59 88 70 80 92 79 75 88 48 72 74 73 83 68 65 78 88 84 58 74 70 78 70 69 80 79 76 75 73 70 65 81 81 80 76 52 66 69 77 76 73 65 75 75 79 89 74 88 81 73 77 82 74 88 84 82 81 88 90 65 84 90 78 89 93 81 85 83 61 701.2、数据整理:给出频数、频率分布表及偏度和峰度 其中,样本传动轴长度数据最小值为48,最大值为93,取a =40,b=100, 全距L =100-40=60,把数据分布的区间(40,100]等分为6个子区间,等组距为 Δt i =(100-40)/6=10,i =1,2,3,4,5,6。

通过计数要求落在子区间的个数,则得样本传动轴长度的频数i n 和频率i f 分布,序号 区间 频数n i 频率f i1 (40,50] 1 0.012 (50,60]3 0.033 (60,70] 24 0.244 (70,80] 43 0.435 (80,90] 23 0.236 (90,100] 6 0.06偏度是对样本观察值分布的偏斜方向和程度的度量,通过样本数据计算的偏度为:3471.2)1()(3131=--=∑=S n X X V ni iV 1 0,分布呈右偏态。

峰度是描述样本观察值分布集中趋势高峰的程度,通过样本数据计算的峰度为:6328.4)1()(4142=--=∑=S n X X V ni iV 2 3,分布为尖峰分布。

1.3、画出直方图和折线图图一、数据段的直方图图二、数据分段的折线图1.4、经验分布函数和图形设X1,X2,...,X n 是来自总体X 的样本,样本的顺序统计量为X(1)≤X(2)≤...≤X(n),当固定的一组顺序统计量的观察值x(1)≤x(2)≤...≤x(n)时,对于任何实数x 称下式:⎪⎪⎩⎪⎪⎨⎧≥-+<≤<+)(1)1(,11,......,2,1,,,0)(n k k n x x n k x x x nk x x x F为总体X 的经验分布函数。

图3经验分布函数图像1.5、各种概率分布概率分布类型主要分为离散型概率分布和连续型概率分布,我查阅了图书馆还有专业参考资料搜集到以下的概率分布,个别分布还画出了密度函数图像,还对各种概率密度的背景做了简单的介绍。

1.指数分布:⎩⎨⎧<>=-0,00,)(x x e x f x λλ 指数函数的一个重要特征是无记忆性(又称遗失记忆性)。

这表示如果一个随机变量呈指数分布,当s,t ≥0时有P(T>s+t|T>t)=P(T>s)。

即,如果T 是某一元件的寿命,已知元件使用了t 小时,它总共使用至少s+t 小时的条件概率,与从开始使用时算起它使用至少s 小时的概率相等。

21)(1)(λλ==X D X E ,2.威布尔分布: ⎪⎩⎪⎨⎧<≥=-0,00,)(),,()(x x e x k k x f k x λλλλ 威布尔分布又称韦伯,是可靠性分析和寿命检验的理论基础。

在可靠性工程中被广泛应用,尤其适用于机电类产品的磨损累计失效的分布形式。

由于它可以利用概率值很容易地推断出它的分布参数,被广泛应用与各种寿命试验的数据处理。

22)21()(),11()(μλλ-+Γ=+Γ=kX D k X E3.正态分布222)(21)(σμπ--=x e x f正态分布是一个在数学、物理及工程等领域都非常重要的概率分布,在统计学的许多方面有着重大的影响力。

若随机变量X 服从一个数学期望为μ、方差为2σ的正态分布,记为N(μ,2σ)。

正态分布的期望值μ决定了其位置,其标准差σ决定了分布的幅度。

因其曲线呈钟形,因此人们又经常称之为钟形曲线。

我们通常所说的标准正态分布是μ = 0,σ = 1的正态分布。

2)()(σμ==X D X E ,4.t 分布R x n x f n n x n n ∈+ΓΓ=+-+,)1()()()(212221π t 分布曲线形态与n (确切地说与自由度v )大小有关。

与标准正态分布曲线相比,自由度v 越小,t 分布曲线愈平坦,曲线中间愈低,曲线双侧尾部翘得愈高;自由度v 愈大,t 分布曲线愈接近正态分布曲线,当自由度v=∞时,t 分布曲线为标准正态分布曲线。

)3()(),1(0)(2≥=>=-n X D n X E n n5.柯西分布R x x x f ∈-+=,)(1)(22μλλπ柯西分布是一个数学期望不存在的连续型分布函数,它同样具有自己的分布密度6.均匀分布这表明X 落在[a,b]的子区间内的概率只与子区间长度有关,而与子区间位置无关,因此X 落在[a,b]的长度相等的子区间内的可能性是相等的,所谓的均匀指的就是这种等可能性。

12)()(,2)(2a b X D b a X E -=+=7.伽马分布⎪⎩⎪⎨⎧≤>Γ=--0,00,)()(1x x e x x f xβαααβ伽玛分布是统计学的一种连续概率函数。

伽玛分布中的参数α,称为形状参数,β称为尺度参数。

12)()(,2)(2a b X D b a X E -=+=二、给出总体分布的参数估计2.1、矩估计法矩估计法是一种相对简单的估计方法,其理论依据是辛钦大数定律:设随机变量序列X1,X2,…,n X ,…独立同分布,且数学期望E(Xi)=µ存在.则对任意的є>0,有1)1(lim =<-∑∞→εμXi nP n 即当n →∞时,错误!未找到引用源。

Xi n∑1依概率收敛到μ。

因此当样本很大时(因为采集的样本大于等于100,因此可以看作是大样本) 又因为从数据分布图可以看出样本服从正态分布, X 的概率密度函数为:R x e x f u x ∈=--,21),,(222)(2σπσμμ=)(X E ,22)(μσ+=X E ,所以令⎩⎨⎧==2)()(A X E XX E 经过计算可得到X =μ,222X A -=σ 样本均值3.21001,5.8411221====∑∑==n i i n i i X nA X n X 。

所以 a 与 b 的矩估计量 分别为3.2100,5.842==∧∧σμ,。

2.2、最大似然估计因为最大似然估计法有较强的直观性,又能获得参数θ的合理的估计量,特别是在大样本时,最大似然估计有极好的性质。

所以他广泛应用于估计理论中。

最大似然估计的解题原理如下: X 的概率密度函数为:Rx e x f u x ∈=--,21),,(222)(2σπσμ所以μ,2σ的似然函数为:∏=--=ni x e L 12)(22221),(σμπσσμ取对数得:∑=---=ni i x L 12222]2)(ln 2121[ln),(ln σμσπσμ 令 ⎪⎪⎩⎪⎪⎨⎧=∂∂∂=∂∂0),(ln 0),(ln 222σμμσμL L解得:⎪⎩⎪⎨⎧-==∑=212)(1ni i X X n xσμ所以,2σμ,的极大似然估计量为:5.3185.61==∧∧σμ,2.3、参数区间估计假设样本总体服从正态分布进行计算。

(1)方差2σ未知,求数学期望μ的置信区间: 1)由于2σ未知,用样本的标准差21)(11∑=--=ni i X X n S 代替此时nS X μ-不再服从标准正态分布。

而是服从自由度为n-1的t 函数,其分布记为:)1(~--=n t n S X t μ2)查分位数给定置信水平1-α=0.90,使:90.01)1(2=-=⎪⎪⎭⎫⎝⎛-<-αμαn t n S X P 根据自由度n-1和1-α,从t-分布表查出分位数为)1(2-n t α式等价于90.01))1()1((22=-=-+<<--αμααn t n SX n t n S X P 3)μ的随机置信区间μ的置信水平为0.90 的置信区间为:())1(),1(22-+--n t nS X n t nS Xαα4)μ的确定置信区间由X =74.4,方差S=9.49,47.420=,则3277.1)19(05.0=t 带入值可得: 置信水平为0.9的区间为(71.6,77.2)。

相关主题