当前位置:文档之家› 正态分布的概念及表和查表方法

正态分布的概念及表和查表方法

正态分布概念及图表正态分布(Normal distribution),也称“常态分布”,又名高斯分布(Gaussian distribution),最早由A·棣莫弗在求二项分布的渐近公式中得到。

C.F.高斯在研究测量误差时从另一个角度导出了它。

P·S·拉普拉斯和高斯研究了它的性质。

是一个在数学、物理及工程等领域都非常重要的概率分布,在统计学的许多方面有着重大的影响力。

正态曲线呈钟型,两头低,中间高,左右对称因其曲线呈钟形,因此人们又经常称之为钟形曲线。

若随机变量X服从一个数学期望为μ、方差为σ^2的正态分布,记为N(μ,σ^2)。

其概率密度函数为正态分布的期望值μ决定了其位置,其标准差σ决定了分布的幅度。

当μ= 0,σ= 1时的正态分布是标准正态分布。

目录1历史发展2定理3定义▪一维正态分布▪标准正态分布4性质5分布曲线▪图形特征▪参数含义6研究过程7曲线应用▪综述▪频数分布▪综合素质研究▪医学参考值历史发展正态分布概念是由德国的数学家和天文学家Moivre于1733年首次提出的,但由于德国数学家Gauss率先将其应用于天文学家研究,故正态分布又叫高斯分布,高斯这项工作对后世的影响极大,他使正态分布同时有了“高斯分布”的名称,后世之所以多将最小二乘法的发明权归之于他,也是出于这一工作。

但现今德国10马克的印有高斯头像的钞票,其上还印有正态分布的密度曲线。

这传达了一种想法:在高斯的一切科学贡献中,其对人类文明影响最大者,就是这一项。

在高斯刚作出这个发现之初,也许人们还只能从其理论的简化上来评价其优越性,其全部影响还不能充分看出来。

这要到20世纪正态小样本理论充分发展起来以后。

拉普拉斯很快得知高斯的工作,并马上将其与他发现的中心极限定理联系起来,为此,他在即将发表的一篇文章(发表于1810年)上加上了一点补充,指出如若误差可看成许多量的叠加,根据他的中心极限定理,误差理应有高斯分布。

这是历史上第一次提到所谓“元误差学说”——误差是由大量的、由种种原因产生的元误差叠加而成。

后来到1837年,海根(G.Hagen)在一篇论文中正式提出了这个学说。

其实,他提出的形式有相当大的局限性:海根把误差设想成个数很多的、独立同分布的“元误差”之和,每只取两值,其概率都是1/2,由此出发,按狄莫佛的中心极限定理,立即就得出误差(近似地)服从正态分布。

拉普拉斯所指出的这一点有重大的意义,在于他给误差的正态理论一个更自然合理、更令人信服的解释。

因为,高斯的说法有一点循环论证的气味:由于算术平均是优良的,推出误差必须服从正态分布;反过来,由后一结论又推出算术平均及最小二乘估计的优良性,故必须认定这二者之一(算术平均的优良性,误差的正态性)为出发点。

但算术平均到底并没有自行成立的理由,以它作为理论中一个预设的出发点,终觉有其不足之处。

拉普拉斯的理论把这断裂的一环连接起来,使之成为一个和谐的整体,实有着极重大的意义。

定理由于一般的正态总体其图像不一定关于y轴对称,对于任一正态总体,其取值小于x的概率。

只要会用它求正态总体在某个特定区间的概率即可。

为了便于描述和应用,常将正态变量作数据转换。

将一般正态分布转化成标准正态分布。

若服从标准正态分布,通过查标准正态分布表就可以直接计算出原正态分布的概率值。

故该变换被称为标准化变换(标准正态分布表:标准正态分布表中列出了标准正态曲线下从-∞到X(当前值)范围内的面积比例)。

定义一维正态分布若随机变量服从一个位置参数为、尺度参数为的概率分布,且其概率密度函数为f( - x ) = 1 –f( x )则这个随机变量就称为正态随机变量,正态随机变量服从的分布就称为正态分布,记作,读作服从,或服从正态分布。

μ维随机向量具有类似的概率规律时,称此随机向量遵从多维正态分布。

多元正态分布有很好的性质,例如,多元正态分布的边缘分布仍为正态分布,它经任何线性变换得到的随机向量仍为多维正态分布,特别它的线性组合为一元正态分布。

本词条的正态分布是一维正态分布,此外多维正态分布参见“二维正态分布”。

标准正态分布当时,正态分布就成为标准正态分布性质正态分布的一些性质:(1)如果且a与b是实数,那么(参见期望值和方差)。

(2)如果与是统计独立的正态随机变量,那么:它们的和也满足正态分布它们的差也满足正态分布U与V两者是相互独立的(要求X与Y的方差相等)。

(3)如果和是独立常态随机变量,那么:它们的积XY服从概率密度函数为p的分布。

其中是修正贝塞尔函数(modified Bessel function)它们的比符合柯西分布,满足(4)如果为独立标准常态随机变量,那么服从自由度为n 的卡方分布。

分布曲线图形特征集中性:正态曲线的高峰位于正中央,即均数所在的位置。

对称性:正态曲线以均数为中心,左右对称,曲线两端永远不与横轴相交。

均匀变动性:正态曲线由均数所在处开始,分别向左右两侧逐渐均匀下降。

曲线与横轴间的面积总等于1,相当于概率密度函数的函数从正无穷到负无穷积分的概率为1。

即频率的总和为100%。

正态分布关于μ对称,并在μ处取最大值,在正(负)无穷远处取值为0,在μ±σ处有拐点,形状呈现中间高两边低,正态分布的概率密度函数曲线呈钟形,因此人们又经常称之为钟形曲线。

参数含义正态分布有两个参数,即期望(均数)μ和标准差σ,σ2为方差。

正态分布公式正态分布具有两个参数μ和σ^2的连续型随机变量的分布,第一参数μ是服从正态分布的随机变量的均值,第二个参数σ^2是此随机变量的方差,所以正态分布记作N(μ,σ2)。

μ是正态分布的位置参数,描述正态分布的集中趋势位置。

概率规律为取与μ邻近的值的概率大,而取离μ越远的值的概率越小。

正态分布以X=μ为对称轴,左右完全对称。

正态分布的期望、均数、中位数、众数相同,均等于μ。

σ描述正态分布资料数据分布的离散程度,σ越大,数据分布越分散,σ越小,数据分布越集中。

也称为是正态分布的形状参数,σ越大,曲线越扁平,反之,σ越小,曲线越瘦高。

面积分布1.实际工作中,正态曲线下横轴上一定区间的面积反映该区间的例数占总例数的百分比,或变量值落在该区间的概率(概率分布)。

不同范围内正态曲线下的面积可用公式计算。

⒉正态曲线下,横轴区间(μ-σ,μ+σ)内的面积为68.268949%。

P{|X-μ|<σ}=P(μ-σ<X<μ+σ)=Φ(μ+σ-μ)/σ-Φ(μ-σ-μ)/σ=Φ(1)-Φ(-1)=Φ(1)-(1-Φ(1))2Φ(1)-1=0.6826横轴区间(μ-1.96σ,μ+1.96σ)内的面积为95.449974%。

P{|X-μ|<2σ}=2Φ(2)-1=0.9544。

横轴区间(μ-2.58σ,μ+2.58σ)内的面积为99.730020%。

P{|X-μ|<3σ}=2Φ(3)-1=0.9974。

由于“小概率事件”和假设检验的基本思想是指“小概率事件”通常指发生的概率小于5%的事件,认为在一次试验中该事件是几乎不可能发生的。

由此可见X落在(μ-3σ,μ+3σ)以外的概率小于千分之三,在实际问题中常认为相应的事件是不会发生的,基本上可以把区间(μ-3σ,μ+3σ)看作是随机变量X实际可能的取值区间,这称之为正态分布的“3σ”原则。

研究过程概念及特征一、正态分布的概念由一般分布的频数表资料所绘制的直方图,图⑴可以看出,高峰位于中部,左右两侧大致对称。

我们正态分布研究图1设想,如果观察例数逐渐增多,组段不断分细,直方图顶端的连线就会逐渐形成一条高峰位于中央(均数所在处),两侧逐渐降低且左右对称,不与横轴相交的光滑曲线图⑶。

这条曲线称为频数曲线或频率曲线,近似于数学上的正态分布(normal distribution)。

由于频率的总和为100%或1,故该曲线下横轴上的面积为100%或1。

为了应用方便,常对正态分布变量X作变量变换。

该变换使原来的正态分布转化为标准正态分布(standard normal distribution),亦称u 分布。

u被称为标准正态变量或标准正态离差(standard normal deviate)。

正态分布研究图2正态分布研究图3实际工作中,常需要了解正态曲线下横轴上某一区间的面积占总面积的百分数,以便估计该区间的例数占总例数的百分数(频数分布)或观察值落在该区间的概率。

正态曲线下一定区间的面积可以通过附表1求得。

对于正态或近似正态分布的资料,已知均数和标准差,就可对其频数分布作出概约估计。

查附表1应注意:①表中曲线下面积为-∞到u的左侧累计面积;②当已知μ、σ和X时先按式u=(X-μ)/σ求得u值,再查表,当μ、σ未知且样本含量n足够大时,可用样本均数X1和标准差S分别代替μ和σ,按u=(X-X1)/S式求得u值,再查表;③曲线下对称于0的区间面积相等,如区间(-∞,-1.96)与区间(1.96,∞)的面积相等,④曲线下横轴上的总面积为100%或1。

正态曲线与标准正态曲线的面积分布正态分布的应用某些医学现象,如同质群体的身高、红细胞数、血红蛋白量、胆固醇等,以及实验中的随机误差,呈现为正态或近似正态分布;有些资料虽为偏态分布,但经数据变换后可成为正态或近似正态分布,故可按正态分布规律处理。

正态分布面积图1正态分布面积图2一般正态分布与标准正态分布的区别与联系正态分布也叫常态分布,是连续随机变量概率分布的一种,自然界、人类社会、心理和教育中大量现象均按正态形式分布,例如能力的高低,学生成绩的好坏等都属于正态分布。

它随随机变量的平均数、标准差的大小与单位不同而有不同的分布形态。

标准正态分布是正态分布的一种,其平均数和标准差都是固定的,平均数为0,标准差为1。

???曲线应用综述⒈估计频数分布一个服从正态分布的变量只要知道其均数与标准差就可根据公式即可估计任意取值范围内频数比例。

⒉制定参考值范围⑴正态分布法适用于服从正态(或近似正态)分布指标以及可以通过转换后服从正态分布的指标。

⑵百分位数法常用于偏态分布的指标。

表3-1中两种方法的单双侧界值都应熟练掌握。

⒊质量控制:为了控制实验中的测量(或实验)误差,常以作为上、下警戒值,以作为上、下控制值。

这样做的依据是:正常情况下测量(或实验)误差服从正态分布。

⒋正态分布是许多统计方法的理论基础。

检验、方差分析、相关和回归分析等多种统计方法均要求分析的指标服从正态分布。

许多统计方法虽然不要求分析指标服从正态分布,但相应的统计量在大样本时近似正态分布,因而大样本时这些统计推断方法也是以正态分布为理论基础的。

频数分布例1.10 某地1993年抽样调查了100名18岁男大学生身高(cm),其均数=172.70cm,标准差s=4.01cm,①估计该地18岁男大学生身高在168cm以下者占该地18岁男大学生总数的百分数;②分别求X+-1s、X+-1.96s、X+-2.58s范围内18岁男大学生占该地18岁男大学生总数的实际百分数,并与理论百分数比较。

相关主题