正态分布与二项分布主要内容正态分布的概念和特征标准正态分布正态分布曲线下的面积医学参考值范围二项分布的基本概念和性质二项分布的概率计算方法体重分布65.062.560.057.555.052.550.047.545.042.540.06050403020100Std. Dev = 5.76Mean = 51.5N = 300.00正态分布正态分布(normal distribution)又称高斯(Gauss)分布,是以均数为中心,左右两侧基本对称的钟型分布。
越接近均数,频数分布越多,离均数越远,频数分布越少。
正态分布是一种重要的连续型分布,是许多统计方法的理论基础。
正态分布的概率密度函数将正态分布曲线用函数形式表达,称为正态分布的概率密度函数,记为f(x),即正态分布曲线的方程为:一般用N (μ,σ2)表示均数为μ,方差为σ2的正态分布。
222)(21)(σμσπ--=x e x f正态分布曲线3210-1-2-3μ-σμ+σμ正态分布曲线密度曲线图中,横轴表示测量指标x,纵轴表示密度函数值f(x)。
⏹观察值x附近个体值分布越密集,f(x)值越大;⏹x附近的个体值分布越稀疏,f(x)值就越小。
密度函数f(x)的大小,反映了x附近的测量值的密集程度。
正态分布的特征正态曲线为位于横轴上方的钟形曲线。
正态分布以μ为中心,左右两侧对称。
正态分布曲线以横轴为其渐近线,但两端与横轴永不相交。
正态分布有两个参数,即μ和σ。
可通过标准化变换将一般正态分布N(μ,σ2)转化为标准正态分布N(0,1)。
正态分布曲线下的面积具有一定的规律性。
正态分布的两个参数:μ和σμ是位置参数,用以描述正态分布的集中位置。
⏹当σ恒定,改变μ,则曲线沿x轴平移,但形状不变,⏹μ越大,则曲线沿横轴越向右移动;μ越小,则曲线沿横轴越向左移动。
σ是变异度参数或形状参数,用以描述曲线的离散程度。
⏹当μ恒定时,改变σ,则曲线的形状会发生变化,而曲线的中心位置不变,⏹σ越大,表示数据越分散,曲线越扁平,变异越大;σ越小,表示数据越集中,曲线越陡峭,变异越小。
如果一个随机变量X取对数后,其值的分布为正态分布,则称随机变量X服从对数正态分布。
如果进行标准化变换(u 变换),并使μ=0,σ=1,正态分布的中心位置就由μ移到0,一般正态分布N (μ,σ2)转化为标准正态分布N (0,1)。
σμ-=x u标准正态分布曲线-2-3-1132标准正态分布标准正态分布也称为u 分布(Z 分布),u 称为标准正态变量或标准正态离差。
标准正态分布可用N (0,1)表示。
标准正态分布的概率密度函数为:2221)(u e u -=πϕ标准正态分布(u分布)的特征u分布曲线为位于横轴上方的钟形曲线。
u分布以 =0为中心,左右两侧对称。
u分布曲线以横轴为其渐近线,但两端与横轴永不相交。
u分布的μ=0,σ=1。
u分布曲线下的面积具有一定的规律性。
正态曲线下面积(AUC)可根据正态分布曲线下某个区间的面积(Area Under the Curve),以估计该区间的例数占总例数的百分数(频率分布),或变量值落在该区间的概率(概率分布)。
正态曲线下的面积,可以通过对正态变量X 的累计分布函数F (X )的积分来求得,它反映了正态曲线下,自-∞到X 的面积,即左侧累计面积。
XXx d e X F ⎰∞---=222)(21)(σμσπ曲线下横轴上的总面积为100%或1。
服从正态分布的随机变量在一区间上曲线下的面积与其在这一区间上取值的概率相等。
当μ、σ和X 已知时,可先进行u 转换:然后对u 的累计分布函数Φ(u)进行积分。
σμ-=x u uuu d e u ⎰∞--=Φ2221)(π为了计算方便,统计学家已按公式编制成附表2,标准正态分布曲线下的面积。
即在实际应用中,经u变换后,再用该附表,可把求解任意一个正态分布曲线下面积的问题,转化成标准正态分布曲线下相应的面积。
曲线下对称于0的区间,面积相等。
区间(-∞,-u)和区间(u,+∞)的面积相等,因而附表2中只列出Φ(-u)的值,Φ(u)=1-Φ(-u)。
正态曲线下面积的计算公式为:P(u1<U<u2)=Φ(u2) Φ(u1)。
正态曲线下面积的分布规律Φ(1.96)=1-Φ(-1.96)=1-0.025=0.975,从u=-1.96到u=1.96的面积:P(-1.96<U<1.96)=Φ(1.96)-Φ(-1.96)=0.975-0.025=0.95正态曲线下面积的分布规律Φ(2.58)=1-Φ(-2.58)=1-0.005=0.995,从u=-2.58到u=2.58的面积:P(-2.58<U<2.58)=Φ(2.58)-Φ(-2.58)=0.995-0.005=0.99正态曲线下面积的分布规律例:由160名7岁男孩身高测量的数据算得,S=4.8cm ,已知身高数据服从正态分布。
试估计该地当年7岁男孩身高介于119cm 到125cm 范围所占的比例。
u 1=(119-122.6)/4.8=-0.75u 2=(125-122.6)/4.8=0.5122.6x cm正态曲线下面积的分布规律Φ(u 1)= Φ(-0.75)=0.2266Φ(u 2)= Φ(0.5)=1-Φ(-0.5)=1-0.3085=0.6915P(119<X<125)=Φ(u 2)-Φ(u 1)=0.6915-0.2266=0.4649该地当年7岁男孩身高介于119cm 到125cm 范围所占的比例为46.49%。
正态曲线下面积的分布规律例:经大量调查成年女子的胸围(X)服从正态分布N(86.5,7.62),求:⏹X<76cm的概率;⏹X>96cm的概率;⏹X在76~96cm间的概率。
P(X<76)=Φ[(76-86.5)/7.6]=Φ(-1.38)=0.0838正态曲线下面积的分布规律P(X>96)=1-Φ[(96-86.5)/7.6]=1-Φ(1.25)=1-1+Φ(-1.25)=0.1056P(76<X<96)=P(X<96)-P(X<76)=Φ(1.25)-Φ(-1.38)=0.8944-0.0838=81.06%医学参考值范围的制定医学上常要确定某群体“正常人”(特定健康状况的人群)的解剖、生理、生化等各种指标大多数个体的波动范围,称为医学参考值范围或正常值范围,常作为划分正常与异常的参考依据。
医学参考值范围是指按一定概率所确定的医学参考值的波动范围。
保证研究对象的同质性一般选择“正常人”,这里所谓的正常人不是指机体任何器官、组织的形态和功能都正常的健康人,而是排除了对研究指标有影响的疾病或因素之后的同质人群。
例如,制定ALT的参考值范围,“正常人”的条件是:①无肝、肾、心、脑、肌肉等疾患;②近期未服用对肝有损伤的药物(如氯丙嗪、异烟肼);③测定前未做剧烈运动、未暴饮暴食等。
样本含量制定参考值范围必须要有足够的观察单位数。
确定具有实际意义的统一测量标准检测过程中严格控制系统误差和随机误差,对一些易受主观因素影响的指标,如测定方法、仪器、试剂、熟练程度等要做到标准化。
判定分组组间差别明显并有实际意义应分开制定,否则应合并。
确定单、双侧根据专业知识确定单侧和双侧。
选定适当的百分范围一般取95%、99%的参考值范围。
选择估计参考值范围的方法根据资料的分布类型,样本含量的多少和研究目的等,选用适当的方法确定参考值范围。
⏹正态近似法;⏹百分位数法。
正态近似法确定参考值范围当资料服从正态或近似正态分布时,可根据正态分布曲线下面积分布规律进行参考值范围的估计,该法得到结果稳定,双侧(-u α/2s ,+u α/2s )单侧(-∞,+u αs )或(-u αs ,+∞)x x x x(毫克%),求双侧95%参考值范围?胆固醇分组频数f累计频数累计频率85~ 105~ 125~ 145~ 165~ 185~ 205~ 225~ 245~52028403924105352553931321561661711742.8714.3730.4653.4575.8689.6695.4098.28100.00(毫克%),求双侧95%参考值范围?本资料近似服从正态分布,该地农民35~39岁男性胆固醇测定值的双侧95%参考值范围为:±u α/2s =162.93±1.96×34.19=(95.92,229.94)mg%%93.162mg x =%19.34mg s =x百分位数法确定参考值范围当资料不能满足正态性要求时,可用百分位数法按照下式估计参考值范围。
(P 2.5,P 97.5)(双侧)(-∞,P 95)或(P 5,+ ∞)(单侧)例:某市1974年为了解该地居民发汞的基础水平,调查了留住该地一年以上,无明显肝、肾疾病,无汞作业接触史的居民238人的发汞含量( mol/kg ):试估计该地居民发汞值的95%参考值范围?发汞值人数累计频数累计频率(%)1.5~20208.43.5~668636.15.5~6014661.37.5~4819481.59.5~1821289.1 11.5~1622895.8 13.5~623498.3 15.5~123598.7 17.5~023598.7 19.5~21.53238100.0合计238该资料为偏态分布,用百分位数法估计单侧95%参考值范围。
则该地居民发汞值的95%参考值范围为0-13.3 μmol/kg 。
mol/kg13.3)212%95238(1625.1195μ=-⨯+=P二项分布的概念❖二项分布是一种重要的离散型分布,也称为伯努利分布,是用来描述二分类变量的两种观察结果的出现规律的一种离散型分布。
❖常用于总体率的估计和两总体率的比较等。
二项分布的概念设小白鼠接受某种毒物一定剂量时,其死亡率为80%,对于每只小白鼠来说,其死亡概率为80%,生存概率为20%;若每组各用甲乙丙三只小白鼠逐只做实验,观察每组小白鼠的存亡情况,如果计算生与死的顺序,则共有8种排列方式,如果只计生与死的数目,则只有4种组合方式,如下表所示。
Xn x n XX P --=)1()()(ππ白鼠死亡的组合方式排列方式每种排列的概率每种组合的概率生存数(X )死亡数(n-X )甲乙丙3生生生0.2×0.2×0.2=0.0080.00821生生死0.2×0.2×0.8=0.0320.096生死生0.2×0. 8×0.2 =0.032死生生0. 8×0.2×0.2 =0.03212生死死0.2×0.8×0.8=0.1280.384死生死0.8×0.2×0.8=0.128死死生0.8×0.8×0.2=0.12803死死死0.8×0.8×0.8=0.5120.5121.0001.000每种组合方式的概率可以用二项式概括,二项式展开的各项就是每种组合的概率。