科普小知识————————————————————————————————作者: ————————————————————————————————日期:离散概率分布(Poisson distribution)和连续概率分布(Gamma distribution) (2012-03-15 13:19:48)分类: 工作篇标签:校园在统计学上,泊松回归(英语:Poisson regression)是用来为计数资料和列联表建模的一种回归分析。
泊松回归假设反应变量Y是泊松分布,并假设它期望值的对数可被未知参数的线性组合建模。
泊松回归模型有时(特别是当用作列联表模型时)又被称作对数-线性模型。
泊松分布(Poisson Distribution)什么是泊松分布Poisson分布(法语:loide Poisson,英语:Poissondistribution,译名有泊松分布、普阿松分布、卜瓦松分布、布瓦松分布、布阿松分布、波以松分布、卜氏分配等),是一种统计与概率学里常见到的离散机率分布(discrete probability distribution),由法国数学家西莫恩·德尼·泊松(Siméon-DenisPoisson)在1838年时发表。
泊松分布的概率质量函数为:泊松分布的参数λ是单位时间(或单位面积)内随机事件的平均发生率。
泊松分布适合于描述单位时间内随机事件发生的次数。
如某一服务设施在一定时间内到达的人数,电话交换机接到呼叫的次数,汽车站台的候客人数,机器出现的故障数,自然灾害发生的次数等等。
泊松分布使用范围Poisson分布主要用于描述在单位时间(空间)中稀有事件的发生数.即需满足以下四个条件:[1]1.给定区域内的特定事件产生的次数,可以是根据时间,长度,面积来定义;2.各段相等区域内的特定事件产生的概率是一样的;3.各区域内,事件发生的概率是相互独立的;4.当给定区域变得非常小时,两次以上事件发生的概率趋向于0。
例如:1.放射性物质在单位时间内的放射次数;2.在单位容积充分摇匀的水中的细菌数;3.野外单位空间中的某种昆虫数等。
Poisson分布的性质一、Poisson分布的均数与方差相等,即σ2=m二、Poisson分布的可加性如果X1,X2,…,Xk相互独立,且它们分别服从以μ1,μ2,…,μk为参数的Poisson分布,则T=X1+X2+…+Xk也服从Poisson分布,其参数为μ1 +μ2+…+μk。
三、Poisson分布的正态近似m相当大时,近似服从正态分布:N(m,m)四、二项分布的Poisson分布近似设Xi~B (niπi),则当ni→∞,πi很小,且niπi=μ保持不变时,可以证明Xi的极限分布是以μ为参数的Poisson分布泊松分布泊松分布概率质量函数ﻫ累积分布函数参数支撑集概率質量函數累积分布函数期望值中位数众数方差偏度峰度信息熵动差生成函数特性函数Poisson分布(法语:loide Poisson,英语:Poisson distribution),译名有泊松分布、普阿松分布、卜瓦松分布、布瓦松分布、布阿松分布、波以松分布、卜氏分配等,又称泊松小数法则(Poissonlaw of smallnumbers),是一种统计与概率学里常见到的离散概率分布,由法国数学家西莫恩·德尼·泊松(Siméon-Denis Poisson)在1838年时发表。
泊松分布适合于描述单位时间内随机事件发生的次数。
如某一服务设施在一定时间内到达的人数,电话交换机接到呼叫的次数、汽车站台的候客人数、机器出现的故障数、自然灾害发生的次数、DNA序列的变异数、放射性原子核的衰变数等等。
泊松分布的概率质量函数为:泊松分布的参数λ是单位时间(或单位面积)内随机事件的平均发生率。
性质服从泊松分布的随机变量,其数学期望与方差相等,同为参数λ:E(X)=V(X)=λ动差生成函数:泊松分布的来源在二项分布的伯努力试验中,如果试验次数n很大,二项分布的概率p很小,且乘积λ= n p比较适中,则事件出现的次数的概率可以用泊松分布来逼近。
事实上,二项分布可以看作泊松分布在离散时间上的对应物。
证明如下。
首先,回顾e的定义:二项分布的定义:如果令,趋于无穷时的极限:最大似然估计给定n个样本值ki,希望得到从中推测出总体的泊松分布参数λ的估计。
为计算最大似然估计值,列出对数似然函数:对函数L取相对于λ的导数并令其等于零:解得λ从而得到一个驻点(stationarypoint):检查函数L的二阶导数,发现对所有的λ与ki大于零的情况二阶导数都为负。
因此求得的驻点是对数似然函数L的极大值点:例子对某公共汽车站的客流做调查,统计了某天上午10:30到11:47来到候车的乘客情况。
假定来到候车的乘客各批(每批可以是1人也可以是多人)是互相独立发生的。
观察每20秒区间来到候车的乘客批次,共得到230个观察记录。
其中来到0批、1批、2批、3批、4批及4批以上的观察记录分别是100个、81个、34个、9个、6个。
使用极大似真估计(ML E),得到的估计为0.8696。
实际上各批次发生的频率与的泊松分布吻合的非常好。
参见泊松过程概率论Poisson分布- 概念Poisson分布更多地专用于研究单位时间、单位人群、单位空间内,某罕见事件发生次数的分布。
title('Poisson分布')ﻫﻫ如某种细菌在单位容积空气或水中出现的情况,某段时间特定人群中某种恶性肿瘤患者的分布或出生缺陷的发病情况,放射性物质在单位时间内的放射次数,单位空间某种昆虫数的分布等等。
ﻫﻫPoisson分布在π很小,样本含量n趋向于无穷大时,二项分布的极限形式。
当试验中成功事件出现的概率很小,如π<0.05,试验的次数n很大`时,用二项分布计算成功事件出现的次数X(X=0,1,2,…,n)的概率很困难,用Poisson分布可简化计算。
Poisson 分布发展成为描述小概率事件出现规律性的一种重要的离散型分布。
Poisson分布-Poisson分布的概率函数X=1,2,3…(7.13)ﻫ意义:单位时间(单位人群、单位空间内,单位容积)内,某罕见事件发生次数的概率分布ﻫ式中μ=nπ为Poisson分布的总体均数,总体中没单位中的平均阳性数,X为单位时间或单位空间内某事件的发生数(阳性数),e为自然对数的底,约等于2.71828。
Poisson分布- 性质ﻫ1.Poisson分布是一种单参数的离散型分布,其参数为μ,它表示单位时间或空间内某事件平均发生的次数,又称强度参数。
2.Poisson分布的方差σ2与均数μ相等,即σ2=μ3.Poisson分布是非对称性的,在μ不大时呈偏态分布,随着μ的增大,迅速接近正态分布。
一般来说,当μ=20时,可以认为近似正态分布,Poisson分布资料可按正态分布处理。
4.Poisson分布的累计概率常用的有左侧累计和右侧累计两种。
单位时间或空间内事件发生的次数最多为k次的概率:(X= 0,1,2,…)ﻫﻫ最少为k次的概率:(X= 0,1,2,…)ﻫ5.Poisson分布的图形已知μ,就可按公式计算得出X= 0,1,2,…时的P(X)值,以X为横坐标,以P(X)为纵坐标作图,即可绘出Poisson分布的图形,如图7.2。
Poisson分布的形状取决于μ的大小。
μ值越小,分布越偏,随着μ的增大,分布越趋于对称,当μ=20时,分布接近正态分布,当μ=50时,可以认为Poisson分布呈正态分布N(μ, μ),按正态分布处理。
ﻫ6.Poisson分布是二项分布的极限形式二项分布中,当π很小而n很大,nπ→μ时,二项分布趋于Poisson分布。
ﻫ7.Poisson分布的观察结果有可加性。
若从总体均数为的Poisson分布总体中随机抽出一份样本,其中稀有事件的发生次数为X1,再独立地从总体均数为的Poisson分布总体中随机抽出另一份样本,其中稀有事件的发生次数为X2,则它们的合计发生数T()也服从Pois son分布,总体均数为。
ﻫ上述性质还可以推广到多个Poisson分布的情形。
例如,从同一水源独立地取水样5次,进行细菌培养,每次水样中的菌落数分别为,,均服从Poisson分布,分别记为,那么把5份水样混合,其合计菌落数也服从Poisson分布,记为。
医学研究中常利用其可加性,将小的观察单位合并,来增大发生次数X,以便用后面讲到的正态近似法作统计推断。
Poisson分布- 应用条件Poisson分布的应用条件与二项分布相同,即要求事件的发生是相互独立的,发生的概率相等,结果是二分类的。
ﻫPoisson分布主要用于研究单位时间或单位空间内某事件的发生数,理论上单位时间或单位空间内的发生数可为无穷大。
而用于研究单位人群中某疾病发生数的分布时,单位人群的人数要求大一些,比如以1000人或更多作为单位人群,某些发病率极低的疾病要求更多。
泊松过程Poisson过程(Poisson process,大陆译泊松过程、普阿松过程等,台译卜瓦松過程、布瓦松過程、布阿松過程、波以松過程、卜氏過程等),是以法国数学家泊松(1781 - 1840)的名字命名的。
泊松过程是随机过程的一种,是以事件的发生时间来定义的。
我们说一个随机过程N(t)是一个时间齐次的一维泊松过程,如果它满足以下条件:在两个互斥(不重叠)的区间内所发生的事件的数目是互相独立的随机变量。
在区间内发生的事件的数目的概率分布为:其中λ是一个正数,是固定的参数,通常称为抵达率(arrival rate)或强度(intensity)。
所以,如果给定在时间区间之中事件发生的数目,则随机变量呈现泊松分布,其参数为。
更一般地来说,一个泊松过程是在每个有界的时间区间或在某个空间(例如:一个欧几里得平面或三维的欧几里得空间)中的每一个有界的区域,赋予一个随机的事件数,使得在一个时间区间或空间区域内的事件数,和另一个互斥(不重叠)的时间区间或空间区域内的事件数,这两个随机变量是独立的。
在每一个时间区间或空间区域内的事件数是一个随机变量,遵循泊松分布。
(技术上而言,更精确地来说,每一个具有有限测度的集合,都被赋予一个泊松分布的随机变量。
)泊松过程是Lévy过程(Lévy process)中最有名的过程之一。
时间齐次的泊松过程也是时间齐次的连续时间Markov过程的例子。
一个时间齐次、一维的泊松过程是一个纯出生过程,是一个出生-死亡过程的最简单例子。
伽玛分布Gamma概率密度函数ﻫ累积分布函数ﻫ参数shape (real)scale(real)支撑集概率密度函數累积分布函数期望值中位数no simple closedform众数for方差偏度峰度信息熵ﻫ动差生成函数for特性函数伽玛分布(Gamma distribution)是统计学的一种连续概率函数。