当前位置：文档之家› 数据分析-分布类别

数据分析-分布类别

各种分布
泊松分布
Poisson分布，是一种统计与概率学里常见到的离散概率分布。

泊松分布的概率函数为：
泊松分布的参数λ是单位时间(或单位面积、单位体积)内随机事件的平均发生率。

泊松分布适合于描述单位时间内随机事件发生的次数。

泊松分布的期望和方差均为
特征函数为：
泊松分布与二项分布
当二项分布的n很大而p很小时，泊松分布可作为二项分布的近似，其中λ为np。

通常当n≧10,p≦0.1时，就可以用泊松公式近似得计算。

事实上，泊松分布正是由二项分布推导而来的。

泊松分布可作为二项分布的极限而得到。

一般的说，若 ,其中n很大，p很小，因而不太大时，X的分布接近于泊松分布。

这个事实有时可将较难计算的二项分布转化为泊松分布去计算。

应用示例
泊松分布适合于描述单位时间（或空间）内随机事件发生的次数。

如某一服务设施在一定时间内到达的人数，电话交换机接到呼叫的次数，汽车站台的候客人数，某放射性物质发射出的粒子，机器出现的故障数，自然灾害发生的次数，一块产品上的缺陷数，显微镜下单位分区内的细菌分布数等等。

卡方分布
卡方分布( 分布)是概率论与统计学中常用的一种概率分布。

n 个独立的标准正态分布变量的平方和服从自由度为n 的卡方分布。

卡方分布常用于假设检验和置信区间的计算。

若n个相互独立的随机变量ξ₁、ξ₂、……、ξn ，均服从标准正态分布（也称独立同分布于标准正态分布），则这n个服从标准正态分布的随机变量的平方和构成一新的随机变量，其分布规律称为卡方分布（chi-square distribution），即分布（chi-square distribution），其中参数n称为自由度。

正如正态分布中均值或方差不同就是另一个正态分布一样，自由度不同就是另一个分布。

记为或者。

卡方分布与正态分布
卡方分布是由正态分布构造而成的一个新的分布，当自由度n很大时，分布近似为正态分布。

对于任意正整数x，自由度为 k的卡方分布是一个随机变量X 的机率分布。

期望和方差
分布的均值为自由度n，记为E( ) = n。

分布的方差为2倍的自由度(2n)，记为D( ) = 2n。

均匀分布
均匀分布（Uniform Distribution）是概率统计中的重要分布之一。

顾名思义，均匀，表示可能性相等的含义。

(1) 如果，则称X服从离散的均匀分布。

(2) 设连续型随机变量X的概率密度函数为，则称随机变量X服从[a,b]上的均匀分布，记为X~U(a,b)。

均值
，即数学期望位于区间（a，b）的中间。

方差。

伯努利分布
一个离散型机率分布，是二项分布的特殊情况。

伯努利分布是一种离散分布,有两种可能的结果。

1表示成功，出现的概率为p(其中0<p<1)。

0表示失败，出现的概率为q=1-p。

分布律：
性质
均值：E(X)=p。

方差：var(X)=p(1-p)。

二项分布
二项分布即重复n次独立的伯努利试验。

在每次试验中只有两种可能的结果，而且两种结果发生与否互相对立，并且相互独立，与其它各次试验结果无关，事件发生与否的概率在每一次独立试验中都保持不变，则这一系列试验总称为n重伯努利实验，当试验次数为1时，二项分布服从0-1分布。

概率为：
表示组合数，n为试验次数，k为成功次数，p为成功概率。

期望与方差
E(X)=E[X(1)+X(2)+X(3)....X(n)]=np.
D(X)=D[X(1)+X(2)+X(3)....X(n)]=np(1-p).
分布区别
两点分布又称伯努利分布。

两点分布的分布列就是
x01
P1-p p
而二项分布的可能结果是不确定的甚至是没有尽头的。

两点分布是一种特殊的二项分布。

二项分布是离散型分布，概率直方图是跃阶式的。

因为x为不连续变量，用概率条图表示更合适，用直方图表示只是为了更形象些。

1．当p＝q时，图形是对称的。

2．当p≠q时，直方图呈偏态，p<q与p>q的偏斜方向相反。

如果n很大，即使p≠q，偏态逐渐降低，最终成正态分布，二项分布的极限分布为正态分布。

故当n很大时，二项分布的概率可用正态分布的概率作为近似值。

何谓n很大呢?一般规定：当p<q且np≥5，或p>q且nq≥5，这时的n就被认为很大，可以用正态分布的概率作为近似值了。

0—1分布
0—1分布就是n=1情况下的二项分布。

即只先进行一次事件试验，该事件发生的概率为p。

不发生的概率为q=1-p。

这是一个最简单的分布，任何一个只有两种结果的随机现象。

记法：X~B(x,p) x为0或1。

设离散型随机变量的分布律为
，其中k=0,1。

p为k=1时的概率(0<p<1)，则称X服从0-1分布，0-1分布又叫两点分布。

期望与方差
E(X)=p ，D(X)=pq
频数分布类型
钟形分布、U形分布、J形分布
其中钟形分布可分为正态分布和偏态分布。

众数
算数平均数与中位数和众数的关系
偏度和峰度偏度
峰度
离散型随机变量的概率分布
连续型随机变量的概率分布
连续型随机变量取一个固定的点的概率为0。

抽样分布
简单随机抽样的方法有重复抽样与不重复抽样两种。

大数定理和中心极限定理
大数定理
大数定理又称大数法则。

人们在观察个别事物时，是连同一切个别的特性来观察的。

个别现象受偶然因素影响，有各自不同的表现。

但是，对总体的大量观
察后进行平均，就能使偶然因素的影响相互抵消，抵消大部分偶然因素，从而使总体平均数稳定下来，反映出事物变化的一般规律，这就是大数定理的意义。

参数估计
点估计
点估计就是根据总体参数与样本统计量之间的内在联系，直接以样本统计量作为相应总体参数的估计量，点估计又称为定值估计。

在统计中经常使用的点估计量有：
点估计优良性包括三条标准：无偏性、有效性和一致性。

无偏性：
有效性：
一致性：
区间估计
平均数的区间估计
正态分布、总体方差已知
正态分布、总体方差未知
总体成数的区间估计
假设检验一般假设检验的步骤：
1、提出原假设（）与备择假设（）；
2、构造检验统计量；
原假设与备择假设确定之后，我们要构造一个统计量来决定是否拒绝原假设接受备择假设。

如果服从正态分布，则可构造如下检验统计量Z：
3、确定拒绝域；
4、计算检验统计量的样本观测值；
5、做出结论。

宁愿弃真也不要取伪。

如有侵权请联系告知删除，感谢你们的配合！。

e商务文档

数据分析-分布类别

相关文档推荐：