当前位置:文档之家› 统计学必知知识点合集

统计学必知知识点合集

统计学知识点合集1. 试验和事件:对某事物或现象所进行的观察或实验叫试验,把结果叫事件。

2. 基本事件(elementary event ):如果一个事件不能分解成两个或更多个事件,就称为基本事件。

一次观察只能有一个基本事件。

3. 样本空间:一个试验中所有的基本事件的全体称为样本空间。

4. 古典概型:如果某一随机试验的结果有限,而且各个结果出现的可能性相等,则某一事件A 发生的概率为该事件所包含的基本事件个数m 与样本空间中所包含的基本事件个数n 的比值。

5. 统计概型:在相同条件下随机试验n 次,某事件A 出现m 次(m ≤n ),则m/n 称为事件A 发生的频率。

随着n 增大,该频率围绕某一常数p 上下波动,且波动幅度逐渐减小,趋于稳定,这个频率的稳定值就是该事件的概率。

6. 概率加法:(1)两个互斥事件:P (A+B )=P (A )+P (B );任意两随机事件:P (A+B )=P (A )+P (B )-P (AB )。

7. 事件独立(independent ):一个事件发生与否不会影响另一个事件发生的概率,公式为:P (AB )=P (A )P (B )。

互斥(相依赖)一定不独立,不独立不一定互斥(相依赖)。

8. 全概率公式:根据某一事件发生的各种原因的概率,计算该事件的概率。

计算公式为:∑==n1i ii)A |B (P )A (P )B (P 。

9. 贝叶斯公式:在条件概率的基础上寻找事件发生的原因。

计算公式为:10.∑==n1i iii i i )A |B (P )A (P )A |B (P )A (P )B |A (P ,分母就是全概率公式。

也称为逆概率公式。

该公式是在观察到事件B 已发生的条件下,寻找导致A 发生的每个原因A i 的概率。

P(A i )称为验前概率,P(A i |B)是验后概率。

11.0-1分布:1,0x ,q p )x (P x -1x ==。

0-1分布也称为两点分布,即非A 即B 。

关于是否的概率统统是0-1分布。

性别。

12.二项分布:现实生活中,许多事件只是具有两种互斥结果的离散变量。

如男性和女性、某种化验结果的阴性阳性,这就是二项分布。

x-n x x n qp C )x X (P ==。

参数为n ,p ,记为X~B(n ,p)。

E(X)=np ,D(X)=npq 。

当成功的概率很小,而试验次数很大时,二项分布接近泊松分布,此时λ=np 。

即P ≤0.25,n >20,np ≤5。

二项定理近似服从正态分布。

二项分布是0-1分布的n 重实验,表示含量为n 的样本中,有X 个所需结果的概率。

13. 二项分布的正态近似:14. )a (-)b (dt e21qp C )x x (P 2t -x x x bax-n xxn21221ΦΦ===≤∑⎰=π,其中a=npqnp -x 1,b=npqnp -x 2,q=1-p 。

15.超几何分布:nNm -n M-N n M C C C )2X (P ==。

即二项分布中,无放回的情况。

16.泊松分布(poisson distribution ):用来描述在一指定时间范围内或在指定的面积之内某事件出现的次数的分布。

如某企业中每月发生的事故次数、单位时间内到达某一服务柜台需要服务的顾客人数、人寿保险公司每天收到的死亡声明个数、某种仪器每月出现故障的次数等。

公式为:!x e )X (P -x λλ=,E(X)=λ,D(X)=λ。

λ是给定时间间隔内事件的平均数。

17. 期望:各可能值x i 与其对应概率p i 的乘积之和为该随机变量X的期望,即∑=n1i i i p x 。

18.概率密度满足的条件:(1)f(x)≥0;(2)⎰+∞∞=-1dx )x (f 。

连续型随机变量的概率密度是其分布函数的倒数。

⎰=ba )a (F -)b (F )x (f 。

⎰+∞∞==-dx )x (xf )x (E μ;19. ⎰+∞∞==-22dx )x (f E(x)]-[x )x (D σ。

20.正态分布(normal distribution ):正态分布的概率密度为:222)-x (-e21)x (f σμπσ=,x ∈R 。

记作X~(2,σμ)。

21. 正态分布图形特点:(1)f(x)≥0,即整个概率密度曲线都在x 轴上方;(2)f(x)相对于x= μ对称,并在x=μ处取到最大值,最大值为πσ21;(3)曲线的陡缓由σ决定,σ越大,越平缓,σ越小,曲线越陡峭;(4)当x 趋于无穷时,曲线以x 轴为渐近线。

22.正态分布的例子:某地区同年龄组儿童的发育特征、某公司的销售量、同一条件下产品的质量以平均质量为中心上下摆动、特别差和特别好的都是少数,多数在中间状态,如人群中的高个子和矮个子都是少数,中等身材居多等。

23. 标准正态分布,即在正态分布中,μ=0,σ=1,有2x -2e21)x (f π=,即X~N (0,1)。

用Φ表示分布函数,ϕ表示概率密度。

Φ(-x)=1-Φ(x)。

24. 方差:即每个随机变量取值与期望值的离差平方的期望值。

随机变量的方差计算公式为:22i 1i 2i22)X (E -)X (E p )]X (E -x[)]X (E -X [E )X (D ====∑∞=σ。

25. 标准差:随机变量的方差的平方根为标准差,记)X (D =σ。

标准差与随机变量X 有相同的度量单位。

26.期望、标准差、离散系数的使用:如果期望相同,那么比较标准差;如果期望不同,那么比较离散系数。

27.3σ准则:由标准正态分布得:当X~N (0,1)时,P(|X|≤1)=2Φ(1)-1=0.6826;P(|X|≤2)=2Φ(2)-1=0.9545;P(|X|≤3)=2Φ(3)-1=0.9973.这说明X 的取值几乎全部集中在[-3,3]之间,超出这个范围的不到0.3%。

将结论推广到一般正态,即X~N (μ,σ)时,有P(|X-μ|≤σ) =0.6826;P(|X-μ|≤2σ) =0.9545;P(|X-μ|≤3σ) =0.9973。

可以认为X 的值一定落在(μ-3σ, μ+3σ)内。

28.矩:(1)∑==n1i k ikXn1m 为样本k 阶矩,其反映出总体k 阶矩的信息,当k=1时,即均值;(2)∑==n1i k ik)X -X(n1v 为样本k 阶中心矩,它反映出总体k 阶中心矩的信息,当k=2时,即方差;(3)232n1i i 3n1i i 3))X X (()X X (n ∑∑==--=α为样本偏度,它反映总体偏度的信息,偏度反映了随机变量密度函数曲线在众数两边的对称偏斜性;29.(4)3))X -X (()X -X (n n 1i 22i n1i 4i 4-=∑∑==α为样本峰度,它反映出总体峰度的信息,峰度反映密度函数曲线在众数附近的峰的尖峭程度。

30.充分统计量:统计量加工过程中一点信息都不损失的统计量称为充分统计量。

31.因子分解定理:充分统计量判定方法。

当X=(X 1,X 2,…,X n )是来自正态分布N (μ,σ2)的一个样本时,若μ已知,则2n1i i )-X (∑=μ是σ2的充分统计量,若σ2已知,则∑==n1i iXn1X 是μ的充分统计量。

32. 精确抽样分布和渐近分布:在总体X 的分布类型已知时,若对任一自然数n ,都能导出统计量T=(X 1,X 2,…,X n )的分布数学表达式,这种分布就是精确抽样分布,包括卡方、F ,t 分布;当n 较大时,用极限分布作为抽样分布的一种近似,这种极限分布称为渐近分布,如中心极限定理。

33.卡方分布:设随机变量X 1,X 2,…,X n 相互独立,且X i 服从标准正态分布N(0,1),则它们的平方和∑=n1i 2i X 服从自由度为n 的2χ分布。

E(2χ)=n ;D(2χ)=2n ;2χ具有可加性;当自由度增加到足够大时,2χ分布的概率密度曲线趋于对称,当n 趋于无穷时,2χ的极限分布是正态分布。

34.t 分布:也称为学生氏分布。

设随机变量X~N (0,1),Y~2χ(n),且X 与Y 独立,则n/Y X t =,其分布称为t 分布,记为t(n),n是自由度。

t 分布的密度函数是偶函数。

当n ≥2时,E(t)=0,;当n ≥3时,D(t)=n/(n-2)。

t(n)的方差比N(0,1)大一些。

自由度为1的分布称为柯西分布,随着n 增加,t 分布的密度函数越来越接近标准正态分布的密度函数。

实际应用中,当n ≥30时,t 分布于标准正态分布很接近。

另有一个关于t 分布的抽样分布:)1-n (t ~S)-X (n μ,称为服从自由度为(n-1)的t 分布。

35. F 分布:设随机变量Y 与Z 独立,且Y 和Z 分别服从自由度为m 和n 的2χ分布,随机变量X 如下:mZnYn /Z m /Y X ==。

则成X 服从第一自由度为m ,第二自由度为n 的F 分布,记为X~F(m,n)。

E(X)=n/(n-2),n>2;D(X)=)4-n )(2-n (m )2(n 22-+n m ,n>4。

36. t 分布与F 分布的关系:如果随机变量X 服从t(n)分布,则X 2服从F(1,n)的F 分布。

这在回归系数显著性检验中有用。

37.X 的抽样分布(sampling distribution ):当总体分布为正态分布时,X 的抽样分布仍然是正态分布,此时E(X )=μ,D(X )=σ2/n ,则),(N ~X 2nσμ。

其说明当用样本均值去估计总体均值时,平均来说没有偏差(无偏性);当n 越来越大时, X 的散布程度越来越小,即用X 估计μ越来越准确。

38. 中心极限定理(central limit theorem ):不管总体的分布是什么,只要总体的方差σ2有限且要求n ≥30,此时样本均值X 的分布总是近似正态分布,即X ~N(μ,σ2/n)。

39.样本比例的抽样分布:如果在样本大小为n 的样本中具有某一特征的个体数为X ,则样本比例为:)n)1(,(N ~n X p ^πππ-=。

π是总体比例,即p^=X/n=π。

40. 两个样本均值之差的分布:若为两个总体,则:41. 212121)X (E )X (E )X -X (E μμ-=-=;42. 2221212121n n )X (D )X (D )X -X (D σσ+=+=;若是两个样本,则:43. 212^1^)p -p (E μμ-=;44. 2221112^1^n )1(n )1()p -p (D ππππ-+-=。

45.样本方差的分布:设X 1,X 2,…,X n 为来自正态分布的样本,则设总体分布为N(μ,σ2),则样本方差S 2的分布为:)1-n (~S )1-n (222χσ。

相关主题