当前位置:
文档之家› 统计学方法概述精品PPT课件
统计学方法概述精品PPT课件
的平方和,所以对特别高的值很敏感。 标准方差:标准方差为方差的平方根值。 四分位数全距:四分位数全距也可用来量度测 量值的分散情况,四分位数全距是上、下两个 四分位数之差:IQR= Q3 - Q1
1. 单变量基本统计
1.4 常用统计量-形状的量度 倾斜系数:倾斜系数常用来表征分布对称性
Cs
1 n
5
7
7
9
9
22
22
38
38
49
49
62
62
79
79
92
92
96
96
100
100
1.单变量基本统计
1.2 累积频率和直方图
如果随机变量X是连续变化的,由频率和累积
频率分布分别引入概率密度和概率分布函数的概 念,有以下关系:
FX (x) P( X
x)
x
f (u)du
(2.2)
式中 FX (x) 是随机变量 X 低于或等于截断值 x 的累积频率,P 是概率分布, f (x) 是概
n i 1
(xi m)3
3
式中 m 和 分别为均值和标准方差。 C s 对特别高的值尤为敏感,因此通常不是用 C s 的值
而是用其正负号来描述分布的对称性。正的 C s 值表示直方图的分布向右方(高的数据值方
向)倾斜,即拖一个长的尾巴,在此情况下,中值比均值小;而负值则表示直方图向左方(低
的数据值方向)倾斜,在此情况下,中值大于均值。如 C s 接近于 0,则直方图大致对称,
率密度函数。
1.单变量基本统计
1.3正态和对数正态分布
如果某一变量服从正态分布,那么对这一变量的理论分析和估计方
法的处理会带来很多便利。因此,对于收集到的数据,我们往往希望知
道它们的分布与正态分布有多接近,正态分布图就是用来解决这一问题
的。将累积频率点在正态分布图纸上,如数据是正态分布的,那么累积
表 2.2 变量 Z1 值的频率 (区间宽度为 10 ppm)
区间(ppm)
数据个数
百分数(%)
Z1<10 Z1<20 Z1<30 Z1<40 Z1<50 Z1<60 Z1<70 Z1<80 Z1<90 Z1<100 Z1<110 Z1<120 Z1<130 Z1<140 Z1<∝
1
1Leabharlann 2222
2
2
5
1
1
1
1
0
0
0
0
3
3
2
2
2
2
13
13
16
16
11
11
13
13
17
17
13
13
4
4
4
4
1.单变量基本统计
1.2 累积频率和直方图
表里不是记录在某些区间数值个数,而是记录了低于某些截断值的总的数值个数,及 其与总的数据个数的比值,相应的积累频率是在0和100%之间的不减函数。积累频率分
。 布可以用直方图表示
这种变量就称为对数正态分布。即如变量Y=ln(X)是正态分布,X就是
对数正态分布,概率密度函数为
f (x) 1 1 exp[ (ln x )2 ]
2 x
2 2
(2.4)
式中 2 是 Y 的方差, 是 Y 的均值。Y 和 X 的均值和方差关系如下:
X 的均值 E( X ) exp( 2 2 )
分相似,四分位数将数据系列分为四个部分,如果 数据以递增顺序排列,那么四分之一的数据低于第 l四分位数(Q1),四分之一的数据高于第3四分位 数(Q3)。
1. 单变量基本统计
1.4 常用统计量-量度变量的分散性 方差:方差 用以下公式计算:
式中m是 2均值1n,in1因(x方i 差m涉)2及到观测值与均值差
1.单变量基本统计
1.1 频率和直方图
表总结了上图中100个Z1值的在各取值区间的频率分布,表中结果也 可以用直方图来。
表 2.1 变量 Z1 值的频率 (区间宽度为 10 ppm)
区间(ppm)
数据个数
百分数(%)
0≤Z1<10 10≤Z1<20 20≤Z1<30 30≤Z1<40 40≤Z1<50 50≤Z1<60 60≤Z1<70 70≤Z1<80 80≤Z1<90 90≤Z1<100 100≤Z1<110 110≤Z1<120 120≤Z1<130 130≤Z1<140 140≤Z1<∝
m
1 n
n i 1
xi
式中 n 是数据的个数,x1,x2,…,xn 是数据值。
中值:将观测值按递增顺序排列,中值M就 是这些数据的中心点,一半的观测值在中 值之下,一半在中值之上。
1. 单变量基本统计
1.4 常用统计量-位置的量度 众数:众数是最常出现的观测值。直方图中频率
最高所对应的数据区间就包含了众数值 第1和第3四分位数:与中值将数据系列分成两部
(2.5)
X 的方差 V a r( X ) e xp2( 2 ) [ e xp(2 ) 1]
(2.6)
1.单变量基本统计
1.4 常用统计量 样本数据的统计量可以归为三类:(1)量度样本数据分布位置; (2)
量度样本数据分布分散情况;(3)量度样本数据分布形状。 (1) 给出变量分布的各部分所在的位置,比如均值、中值和众数
第二章 统计学方法概述
1.单变量基本统计
1.1 频率和直方图
最常用的表达数据的统计方式就
是使用频率表和与之相关的直方
图,频率表记录落于某些区段的 频率。一般来说,设随机事件A 在n次试验中出现nA次,那么比值
f n ( A)
nA n
叫做事件A在这n次试验中出现的 频率。
图2.1 在10cm×10cm网格中的变量Z1的100个测量值(单位:ppm)
频率图就应是一条直线。
正态分布的概率密度函数数学表达式如下:
f (x)
1
(x )2
exp[
]
2
2 2
(2.3)
式中 2 是方差, 是均值, f (x) 是一条以均值为中心的对称钟形曲线。
1.单变量基本统计
1.3正态和对数正态分布
实际中,许多变量并不接近正态分布,通常情况下,它们的样本 值有许多很小的值和一些很大的值.虽然正态分布不适合用来表征这 种不对称分布,但与之相联系的另一种分布——对数正态分布有时却 是一种较好的选择。如果将变量进行对数变换后的新变量是正态分布,
给出了分布的中心所在,分布的其他位置由各种四分位数来表征; (2)包括方差和标准方差等,主要用来描述数据值的分散度,这些
统计值越大,表示数据越分散; (3)对形状量度的统计量包括倾斜系数和变异系数等,倾斜系数用
来描述分布的对称性,而变异系数则用来描述一些分布的尾部长度。
1.单变量基本统计
1.4 常用统计量-位置的量度 均值:均值均:值均值mm就就是是样样本本数据数的据算术的平算均 术平均