当前位置:文档之家› 四、几种常见的统计指标与参数

四、几种常见的统计指标与参数

上机实习内容2几种常见的统计指标与参数一、描述地理数据集中趋势的指标 1、 平均数(Mean )(1) 算术平均数(Arithmetic mean ) ① 简单算术平均数(Simple arithmetic mean )设有n 个地理数据n x x x x ,,,,321 ,其算数平均数x 可按下式计算:∑==++++=n i i n x n n x x x x x 13211练习1求上海市1873-1940年100年内的年平均降水量的简单算术平均数。

/*调用Excel 中的average()函数求样本的简单算数平均数*/ 注意:样本的简单算术平均数易受极端值的影响,如有以下样本资料:表1-1 13个样本的属性值样本序号 1 2 3 4 5 6 7 8 9 10 11 12 13 属性值57546785478620全部资料的简单算术平均数约为7.08,实际上大部分数据(有10个)不超过7,如果去掉第13个属性值20,则剩下的12个数的平均数为6。

② 加权算术平均数(Weighted arithmetic average )设有n 个地理数据n x x x x ,,,,321 ,其权重系数分别为n f f f f ,,,,321 ,其加权算术平均数x 可按下式计算:∑∑===++++++++=ni ini ii nn n ffx f f f f f x f x f x f x x 11321332211练习2根据黄土高原西部地区某山区县的人工造林地调查的分组数据求其加权算术平均数。

表1-2 某县人工造林地面积的统计分组数据 (单位:ha )分组序号 1 2 3 4 5 6 7 8 9 10 11 组中值 0.5 1.5 2.5 3.5 4.5 5.5 6.5 7.5 8.5 9.5 10.5 频数25961362142532862602031548524/*运用Excel 中的相对引用功能和求和sum()函数*/494.524962524*5.1096*5.125*5.0≈++++++=x(2) 几何平均数(Geometric mean )设有n 个地理数据n x x x x ,,,,321 ,其几何平均数g x 可按下式计算:n n i g x x x x x ⋅⋅⋅⋅= 21练习3一位投资者持有一种股票,1997-2000年收益率如下表,计算该投资者在这四年内的平均收益率。

表1-3 投资者4年的收益率年份 1997 1998 1999 2000 收益率1.0451.021.0351.054/*调用Excel 中的geomean()函数求样本的几何平均数*/038.1054.1*035.1*02.1*045.14≈2、 中位数(Median )将各个数据从小到大排列,居于中间位置的那个数就是中位数。

(1) 未分组资料的中位数①当地理数据项数n 为奇数时,变量按大小顺序排列,第21+n 位数是中位数e m ,即 21+=n e x m练习4 求某地9年年平均气温的中位数。

表1-4 某地9年年平均气温表 (单位:℃) 4.854.53.94.75.14.44.65.2计算步骤:㈠ 对原始数据序列排序/*运用Excel 中的排序功能*/ 3.94.44.54.64.74.855.15.2㈡ 根据公式求得中位数7.45219===+x x m e②当地理数据项数n 为偶数时,变量按大小顺序排列,第2n 项与第2n+1项的平均数为中位数e m ,即)(21122++=n n e x x m练习5 求某地8年季节性冻土深度的中位数。

表1-5 某地8年季节性冻土深度 (单位:mm )505153.55353.6525758计算步骤:㈠ 对原始数据序列排序/*运用Excel 中的排序功能*/5051525353.553.65758㈡ 根据公式求得中位数25.53)535.53(*21)(21)(215412828=+=+=+=+x x x x m e(2) 分组资料的中位数对于分组的资料,可按下式计算中位数mm me e f hf nL M )2(1--+=式中,n 为样本大小,me L 为中位数所在组的下限值,1-m f 为中位数所在组的前一组的累积频数,m f 为中位数所在组的频数,h 为组距。

练习6 求上海市1873-1940年100年内的年平均降水量的分组资料的中位数。

计算步骤:首先求出分组资料的累积频数,如表组序 组上限 组下限 频数 累积频数 1 649.7 768.7 1 1 2 768.7 887.7 7 8 3 887.7 1006.7 16 24 4 1006.7 1125.7 27 51 5 1125.7 1244.7 22 73 6 1244.7 1363.7 14 87 7 1363.7 1482.7 8 95 8 1482.7 1601.7 3 98 9 1601.7 1720.7 2 100由样本的大小(数据个数,为100)和累积频数可知,中位数所在的分组为累积频数小于51的分组,即中位数在第4组。

则根据公式可求出该分组资料的中位数为293.112127119*)242100(7.1006≈-+=e M有没有更简单的方法?直接调用Excel 中的median()函数。

3、 众数(Mode )众数是一个地理观测系列中出现频数(次数)最多的数。

(1)未分组资料的众数根据每一个数据出现的频数大小直接确定众数。

练习7 求如下数据序列的众数。

序号1 2 3 4 5 6 7 8 9 属性值161 73 163 165 74 76 72 73 169 根据目视结果可知,属性值73出现了两次,其他属性值只出现一次,因此该数据序列的众数为73。

/*当样本较大时,可先运用Ecxel 中的排序功能对数据排序,再确定众数*/ (2)分组资料的众数对于分组的资料,可按下式计算众数o Mh f f f L M m m m mo o ⨯++=+-+111式中, mo L 为众数所在组的下限值,1-m f 为众数所在组的前一组的频数,1+m f 为众数所在组的后一组的频数,h 为组距。

练习8 求上海市1873-1940年100年内的年平均降水量的分组资料的众数。

计算步骤:组序 组上限 组下限 频数 1 649.7 768.7 1 2 768.7 887.7 7 3 887.7 1006.7 16 4 1006.7 1125.7 27 5 1125.7 1244.7 22 6 1244.7 1363.7 14 7 1363.7 1482.7 8 8 1482.7 1601.7 3 9 1601.7 1720.7 2根据频数分布表可知众数所在组为第4组。

则根据公式可求出该分组资料的众数为6.10751192216227.1006≈⨯++=e M有没有更简单的方法?直接调用Excel 中的mode()函数。

/*在调用mode()函数时,若样本中无重复属性值,则函数出错*/二、描述地理数据分散趋势的指标 1、极差(Range ) 2、离差(Deviation )每一个地理数据与平均值的差。

x x d i i -=),,2,1(n i =/*缺点:离差会得到一系列的数据,不便于两个样本的比较。

如:我国辽宁省朝阳县和宁夏回族自治区固原县两地多年平均降水量资料如下表,分别计算两地多年平均降水量的离差,得到结果如下表2-1 两地多年平均降水量及离差 (单位:mm )年份1961 1962 1963 1964 1965 1966 1967 1968 1969 1970 朝阳 年降水量412 633.7 608 606.3 520.5 436.2 402.7 371.9 692.8526.3 离差-109.04 112.66 86.96 85.26 -0.54 -84.84 -118.34 -149.14 171.765.26 固原 年降水量732.4 412.5 373.4 766.4 475.9 619.2 515.6 501.1 352.6434.2 离差214.07 -105.83 -144.93 248.07 -42.43 100.87 -2.73 -17.23 -165.73 -84.13由表可得到每个地区的多年平均降水量波动情况,但两个地区的多年平均降水量变动幅度大小很难比较*/4、 离差平方和(Sum of squares ) 各数据的离差平方后再相加。

目的:一是为了消除正负号;二是使离散程度更清楚。

∑∑==-=ni i ni ix x d1212)(/*调用Excel 中的devsq()函数求样本的离差平方和*/ 5、 方差(variance )各离差平方和除以其数据的个数。

对于总体方差2σ,其计算公式为∑=-=ni i x x n 122)(1σ/*调用Excel 中的varp()函数求总体方差*/ 对于样本的方差2S ,其计算公式为∑=--=ni i x x n S 122)(11 /*调用Excel 中的var()函数求样本的方差*//*式中1-n 称为自由度。

其含义可做如下解释。

设一个样本含有n 个变量,从理论上讲n 个变量都同样用来计算方差,每一i x 与x 比较就有n 个离差。

但均值本身也是从样本资料中估算出来的,即由每一个变量各贡献n1而组成,如每一个变量与x 作一次比较,这无形中就等于各个变量与其自身的n1做比较,因此每一离差比独立比较时要稍微减小些,表面上虽有n 个比较,但实质上仅相当于1-n 个独立比较。

所以,在估计方差时,用1-n 来除。

*/6、 标准差(Standard deviation ) 标准差为方差的算术平方根。

总体的标准差计算公式为nx x ni i∑=-=12)(σ/*调用Excel 中的stdevp()函数求总体的标准差*/样本的标准差计算公式为1)(12--=∑=n x x S ni i/*调用Excel 中的stdev()函数求样本的标准差*/7、 变异系数(Variation coefficient ) 标准差与均值的比值。

当两个系列数值的单位不同或均值相差较大,或它们的标准差相同时,就不能简单地用标准差的绝对值来比较不同均值时随机系列的离散程度。

变异系数v C 的计算公式为1)(112--==∑=n x x xx S C ni i v三、描述地理数据分布特征的指标1、 偏度系数(Coefficient of skewness )描述了地理数据分布的不对称性,刻画了以平均值为中心的偏向情况,其计算公式为∑=-=ni i x x n g 131)(1σ1g <0,表示负偏,即均值在峰值的左边;1g >0,表示正偏,即均值在峰值的右边;1g =0,表示对称分布。

相关主题