2. 数据汇总Summarizing Data频数分布与图形展示本章和下一章讨论有关统计描述的问题。
关于收集、组织、展示数值数据的方法。
其中包括描述各种数据分布,各种统计图形的使用,描述数据的各种指标,如平均值、期望值、方差等等。
2.1 频数分布Frequency distribution为了进行决策或推断,我们需要信息。
例如,为了进行制定有关销售方面的决策需要了解员工的实际销售情况,或者说要获得有关销售的信息。
获得了数据以后,就需要对数据进行组织,也就是将数据组织成容易观察的形式。
然后就是展示数据,通常都是以图形的方式。
最后就可以得出关于这一组数据的结论,并将这些结论用于决策。
一种常用的方式是首先获得一组原始数据。
将这组数据组织成数组,即将数据从大到小或从小到大进行排序。
然后将其总结成一组频数分布。
也就是将这一数组按一定的间隔进行计数,清点出位于每一间隔中的数据出现的次数。
这样就获得了频数表或频数分布。
频数分布就是一张显示一组数据位于每一独立区间间隔内的次数的数据表格。
频数分布也称为频数表。
频数分布又可以划分为定性数据的频数分布和定量数据的频数分布。
一般我们主要对定量数据进行频数分布研究。
为了建立一频数分布,我们需要确定: ▪ 间隔的数量,▪ 间隔的长度(或宽度),▪ 间隔的边界,或者说是划分间隔的位置 然后我们就可以清点落在每一间隔中的数值。
例:PP28表2-2显示了一个频数分布。
确定间隔长度(或宽度)的公式为:间隔数量最小值最大值估计的间隔长度-=在此,如果间隔数量选为8,则间隔的长度应该为:813.882600096500=-=估计的间隔长度当然,这个数值看起来不太好,所以可以取整为9000或10000。
如果我们不能确定应该用多少个间隔数量,则可以通过下列估计间隔长度的公式进行计算:)(322.31样本数最小值最大值间隔数长度Log +-=对于书中第27页表2-1中的例题,847120419983.2*322.3170500)160(322.312600096500=+=+-=Log 间隔数值然后是确定间隔的边界,通常我们以观察值中的最小值作为下界,最大值作为上界。
最后进行清点,即可得到频数分布表。
根据频数分布表可以作出分布图形,这种图形常用直方图的形式表示。
注意,如果上述参数估计的不合适,作出的图形会有多峰现象出现,也就是说难以准确描述对象的特征。
2.2 相对频数分布由于我们已经有了绝对频数值,因此可以计算出相对频数值出来。
如PP32表2-5所示。
2.3 频数分布的图形展示通过频数分布表,可以得到频数分布图Histogram ,如PP 36图2-2所示。
2.4 茎叶图(Stem and leaf display )2.5 频数多边形在频数分布图的基础上我们可以得到频数多边形(Frequency Polygon)。
见PP43 图2-4和图2-5。
2.6 累积频数多边形在频数多边形的基础上我们可以得到累积频数多边形(Cumulative Frequency Polygon)。
其中,又分为少于累积频数多边形和多于累积频数多边形。
见PP47图2-6和图2-7。
2.7 统计要素与图形图形是一种非常有效的交流方法和工具。
统计工作者常常借助于图形来展示数据。
统计图形的种类很多,常见的有:线形图、条状或柱状图,饼图、组合图等。
如EXCEL中的各种图形。
PP52至59给出了各种图形的样式。
线形图:条状或柱状图:饼图:组合图:2.8 频数分布的类型▪对称分布▪正偏斜分布▪负偏斜分布▪单峰分布▪双峰分布▪标准正态分布▪尖峰态分布▪平峰态分布▪3. 数据描述——集中趋势指标Measures Central Tendency对于统计中用到的各种数据整体或样本,我们可以用前面用到的图形的方式展现出来,同时我们也希望用某种方式将这些数据所表示的意义用一个或几个简单的指标表示出来,这样就产生了数据描述指标的概念。
数据描述指标分为两类,一类是描述数据整体或样本集中程度或趋势的指标(measure of central tendency ),其中最常见的就是平均值。
另一类是描述数据整体或样本发散或分散趋势的指标(Dispersion ),其中最常见的就是方差。
以下指标主要是用来衡量样本的集中趋势的。
3.1 总体算术平均数(population mean )NxNx x x Ni in∑==+++=121Λμ3.2 样本算术平均数(sample mean )nxnx x x x ni in ∑==+++=121Λ一般说来,用μ表示总体的均值,用x 表示样本的均值。
均值的性质:● 每组间隔层次、比例层次的数据都有一个均值; ● 计算均值时需要用到所有数值; ● 一组数据只有一个均值;● 在进行两组或以上的总体进行比较时,均值非常有效; ●∑=-0)(X X ,即均值为一组数据的重心。
● 均值易受极端值的影响;● 对于开放区间的频数分布的数值,求不出均值。
3.3 中位数(Median )当一组数据中包含一个或二个非常大或小的数值时,算术平均值就不具有代表性了。
如:房价问题最能说明问题。
在引情况下可以采用中位数指标。
所谓中位数就是一组从小到大(或从大到小)按顺序排列的一组数据中间位置的数据的数值。
例(奇数样本):1 1 2 3 3 8 11 14 19 19 20例(偶数样本):2 5 5 6 7 10 15 21 21 23 23 25 中的10+15/2=12.5中位数性质:● 唯一性,任何一组数据只有一个中位数; ● 需要首先进行排序,然后才能进行计算; ● 不受极端值的影响● 对于开放区间的频数分布的数据也能求 ● 对比例、间隔、顺序层次的数据都能求3.4 众数(Mode )一组数据中出现次数最多的数。
对于名词层次、顺序层次的数据非常有用。
例:140 125 130 125 125 110 105 125 135 125 105 中的125 当数据较多时,众数有且于用来寻找算术平均值和中位数。
3.5 加权平均数(Weighted Mean )在许多情况下简单的平均值是不能说明问题的,如:工资标准与平均工资的问题。
因此需要用到加权平均值。
∑∑=++++++=iii nnn ww x w w w x w x w x w ΛΛ212211μ3.6 几何平均数(Geometric Mean )这也是为了消除极端数值的影响,不过是另一种处理方式。
n n x x x x GM Λ321=几何平均值有两个用途,即:● 求平均百分比值、指数值、相对值等; ● 确定平均值的增长率等。
例:pp86, 883.7 分组数据的均值、众数和中位数经常我们面对的数据是经过分组后的数据,或作过频数分布的数据。
对于这样的数据也可以求出相应的集中趋势指标。
算术平均值:nfXX ∑=中位数:根据定义中位数就是有一半的数据在它的下面,另一半在它的上面。
因此求分组数据的中位数也需要首先进行排序(求出累积频数分布表),然后确定中位数所在的组,最后按下列公式计算:)(2i fCFn L Md -+=其中,L 是分组数据的下限值,CF 是该组前累积的数据个数,f 为该组数据出现的频数,i 为该组数据的值。
众数:对于单峰数据(unimodal ),众数就是频数最大值所对应的分组数据的数值。
对于双峰数据(bimodal )则可以将其分成两组独立数据,这样就有两个众数。
例pp95。
3.8 在频数分布图上确定均值对称分布、正(右)偏斜分布—尾在右边、负(左)偏斜分布—尾在左边。
Pp97-99 对于一般偏斜程度的数据有下列公式:3223)(3Mo m Md MoMd m Md m m Mo +=-=--=3.9 调和平均数(Harmonic Mean )∑=+++=xn x x x nM H n1111..21Λ3.10 集中趋势指标的选择与比较对于集中趋势的描述指标具有这样的特性,即频数分布或历史数据的形态会对这些指标有重大影响。
如果分布是对称的(symmetric)和单峰的(unimodal),则算术平均值x、中位数Md、众数Mo将会重合。
对于非对称分布或偏分布(skewed),则会依偏斜的位置而定。
假如是右偏斜,分布图形的右边很长,这时几个指标的关系是:众数> 中位数> 均值。
假如是左偏斜则关系相反。
平均值对于极端值特别敏感。
如,一个小镇的100户居民的年平均收入为9990元,假如有一户的收入为900,000元,其余99户的收入都是1000元,这个数值是正确的但是有可能产生误导。
但是极端数值对于众数和中位数没有影响。
例如,对于下列数值,1 3 4 6 6 9 13我们可以得到x = 6,Md = 6, Mo = 6。
如果将70加入到上述数据中,均值会变成14,而中位数和众数不变。
当我们要对几组数据作比较时,代数的方法具有显著的优点。
算术平均值是代数方法,而众数和中位数则不是。
其优越性主要体现在,如果我们从一个总体中随机地抽取几组样本数据,不同的样本的众数和中位数会有很大差异,而算术平均值的差异则会小得多,所以算术平均值具有稳定性。
而且算术平均值便于进行数学计算和理论处理。
所以通常选择的次序为,算术平均值用得最多,其次为中位数,再次为众数。
4. 离散趋势在许多情况下仅以集中趋势指标是不能准确反映出数据的特征的,还需要其他指标。
以下指标主要是用来衡量样本的变异程度、发散程度、散布程度的。
4.1 全距(Range ):样本或总体中的最大值减最小值。
4.2 中位差或误差(Deviation from the mean ):假定在全体中有N 个数,X 1,X 2,X 3,。
X n ,的均值为μ。
则X i 距μ的距离)(μ-i x 就称为中位差或简称为误差。
显然,误差有正有负。
为了衡量总体的误差,需要计算:∑=-Ni ixN1)(1μ由于0)(1=-∑=Ni ixμ上述结果对于样本也同样适用。
其原因在于误差有正有负,相加之后相互抵消了。
因此为了衡量总体或样本的误差,我们需要忽略误差前面的符号,即采用取绝对值的方式来计算总体或样本的总误差,这样就产生了平均绝对误差或简称为MAD 或MD :∑=-=ni i x n MD 11μ4.3 总体的方差与标准差(Variance and standard deviation )采用平方的方式也能消除正负符号的影响,即用误差的平方,0)(12=-∑=Ni ixμ上式的平均值就是均方差,或简称为方差,∑=-=Ni i x n 122)(1μσ或写成便于计算的形式,⎥⎥⎦⎤⎢⎢⎣⎡⎪⎭⎫ ⎝⎛-=-=∑∑∑===211212211)(1N i i N i i Ni ix N x N x N μσ方差的平方根就称为标准差,即,∑=-==Ni i x N 122)(1μσσ 例:pp120--1214.4 样本的方差与标准差对于样本来说,计算其算术平均值的公式是一样的,只不过可以用不同的符号来区分。