第四章 数据分布特征的测度§1概述§2 集中趋势的测度一、集中趋势的含义(一)集中趋势的概念集中趋势(Central tendency )是指一组数据向某一中心值靠拢的倾向,测度集中趋势也就是寻找数据一般水平的代表值或中心值。
(二)集中趋势的内容 1.均值(Mean ) 算术平均数 调和平均数 几何平均数 切尾均值 2.位置平均数 中位数 四分位数 十分位数 百分位数 3.众数 二、众数1.概念众数(Mode )是一组数据中出现次数最多的变量值,用0M 表示。
主要用于测度定类型数据的集中趋势。
2.单项分组数列)max(0i f x M例:为研究广告市场的状况,一家广告公司在某城市随机抽取200人就广告问题作了邮寄问卷调查,其中的一个问题是:“您比较关心下列哪一类广告?”①商品广告;②服务广告;③金融广告;④房地产广告;⑤招生招聘广告;⑥其他广告。
表4-1 某城市居民关注广告类型的频数分布=0M 商品广告3.组距分组数列①确定众数组——频数最多的组 ②计算众数值图4-1 众数值计算示意图可见,众数实际上是频数最大组的下限加上按一定几何比例分配组距所得到的那段组距,即X L M +=0因为211∆+∆+=∆y x x d y x x 211211)(∆+∆∆=+∆+∆∆=所以 d L M 2110∆+∆∆+=(下限公式)同理,可得上限公式: d U M 2120∆+∆∆-=例:某地区3000家农户的年收入情况资料如下:解:57048010501=-=∆; 45060010502=-=∆ 所以 7559100045057057070000=⨯++=M (元)三、位置平均数1.中位数 中位数(Median )是一组数据按从小到大排序后,处于中间位置上的变量值,用e M 表示。
中位数是一个位置代表值,它主要用于测度定序数据的集中趋势。
2.根据未分组资料确定中位数①按标志值大小进行排列得),,,(21n x x x Λ;②计算中间位置)21(+=n ; ③计算中位数具体数值。
标志值个数为奇数时 )21(+=n e x M 标志值个数为偶数时2)22()2(++=n n e x x M3.根据分组资料确定中位数 ①单项分组资料ⅰ计算中位数位置)2(∑=f ;ⅱ将分组数列的次数进行向上或向下累计;ⅲ选择第一个大于或等于2∑f 的组即为中位数所在组;ⅳ对应的标志值为中位数。
②组距分组资料ⅰ、ⅱ、ⅲ同单项分组资料; ⅳ计算中位数值:图4-2 中位数值计算示意图设标志值次数在一组内为均匀分布的,运用插值法,得m m e f S f d L M 12--=-∑ 整理得下限公式:d f S f L M mm e ⨯-+=-∑12 上限公式:d f S fU M mm e ⨯--=+∑12 例:某地区3000家农户的年收入情况资料如下:7743100010507000=⨯+=e M (元)2.四分位数四分位数(Quartile )也称四分位点,它是通过三个点将全部数据等分为四部分,其中每部分包含25%的数据,处在分位点上的数值就是四分位数。
①下四分位数l Q ②中位数m Q ③上四分位数u Q3.十分位数和百分位数①十分位数(Decile )是通过九个点将全部数据等分为十部分,其中每部分包含10%的数据,处在分位点上的数值就是十分位数。
②百分位数(Percentile )是通过99个点将全部数据等分为100部分,其中每部分包含1%的数据,处在分位点上的数值就是百分位数。
四、均值1.算术平均数算术平均数(Arithmetic mean )是全部数据的算术平均,是集中趋势的最主要测度值,用X 表示。
①未分组数列——简单算术平均数nxnx x x x ni in ∑==+++=121Λ例:某机械厂某生产小组6个工人生产某种零件的日产量(件)分别为15、16、17、18、19、20。
则平均日产量为5.1761056201918171615==+++++=x (件)②分组数列——加权算术平均数∑∑∑∑======++++++=ni ni iii n i ini iinnn ff x ff xf f f f x f x f x x 1111212211)(ΛΛ例:某机械厂180个工人对某种零件的生产情况资料如下:180180==x (件) ⅰ标志值的选择——在组距分组数列中以组中值为标志值例:某机械厂180个职工的工资资料如下:7.63015009460008181===∑∑==i ii iiff xx (元) ⅱ权数的选择——i i f x 要有实际意义例:某管理局下属10家企业1995年的产量计划完成情况资料如下:000000000010210112021103100495=⨯+⨯+⨯+⨯=x000000000025.1111205012040110201001095=⨯+⨯+⨯+⨯=x③算术平均数的性质ⅰ各变量值与算术平均数的离差之和等于零;0)(1=-∑=Ni iX Xⅱ各变量值与其算术平均数的离差平方和最小;∑∑==-=-Ni i Ni iA X X X1212)()(2.调和平均数调和平均数(Harmonic mean )是均值的另一种表现形式,它是标志值倒数的算术平均数的倒数,用H 表示。
①未分组数列——简单调和平均数∑==+++=ni inx n x x x nH 1211111Λ②分组数列——加权调和平均数∑∑===++++++=ni ii ni inn nx m mx m x m x m m m m H 11221121ΛΛ例:某工厂本月购进某材料四批,每批价格以及采购金额如下:02.411219500004141===∑∑==i ii i ix m mH (元) 3.几何平均数几何平均数(Geometric mean )是N 个变量值乘积的N 次方根,是标志值对数的算术平均数的反对数,用G 表示。
①未分组数列——简单几何平均数nni i n n xx x x G ∏===121Λ例:某机械厂有毛坯车间、粗加工车间、精加工车间、装配车间四个流水连续作业的车间。
本月份毛坯车间制品合格率为95%,粗加工车间为92%,精加工车间为90%,装配车间为85%。
求该企业平均车间产品合格率。
00443.909043.085.090.092.095.0==⨯⨯⨯=G②分组数列——加权几何平均数)(1)(2112121∑===∏=+++ni i i n n f ni f i f f f f nf f x x x x G ΛΛ例:某银行某年实行保值储蓄,各月的利率分配为:有4个月为3%,2个月为5%,2个月为8%,3个月为10%,1个月为15%。
求该银行的平均月利率。
0682.115.110.108.105.103.11322413224=⨯⨯⨯⨯=++++G 所以,月平均利率为1.0682-1=0.0682=6.82% 五、算术平均数、中位数、众数的关系1.对称分布(钟型分布)eo M X M ==2.右偏分布(正偏分布)e o3.左偏分布(负偏分布)oe M M X <<§2 离散趋势的度量一、全距 Range1、概念全距是指总体各单位标志值中最大值与最小值之差,又称极差。
2、计算[1] 未分组数列:全距=)m in()m ax (i i x x - [2] 单项分组数列:全距=1x x n -[3] 组距分组数列:全距=最上组的上限-最下组的下限 3、优缺点[1] 优点:计算简便、易于了解。
[2] 缺点:方法粗略,易受极端数值的影响,因而测定的结果往往不能充分反映现象的实际离散程度。
二、四分位差 Quartile deviationL U D Q Q Q -=三、平均差 Mean deviation (..D A )1、概念平均差是各单位标志值与算术平均数的离差绝对值的算术平均数。
2、简单算术平均差——未分组资料n xx D A n i i ∑=-=1..7005==x (元) 12052001000100200..=++++=D A (元) 3、加权平均差——分组数列∑∑==-=n i in i ii ff x x D A 11.. 四、方差(2σ)和标准差(σ)1、概念标准差又叫均方根差,是采用平方的方法来消除离差的正负号。
2、简单标准差nx x n i i ∑=-=12)(σ 如上例,14152001000)100()200(22222≈+++-+-=σ(元) 3、加权标准差∑∑==-=n i ini i iff x x 112)(σ 五、标准化值 Standard scoreσXX Z i i -=六、标志变异系数(离散系数)Coefficient of variation1、平均差系数00..100..⨯=xD A D A ν 2、标准差系数00..100⨯=x D A σν§3 偏态与峰度趋势的测度一、偏态(Skewness )趋势及其测度∑∑==-=n i ini ii f f X X a 13133)(σ 当⎪⎩⎪⎨⎧<=<正偏或右偏对称负偏或左偏000333a a a二、峰度(Kurtosis )趋势及其测度3)(14144--=∑∑==n i iK i ii f f X X a σ 04>a 尖峰分布04<a 平峰分布。