当前位置:文档之家› 平均指标-统计学基础知识课件.doc

平均指标-统计学基础知识课件.doc

第一节平均指标对统计数据进行排序分组整理是对数据的分布特征进行描述的一个基本方面为进一步掌握数据分布特征及其变化规律以进行深入的分析还需找出反映数据分布特征的各个代表值统计学中刻划数据分布特征的的最主要的代表有二数据分布的集中趋势与数据分布的离散程度例美国1家具有福利院性质的医院Barnes Hospital该项活动中每月都有数据统计及分析以用来进行该项活动的调整与实施如有一组关于病人进入救助活动的时间长度的数据67个样本时间长度从1天到185天除了对该组数据进行频数方面的描述和分析外下面的统计方法在描述数据分布特征及分析方面也很重要均值mean 357天中位数median 17天众数Mode 1天Interpretation 1 the average time a patient stays in the Program is 357days or slightly over a month 2half of the patients are in the Program 17 days or less and half are in the Program 17 days or more 3 many patients have a short day in the Program 集中趋势是指一组数据向某一中心值靠拢的倾向测度集中趋势就是寻找数据一般水平的代表值或中心值一均值Mean 均值就是一,组数据的平均值average value用来测度中心位置central location基本形式是标志值总量单位数总量1简单算术平均对样本其中n 为样本数对总体其中N为总体单位数2加权算术平均其中为权数加权算术平均往往适用于对分组后的数据求均值这时Xi为各组变量代表值往往取组中值为各组变量值出现的频数例1 一组大学班级人数规模的数据5个班如下465442463254 在未分组的情况下其均值为44 如果分成如下组别I32II42III4646IV54则其均值为例2美国一个关于大学生毕业后工作起薪的问卷调查Table 1 Monthly Starting Salaries for a Sample of 12 College Graduates Graduates Monthly Graduates Monthly Graduates Monthly Salary Salary Salary 1 2350 52255924402 24506221010 2852 3 255072390112428423808263012 2380未分组时的算术平均值为2440算术均值具有如下性质1各变量值与其均值的离差和为零2各变量值与其均值的离差平方和最小▲ 注意均值容易受到统计数据中个别极端数据的影响从而使均值代表某组统计数据的平均水平时失去意义这时往往用剔除极端值的方法加以修正如例2中如果将月薪2825的最高值用10000代替则均值为3038 2几何平均数Geometric Mean 1几何平均数是N个变量值乘积的N次方根上述班级人数规模例中几何平均数为4337 可看出几何平均数算术平均数2加权几何平均数其中为的权数几何平均数的对数是各变量值对数的算术平均几何平均主要用于计算比率或速度的平均例3某水泥生产企业1995年产水泥100万吨199619971998年的水泥产量分别上一年增长916与20则19961998年的年均增长率为例4银行为吸收存款逐年提高利率5年各年年利率分别为10%12% 15%18%24%如果第1年存入1000元问5年后实际存款额达到多少元分别用单利率和复利率来算求出其对应的平均利率分析单利率5年后实际存款额1000 £ 1000X年利率1790元求平均利率可以用一未知数代替上式中的实际数据与原式是相等的即单利率时1000 £ 1000 X年利率1000 S 1000XA 得A E年利率5 可用简单算术平均数计算平均利率复利率5年后实际存款额 1 年后10001000 X 10 1000 110 2 年后1000 110 1000 110 X 12 1000110 112 3 年后 4 年后 5 年后1000 110 112 115 118 124 207306 元求平均利率可以用一未知数代替上式中的实际数据与原式是相等的即1000110 112 115 118 1241000 IB 1B 1 B IB 1B得可用几何平均数计算平均利率3调和平均数Harmon i cMean 调和平均数是各数据倒数的简单算术平均数的倒数]假设同一的个数有个且则上式可写成如下加权的形式例5某农贸市场某日鸡蛋价格及销售额资料如下表所示试求其鸡蛋的平均售价鸡蛋种类价格元KG 销售额元 A 76 15200 B80 8000 C 82 4100 不难求得鸡蛋的平均价格等于销售总额除以销售量二众数Mode 众数是一组数据中出现次数最多的变量值在班级规模的例中众数为46在大学毕业生工作起薪的例中众数为2380 在分组数据中众数可按下式计算下限公式式中为某数值出现次数频数最多的组第m组的频数与分别为第m-1组与ml组的频数LU分别为第m组的下限与上限值d为该组组距二众数Mode 上限公式式中为某数值出现次数频数最多的组第m组的频数与分别为第niT组与ml组的频数LU分别为第m组的下限与上限值d为该组组距3 对众数的几何解释 f fMo f Mo- f Mo-l f Mo- f Mol 0 LMo Mo UMo x依据是众数与相邻的两个组的频数分布有直接关系在班级规模的例中若按例中给出的分组情况则该组数据的众数为或在学生英语成绩例中次数最多的组也在7080组中则有18 10 9 或▲注意1如果某组统计数据中没有哪个数值出现较多的频率次数则可认为该组数无众数如果有多个数据出现的次数频率较多则认为有多个众数在有多个众数的情况下则对众数的关注度下降因为多众数对描述数据位置无多大帮助2对描述品质数据的分布特征的位置测度只能用众数例如在前面购买五类不同品牌Company Frequency计算机的统计中得到如右表Apple 13所示的频数分布表显然众Compaq 12数即个人购买最多的机算机Gat eway2000 5品牌是Apple在这类数据中IBM 9均值与中位数是没有任何Packard Bell 11意义的众数提供了频数最高的个人电脑购买品牌三中位数Median 中位数是一组数据按大小排序后处于正中间位置上的变量值1对于未分组数据1如果数据个数为奇数则中位数恰为处于中间位置的数班级规模例中按升序排出的5个统计数为3242464654则中位数为46 2如果数据个数为偶数则为中间位置两个数的平均数例大学毕业生起薪例中按升序排出的12个统计数为2210 2255 2350 2380 2380 2390 2420 2440 2450 2550 2630 2825 则中位数为▲注意由于均值容易受到统计数据中个别极端数据的影响从而使均值代表某组统计数据的平均水平时失去意义这时用中位数代替均值则更有意义如在大学生毕业工作起薪的例中如果原统计数中最高薪金由2825换为10000则得到平均薪金为3038的结论显然与其他11位均在2000多的薪水水平不符但这时若用中位数2405显然更具代表意义2对于分组后的数据1单项式变量数列资料由于变量值已经序列化故可以采用下面的公式计算2对于组距式数列首先需确定中位数所在的组然后可根据下列公式计算中位数有上限公式和下限公式下限公式式中m为中位数所在的组d为该组组距L为该组的下限值fm为该组的频数为该组以下各组的频数总和显然2对于组距式数列上限公式式中m为中位数所在的组d为该组组距U为该组的上限值加为该组的频数3对中位数的几何解释为该组以上各组的频数总和S显然Z f2f Me S me- 10L Me U x假设在中位数组内的各单位是均匀分布的例6某班级英语考试成绩分组情况见下表人数成绩分组人数累计人数累计人数成绩分组分分50以下227080135506057809094490以上6070 10 1 65 0从成绩由低往高排中位数所在组应在第4组即7080的组由于L 70U 80d 10 而2510 17 96 15 fm 18 故或班级人数规模的例中按例中分组情况则中位数为或四中位数众数与算术平均数的关系1如果数据具有单一众数且分布是对称的则众数中位数与均值相等即2对于非对称分布半分布左偏时说明存在极端小的值当分布右偏时说明存在极端大的值3在偏斜度适度的情况下不论是左偏还是右偏中位数与算术平均数之差约等于众数与算术平均数之差的13即有如下经验公式众数中位数和均值的应用场合众数中位数和均值都是对数据集中趋势的测度1均值由全部数据计算包含了全部数据的信息具有良好的数学性质汽数据接近对称分布时具有较好的代表性但对于偏态分布其代表性较差2中位数是一•组数据中间位置上的代表值不受数据极端值的影响对于偏态分布的数据其代表性要比均值好3众数是一组数据分布的峰值是一•种位置的代表汽数据的分布具有明显的集中趋势时尤其对于偏态分布众数的代表性比均值好4对接近正态的分布数据常用均值描述数据的集中趋势对偏态分布常用众数或中位数描述数据的集中趋势5均值只适用于定距或定比尺度的数据定序尺度数据可用中位数或众数进行描述而对定类尺度数据只能用众数进行描述五计算和应用平均数应该注意的主要问题一平均数必须用于同质总体二用组平均数补充说明总体平均数三用频数分布补充说明平均数四平均分析与具体分析相结合第四节变异指标一•变异指标的概念和分类1概念对数据分布特征的另一个测度指标是数据分布离散程度它反映各数据远离其中心值的程度因此也称离中趋势集中趋势反映的是各变量值向其中心值聚集的程度离中趋势反映各变量值之间的差异状况注意集中趋势的测度值概括地反映了数据的一•般水平它对该组数据的代表程度取决于该组数据的离散水平数据的离散程度越大集中趋势的测度值对该组数据的代表性就越差例7如果你是一家制造业公司的供应部门经理与两家原材料供应商联系供货两家供应商均表示能在大约10个工作口内供齐所需原材料几个月的运转之后你发现尽管两家供货商供货的平均时间都是大约10天但他们供货所需天数的分布情况却是不同的见下页图你认为两家供货商按时供货的可信度相同吗考虑它们直方图的差异你更愿意选择哪家供货商供货呢两家供货商供货图2变异指标的作用1用以反映社会经济现象变动的均匀性和稳定性程度2用以说明平均指标的代表性程度3可以研究总体标志值分布偏离正态的情况3变异指标的分类1标志变异指标2分布变异指标二极差与分位差Range and Percentile 1极差是最简单的测度离中趋势分散程度的指标也称全距是一组数据最大值与最小值之差Range Largest Value - Smallest Value ▲注意1极差易受极端值的影响2由于极差只利用了数据两端的信息没有反映中间数据的分散状况因而不能准确描述数据的分散程度例8 某班级甲乙两组同学成绩如下甲组6065727578 乙组5064707492 两组同学成绩平均成绩都为70分但甲组成绩的极差R甲=78-60=18分乙组成绩的极差R乙=92-50 = 42分对于组距分组数据极差可近似地表示为R最高组上限-最低组下限例9某班级全体学生成绩如下班级学生成绩分布成绩分组中值学生数总成绩50-60 5515560-7065213070-8075860080-908524204090-10095151425—504250班级平均成绩x = 4250 / 50 = 85分则极差100-50 50 2分位差Percentile是对极差指标的一种改进常见的有四分位差八分位差十六分位差以及百分位差以四分位差Quartiles为例四分位间距QR=Q3 - Q1 四分位差QD=Q3 - Q1 / 2三平均差平均差是总体各单位标志值对算术平均数的绝对离差的算术平均数其计算公式为仍以前面例为例甲乙两班成绩平均差计算结果说明乙组离散程度比甲组离散程度大四方差Variance 方差是各变量值与其均值离差deviation about the mean平方的平均数一总体方差Population Variance 二样本方差Sample Variance ▲注意1相同点方差和平均差比较同样是根据所有的标志值计算离差程度并旦都是以算术平均数为比较标准不同点方差不是以离差的绝对值而是以离差的平方计算平均数离差的平方不但可以消除离差正负差别而且强化了离差的信息使这个指标更灵敏在数学性质上有许多明显的优越性四标准差Standard Deviation 方差的平方根正即为标准差在五个班级规模的例中如果视5个班为总体则标准差为715若视为样本则标准差为8 ▲注意1由于方差计算中使用了平方运算因此方差的单位也是平方如上述班级规模例中方差为64学生2其具体意义不明确因此方差只有在比较不同组数据的离散程度时才有数量大小上的意义2标准差是对方差的开方运算因此其单位与原始数据的单位一致它与均值及其他用同一单位测度的数据相比较也容易一些如标准差就是指数据离散程度的测度值距均值的距离▲方差的数学性质1变量的方差等于变量平方的平均数减去变量平均数的平方五离散系数Coefficient of Variation 离散系数定义为一组数据变异指标值与其均值的比也可分别称为极差系数平均差系数标准差系数最常用的是标准差系数是测度数据离散程度的相对指标例五个班级规模的例中若视为总体离散系数为71544 016 若视为样本则离散系数为844 0182 ▲注意1对不同组数据其离散程度既受其数据本身的水平的影响也受数据计量单位的影响因此对不同性质组别的数据不好用离差或标准差来比较它们的离散程度2由于离散系数消除了来自这两方面的影响因此可以用它进行不同数据组的比较例10某管理局抽查了其所属的8家企业其产品销售额与销售利润数据如下表所示试比较销售额与销售利润的离散程度企业编号销售额销售利润企业编号销售额销售利润万元万元万元万元XI X2 XI X21170 815480265 22201256 650400 3390180 79506404 43022081000 690 计算结果表明产品销售额的离散程度小于•销售利润的离散程度六举例给以解释 假如某班级同学50名每月分别消费元300340310500600龄5年以上 工龄5年以下完成定额工人数完成定额工人数80以下1090以80-901590-10015 90-10020100-110200100-105100110-12080105-11045120-13040 110-12015130-15020 120-130150以20数据分为两组工龄 年以上和工龄5年以下接上页题 企业数 各组产量占元/件产量的比重% 10-122212-1440 14-1635 "过1000米线的时间 3 ' 12 “ 3’ 30 〃 3 ' 48"品种分别在5块田地上试种其产量如下甲品种 乙品种田块面积产量田块面积 产量公斤1601841491771441540541520420450总方差组间方差和组内方差之间关系总方差=组间方差与组内方差平均数之和计算50名同学之间差异也就是总的方差即为总方差如果把这50名按男女性别 分为两组男组月消费额求得的方差即为组内方差乙组月消费额求得的方差即为组内方差男女两组之间求得的方差即为组间方差例11某企业按两种标志进行分组得到下列表明工人按工龄和按完成生产定额的分组资料组间方差308组内方差平均数1789 @总方差2100练习1某公司将其生产某产品的15个企业按产品平均单位成本高低分组资料如下 平均单位成本38试计算这15个企业的平均单位成本 练习2下面分别记录5名HI 径队员胞步时间过200米 线的时间28 " 30 " 33 "30 " 教练认为200米的时间差异更小些请用标准差与标准差系 数对上述时间的变异作出评价判断教练观点是否成立练习3两种不同的水稻 分别计算两品种单位面积产量2计算两品种亩产量的标准差3假定生产条件相 同确定哪一个品种具有较大的稳定性易于推广七 分布偏态与峰度的测度分 布变异指标 偏态和峰度是对数据分布特征的进一步描述 平均数 与标准差相同的数据组其频数分配分布也可能不同如果频数分布是对称的则称 为对称分布否则为偏态分布 一偏态及其测度Skewness 测定偏态 比较严谨的方法主要有两种动差法和分位数法此外还有算术平均数与众数比较 法 1算术平均数与众数比较法 由于在完全对称的分布中算术平均数 中位数众数是重合的而在非对称分布里三者是相互分离的其中算术平均数与众 数分离两边中位数位于它们之间因而 可用算术平均数与众数之间的距离作 为测度偏态的一个尺度 偏态 算术平均数-众数 这是偏态的绝对数 它以原有数据的单位为单位同样地偏态绝对数不能用来比较不同数据组不同计量单位数据的偏态程度为了使不同数据组的偏态数值能相互比较需计算偏态的相对•数2分位数法以四分位数为例不同分布情形下诸四分位数之间的关系3动差法动差乂称矩可用来说明数据频数分布的特征二峰度及其测度Kurtosis 峰度是频数分布另一重要特点其特点是某种频数分布的曲线与正态分布曲线相比是尖顶还是平顶其尖顶或平顶的程度如何峰度就是频数分布曲线顶端的尖峭程度峰度测度往往以中心4阶动差为基础进行将4阶动差的数值除以标准差的4次方化为相对•数就是峰度的测度值即峰度系数经验表明上述峰度系数为3时恰为正态分布曲线因此当峰度系数3时为平顶分布曲线当峰度系数3时为尖顶分布曲线当峰度系数接近于18肘则频数分布曲线趋向于一条水平线当峰度系数小于18时为U型曲线在上述班级规模的例子中以中心4阶动差矩计算的峰度系数值为注意1在用动差法计算偏态系数与峰度系数时•对所考察的对象按总体公式测度其方差与标准差2偏度与峰度主要用于检查样本的分布是否正态来判断总体的分布是否接近于正态分布如果样本的偏度接近于0而峰度接近于3就可以推断总体的分布是接近于正态分布的第五节成数指标一成数指标的概念1成数2是非标志3成数指标设总体N个单位中有N1单位具有某种性质有NO个单位不具有某种性质且均数 标志值 N-NO N 1-NO N1-Q品质标志分布表 次数二是非标志的量化 三是非标志的平 品质标志N 1X合计 品质标志N 1标志值四是非标志的方差与标准差 品质标志分布表标志值次数N O合计例某市120万人口中的男女性别构成如下表x 人数万人f性别标志54合计N=NO N1以P 代表具有某利,性质的成数以Q 代表不具有某种性质的成数则P66 120由前面的公式可得注意1是非标志的平均数为P 2是非标志的方差为pq 或p 1-p q 1-q 3是非 标志中pq 1 4是非标志的方差最大值为025是非标志的标准差最大值为05本章作业 课本53-55页123456题 本章作业7某快餐店登记20顾客用餐 一次时间分如下 2015 2428 7 25 5 6 10 12 1814 8 21 16 122018 714试根据以上资料计算算术平均数平均差标准差并做简单分析本章作业8某企业两车间生产同种产品产量 和成本资料如下表1992年 1993年车间单位成本元 产量吨 单位成本 元总成本万元 甲600120062093乙 700 1800 667 1334要求1分别计算1992年和1993年甲乙两车间平均单位成本2分析该种产品甲乙两车间平均单位成本变 动情况9某公司将其生产某产品的15个企业按产品平均单位成本高低分组资 料如下 平均单位成本 企业数 各组产量占 元/件总产量的比重%10- 12 7 22 12- 146 40 14-16238 试计算这 15个企业的平均单位成本10下面分别记录5名田径队员跑步时间 过200米线的 时间 28 " 30 " 33 "34 " 35 "过 1000 米线的时间 3 ' 12 " 3' 30 〃 3 ' 48 ”400 " 4 ' 30 ” 教练认为200米的时间差异更小些请用标准差与标准差系 数对上述时间的变异作出评价判断教练观点是否成立11两种不同的水稻品种 分别在5块田地上试利,其产量如下甲品种乙品种田块面积产量田块面积产量亩公斤亩公斤12600 1584011495 1477010 445125400954010520 0842009450 1分别计算两品种单位面积产量2计算两品种亩产量的标准差3假定生产条件相同确定哪一个品种具有较大的稳定性易于推广这可怎么做2变量与其算术平均数计算的方差小与变量与任何其它常数计算的方差3变量线性变换的方差等于变量方差乘以变量系数的平方设yabx则4n个独立总体各变量代数和的方差标准差等于小于各变量方差标准差的代数和排序分组整理表述统计数据寻找反映数据分布特征的代表值集中趋势离散趋势为了改善频临死亡的病人及其家庭的生活质量救助活动服务队医生家庭健康保健员社会工作者受训志愿者给予病人及家庭一些指导帮助减轻由于疾病分离等而引起的精神紧张Mo-LMo UMo -Mo f Mo- f Mo-1 f Mo- f Mol £f2 -S me- 1 是L至Me之间的次数血f Me是L至U之间的次数所以Sf2 -S me- 1 Me- L f Me U -L。

相关主题