数据分析模型ppt课件
9
哪种解读更有道理
500
400 300
职工薪金
200
100
股东分红
2011 2012 2013
a. 总额/万元
200
股东分红
150
职工薪金
100
2011 2012 2013
b. 增长率/%
40 股东分红
30 20
10 职工薪金
2011 2012 2013
c.人均/(万元/人)
公司老板:职 工薪金比股东 分红增长得更 多、更快,可 谓有福同享.
大学生数学建模竞赛2008年D题
2
1.1 薪金到底是多少
日常生活中遇到的数据: • 一个班的考试成绩及按成绩的排 名 • 公司里每位职工一个月的薪金 • 超市中各个品牌牙膏一个月的销量 • 一个年级全部男同学的身高 用几个数简明地表示一组数据整体的大小. n个数据的代表数
3
n 个数据的代表数
平均数 ~ n个数据的算术平均值. 中位数 ~ n个数据从小到大(或从大到小)排序
其他代表数 跳水比赛的评分标准 中位数80分 7位裁判的分数去掉一个最高分和一个最低分,剩下 5个分数的总和乘以动作难度系数,为最后得分.
中位数和平均数的结合
8
哪种解读更有道理
某股份制公司50名职工和5位股东近3年的利润分配
年份 2011 2012 2013
职工薪金总额/万元 300 400 500
股东分红总额/万元 100 150 200
500
400 300
职工薪金
200
100
股东分红
2011 2012 2013
a. 总额/万元
200
股东分红
150
职工薪金
100
2011 2012 2013
b. 增长率/%
40 股东分红
30 20
10 职工薪金
2011 2012 2013
c.人均/(万元/人)
500
400 300
职工薪金
200
100
股东分红
2011 2012 2013
a. 总额/万元
200 股东分红
150 职工薪金1002011 2012 2013b. 增长率/%
40 股东分红均值 30 20 10 职工薪金均值
2011 2012 2013
c. 均值/(万元/人)
xk斜率大于yk斜率 yk/y0斜率大于xk/x0斜率 斜率相差5倍
职工薪金增长快
股东分红增长快 股东人均分红增长快
11
小结与评注 • 同样的一组数据可以有不同的表述和解读办法,
取决于要说明什么问题,达到什么目的. • 3个常用的代表数:平均数、中位数和众数,
具有各自的特点和用法. • 数值随时间的变化可以用绝对增长或相对增长
表示, 二者说明同一问题的不同侧面.
12
工会负责人: 2013年职工薪金 增长到167%, 股东分红增长到 200%,应更顾 及职工利益.
职工:与股东 人均分红相比, 职工人均薪金 增长得太慢, 呼吁大幅度增 加职工的薪金.
10
哪种解读更有道理 k=0,1,2 (2011, 2012, 2013)
xk~职工薪金总额, yk~股东分红总额
平均数 :8.6千元. 公司高层对外宣传.
中位数 :6千元(第50、51人都是6000元). 税务部门调查个人所得税的起征点.
众数 : 5千元(5千元的人数最多). 工会干部为职工争取福利.
5
3个代表数的特 平均数 ~ 平等利点用每一数据的信息,反映数据整体
大小;有方便的计算公式,应用最广. 受少数特大或特小数据影响,会失去代表性.
1.2 评选举重总冠军
依靠运动员全身力量完成的体育项目 举重 拳击 赛艇 摔跤
按照运动员体重划分级别进行比赛. 每个级别都有一个冠军. 能评选出一个“总冠军”吗?
……
13
问题
1.2 评选举重总冠军
男子举重比赛按运动员体重 (上限)分为8个级别:
56kg, 62kg, 69kg, 77kg, 85kg, 94kg, 105kg, 105
15
数据收集 利用举重比赛的世界纪录建立数学模型.
• 不同级别成绩的差别基本上由运动员体重决定.
• 多年积累下来的世界记录与某一次比赛成绩相比,
更能避免偶然性.
级别 项目 纪录
抓举 153 kg 62 kg级 挺举 182 kg
位于正中的数. 若n为偶数,取位于正中的2个数的平均值. 众数 ~ n个数据中出现次数最多的那个(或几个)数. 3个代表数反映一组数据整体大小的不同侧面.
4
薪金到底是多少
某公司100位职工的月薪/千元
月薪 40 25 20 15 10 8 6 5 4 3 人数 1 2 6 8 12 17 18 24 10 2
1. 数据分析模型
现实生活中的数据:数量繁多、杂乱无章.
怎样表述、解读、分析、发现规律?
• 找出有代表性的数值或者利用图形表述,分析、
解释相关的实际现象.
• 利用统计方法通过大量数据探索、发现研究对象
的数量规律.
(本书提高篇第7章)
1
1. 数据分析模型
1.1 薪金到底是多少 1.2 评选举重总冠军 1.3 估计出租车的总数 1.4 解读CPI 1.5 NBA赛程的分析与评价——全国
每个级别设3个项目:抓举、挺举、总成绩.
每个级别、每个项目都产生一个冠军.
同一项目 (如抓举) 的8个冠军中怎样选出“总冠军”?
不同级别冠军成绩按体重 “折合”到某个标准级别, 比较折合成绩,选出最高的作为总冠军.
14
1.2 评选举重总冠军 问题分析
建立体重与举重成绩的数学模型 计算各级别冠军举重成绩的理论值 比赛产生各级别冠军成绩的实际值 计算实际值与理论值的比值 构造一个简单、合适的指标作为折合成绩 各级别冠军折合成绩最高的为总冠军
中位数 ~ 只取决于按大小排列的位置,不受特大或 特小数据影响,能反映数据的中等水平.
未充分利用信息; 数据量大时计算较繁. 众数 ~ 常作为选择 “最多” , “最佳”的依据.
未充分利用信息; “并列第一”时无法做唯一抉择.
6
如何选用代表数
• 数据:某高三年级全部男同学的身高.
与10年前同龄男生身高作对比, 估计增长量. 平均数
定制校服尺寸的参考.
众数
• 数据:生产小组15个工人每人一天生产零件的数目
与其他小组比较,作为评选先进的参考. 平均数
制定标准日产量,使多数人能超产.
中位数
7
如何选用代表数
• 数据:班上20名学生一次考试成绩:15人80分, 2人90分,1人10分,1人15分,小李75分. 与其他班级或本班以前成绩对比. 平均分74分 小李衡量自己的标准. 高于平均分! 倒数第3名!