数据的描述统计数值法
平均有2.1个孩子,且这些女人住在平均 价值是80000美元的住房中。
3-3
参数与统计量
参数:总体的描述性测度,
总体的均值(期望值) 总体方差 总体概率
统计量:样本的函数且不含有未知总体 参数,关于样本的描述性测度,
样本均值、方差 样本比例
3-4
集中趋势测度量
Mean, 均值 Median, Md 中位数 Mode, Mo 众数
3-32
计算百分位数
1. 将数据按递增排序 2. 计算指数= (p/100)n ,n为样本容量 3. 如果i不是整数,取比i的整数,这个整数表示
p百分位数的位置 4. 如果i是整数,则p百分位数是递增顺序排列中
位置i与i+1的平均值
3-33
Example (p=10th Percentile)
排序: 30.1, 30.8, 31.6, 31.7, 32.1
奇数,中位数是31.6
3-9
众数
总体或样本中出现次数最多的变量值
频数分布图中最大频数所对应的变量值 最高频数可以多次出现
当有两个众数时,数据称为双峰分布 当有多个众数时,数据称为多峰分布 定性数据(分类数据),其众数是某种类别 众数用来描述定性数据时更有用
数据的描述统计数值法
Chapter Outline
3.1 数据集中趋势的度量 3.2 数据离散程度的度量 3.3 百分位数、四分位数与盒式图 3.4 加权平均与分组数据数值 3.5 几何平均数 3.6 偏度与峰度
3-2
3.1 描述集中趋势
除了数据的分布外,我们也想知道数据 的集中趋势
数据的集中趋势反映了数据的中心 当代美国人的平均人是女人,每个女人
IQ分数超过125的人士占多大百分比
23
变异系数
(coefficient of variation)
标准差与其相应的均值之比 对数据相对离散程度的测度 用于对不同组别数据离散程度的比较 可以用来度量风险 计算公式为
案例:哪种基金的收益波动大?
RS internet age 基金的平均年收益率 10.93%,标准差是41.96%;
• 约有68%的数据在平均数加减1个标准差 的范围之内
• 约有95%的数据在平均数加减2个标准差 的范围之内
• 约有99%的数据在平均数加减3个标准差 的范围之内
3-20
标准分(z Scores)
计算公式
对某一个数值在一组数据中相对位置的度量 可用于判断一组数据是否有离群点 无量纲及标准化处理
Franklin风险最小
3-26
基尼系数(Gini coefficient)
基尼系数= A/(A+B)
3-27
世界的基尼系数:2009
3-28
中国的基尼系数:1978-2008
3-29
3-30
3.3 百分位数、四分位数与盒式图
将数据递增排序,对于某个数值X,如果 有p%的数据小于它,则称X为第p百分位
3-10
三者之间的关系
Figure 3.3
3-11
3.2 离散程度的测量
Figure 3.13
3-12
四种常用的统计量
Range
极差
Variance 方差
Standard 标准差 Deviation
Coefficient 变异系数 of variant
3-13
极差
最大值与最小值间的差 测度数据的波动幅度 温差 股票的振幅
3-5
均值
Population X1, X2, …, XN
Sample x1, x2, …, xn
总体均值(Population Mean) 样本均值(Sample Mean)
3-6
Example: 汽车里程油耗案例
计算如下5个数的平均数 30.8, 31.7, 30.1, 31.6, 32.1
3-14
方差
3-15
标准差
3-16
Example: Chris’s Class Sizes This Semester
3-17
Example: Sample Variance and Standard Deviation
3-18
正态分布总体的经验法则
Figure 3.14
3-19
经验法则表明:当一组数据近似正态分布 时
7,524 11,070 18,211 26,817 36,551 41,286 49,312 57,283 72,814 90,416 135,540 190,250
i = (10/100)12 = 1.2 不是整数,取2 第10百分位数为11,070
3-21
高考的标准分
T=500+100Z
考号
姓名 语文 数学 外语 物理 理综 综合分
10050516 张华 592 598 642 581 619 636
百分等级
821 837 922 791 883 913
IQ分数的标准分含义
IQ分数具有正态分布,其均值为100,标准差 为15
IQ分数在85-115之间的人士占多大百分比
Franklin income A基金的平均年收益率 13%,标准差是9.36%;
Jacob internet基金的平均年收益率 34.45%,标准差是41.16%
3-25
变异系数计算
RS Internet Age : 41.96 / 10.93 =3.839 Franklin Income A : 9.36 / 13 = 0.72 Jacob Internet : 41.14 / 34.45 = 1.194 RS Internet 风险最大, Jacob 次之,
数(percentile) 第10百分位数 第90百分位数
3-31
第25百分位数称为下四分位数或第一四 分位数(first quartile )记为Q1
中位数、第50百分位数、第二四分位数 第75百分位数称为上四分位数或第三四
分位数(third quartile )记为Q3 (intQe3r-quQa1)rti内le距ra或ng四e分)位记差为(IQR
3-7
中位数
将数据从小到大排序,排在正中间的数 ,即有50%的数大于它,有50%的数小 于它
如果数据个数是奇数,中位数就是排在正中 间的数
如果数据个数是偶数,中位数是两个中间数 的均值
3-8
Example: 汽车里程油耗案例
计算以下5个数的中位数: 30.8, 31.7, 30.1, 31.6, 32.1