社会统计学 第二章 单变量
f P n
2.比率:把计算比例时所用的基数变大, 最常用的就是百分率(%)。
二 定序层次
1.累加次数与累加百分率 将各级次数或百分率逐级相加起来,可分 为向上累加与向下累加。
向上累计频数分布(cf↑)是先列出各级别,然后由标志 值低的组向标志值高的组依次累计频数,代表某级水平水 平或以下的总数。 向下累计频数分布(cf↓)是先列出各级别,然后由标志 值高的组向标志值低的组依次累计频数,代表某及水平或 以上的总数。
f
10 65
Cf↑
10 75
Cf↓
550 540
126 158 141 40 550
211 369 510 550
475 339 181 40
总数
19
从分布来看,众数是具有明显集中趋势点 的数值,一组数据分布的最高峰点所对应 的数值及为众数。
20
二 中位值(Me)
1.把一组数据按顺序排列,处于中间位置的 那个数值就是中位值。
X xf X= n n 1720 2120 120
=18.9岁
36
(二)分组资料求均值:
根据组中值求均值
先求出组中值 组中值=(上限+下限)/2 计算组中值的和 计算分组数据的均值
fx X n
组中值
m
159 9.4 17
37
众值、中位数和均值的比较
39
对随机抽样调查来说,平均数比中位数更稳定,它随样本 的变化比较小;
平均数比中位数更容易进行算术运算。
但两种情况不宜用均值:
(1)分组数据的极端组没有组限。 (2)个别数值非常特殊。
如100,200,400,500,600, 均值为360,中位数为400 100,200,400,500,1000, 均值为440,中位数为400 100,200,400,500,3000 均值为840,中位数为400
X 200 X= 20岁 N 10
34
(1)加权平均数
某个变项值重复出现多次,可以先统计每个 值(x)的次数(f),再求次数与相应变量 值的乘积(fx),利用各乘积之和求出均值。 (f也称为权数,f/n称为权重) 公式:
fx X n
35
未分组数据加权平均数
解:根据公式得
【例6】调查某年120名学 生的年龄,结果如下表, 求平均年龄。 年龄 人数 17 20 18 25 19 35 20 20 21 20 N 120
1 = 5+1 =3 解:Md的位置= N+ 2 2
中位值Md=4
排序2,3,4,6,8
23
(2)个案数为偶数
【例2】:乙地的6户人家的人数为:2,4,3,6,8, 5求中位值。 解:Md的位置=
N+ 1 2
6 + 1 = =3.5 2
Md =
45 =4.5 2
排序2,3,4,
5, 6,8
24
(3)频数分布表
170 181 185 168 174 187 167 174 169 165 167 172 174 173 155 179 164 158 165 162
157 175 182 168 176 161 171 163 176 159
171 178 172 169 158 163 166 168 160 178 170 164 160 170 166 178 171 167 162 169 165 171 165 168 176 174 163 177 164 170 161 179 177 162 149 169 166 153 177 164
老中青人数分布图 25
人数(个)
20 15 系列1 10 5 0 老年 中年 年龄类别 青年
三.直方图(Histograms)
直方图是用矩形的面积来表示数列各组的频数或频率。 矩形的宽度表示各组组距,矩形的长度标示次数或百 分率。
四.曲线图
当变量数列中的组数愈加增多,变量值也非常多时, 折线图会逐步过渡到平滑曲线。频数分布曲线图实质 上是对应于连续变量的频数分布的函数关系图。
50 - 30 299 .5 100 349 .5 40
31
三 均值
1、均值的定义:总体各单位取值之和除以 总体单位数目。 2、仅适用于定距变量,不适用于定类和定 序;
32
(一)未分组数据
(1)简单原始资料求均值
x X n
33
解:根据平均数的计算 公式有:
【例】某班10名学生年龄 分别为20、21、19、19、 20、20、21、22、18、 20岁,求他们的平均年 龄。
收入 (元 ) 职工数 Cf 100-200 10 10 200-300 20 30 300-400 40 70 400-500 30 100 合计 N 100
N -cf 2 Md=L+
解:Md位置=50; 从累积频数cf栏找到中位数位 置所在组为“300-400” 引入公式: w f
10.9% 第一季度 9.4%
销售额
第二季度
25.0% 64.1% 第三季度 第四季度
用每个圆瓣代表现象的某
一种情况,其大小代表变 量取值在总体中所占的百 分比。圆瓣图多用于定类 变量。
(二)条形图(Bar graphs) 条形图用长条的高度表示资料类别的次数或百分数。长条一般为等宽,其 宽度没有意义;长条之间通常留有空隙间隔。条形图多用于定序变量。
50 40 30 20 10 0
15 156 6- 1 16 64 4- 17 172 2- 1 18 80 0- 18 188 8- 19 6 14 8-
系列1
五.常见曲线:
1.U形曲线:中间小,两头大
3.J形曲线:正J分布,反J分布
2.倒U形曲线:中间
大,两头小
4.逻辑斯蒂曲线:变量值分布的次数随变 量值增大 而增多或相反,但有上限。
组距 148~156 156~162 162~168 168~174 174~180 合计
f 3 9 25 34 20 91 f 20 34 25 9 3 91
cf↑ 3 12 37 71 91 —— cf↑
cf↓ 91 88 79 54 20 —— cf↓
组距 174-180 168-174 162~168 156-162 148-156 合计
五.常见曲线图
1.峰状曲线:根据曲线的峰顶数目,可以分为单 峰、双峰和多峰曲线。 2.对称与不对称曲线:把曲线从中央分割,两边 资料分布完全相同则为对称,否则为不对称。
第四章 数据分配特征的描述
朱火云 2017-10-13
第一节 集中趋势测量法
集中趋势测量,就是以一个数值来代表变 量的资料分布,反映的是变量值向中心值 聚集的程度,也就是说以这一个数值(或 称典型值)来估计或预测每一个研究对象 的数值时发生的错误总数在理论上是最小 的。
首先将各组的次数累加起来
求中位数的位置: Md位置=n/2 =212/2=106 第106个位置在 25-35之间
28
分组变量看作是一组连续的数值
10 25 12
?
106
35
94
124
30
29
n cf 2 Md L f
w
【例】: 根据下表数据求中位值。
数据类型和所适用的集中趋势测量值 数据类型 测度值 定类 众值▲ ―― ―― 定序 众值 中位值▲ ―― 定距 众值 中位值 均值▲
注:▲ 表示该数据类型最适合用的测度值
38
众数、中位数和平均值的比较
众数是一组数据中出现次数最多的数值。但在社会调 查中众数的代表性较小; 计算平均数时用到数据中所有的数值,而求中位数时 只用到数值的相对位置,平均数比中位数利用了更多 的有关数据的信息; 平均数容易受到极端值的影响,而中位数则不会受这 种影响。当样本中数据值的分布是高度倾斜的,中位 数一般比平均数更适合一些。
40
练习题1:城镇自杀率的分组次数分布
自杀率 3-5 6-8 9-11 次数 12 35 81 真实组限 组中值 向下累积次数
12-14
15-17 18-20
52
30 7
21-23 24-26
合计
9 3
229
41
练习题2:求中位数
求54,65,78,66,43这些数字的中位数。
求34,45,26,70,43,38 这些数字的中 位数。
第二章
简化一个变量的分布
1
第一节 统计分布
一.定类层次之次数分布 分布指变量的各种情况出现的频次,又称频次分布。 其作用在于表明各种情况的相对重要程度。 最基本的用于简化资料的方法。 例如:
家庭类别(变量) 直系家庭 核心家庭 联合家庭 频次(个) 5 20 0
1.比例:将每类的次数(f)除以总数 (n),用以比较不同的样本。
【例3】根据下表求中位值。
解:Md位置
=
成 绩 甲 乙 丙 丁 N
频 累计频次 次 cf 85 500 195 415 210 220 10 10 500 500
N+ 1 2
500+ 1 = 2
=250.5
中位值Md=乙
25
(二)分组数据求中位值
根据统计表中的累积百分比,找出含有 50%的区间 找出含有50%区间的上界值U,下界值L, 上界累计百分数U%,下界累计百分数L% 以及组距等信息 根据线段对应成比例的原理,计算出累计 百分比为50%的变量值
100
44
第四节 离散趋势测量法
离散趋势测量(Measures of dispersion)就是用 一个值表示数据之间的差异情况。 离散趋势测量法和集中趋势测量法具有互补作用。在 进行统计分析时,既要测量变量的集中趋势,也要测 量离散趋势。