当前位置:文档之家› 资料统计分析——单变量描述统计解析

资料统计分析——单变量描述统计解析

项目八:调查资料的统计与分析
任务一 单变量描述统计 任务二 单变量推论统计 任务三 双变量相关关系分析
任务一 单变量描述统计
数据的简化
集中趋势
众值
中位数
均值
离散程度
异众比率 四分位差
方差与标准差
一、频数分布与频率分布
(一)频数分布 所谓频数分布(frequency distribution),就是指
一组数据中取不同值的个案的次数分布情况,它一般 以频数分布表的形式表达。 频数分布表的作用有两方面,一是简化资料,即将调 查所得到的一长串原始数据,以一个十分简洁的统计 表反映出来。二是从频数分布表中,可以更清楚的了 解调查数据的众多信息。
(二)频率分布
所谓频率分布(percentages distribution),就是 指一组数据中不同取值的频数相对于总数的比率分布 情况,这种比率在社会调查中经常是以百分比的形式 来表达。
【例5】根据下表求中位值。
成 频 累计频次
绩次
cf
甲 85
85
乙 195 280
丙 210 490
丁 10
500
N 500
解:Md位置

n+1 2
= 500+1 2
=250.5
中位值Md=乙
练习1:计算表9-7的中位数
3、组距分组(连续取值)资料求中位数
先找出中位数所在组,利用公式
374.25
练习:计算下表中位数
1.原始资料求中位数
将各个个案由低至高排列起来,居序列中央位置 的个案值就是中位数。 Md位置= n 1 2
中位数=中间位置的值 注意:先找位置,再找中位数
①个案数为奇数
【例3】:甲地的5户人家的人数为:2,4,3,6, 8,求中位值。
n+1 5+1 解:Md的位置= 2 = 2=3
Md=4
510
181
1500-1699
40
550
40
总数
550
从分布来看,众数是具有明显集中趋势点的数 值,一组数据分布的最高峰点所对应的数值及 为众数。
(二)中位数(Median)
把一组数据按顺序排列,处于中间位置的那个数
值就是中位值。
Md
50%
50%
主要应用于定序变量,也可用于定距变量,但不 可用于定类变量。
求下表所示数据的的平均数
间距
148―152 152―156 156―160 160―164 164―168 168―172 172―176 176―180 180―184 184―188 1ห้องสมุดไป่ตู้8―192 192―196
例8
先求出组中值
组中值=(上限+下限)
/2
计算组中值的和
计算分组数据的均值
X fxm 159 9.4
n 17
组中值
众数、中位数和平均数的比较1
数据类型和所适用的集中趋势测量值
数据类型 定类
定序
定距
众值▲ 众值
众值
测度值
―― 中位值▲ 中位值
――
――
均值▲
注:▲ 表示该数据类型最适合用的测度值
众数、中位数和平均数的比较2
平均数比中位数利用了更多的数据信息,对总 体的描述更全面和准确。
平均数很容易受到极端值变化的影响,而中位 值不会受到这种影响。
对于抽样调查来说,平均数是一种比中位数更 为稳定的量度,它随样本的变化比较小。
众数、中位数和均值的关系
均值 中位数 众数 均值 = 中位数 = 众数
原始数据:4、5、7、8、19(无众值) 原始数据:4、5、7、5、5、16(一个众值) 原始数据:4、4、5、7、7、9(两个众值)
3、主要应用于定类变量,当然也可以应用于定序 和定距变量
1.单值分组资料(非连续取值)求众数
2.组距分组(连续取值)资料求众数
先找出众数组,代入公式 组距分组资料众数求值公式:
利用各乘积之和求出均值。(f也称为权数,f/n称为
权重)
公式:
X fx
n
【例7】调查某年120名学 生的年龄,结果如下表,求 平均年龄。
年龄 人数
17
20
18
25
19
35
20
20
21
20
n
120
解:根据公式得
X= X xf nn
17 20 21 20 120
=18.9岁
3、组距分组资料求均值
频率分布表除了频数分布表的优点之外,还有一个重 要的优点就是十分方便地用于不同总体或不同类别之 间的比较。
频数分布表和频率分布表实例
注意的是,对于一项有一定规模的调查样 本来说,一般不宜对如年龄、收入、时间 等定比变量做频数分布表或频率分布表。 因为,此时类别很多,而每一类别中个案 数不多,所得结果繁杂不适用。
排序2,3,4,6,8
②个案数为偶数
【例4】:乙地的6户人家的人数为:2,4,3,6, 8,5求中位值。
解:Md的位置=n+2 1=
6+=13.5 2
45
Md= 2 =4.5
排序2,3,4, 5, 6,8
2.单值分组资料(非连续取值)求中位数
先计算累计频数,然后求中间位置,中间位置最先落 入的累计频数所对于的标志值即为中位数。
练习:计算下表中位数
29
(三)平均数(mean)
1、原始资料求均值
X x n
【例6】某班10名学生年龄 分别为20、21、19、19、 20、20、21、22、18、 20岁,求他们的平均年 龄。
解:根据平均数的计算 公式有:
X= X 200 20岁 N 10
2、单值分组资料求平均数
某个变项值重复出现多次,可以先统计每个值(x) 的次数(f),再求次数与相应变量值的乘积(fx),
解: 找出众数组为222.5—227.5 代入组距分组资料众数求值公式:
练习:求下表众数
表X-X 某人群月收入频数分布表
收入(元)
f
cf ↓
cf ↑
500-699
10
10
550
700-899
65
75
540
900-1099
126
211
475
1100-1299
158
369
339
1300-1499
141
二、集中趋势分析
集中趋势测量:用某一个典型的变量值或特 征值来代表全体变量的问题,这个典型的变 量值或特征值就称作集中值或集中趋势。
★ 众值(Mode)——定类层次 ★ 中位值(Median)——定序层次 ★ 均值(Mean)——定距层次
(一)众数(mode)
1、出现频次最多的变量值; 2、众数的不唯一性;
众数 中位数 均值
左偏分布
对称分布
右偏分布
练习:
求下表(单项数列)所示数据的算术平均数。
表X-X 某样本家庭人口数分布表
人口数(X)
2 3 4 5 6 7 8
合计
户数(f)
5 8 16 10 6 4 1
50
频率(P)
0.10 0.16 0.32 0.20 0.12 0.08 0.02
1.00
4.4
相关主题