社会统计学
表2-2
上组限不包括在内
收入(元)
0-100 100-200 200以上
表2-3
不同类型变量的取值特点及统计表特点
不同类型变量的取值特点
定类变量 变量值是哑元,不是连续实数。 定序变量 变量值可以比较大小,不连续。 定距变量 离散型:观测值不多
连续型:观测值众多
各类变量所对应统计表的特点
(1)定类变量 ※ 百分比统计表中最后要注明统计总
1
表2-6
§3.1 如何用图来表示数据?
§3.1 如何用图来表示数据?
统计图(分布图)
(1)定类变量:圆瓣图(圆饼图);条形 图
※圆瓣图:用圆形代表现象的总体, 用圆瓣代表现象中一种情况,其大 小代表变量取值在总体中所占的百 分数。
※条形图:用长条的高度来表示资料 类别的次数或百分数。一般画成等 宽长条。若变量是定类变量,则长 条排列次序可以任意,条形离散。
例:考察马萨诸塞州New Bedford地方 法庭判决的72犯人在服完刑一年到两年 半的时间里是否又因新的罪行被判决。 结果24个犯了新罪,而剩下的48个在数 据收集时还没有。
33% 67%
图2-1
67%
新罪 无新罪
33%
图2-2
表2-5
步骤1:收集数据,写成数据表。
步骤2:找出数据中最大值L,最小值 S。
步骤3:根据表2-4取合适的分组数。 此处K=10。
步骤4:计算组距h = (L-S) ’÷K。结 果比原始数据多精确小数点后一位。
步骤5:根据组距h和分点精度比原统 计数据高一位的原则,将数据分组。 步骤6:计算各组的中心值bi。 bi = (第i组真实下界值+第i组真实上界值) ÷2 步骤7:作频次分布表。
7 1.445~1.475 1.46
8 1.475~1.505 1.49
9 1.505~1.535 1.52
10 1.535~1.565 1.55
总和
∑ni=100
频次 ni 1 4 7 22 24 24 10 6 1 1
相对频次 =ni÷∑ni
0.01 0.04 0.07 0.22 0.24 0.24 0.10 0.06 0.01 0.01
数。
※ 变量的取值次序可根据需要调整。
(2)定序变量 ※ 定序变量的取值有大小次序之分,
应保留其变化趋势,不要打乱。定距变Biblioteka ※ 离散型定距变量的制表方法与定序
变量的制表方法相同。 ※ 将连续型定距变量的变量值分为若
干区间或组,然后统计每个组内的 频次或百分数。
定距变量分组的注意问题
1. 等距分组与非等距分组:一般采用 等距分组,有时非等距分组更能反映 现象的本质。
1.43 1.43 1.33 1.39 1.37 1.44 1.38 1.42 1.41 1.40 1.39 1.36 1.42 1.44 1.42 1.30 1.41 1.33 1.43 1.37 1.40 1.44 1.27 1.37 1.33 1.36 1.40 1.46 1.39 1.36 1.38 1.38 1.44 1.56 1.42 1.46 1.38 1.31 1.49 1.49 1.43 1.35 1.41 1.39 1.40 1.36 1.43 1.42 1.32 1.38 1.39 1.41 1.48 1.44 1.41 1.34 1.38 1.51 1.36 1.40 1.41 1.36 1.33 1.37 1.45 1.39 1.44 1.42 1.34 1.43 1.38 1.45 1.40 1.44 1.32 1.44 1.40 1.46 1.46 1.37 1.48 1.36 1.47 1.42 1.47 1.38 1.43 1.42 1.39 1.41 1.39 1.45 1.41 1.37 1.49 1.47 1.37 1.50 1.43 1.40
统计表的特点
不需要文字叙述就能反映出资料的 特性及资料间的关系。有较高的精 确性,但不直观。
组号 真实组界限 中心值
1 1.265~1.295 1.28
2 1.295~1.325 1.31
3 1.325~1.355 1.34
4 1.355~1.385 1.37
5 1.385~1.415 1.40
6 1.415~1.445 1.43
其它
总数
源自×××× 表尾
频次 1050 720 110 250
2130
百分比 49.3 33.8 5.2 11.7
100
(表2-1) 表号
变量取值要注意的问题:每个变量值有且 仅有一个“归宿”。
(1) 变量取值必须完备。 (2) 变量取值必须互斥。
例1
收入(元)
0-100 200-300 300以上
社会统计学
陈磊
哲学与社会学学院
社会调查研究的步骤
确定课题 了解情况 建立假设 确立概念和测量方法 设计问卷 试填问卷 调查实施(抽样调查) 校核与登录 统计分析与命题的检验
数据的描述
分布(频次分布):一个概念或变量的各
种情况出现的次数或频次。分布的一
般形式为:
真实组界:将标明组界的精度提高一 位,使前后分组点连续。
标明组界 1~2 3~4 5~6 7~8
真实组界 0.5 ~ 2.5 2.5 ~ 4.5 4.5 ~ 6.5 6.5 ~ 8.5
问题:真实组距是否违反变量值必须 互斥的原则?
注意:只有定距变量的统计表存在分 组问题!
例: 100个同龄儿童的身高统计(单位:米)
2. 组数:
调查总数N 50 ~ 100 100 ~ 250 250以上
分组数K 6 ~ 10 7 ~ 12 10 ~ 20
表2-4
3. 决定分点的精度:分组点的小数点精 确位数比原统计资料高一位。
例:设一统计资料中变量年龄的取值 范围为1~8岁,按2岁一组,写出标明 组界和真实组界。
标明组界:根据分组要求得到的分组 点,其精度与原始数据相同,前后分 组点不连续。
该种取值
( X1 , m1 ) 所对应的 变量的一切 ( X2 , m2 ) 频次 频次分布
可能取值
… … 概率 概率分布
( Xn , mn ) 频率 频率分布
注意:变量的可能取值必须全部列出,并且 没有重复。
统计表
家庭结构的频次分布
表头
(××地,1985.6)
标识行 主体行
家庭结构 核心家庭 直系家庭 联合家庭