第十一章 定量资料分析
数据登录表
城区 个案号 A1 A2 A3 A4 A5 A61 A62 ……
1 2-5 6 7-8 9 10 11 12 13
个案1 1 0387 2 39 3 2
2
1
1
个案2 2 0388 2 40 2 3
4
1
0
个案3 4 0389 1 50 2 5
2
2
1
个案4 3 0400 1 28
1
7
1
0
0
…… …… …… … …… …… …… …… …… ……
1
6 Di2 N (N 2 1)
• 3. 定类变量(或定序变量)与定距变量
• 当两个分析的变量一个为定类(或定序)变量,另一个为 定距(以上)变量时,可以用相关比率(Correlation ratio)或eta系数来测量二者间的相关程度。
• 相关比率又称为eta平方系数,记为 E2,其数值范围由0
• 三、相关分析与检验
• 1. 定类变量与定类变量
• Lambda系数、Tau-y系数
• (1)系数 yx ( 以众值作为预测的准则)
mx my (M x M y )
2N (Mx M y )
yx
my M y N My
每M 个y=取Y变值量之众下数的的X变频量次的;M众x=数X的变频量次众;数m的y=频为次X变,m量x=的Y每变个量取
(280)
• 2. x2检验
x2
( fo fe )2 fe
• 式中 fo为交互分类表中每一格的观察频数;fe 为交互分类
表中 fo所对应的期望频数。
• 检验的具体步骤: • (1)建立两变量间无关系的假设;然后计算出值 x2;
• (2)根据自由度df=(r-1)(c-1)和给出的显著性水平,即p
• 四、数据清理
• 1. 有效范围清理; • 2. 逻辑一致性清理; • 3. 数据质量抽查。
统计分析
全面调查
单变量 双变量 多变量
集中趋势 分析
离散趋势 分析
列联表 消减误差
比例 相关分析 一元方差
分析 一元回归
分析
多元相关 分析
多元方差 分析
多元因果 分析
判别分析 聚类分析 因素分析 最小空间
• (标准差——平均数、异众比率——众数、四分位差—— 中位数)。
• 标准差:一组数据对其平均数的偏差平方的算术 平均数的平方根。
(xi X )2
n
• 离散系数:一种相对的离散趋势统计量,能够对 同一总体中的两种不同的离散趋势统计量进行比 较,或对两个不同总体中的同一离散趋势统计量 进行比较。
(xi X )2 • ( yi Y )2
• 皮尔逊相关系数r的检验既可采用F检验的方法,也可采
用t检验的方法,因为F= t 2。F检验的计算公式如下:
F
r 2 (n 2) 1 r2
t F r n2 1 r2
• 总结各种层次变量之间的相关测量与检验方法:
• (1)各种相关测量的方法,目的是理解两个变量在“样 本”中相关程度的强弱或大小。
取值范围 [0, 1]
是否 有误消减误差 检验方 SPSS有无
对称 比例意义
法
该系数
对称
有
x
2检 验
有
定序-定序
G
定类-定距
E
(定序-定距)
E2
[-1, 1] [0, 1]
对称
不对 称
定距-定距
r
[-1, 1] 对称
r2
[0, 1]
有
Z检验
有
无
F检验
有
有
有
无
F检验
有
有
(t检
有
验)
• 四、一元回归分析
同意 √
√
无所谓 不同意 很不同意 √
看法① 看法② 看法③
非常同意
1 5 1
三种看法的赋值
同意
2 4 2
无所谓
3 3 3
不同意
4 2 4
很不同意
5 1 5
编码手册
项目名称 变量名
区
V
含义 城区
宽度 1
个案号 ID 个案号
4
问题A1 A1
性别
1
问题A2 A2
年龄
2
问题A3 A3 文化程
1
度
栏码 1
• (2)对各种相关系数所进行的相应的检验,目的是根据 随机样本的资料推论两个变量在“总体”中是否相关。
• (3)选择何种相关测量方法和何种检验方法,主要看两 变量的测量层次,要依据变量的测量层次来确定合适的相
关检验工具。
• 两变量关系的测量与检验方法总结表
两变量层次
相关 系数
定类-定类
(定类-定序)
• 第十一章 定量资料分析
• 主要内容:
• 资料的整理与录入
• 单变量统计分析
• 双变量统计分析 • 多变量的统计分析
第一节 资料的整理与录入
• 一、资料的审核
• 主要工作:审查资料的完整性、统一性和合格性。
• 完整性:
资料总体的完整性; 每份资料的完整性。
• 统一性:
问卷或报表登记填报方法是否统一; 对同一指标的数字所使用的度量单位是否一致; 不同表格对同一指标的计算方法是否统一
表示相关的方向性,又表示相关的程度。
G Ns Nd Ns Nd
• 式中,Ns 表示同序对数目,Nd 表示异序对数目。 • (同序对:变量大小顺序相同的两个样本点,即其在变量
X上的等级高低顺序与在变量Y上的等级高低顺序相同; 否则就叫异序对)
• Z检验 • 为了进行Z检验,必须先将G值标准化为Z值。
• 离散系数:标准差与平均数之百分比。
CV 100%
X
• 标准分数:用来确定原始数据在总体分布中的位 置,或用来对不同分布的各原始数据进行比较。
Z xx
• 二、单变量统计推论
• 统计推论主要分为两类:参数估计(点估计、区 间估计)、假设检验。
• 1. 区间估计
• 在一定的可信度(置信水平、置信度)下,用样 本统计值的某个范围(置信区间)来估价总体的 参数值。
• (1)较为深入地描述样本资料的分布状况和内在结构; • (2)分组比较,同时也是分析变量间关系的基础。
表1 千户家庭居住地与户主从事的产业(条件次数表)
产业
农业 工业 商业服务业 建筑业 运输
总数
东部
28 248 20
4 0
300
地区
中部
30 330 56
3 1
420
西部
14 122 130
7 7
值, ni n 。
• 相比比率的检验采用的是F检验法,其计算公式为:
F
E2 1 E2
(nk) k 1
• 式中,k为分组数目,n为样本规模;k 1 df1 n k df2
• 4.定距变量与定距变量
• 皮尔逊相关系数(或称皮尔逊积差相关系数)r。皮尔逊 相关系数的计算公式为:
r
(xi X ) • ( yi Y )
到1,也具有消减误差比例的意义。其计算公式为:
E2 ( y Y )2 ( y Yi )2 (y Y)2
• 式中,y为因变量的数值,Y 为因变量的均值;Yi 为在自变
量x的每个取值上的因变量的均值。
• 为了计算方便,常将上述公式化为下面形式:
E2
2
2
ni Yi nY
y2 nY 2
• 式中,n为x变量每一取值的频数合计值,n为总的频数
• (2)总体成数的区间估计
p(1 p)
p Z /2
n
其中,p 为样本成数,p为总体中某 类所占百分比。
• 2. 假设检验 • 先对总体某一参数作出假设,然后用样本的统计
量去进 行验证,以决定假设是否为总体所接受。
• 几对概念: • (1)原假设与被择假设( H0 与 H1 ) • (2)显著性水平与否定域(接受域) • (3)双边检验与单边检验
1
A2 你的年龄: 28 周岁
28
A3 你的文化程度:
3
①小学及以下 ②初中 ③高中及中专√ ④大专以上
A4 你的婚姻状况
2
①未婚 ②已婚√ ③离婚 ④丧偶 ⑤其他
对婚事花费态度的调查
非常同意
①婚事应该尽量办得简单一些
②结婚是人生一件大事,婚事 应该办得隆重热闹、花再多的 钱也值得
③就是没钱婚事也不应大操办
分析
统计描述
抽样调查 单变量 双变量 多变量
其他 非概 率抽 样
统计推论
参数估计 假设检验
点估计 区间估计
参数检验
Z检验 t检验 F检验 非参数检验
x 2检验
统计描述+统计推论
第二节 单变量统计分析
• 一、单变量描述统计
• 主要目的:用最简单的概括形式反映出大量数据 资料所容纳的基本信息。
• 基本方法:集中趋势分析、离散趋势分析等。
• 1. 集中趋势分析 • 用一个典型值或代表值来反映一组数据的一般水
平,或反映这组数据向这个典型值集中的情况。 • 最常见的集中趋势:平均数、众数和中位数。
X x n
X
xf f
xf
n
• 2. 离散趋势分析
• 用一个特别的数值来反映一组数据相互之间的离 散程度。
• 常见的离散趋势统计量:极差、异众比率、四分 位差、标准差与方差、离散系数与标准分数等。
• 假设检验的步骤:
• (1)建立原假设(虚无假设)和(备择假设)研 究假设;
• (2)根据需要选择适当的显著性水平 ,通常有 =0.05, =0.01,并确定拒绝域或接受域;