SPSS 第二章 数据收集
4
§1.4 变量之间的关系
• 定量变量间的关系 • 定性变量间的关系 • 定性和定量变量间的混合关系
5
第二章 数据的收集
6
§2.1 数据是怎样得到的?
• 数据根据获得的途径可分为一手数据和二手数据.
• 间接得到的(并非自己收集的)数据称为二手数据.
• 一手数据也称为原始数据,它是指研究人员基于当
15
多级抽样 (multistage sampling)
• 在群体很大时,往往在抽取若干群之后,再在其中抽取 若干子群,甚至再在子群中抽取子群等等,最后只对最 后选定的最下面一级进行调查. • 比如在全国调查时,先抽取省,再抽取市地,再抽取县 区,再抽取乡、村直到户. • 在多级抽样中的每一级都可能采取各种抽样方法. 因此, 整个抽样计划可能比较复杂,也称为多级混和型抽样. • 注意:即使是大规模的抽样调查,抽取样本的阶段也应 当尽可能地减少 . 因为每增加一个抽样阶段,就会增加 一份抽样误差,用样本对总体进行估计也更加复杂.
整群抽样 (cluster sampling)
• 整群抽样方法先将总体划分为若干群(cluster) (群内差异 大,群间差异小),再从这些群中随机抽取几群,然后对 被选群内的个体进行全面调查 ( 单级整群抽样 ) 或抽样调 查(两级整群抽样). • 整群抽样主要运用于根据行政或地域形成的群体,例如 学校、企业、县或街道等. • 比如,在某县进行调查,首先在所有村中选取若干村子, 然后只对这些村子的人进行调查. • 整群抽样的优点是样本集中,可以降低调查费用;缺点 是样本的分布不均,代表性差,抽样误差通常较大.
前的研究项目,通过观察、调查、实验等方式专门
收集的数据.
• 原始数据更有针对性,可靠性更高,但是费时费力.
• 二手数据相关性差,可靠性低,但省时省力.
7
• 抽样调查(社会科学等)和试验设计(农业、医学
等)是获取原始数据的主要方法. • 抽样调查:调查数据,或者观测数据,它是指客观 上已经存在,但需要观察或询问才能得到的数据 . 例如,关于社会经济现象的调查、民意调查、市场 调查等. • 试验设计:试验数据,它是指在试验方案的指导下,
600 … 1080 2100
F M F M
F … M M
1 1 2 2
1 … 4 3
为一个个 案或观测 值 • 每一列为 一个变量 的不同观 测值
20
• 汇总数据形式
不同性别、教育程度的人群对某项政策的观点表
教育程度
观点
女 不知道 反对 支持 总计 1 7 105 113
H
男 2 8 118 128 女 7 20 170 197
以及在控制有关因素的情况下收集的数据 . 例如,
研究不同医疗手段对某疾病的治疗效果,不同的肥
料和土壤条件对某农作物的产量的影响.
8
§2.2 个体、总体和样本
总体:研究对象的全体构成的集合 研究对象的某个(或某些)数量指标取值的全体
个体:组成总体的每一个元素
样本:从总体中按一定规则抽取的一部分个体 样本量:样本中包含的个体的数量 例如: 某厂生产的一批电子元件的寿命是一个总体, 每个电子元件的寿命是一个个体. 从这一批电子元件 中随机抽取100个,测其寿命,得到一个样本量为100 的样本. 9
第一章 一些基本概念
1
§1.3 变量和数据
常量:取值为一个确定的数目. 变量(或随机变量):可取两个或更多个可能值的 特征、特质或属性. 统计研究的对象是变量. 数据:变量的观测值.
变量按其取值不同可分为定量变量和定性变量两大类.
2
变量按其取值不同可分为定量变量和定性变量两大类.
• 定量变量(或数值变量):如果变量的取值为一些 数量值. • 定量变量包括连续型变量和离散型变量两种.
连续型数值变量:其取值可以是某一区间内的任一
实数. 例如:人的身高和体重、某商场的日销售额
等;
离散型数值变量:一般只在整数范围内取值. 例如: 购买某商品的人数、商品件数等.
3
• 定性变量(或属性变量、分类变量):如果变量的
取值为非数值型. • 定性变量可分为名义变量和有序变量.
名义变量:如性别、民族、季节、婚姻状况、国籍等. 在数据分析中,通常用数值来表示变量的各个类别,如 用数“1”和“2”表示男和女. 但这些数只是一个代码, 没有大小关系,也不能进行运算. 有序变量:如高校教师的职称可分为助教、讲师、副教 授、教授,可分别用“1,2,3,4”表示;再如收入水平可 分为低收入、中等收入、高收入,分别用“1,2,3”表示. 这些数具有大小或高低顺序,但类与类的差别不能计算.
16
非概率抽样方法
• 方便抽样:依据方便原则,以降低调查成本为目的抽 取样本. 典型的形式是“拦截式”调查. 特点是省事省 力,但样本代表性差. • 判断抽样:调查人员依据调查目的和对调查对象的了 解,人为地选择样本. • 定额抽样:与分层抽样类似,先确定总体中各类比例, 然后用方便抽样或判断抽样方法从每一类中按比例选 取需要的个体数. • 滚雪球抽样:先从几个合适的调查对象开始,再由一 个调查对象推荐另一个调查对象,从而扩大样本范围. • 自愿样本:由自愿接受调查的个体所组成的样本. 典型 17 的形式是“网上调查”.
12
系统抽样(systematic sampling)
• 系统抽样方法:首先将总体中Fra bibliotek每个个体编号,接着依 据简单随机抽样方法从总体中随机抽取出第一个个体, 然后按相同的间隔抽取其余个体. • 例如,如果第一个个体为 5 号,“间隔”为 10 ,则下面 的调查对象为15号、25号等等. • 系统抽样的主要优点是实施简单,且样本在总体中的分 布更均匀.
不同教育程度的人群的观点表
教育程度 L 18 52 410 480 M 8 49 586 643 总计 29 116 1219 1364
二维列联表
22
单随机抽样. 抽样的随机性可以使用随机数表实现. 在实践中,获取简单随机样本并不容易. 一般在规模较大 的调查中,很少直接采用简单随机抽样,而把这种方法和 其它抽样方法结合起来使用.
10
§2.4 抽样调查和一些常用的方法
• 抽样调查方法可以分为两类:概率抽样方法和非概率抽 样方法. • 概率抽样方法是以随机原则抽取样本,并且假定每一个 个体被抽中的概率是已知的,这种方法使得数据能够进 行合理的统计推断. • 非概率抽样方法最主要的特征是在抽取样本时不是依据 随机原则,因此不能计算抽样误差,样本数据不能对总 体进行推断 .它的主要在预调查或只需了解总体大致情 况时使用. • 概率抽样是抽样调查中最主要的方式 .下面介绍四类概 率抽样方法.
通常,在无法获得总体数据,或者获得总体数据需要较 大投入时,可通过抽样调查的方式获得来自总体的样本 数据,然后用样本数据来推断总体特征.
从总体中抽取的样本必须要有代表性:
(1) 随机性:每一个个体都可能被抽到,且每一个个体 被抽到的可能性一样. (2) 独立性:每次抽样是独立的(有放回的抽样).
由此得到的样本称为简单随机样本.这种抽样方法称为简
18
§2.3 收集数据时的误差
• 利用抽样调查方法收集数据时会产生误差,数据的误差 分为两类:抽样误差和非抽样误差. 抽样误差是由于抽取样本的随机性造成的样本值和总体 值之间的差异 . 只要采用抽样调查,抽样误差就不能避 免 . 控制抽样误差的方法是改变样本量,在其它条件相 同的情况下,样本量越大,抽样误差越小 . 抽样误差与 样本量的平方根大致呈反比关系. 非抽样误差是指除抽样误差之外的其它原因造成的样本 值和总体值之间的差异,这类误差应尽量避免 . 未响应 误差和响应误差属于非抽样误差.
抽样调查的注意点
• 在实际应用中,每个抽样方案都可能是多种抽样方 法的组合. 在设计抽样方案时,既要考虑精确度 (由误差来表现,误差越小,调查的精度就越高),
还要根据客观情况考虑方便性、可行性和经济性.
• 除了抽样方法之外,问卷设计的质量、调查过程等
对获取高质量的数据都非常重要. 例如,问卷设计
中的问题数量和相应的选择项不宜过多、问题的语 言要准确、问题的次序要合理等.
19
§2.5 计算机中常用的数据形式
• 原始数据形式
对某项政策的观点调查的原始数据形式
被访者编号 观点 1 支持 教育程度 H 月收入 1600 性别 M 地区号 1
• 每一行称
2 3 4 5
6 … 1363 1364
支持 反对 支持 不知道
不知道 … 反对 支持
M L H M
L … L H
1720 700 2000 1000
L
男 11 32 240 283 女 5 12 276 293
M
男 3 37 310 350
总计
29 116 1219 1364
三维交叉表或列联表(第八章)
21
• 汇总数据形式
不同性别的人群的观点表
性别 观点 不知道 反对 支持 总计 女 13 39 551 603 男 16 77 668 761 总计 29 116 1219 1364 观点 不知道 反对 支持 总计 H 3 15 223 241
13
分层抽样(stratified sampling)
• 分层抽样方法先把要研究的总体按照某些性质分类 (stratum)( 组内差异小,组间差异大 ) ,再在各类中分别 独立、随机地抽取样本 . 总的样本由各类样本组成,总 体参数则根据各类样本参数的汇总做出估计. • 在每类中调查的人数通常是按照该类人的比例,但出于 各种考虑,也可能不按照比例,也可能需要加权. • 比如,按照受教育程度把要调查的人群分成几类,再在 每一类中调查和该类成比例数目的人,以确保每一类都 有按比例的代表. • 当总体是由差异明显的几部分组成时,往往选择分层抽 样的方法,它能够提高样本的代表性、以及总体估计值 14 的精度. 还可以得到各类别参数的估计.