当前位置：文档之家› SPSS 第二章数据收集

SPSS 第二章数据收集

4
§1.4 变量之间的关系
• 定量变量间的关系 • 定性变量间的关系 • 定性和定量变量间的混合关系
5
第二章数据的收集
6
§2.1 数据是怎样得到的？
• 数据根据获得的途径可分为一手数据和二手数据.
• 间接得到的(并非自己收集的)数据称为二手数据.
• 一手数据也称为原始数据，它是指研究人员基于当
15
多级抽样 (multistage sampling)
• 在群体很大时，往往在抽取若干群之后，再在其中抽取若干子群，甚至再在子群中抽取子群等等，最后只对最后选定的最下面一级进行调查. • 比如在全国调查时，先抽取省，再抽取市地，再抽取县区，再抽取乡、村直到户. • 在多级抽样中的每一级都可能采取各种抽样方法. 因此，整个抽样计划可能比较复杂，也称为多级混和型抽样. • 注意：即使是大规模的抽样调查，抽取样本的阶段也应当尽可能地减少 . 因为每增加一个抽样阶段，就会增加一份抽样误差，用样本对总体进行估计也更加复杂.
整群抽样 (cluster sampling)
• 整群抽样方法先将总体划分为若干群(cluster) (群内差异大，群间差异小)，再从这些群中随机抽取几群，然后对被选群内的个体进行全面调查 ( 单级整群抽样 ) 或抽样调查(两级整群抽样). • 整群抽样主要运用于根据行政或地域形成的群体，例如学校、企业、县或街道等. • 比如，在某县进行调查，首先在所有村中选取若干村子，然后只对这些村子的人进行调查. • 整群抽样的优点是样本集中，可以降低调查费用；缺点是样本的分布不均，代表性差，抽样误差通常较大.
前的研究项目，通过观察、调查、实验等方式专门
收集的数据.
• 原始数据更有针对性，可靠性更高，但是费时费力.
• 二手数据相关性差，可靠性低，但省时省力.
7
• 抽样调查（社会科学等）和试验设计（农业、医学
等）是获取原始数据的主要方法. • 抽样调查：调查数据，或者观测数据，它是指客观上已经存在，但需要观察或询问才能得到的数据 . 例如，关于社会经济现象的调查、民意调查、市场调查等. • 试验设计：试验数据，它是指在试验方案的指导下，
600 … 1080 2100
F M F M
F … M M
1 1 2 2
1 … 4 3
为一个个案或观测值 • 每一列为一个变量的不同观测值
20
• 汇总数据形式
不同性别、教育程度的人群对某项政策的观点表
教育程度
观点
女不知道反对支持总计 1 7 105 113
H
男 2 8 118 128 女 7 20 170 197
以及在控制有关因素的情况下收集的数据 . 例如，
研究不同医疗手段对某疾病的治疗效果，不同的肥
料和土壤条件对某农作物的产量的影响.
8
§2.2 个体、总体和样本
总体：研究对象的全体构成的集合研究对象的某个(或某些)数量指标取值的全体
个体：组成总体的每一个元素
样本：从总体中按一定规则抽取的一部分个体样本量：样本中包含的个体的数量例如：某厂生产的一批电子元件的寿命是一个总体，每个电子元件的寿命是一个个体. 从这一批电子元件中随机抽取100个，测其寿命，得到一个样本量为100 的样本. 9
第一章一些基本概念
1
§1.3 变量和数据
常量：取值为一个确定的数目. 变量（或随机变量）：可取两个或更多个可能值的特征、特质或属性. 统计研究的对象是变量. 数据：变量的观测值.
变量按其取值不同可分为定量变量和定性变量两大类.
2
变量按其取值不同可分为定量变量和定性变量两大类.
• 定量变量（或数值变量）：如果变量的取值为一些数量值. • 定量变量包括连续型变量和离散型变量两种.

连续型数值变量：其取值可以是某一区间内的任一
实数. 例如：人的身高和体重、某商场的日销售额
等；

离散型数值变量：一般只在整数范围内取值. 例如：购买某商品的人数、商品件数等.
3
• 定性变量（或属性变量、分类变量）：如果变量的
取值为非数值型. • 定性变量可分为名义变量和有序变量.

名义变量：如性别、民族、季节、婚姻状况、国籍等. 在数据分析中，通常用数值来表示变量的各个类别，如用数“1”和“2”表示男和女. 但这些数只是一个代码，没有大小关系，也不能进行运算. 有序变量：如高校教师的职称可分为助教、讲师、副教授、教授，可分别用“1,2,3,4”表示；再如收入水平可分为低收入、中等收入、高收入，分别用“1,2,3”表示. 这些数具有大小或高低顺序，但类与类的差别不能计算.
16
非概率抽样方法
• 方便抽样：依据方便原则，以降低调查成本为目的抽取样本. 典型的形式是“拦截式”调查. 特点是省事省力，但样本代表性差. • 判断抽样：调查人员依据调查目的和对调查对象的了解，人为地选择样本. • 定额抽样：与分层抽样类似，先确定总体中各类比例，然后用方便抽样或判断抽样方法从每一类中按比例选取需要的个体数. • 滚雪球抽样：先从几个合适的调查对象开始，再由一个调查对象推荐另一个调查对象，从而扩大样本范围. • 自愿样本：由自愿接受调查的个体所组成的样本. 典型 17 的形式是“网上调查”.
12
系统抽样(systematic sampling)
• 系统抽样方法：首先将总体中Fra bibliotek每个个体编号，接着依据简单随机抽样方法从总体中随机抽取出第一个个体，然后按相同的间隔抽取其余个体. • 例如，如果第一个个体为 5 号，“间隔”为 10 ，则下面的调查对象为15号、25号等等. • 系统抽样的主要优点是实施简单，且样本在总体中的分布更均匀.
不同教育程度的人群的观点表
教育程度 L 18 52 410 480 M 8 49 586 643 总计 29 116 1219 1364
二维列联表
22
单随机抽样. 抽样的随机性可以使用随机数表实现. 在实践中，获取简单随机样本并不容易. 一般在规模较大的调查中，很少直接采用简单随机抽样，而把这种方法和其它抽样方法结合起来使用.
10
§2.4 抽样调查和一些常用的方法
• 抽样调查方法可以分为两类：概率抽样方法和非概率抽样方法. • 概率抽样方法是以随机原则抽取样本，并且假定每一个个体被抽中的概率是已知的，这种方法使得数据能够进行合理的统计推断. • 非概率抽样方法最主要的特征是在抽取样本时不是依据随机原则，因此不能计算抽样误差，样本数据不能对总体进行推断 .它的主要在预调查或只需了解总体大致情况时使用. • 概率抽样是抽样调查中最主要的方式 .下面介绍四类概率抽样方法.
通常，在无法获得总体数据，或者获得总体数据需要较大投入时，可通过抽样调查的方式获得来自总体的样本数据，然后用样本数据来推断总体特征.
从总体中抽取的样本必须要有代表性：
(1) 随机性：每一个个体都可能被抽到，且每一个个体被抽到的可能性一样. (2) 独立性：每次抽样是独立的(有放回的抽样).
由此得到的样本称为简单随机样本.这种抽样方法称为简
18
§2.3 收集数据时的误差
• 利用抽样调查方法收集数据时会产生误差，数据的误差分为两类：抽样误差和非抽样误差. 抽样误差是由于抽取样本的随机性造成的样本值和总体值之间的差异 . 只要采用抽样调查，抽样误差就不能避免 . 控制抽样误差的方法是改变样本量，在其它条件相同的情况下，样本量越大，抽样误差越小 . 抽样误差与样本量的平方根大致呈反比关系. 非抽样误差是指除抽样误差之外的其它原因造成的样本值和总体值之间的差异，这类误差应尽量避免 . 未响应误差和响应误差属于非抽样误差.
抽样调查的注意点
• 在实际应用中，每个抽样方案都可能是多种抽样方法的组合. 在设计抽样方案时，既要考虑精确度（由误差来表现，误差越小，调查的精度就越高），
还要根据客观情况考虑方便性、可行性和经济性.
• 除了抽样方法之外，问卷设计的质量、调查过程等
对获取高质量的数据都非常重要. 例如，问卷设计
中的问题数量和相应的选择项不宜过多、问题的语言要准确、问题的次序要合理等.
19
§2.5 计算机中常用的数据形式
• 原始数据形式
对某项政策的观点调查的原始数据形式
被访者编号观点 1 支持教育程度 H 月收入 1600 性别 M 地区号 1
• 每一行称
2 3 4 5
6 … 1363 1364
支持反对支持不知道
不知道 … 反对支持
M L H M
L … L H
1720 700 2000 1000
L
男 11 32 240 283 女 5 12 276 293
M
男 3 37 310 350
总计
29 116 1219 1364
三维交叉表或列联表（第八章）
21
• 汇总数据形式
不同性别的人群的观点表
性别观点不知道反对支持总计女 13 39 551 603 男 16 77 668 761 总计 29 116 1219 1364 观点不知道反对支持总计 H 3 15 223 241
13
分层抽样(stratified sampling)
• 分层抽样方法先把要研究的总体按照某些性质分类 (stratum)( 组内差异小，组间差异大 ) ，再在各类中分别独立、随机地抽取样本 . 总的样本由各类样本组成，总体参数则根据各类样本参数的汇总做出估计. • 在每类中调查的人数通常是按照该类人的比例，但出于各种考虑，也可能不按照比例，也可能需要加权. • 比如，按照受教育程度把要调查的人群分成几类，再在每一类中调查和该类成比例数目的人，以确保每一类都有按比例的代表. • 当总体是由差异明显的几部分组成时，往往选择分层抽样的方法，它能够提高样本的代表性、以及总体估计值 14 的精度. 还可以得到各类别参数的估计.

e商务文档

SPSS 第二章数据收集

相关文档推荐：

e商务文档

SPSS 第二章 数据收集

相关文档推荐：

SPSS 第二章数据收集