当前位置:文档之家› 统计SPSS数据文件的建立和管理

统计SPSS数据文件的建立和管理

第2章 SPSS数据文件的建立和管理学习目标1.明确SPSS数据的基本组织形式和数据行列的含义。

2.掌握应从哪些方面描述SPSS数据文件的结构特征。

3.熟练掌握建立SPSS数据文件以及管理SPSS数据的基本操作。

4.熟练掌握在SPSS中读取Excel工作表数据的基本操作,了解读取文本和数据库数据的基本方法。

建立SPSS数据文件是利用SPSS软件进行数据分析的首要工作。

没有完整且高质质的数据,也就没有值得信赖的数据分析结论。

2.1 SPSS数据文件建立SPSS数据文件,应首先了解SPSS数据文件的特点、数据组织的基本方式和相关概念等。

只有这样才能够建立一个完整且全面的数据环境,服务于以后的数据分析工作。

2.1.1SPSS数据文件的特点SPSS数据文件是一种有别于其他文件(如Word文档、文本文件)的有特殊性的文件。

从应用角度理解,这种特殊性表现在两方面。

第一,SPSS数据文件的扩展名是.sav;第二,SPSS数据文件是一种有结构的数据文件。

它由数据的结构和内容两部分组成。

其中,数据的结构记录了数据的类型、取值说明、数据缺失情况等的必要信息,数据的内容是那些待分析的具体数据。

SPSS数据文件与一般文本数据的不同在于:一般文本文件仅有纯数据部分,而没有关于结构的描述。

正是如此,SPSS数据文件不能像一般文件那样可以直接被大多数编辑软件读取,而只能在SPSS软件中打开。

基于上述特点,建立SPSS数据文件时应完成两项任务,第一,描述SPSS数据的结构;第二,录入编辑SPSS的数据内容。

这两部分工作分别在SPSS数据编辑窗口的变量视图中完成。

2.1.2 SPSS数据的基本组织方式SPSS的数据将直观地显示在数据编辑窗口中,形成一张平面二维表格。

待分析的数据将按原始数据方式和计数数据方式组织。

一、原始数据的组织方式如果待分析的数据是一些原始的调查问卷数据,或是一些基本的统计指标,那么这些数据就可按原始数据的方式组织。

在原始数据的组织方式中,数据编辑窗口中的一行称为一个个案(case),所有个案组成完整的SPSS数据。

数据编辑窗口中的一列称为一个变量。

每个变量都有一个名字,称为变量名,它是访问和分析SPSS每个变量的唯一标识。

案例2—1为研究某地区住户的家庭住房条件和购房意向,进行问卷调查。

调查内容包括被调查者的性别、职业、年龄、家庭月收入、常住人口数、现住房面积、购房意向等问题。

现调查了2000人,得到2000份问卷数据。

具体数据在可供下载的压缩包中,文件名为“住房状况调查.sav”。

案例2—1的数据就是一份原始数据。

在SPSS数据编辑窗口中,一行存储一份问卷数据,是一个个案。

对于案例2—1,2000份问卷在SPSS中就有2000行数据,即有2000个个案。

SPSS中的一列通常应对一个问卷问题,是一个变量,每个变量都有变量名。

变量名可以与问卷题目相对应。

图2—1是该份调查数据在SPSS数据编辑窗口的数据视图中的组织样式。

二、计数数据的组织方式有时所采集的数据不是原始的调查问卷数据,而是经过分组汇总后的计数数据。

案例2—案例2—2的数据就是一份汇总后的计数数据,而非原始数据。

在SPSS中该类数据应按计数数据的组织方式组织。

如图2—2所示。

在计数数据的组织方式中,数据编辑窗口中的一行为变量的一个分组(或多变量交叉分组下的一个分组)。

所有行囊括了该变量的所有分组情况(或多变量交叉下的所有分组情况)。

数据编辑窗口中的一列仍为一个变量,代表某个问题(或某个方面特征)以及相应的计数结果。

选择怎样的数据组织方式主要取决于收集到的数据以及今后所要进行的分析。

2.2 SPSS数据的结构和和定义方法S PSS数据的结构是对SPSS每列变量及其相关属性的描述。

它的定义是通过数据编辑窗口中的变量视图实现的。

对于案例2—1的住房调查数据,已定义好的SPSS数据结构如图2—3所示。

其中,各项内容依次变量名(Name)、列宽(Width)、小数位宽(Decimals)、变量名标签(Label)、变量值标签(Values)、缺失值(Missing)、列显示宽度(Columns)、对齐方式(Align)、计量尺度(Measure)。

其中有些内容是用户必须定义的,有些则可以忽略。

2.2.1 变量名变量名(Name)是变量访问和分析的唯一标志。

在定义SPSS数据结构时应首先给出每列变量的变量名。

SPSS数据编辑窗口中,变量名将显示在数据视图中列标题的位置上,如图2—4中所圈住的部分便是变量名。

变量的起名规则一般是:变量名的字符个数不多于8个;首字符应以英文字母开头,后面的可以跟除了!,?,*之外的字母或数字。

下划线、圆点不能为变量名的最后一个字母;变量名不区分大小写字母。

允许汉字作为变量名,汉字总数不能超过4个;变量名不能与SPSS内部特有的具有特定含义的保留字相同,如ALL,BY,AND,NOT,OR等;SPSS有默认的变量名,它以字母“VAR”开头,后面补足5位数字,如VAR00001,VAR00012等。

为方便记忆,变量名最好与其代表的数据含义相对应。

如果变量名不符合SPSS的起名规则,系统会自动给出错误提示信息。

在SPSS数据编辑窗口的变量视图中,在【Name】列下相应行的位置输入变量名即可。

如图2—5所示。

2.2.2 数据类型、列宽、小数位宽数据类型(Type)是指每个变量取值的类型。

SPSS中有三种基本数据类型,分别为数值型、字符型和日期型。

相应的类型会有默认的列宽(Width)或小数位宽(Decimals)等。

一、数值型数值型是SPSS最常用的数据类型,通常有阿拉伯数字(0-9)和其他特殊符号(如美元符号、逗号、圆点)等组成。

例如,工资、年龄、成绩等变量都可定义为数值型数据。

SPSS中数值型有以下五种不同的表现方法:1、数值型(Numeric)标准型是SPSS默认的数据类型,默认的列宽为8位,包括正负符号位、小数点和小数位在内,小数位宽默认为2位。

如果数据的实际宽度大于8位,SPSS 将自动按科学计数法显示。

需要说明的是,数据的显示并不影响真正数据的存储,也不影响数据的计算。

2.科学记数法型(Scientific Notation)科学记数法也是一种常见的数值型数据的表示方式。

例如,120用科学记数法表示为1.2E+02,其中的E表示以10为底,+02表示正的2次方。

又如,0.005用科学记数法为5.0E-03,这里—03表示负的3次方。

科学记数法的默认列宽为8,包括正负符号位、字母E和跟在其后的正负符号及两位幂次数字。

科学记法一般用来表示很大或很小的数据。

用户在输入科学记数法数据时,可以按标准型方式输入数据,SPSS会自动进行转换。

3.逗号型(Comma)逗号型数据其整数部分从个位开始每3位以一个逗号分隔,默认的列宽为8,小数位宽为2,逗号所占的位数包括在总显示宽度之内,如1,234,56。

用户在输入逗号型数据时,可以不输入逗号,SPSS将自动在相应位置上添加逗号。

4.圆点型(Dot)圆点型数据其整数部分从个位开始每3位以一个圆点分隔,以逗号作为整数和小数部分的分隔符。

它默认的列宽为8,小数位宽为2,如1.234,56。

用户在输入圆点型数据时,可以不输入圆点,SPSS将自动在相应位置上添加圆点。

5.美元符号型(Dollar)美元符号型主要用来表示货币数据,它在数据前附加美元符号$。

美元符号型数据的显示格式很多,如$###、$###,###、$#,###,##等,SPSS会以菜单方式将其显示出来供用户选择。

用户在输入美元符号型时,可以不输入美元符号,SPSS将自动在相应位置上添加美元符号。

二、字符型(String)字符型也是SPSS较常用的数据类型,它由一串字符串组成。

如职工号码、姓名、地址等变量都可定义为字符型数据。

字符型数据的默认列宽为8个字符位,它不能够进行算术运算,并区分大小写字母。

字符型数据在SPSS命令处理过程中应用一对双引号起来,但在输入数据时不应输入双引号,否则,双引号将会作为字符型数据的一部分。

三、日期型(Date)日期型用来表示日期或者时间数据,如生日、成立日期等变量可以定义为日期型。

日期型的显示格式有很多,例如,dd-mmm-yyyy,dd表示两个字符位的日期,为数据分隔符,mmm表示英文月的缩写,yyyy表示四个字符位的年份。

如25—AUG—2006表示2006年8月25日。

又例如,mm/dd/yyyy,mm表示两个字符的月份,/为数据分隔符。

dd表示两个字符位的日期,yyyy表示四个字符位的年份,如2006年8月25日也可以表示08/25/2006。

SPSS以菜单的方式将所有的日期显示格式列出来供用户选择。

在SPSS数据编辑窗口的变量视图中,在【Type】列下相应行的位置单击鼠标,并根据实际数据在弹出窗口中选择相应的数据类型,如图2--6所示。

2.2.3 变量标签变量名标签(Label)是对变量名含义的进一步解释说明,它可增强变量名的可视性和统计分析结果的可读性。

变量名标签可用中文,总长度可达120个字符,但在统计分析结果的显示中,一般不可能显示如此长的变量名标签信息。

变量名标签这个属性是可以省略的,但建议最好给出变量名的标签。

通常,如果变量名已经是中文汉字,变量名标签可以省略。

在SPSS数据编辑窗口的变量视图中,在【Label】列下相应行的位置输入变量名标签即可。

2.2.4 变量值标签变量值标签(Values)是对变量取值含义的解释说明信息,对于定类型和定序型数据尤为重要。

例如,对于性别变量,假设用数值1表示男,用数值2表示女的。

那么,人们看到的数据就仅仅是1和2这样的符号,通常很难弄清楚1代表男还是女。

但如果为性别变量附加变量值标签,并给出1和2的实际指代,则无疑会使数据含义非常清楚。

可见,变量值标签对于定序数据(如收入的高、中、低)和定类数据(如民族、性别)来说必不可少的。

它不但明确了数据的含义,也增强了最后统计分析结果的可读性。

变量值标签可以用中文。

变量值标签这个属性是可以省略的,但建议最好给出定序或定类变量的变量值标签。

在SPSS数据编辑窗口的变量视图中,在【Value】列下相应行位置单击鼠标,并根据数据在弹出窗口中指定变量值标签,如图2——7所示。

2.2.5 缺失数据缺失数据(Missing)的处理是数据分析准备过程中的一个非常重要的环节。

数据中明显错误或明显不合理的数据以及漏填的数据都可看做缺失数据。

例如,在某项客户满意度的问卷调查数据中,某个被调查者的年龄是213岁。

这个数据显然是一个不符合实际情况的失真数据。

再例如,在某项客户满意度的问卷调查中,某个被调查者的年收入没有填,是空缺的。

通常上述情况的数据都可称为缺失数据或不完全数据。

相关主题