实验一、数据文件的编辑与整理在SPSS中,数据文件的编辑、整理等功能被集中在了Data和Transform两个菜单项中,这两个菜单的内容如下所示:Data 菜单项 Transform 菜单项2.1 进一步整理数据文件--Data 菜单【Sort Cases 对话框】例2.1 对数据集li1_1.sav 按group 升序,x 降序的次序排列。
解:选择菜单Data==>Sort Cases,系统弹出Sort Cases 对话框,该对话框并不复杂,其中比较特殊的是下方的Sort Order 单选钮,有升序和降序两种选择。
请注意,该单选钮是和上方的Sort By 框一起使用的,具体方法如下:1. 确认升序单选钮被选择,将Group 选入Sort By 框;2. 选择降序单选钮,将x 选入Sort By 框。
【Merge Files 对话框】用于对数据文件进行合并。
有纵向合并和横向合并两种。
纵向合并——增加观测量到当前数据;Data==>Merge File ==> Add Cases横向合并——增加变量到当前数据文件。
Data==>Merge File ==> Add Variables【Aggregate 对话框】用于对数据进行分类汇总,所谓分类汇总就是按指定的分类变量对观测值进行分组,对每组记录的各变量值求指定的描述统计量,结果可以存入新数据文件,也可以替换当前数据文件。
例2.2 计算Li1_1.sav中两组的血磷值标准差。
解:该题完全可以用更简单的方法完成,这里只是演示一下汇总对话框的用法。
1.Break Variables框:Group2.Aggregate Variables框:x3.Function钮:(Standard deviation单选钮:Continue钮)4.Replace working data file单选钮:选中5. OK【 Select Cases 对话框】很多时候我们不需要分析全部的数据,而是按某种要求分析其中的一部分(比如只分析男性的身高、只对前200个数据进行分析以了解大概情况),这时使用Select Cases对话框可以大大简化工作。
该对话框界面如下所示:z All cases单选钮:和下面的4个单选钮为一组,选中它则分析所 有的记录;z If condition is satisfied单选钮:只分析满足条件的记录;z If按钮:和If单选钮一起使用,单击后弹出If对话框;z Random sample of cases单选钮:从原数据中随机抽样;z Sample按钮:和Random单选钮一起使用,可以设定按百分比抽取记录,或者精确设定从前若干个记录中抽取多少个记录;z Based on time or case range单选钮:基于记录序号来选择记录;z Range按钮:和Based单选钮一起使用,用于输入记录序号范围;z Use filter variable单选钮:使用筛选指示变量来选择记录,必需在下面选入一个筛选指示变量,该变量取值为非0的记录将被选中,进入以后的分析;z Filtered单选钮:和下面的Deleted单选钮为一组,表示未被选中的记录只是被隔离,这些记录的记录号会被加上斜杠以示区别;z Deleted单选钮:未被选中的记录将被删除,一般不要使用。
当对数据集做出筛选后,所做的筛选将在以后的分析中一直有效,直到再次改变选择条件为止。
同时在多数情况下,系统会自动产生一个名为filter_$的筛选指示变量,被选中的记录该变量取值为1,反之则为0。
【Weight Cases对话框】用于对数据进行加权处理,如计算加权平均数,尤其用于处理一些频数信息等等。
1、选择菜单Data==>Weight cases;2、选择Weight cases by选项,并将某变量作为加权变量选到Weight cases by 框中。
至此便完成了加权变量的指定。
一旦指定了加权变量,那么以后的分析处理中加权是一直有效的,直到取消加权为止。
取消加权应在同一窗口中选择DO not weight cases选项。
【Split File对话框】用于对数据进行拆分,不仅按指定变量进行简单排序,更重要的是根据变量对数据进行分组,为以后所进行的分组统计分析提供便利。
1、选择菜单Data==>Split File;2、将拆分变量选择到Groups Based on框中;3、拆分会使后面的分组统计产生两种不同格式的结果。
其中Compare groups表示将分组统计结果输出在同一张表格中,以便于不同组之间的比较;Organize output by groups表示将分组统计结果分别输出在不同的表格中,通常选择第一种输出方式。
4、如果数据编辑窗口中的数据已经事先按所指定的拆分变量进行了排序,则可以选择File is already sorted 项,可以提高拆分执行的速度,否则,选择另一项。
数据拆分将对后面的分析一直起作用,即无论进行哪种统计分析,都将按拆分变量的不同组别分别进行分析计算。
如果希望对所有数据进行整体分析,则需要重新执行数据拆分,即在窗口中选择Analyze all cases项。
2.2 从原有变量计算新变量(Transform功能)【Compute Variable对话框】例2.2 在li1_1.sav中建立新变量temp,令其值当血磷值大于1时为2。
解:选择菜单Transform==>Compute,系统弹出记录选择对话框如下:单击中下部的“If”按钮,系统弹出记录选择对话框如下:由于我们这里不是对所有记录做变换,因此选中第二个单选钮“Include if case statisfies confition:”,此时下方的所有窗口变亮,表明现在可用;而“Continue”按钮变灰,表明当前还没有提供所需的信息,在左侧选中血磷值(x),然后单击“”,x就被引入了右侧的变量框,任你用键盘或者用鼠标,总之将下面这个算式补充完:x>1。
现在可见“Continue”按钮再度变黑。
系统回到Compute Variable对话框,请注意If按钮右侧的变化:x>2。
最后单击“OK”按钮。
软键盘上几个奇奇怪怪的符号的含义如下:~=&|**~不等号,等价于<>逻辑符号AND逻辑符号OR乘方,相当于函数EXP()逻辑符号NOT【Count对话框】Count对话框用于计算某个值或某些值在某个变量的取值中是否出现 例2.3 在li1_1.sav中看看有哪些记录的血磷值在2~3之间。
选择菜单Transform==>Count,系统弹出Count对话框如下:Target Variable框中用于指定记录变量值是否出现的变量名,在这里输入temp2;选中血磷值(x),将其选入Variables窗口,此时“Define Values”按钮变黑,单击它,系统弹出变量值定义窗口如下:左半部为变量值定义窗口,可以定义某个值、系统缺失值、系统或用户定义缺失值、变量值范围、小于某值或大于某值。
我们这里是第四种情况:选择Range,在through两侧分别键入2、3,然后单击已变黑的“Add”按钮,“2 thru 3”就会被加入“Values to Count”框内。
然后单击“Continue”,再单击Count 对话框的“OK”,可以看到系统自动生成变量temp2,其中10、11号记录因血磷值介于2和3之间,temp2取值为1,其余的记录temp2取值均为0。
【Recode对话框】Recode对话框用于从原变量值按照某种一一对应的关系生成新变量值,可以将新值赋给原变量,也可以生成一个新变量。
例2.4在Li1_1.sav中生成新变量temp3,当血磷值小于1时取值为0,1~2时取值为10,大于2时取值为20。
选择菜单Transform==>Record==>Into Different Variables,1.Output Variable框:选入x2.Output Variable Name框:键入temp3:单击Change钮3.选中x->temp3:单击Old and New Values钮:4.Range:Lowest through单选钮:键入1:New Value Value单选钮:键入0:单击Add钮5.Range: through单选钮:两侧分别键入1、2:New Value Value单选钮:键入10:单击Add钮6.Range: All other values单选钮:New Value Value单选钮:键入20:单击Add钮7.单击Continue8.单击OK【Categorize Variables对话框】Categorize Variables对话框用于将连续性变量自动按要求分成等间距的几类。
通常用于分位数分组。
1.Create Categories框:选入x2.Number of categories框:43.OK案例1:步骤:Data=>sort case1、数据文件:数据加工(职工数据).sav按照年龄排序;按照基本工资排序;先后按年龄和基本工资排序。
2、数据文件:学生成绩调查表.sav按照年龄排序;找出数学成绩最高分和物理成绩最低分。
3、利用居民储蓄调查数据,通过数据排序功能分别找到城镇户口和农村户口储户一次存款金额的最大值和最小值。
案例2:利用职工数据文件演示数据文件的纵向合并和横向合并。
案例3:步骤:Data=>Aggregate1、利用居民储蓄调查数据,分析城镇储户和农村储户的一次平均存(取)款金额是否有显著的差异(计算各自的均值和标准差)。
2、利用学生成绩调查表数据,分析数学、物理、化学、英文各科成绩的平均成绩和标准方差。
案例4:利用居民储蓄调查数据,根据不同的分析要求采用不同的数据选取方法抽样:z 如果只希望分析城镇储户的情况,则可以通过数据选择功能采用指定条件的抽样方法进行抽样;z 如果只希望对其中的70%的数据进行分析,可通过数据选择功能采用随机抽样中的近似抽样方法进行抽样。
案例5:步骤:Transform=>Compute1、利用学生成绩调查表计算每位同学的总分和平均分,并排名;2、利用职工基本情况数据,假设职称1至4级职工的工资分别上调50%,30%,20%,10%,依据职称级别计算实发工资。
提示:定义实发工资变量名:sfgz,并输入计算方法:(sr-bx)×系数,系数因职称不同而不同。
案例6:步骤:Transform=>Count1、利用学生成绩调查表,找出各科成绩在85分以上的人数各有多少?2、利用数据加工(职工数据),找出年龄在20-30,30-40,40-50以及50以上的人数各有多少?基本工资在1000以上的有多少人?3、利用居民储蓄调查数据,分析近些年储户收入的总体状况。