实验1 SAS基本操作随着图形界面、用户友好等程序思想的发展,SAS陆续提供了一些不需编程就能进行数据管理、分析、报表、绘图的菜单操作功能,其中做得比较出色的有INSIGHT模块和Analyst 模块。
对于常用的一些统计分析方法,SAS系统中的如下三种方法可以达到同样的目的:● INSIGHT(“交互式数据分析”)● Analyst(“分析家”)●直接编程一般来说,INSIGHT模块在数据探索方面比较有特色,最为直观,便于步步深入;“分析家”可提供自动形成的程序,而且在属性数据分析和功效函数计算方面较INSIGHT强;编程方式是功能最强的,尤其是一些特殊或深入的分析功能只能用编程实现,但相对来说,编程较难熟练掌握。
在SAS系统中建立的众多SAS文件,可按不同需要将其归入若干个SAS逻辑库,以便对SAS文件进行访问和管理。
利用SAS系统功能直接建立数据集的方法很多,都需要将数据现场录入,费时费力。
较为简便的方法是,利用Excel录入数据,并作简单处理,然后将Excel数据表导入到SAS数据集中。
另外,也可以先将数据整理为文本文件(*.txt文件),再将文本文件导入为SAS数据集。
在对数据进行深入分析之前往往要利用INSIGHT或“分析家”对数据进行必要预处理。
1.1 实验目的通过实验熟悉SAS操作界面,掌握逻辑库的建立、数据集的导入与导出,掌握SAS的两个最为重要的模块:INSIGHT和“分析家”中对数据的预处理方法。
1.2 实验内容一、建立逻辑库二、数据集的导入与导出三、在INSIGHT中对数据的预处理四、在“分析家”中对数据的预处理1.3 实验指导首先建立存放数据的文件夹,如:“D:\SAS_SHIYAN”,其中再建两个文件夹:“原始数据”(用以存放本课程有关实验的Excel数据表及其他数据文件)和“SAS数据集”(用以存放本课程学习中生成的SAS数据集)。
一、建立逻辑库【实验1-1】创建逻辑库“Mylib ”。
图1-1 Explorer 窗口依次执行如下操作:(1) 启动SAS ,并激活Explorer 窗口,如图1-1所示。
(2) 在SAS 应用工作空间中,单击工具按钮,或是右键单击,从菜单中选择“New ”,打开“New Library ”对话框。
(3) 在“Name ”框中输入新库名称,如:Mylib (图1-2左)。
(4) 用鼠标单击路径(Path )框右端的“Browse…”按钮。
(5) 在打开的“Select ”对话框中选择文件夹“D:\SAS_SHIYAN\ SAS数据集”,如图1-2右所示。
(6) 单击“Ok ”按钮,返回“New Library ”对话框,单击“OK ”按钮,完成新建逻辑库“Mylib ”。
(7) 用鼠标双击,或单击即可看见新建的逻辑库“Mylib ”。
图1-2 建立新逻辑库 二、数据的导入与导出1. Excel 数据表的导入【实验1-2】将Excel 数据表导入为SAS 数据集。
首先建立Excel 数据表sy1_2.xls ,如图1-3所示。
依次执行下述操作: (1) 在SAS 应用工作空间中,选择菜单“File ”→“ImportData…”,打开导入向导“Import Wizard ”,第一步:选择导入类型(Select import type ),默认的类型为Excel 数据表,如图1-4左所示。
单击“Next”图1-3 Excel 数据表sy1_2.xls按钮,进入下一步。
(2) 在第二步的“Select file”对话框中,单击“Browse”按钮,在“打开”对话框中选择所需要的Excel文件,返回。
单击“Option”按钮,选择所需的工作表,按“OK”按钮返回,如图1-4右所示。
单击“Next”按钮,进入下一步。
图1-4 导入向导一、二步(3) 在第三步的“Select library and member”对话框中,选择导入数据集所存放的逻辑库以及数据集的名称,如图1-5左所示。
单击“Next”按钮,进入下一步。
图1-5 导入向导三、四步(4) 在第四步的“Create SAS Statements”对话框中,若单击“Next”按钮,可以选择将系统生成的程序代码存放的位置,本例不做选择,直接单击“Finish”按钮(图1-5右),完成导入过程。
在Explorer窗口中,双击逻辑库“Mylib”中的文件“sy1_2”,即可看到新导入的数据集,如图1-6左所示。
图1-6 数据集Mylib.sy1_2导入数据后,原Excel数据表第一行的中文栏目名成为SAS数据集中变量的标签(Label)名,变量名为默认的名称:_COL n。
VIEWTABLE 的第一行显示变量的标签,选择主菜单项“View ”→“Column Names ”,显示变量名称如图1-6右所示。
2. 文本数据的导入【实验1-3】将文本文件导入为SAS 数据集。
首先建立文本文件sy1_3.txt ,如图1-7所示。
其中数据分隔符为制表符。
依次执行下述操作:(1) 在SAS 应用工作空间中,选择菜单“File ”→“Import Data…”,打开导入向导“Import Wizard ”,第一步:选择导入类型(Select import type )。
在下拉列表中选择数据类型“Tab Delimited File (*.txt)”,如图1-8左所示。
单击“Next ”按钮,进入下一步。
(2) 在第二步的“Select file ”对话框中,单击“Browse ”按钮,在“打开”对话框中选择所需要的文本文件,返回,如图1-8右所示。
图1-7 文本文件sy1_3.txt图1-8 导入向导一、二步 单击“Options ”按钮,在打开的“SAS Import :”对话框中确认“Get variable name from fist row ”处于选中状态(默认)(否则,原文本文件的第一行将成为SAS 数据集中的第一个观测),如图1-9所示。
单击“OK ”,返回,再单击“Next ”按钮,进入下一步。
图1-9 “SAS Import ”对话框 (3) 在第三步的“Select library and member ”对话框中,选择导入数据集所存放的逻辑库以及数据集的名称,本例选临时库“Work ”,数据集名为sy1_3。
单击“Next ”按钮,进入下一步。
(4) 在第四步的“Create SAS Statements ”对话框中,可以选择将系统生成的程序代码存放的位置,本例不做选择,直接单击“Finish ”按钮,完成导入过程。
图1-10 数据集Work.sy1_3 在Explorer 窗口中,双击逻辑库“Work ”中的文件“sy1_3”,即可看到新导入的数据集,如图1-10所示。
3. 数据集的导出【实验1-4】将SAS 数据集导出为Excel 工作表。
依次执行下述操作:(1) 在SAS 应用工作空间中,选择菜单“File ”→“Export Data…”,打开导出向导“Export Wizard ”,第一步:选择逻辑库及成员(Select library and member )。
在“library ”下拉列表中选择逻辑库,在“member ”下拉列表中选择数据集,如图1-11所示,单击“Next ”按钮,进入下一步。
图1-11 导出向导一步 (2) 在第二步的“Select export type ”对话框中,默认的类型为Excel 工作表,如图1-12左所示,单击“Next ”按钮,进入下一步。
(3) 在第三步的“Select file ”对话框中,输入或通过选择给出输出文件的路径和文件名,如图1-12右所示,单击“Next ”按钮,进入下一步。
(4) 在第四步的“Create SAS Statements ”对话框中,可以选择将系统生成的程序代码存放的位置,本例不做选择,直接单击“Finish ”按钮,完成导出过程。
图1-12 导出向导二、三步 三、在INSIGHT 中对数据的预处理在SAS 菜单中选择“Solution (解决方案)”→“Analysis (分析)”→“Interactive Data Analysis (交互式数据分析)”,打开“SAS/INSIGHT Open ”对话框。
如图1-13左所示。
在“SAS/INSIGHT Open ”对话框的左边选择逻辑库“SASUSER ”,右边选择数据集“CLASS ”,单击“Open (打开)”按钮,打开数据窗口。
如图1-13右所示。
注意:如果没有找到数据集SASUSER.CLASS ,按如下步骤可以生成此数据集及其他示例数据集:选择菜单“Solutions ”→“Analysis ”→“Analyst ”,进入Analyst ,然后选择其中的菜单“Tools”→“Sample Data”,在出现的对话框中选中所有数据集,单击“OK”按钮即可生成示例数据集。
图1-13 打开数据集1. 对数据集排序【实验1-5】在INSIGHT中对数据集排序。
在INSIGHT中,打开数据集SASUSER.CLASS后,单击数据窗口左上角处的三角按钮,打开数据窗菜单,选择“Sort”,在打开的“Sort”对话框(图1-14左)中,选则排序的变量,单击“Y”按钮,将变量选定,然后按“OK”按钮即可。
可同时根据多个变量进行排序,默认是升序排序,可选中右列表框中的排序变量,单击Asc/Des切换到降序。
例如:按name进行升序排列,按age进行降序排列,如图1-14右所示。
图1-14 对数据集排序说明:若先用鼠标在数据集窗口选中欲排序的变量,则选择“Sort”菜单项后,将立即对该列排序,而不再打开“Sort”对话框。
2. 创建新的变量【实验1-6】在数据集中添加新的变量。
在数据集中有两种方式添加新的变量。
●直接插入变量:单击数据窗口左上角处的三角按钮,打开数据窗菜单,选择“New Variables”,在打开的“New Variables”对话框中,输入插入变量的个数(图1-15左),然后,单击“OK”按钮,即可在数据集中插入一个新的变量A(图1-15右)。
新插入变量A的观测值是缺失的,输入数据后回车,即可填入数据。
图1-15 插入新变量 ● 由原变量计算得到新变量:选择主菜单“Edit ”→“Variables ”→“Other ”,打开“Edit Variables ”对话框,如图1-16左所示,确定新变量与原变量之间的关系式,可由原变量计算得到新的变量。
如:(1) 选中变量weight ,单击“Y ”,选中变量height ,单击“X ”。
(2) 在“Transformation ”列表框中选择运算:Y / X 。