当前位置:文档之家› SAS数据分析与统计

SAS数据分析与统计

一、数据集的建立1.导入Excel数据表的步骤如下:1) 在SAS应用工作空间中,选择菜单“文件”→“导入数据”,打开导入向导“Import Wizard”第一步:选择导入类型(Select importtype)。

2) 在第二步的“Select file”对话框中,单击“Browse”按钮,在“打开”对话框中选择所需要的Excel文件,返回。

然后,单击“Option”按钮,选择所需的工作表。

(注意Excel文件要是2003的!!)3) 在第三步的“Select library and member”对话框中,选择导入数据集所存放的逻辑库以及数据集的名称。

4 ) 在第四步的“Create SAS Statements”对话框中,可以选择将系统生成的程序代码存放的位置,完成导入过程。

2.用INSIGHT创建数据集1)启动SAS INSIGHT模块,在“SAS INSIGHT:Open”对话框的”逻辑库“列表框中,选定库逻辑名2)单击“新建”按钮,在行列交汇处的数据区输入数据值(注意列名型变量和区间型变量,这在后面方差分析相关性分析等都要注意!!)3)数据集的保存:•“文件”→“保存”→“数据”;•选择保存的逻辑库名,并输入数据集名;•单击“确定”按钮。

即可保存新建的数据集。

3.用VIEWTABLE窗口建立数据集1)打开VIEWTABLE窗口2)单击表头顶端单元格,输入变量名3)在变量名下方单元格中输入数据4)变量类型的定义:右击变量名/column attributes…4.用编程方法建立数据集DATA 语句; /*DATA步的开始,给出数据集名*/Input 语句;/*描述输入的数据,给出变量名及数据类型和格式等*/(用于DATA步的其它语句)Cards; /*数据行的开始*/[数据行]; /*数据块的结束*/RUN; /*提交并执行*/例子:data=数据集名字;input name$ phone room height; ($符号代表该列为列名型,就是这一列是文字!!比如名字,性别,科目等等)cards;rebeccah 424 112 (中间是数据集,中间每一行末尾不要加逗号,但是carol 450 112 数据集最后要加一个分号!!)louise 409 110gina 474 110mimi 410 106alice 411 106brenda 414 106brenda 414 105david 438 141betty 464 141holly 466 140;proc print data=; (这一过程步是打印出数据集,可要可不要!)run;*数据集中的框架我会用加粗来显示,大家主要记加粗的,下面的编程部分都是这样!!二、基本统计分析1.用INSIGHT计算统计量1)在INSIGHT中打开数据集在菜单中选择“Solution(解决方案)”→“Analysis(分析)”“Interactive Data Analysis(交互式数据分析)”,打开“SAS/INSIGHT Open”对话框,在对话框中选择数据集,单击“Open(打开)”按钮,即可在INSIGHT中打开数据窗口2)选择菜单“Analyze(分析)”→“Distribution (Y)(分布)”,打开“Distribution (Y)”对话框。

在数据集的变量列表中,选择分析变量X、分组变量Y。

(注意:分组变量就是那种可以区别不同种类的变量,例如地区编号、科目、组号等等,而分析变量一般是需要分析的数据,例如成绩,身高书目)3)单击“Output(输出)”按钮,在打开的对话框中包含描述性统计量选项。

4)选择选项矩统计量和分位数,取消默认的选项:“Box Plot/Mosaic Plot”和“Histogra m/Bar Chart”,单击“OK”按钮,即可得到变量按分组的各种矩统计量(Moments)和分位数(Quantiles)*描述性统计选项:Moments 矩统计量 Quantiles分位数见书P37 Basic Confidence Intervals 基本置信区间Tests for Location 位置检验 Frequency Counts 频数统计Robust Measures of Scale 尺度的稳健估计Tests for Normality 正态性检验2.用“分析家”计算统计量1)启动“分析家”选择主菜单“Solutions(解决方案)”→“Analysis(分析)”→“Analyst(分析家)”,打开“分析家”窗口。

选择主菜单“File(文件)”→“按SAS名称打开”,打开“选择成员”对话框,选择数据集。

2)通过Summary Statistics菜单计算描述性统计量选择主菜单“Statistics(统计)”→“Descriptive(描述性统计)”→“Summary Statistics(汇总统计量)”,打开“Summary Sta tistics”对话框,选择变量列表中分析变量,单击“Analysis”按钮,选定分析变量单击“Statistics”按钮,打开“Summary Statistics:Statistics”对话框。

对话框中列出可以计算的所有统计量。

3)通过Distributions菜单计算描述性统计量选择主菜单“Statistics(统计)”→“Descriptive(描述性统计)”→“Distributions(分布)”,打开“Distributions”对话框,选择变量列表中的分析变量,单击“Analysis”按钮。

单击“OK”按钮,即可得到关于分析变量的矩统计量和基本统计测度。

3.用编程方法计算统计量1)FREQ过程FREQ过程包括多个控制频数输出与检验的语句和选项,格式如下:PROC FREQ DATA = <数据集>;[TABLES <变量1> <变量2> …;][FORMAT <变量1> <输出格式1>. <变量2> <输出格式2>. …;]RUN;其中PROC FREQ语句调用FREQ过程,标志FREQ过程的开始;TABLES语句用于创建有关变量所构成的各种表格并进行相应的假设检验和计算,可以多次使用。

例如:proc freq data = ;tables R_Id Income;RUN;这个语句提供了频数,所占百分数,累计频数,和累计百分数!2. MEANS过程MEANS过程的一般格式:PROC MEANS DATA=<数据集名>[<统计量关键字列表>];[VAR <分析变量列表>;][BY <分组变量名>;][CLASS <分组变量名>;]RUN;例如:proc means data = ;var Income;run;PROC MEANS语句后的选项主要用来指定所要计算的统计量,默认情况下,MEANS过程会给出频数、均数、标准差、最大值和最小值等,其余统计量的计算均需要在选项中指定。

VAR语句引导所要进行分析的所有变量的列表,SAS将对VAR语句所引导的所有变量分别进行描述性统计分析。

BY语句与CLASS语句所指定的分类变量用来进行分组统计,但输出格式不同。

3.使用统计量关键字列表1)在PROC MEANS语句中使用统计量关键字列表:proc means data = n mean median p1 p5 p95 p99 q1 q3 max min;var Income;Run;2)使用CLASS语句和BY语句使用CLASS语句和BY语句可以分组计算分析变量的描述统计量值,由CLASS 语句和BY语句指定的变量在分析中起分组(类)的作用,被称为分类变量。

两个语句的区别是:使用BY语句时要求数据集须按BY变量排序,使用CLASS语句无此要求。

使用BY语句时输出按BY变量的每个值分别提供一个表,使用CLASS语句则将所有结果排列在一个表之中。

使用BY语句之前先排序,可以在按分组变量统计:(p46)例如:proc sort data = ;by R_Id;run;proc means data = n mean median p1 p5 p95 p99 q1 q3 max min;var Income;by R_Id;run;使用CLASS语句分组较为简单,也可以在按分组变量统计(p47)proc means data = n mean median p1 p5 p95 p99 q1 q3 max min;var Income;class R_Id;RUN;3. UNIVARIATE过程(推荐使用)UNIVARIATE过程的一般格式为:PROC UNIVARIATE DATA = <数据集名> [<统计量关键字列表>];[VAR <分析变量列表>;][BY | CLASS <分组变量名>;][HISTOGRAM <变量名称>/<选项列表>;][OUTPUT OUT = <数据集名> <统计量关键字> = <自定义变量名>;]RUN;UNIVARIATE过程和MEANS过程的格式非常相似,相同的语句和选项其含义也相同,所不同的是某些统计量只能在UNIVARIATE过程中计算(如众数),而且UNIVARIATE过程中具有绘图功能。

其中,HISTOGRAM语句用来指示SAS对其后所指定的变量绘制直方图,其后的选项用来指示SAS添加不同类型的拟合图形(如正态分布的分布密度曲线)。

输出包括五个部分:v1.0 可编辑可修改第一部分是矩统计量,各统计量已作了介绍。

第二部分为基本的位置和分散程度统计量,位置统计量包括均值、中位数、众数,分散程度统计量包括标准差、方差、极差、四分位间距第三部分为关于均值等于零的三种检验的结果,包括t检验、符号检验和符号秩检验。

第四部分为各个重要的分位数。

第五部分是观测数据的五个最低值和五个最高值。

*因为这个编程含有最齐全的结果,大家做一个这个编程,所有的数据就可以自己调了,但是要找到那个对的哦!!三、程序绘图1. GCHART过程(1) 语法格式PROC GCHART DATA = <数据集名>;<图形关键字> <变量名称>/<选项列表>RUN;GCHART过程可以使用的图形关键字及其所绘制的图形类型见表Discrete 把数字变量当成离散变量处理GROUP=变量名指定并排分组变量SUBGROUP=变量名按分组变量的值分段Patternid=Midpoint|group|subgroup,规定连续性图形的图案按数字列表中的中心点值|并排分组值|重叠分组值的次序呈现SUMVAR = 变量名(数值变量)指定要进行统计计算的变量,也就是“TYPE = 统计量关键字”选项中统计量的计算所依据的变量举例啦!!2)画条形图(直方图)例如:proc gchart data = ;vbar Income; (分析变量!)run;其中绘图用的变量用VBAR语句给出,如果把VBAR改成HBAR则条形方向变为横向。

相关主题