SAS教程(金融)
1.建立文件
基本工作要点:
说明文件名
说明变量
包括变量名称、类型、排列顺序、格式等信息说
明。
说明数据位置并为变量赋值
(1)建立临时文件
data example; input s$ x y z; cards; A 1 2 3 B 4 5 6 C 7 8 9 run; 数据文件名 输入语句 数据区
OBS 1996 1997 1998 1999 2000 FPU 2361 2411 2452 2487 2517 GNP 46.97 52.42 66.40 73.96 94.29 FZHU 45 56 65 86 99
2.名词解释
文件:数据的集合;记录的集合; 记录:关于一个实体的信息集合。一次统计观测可 能对应一个记录,也可能对应多个。对应多记录时应 使用关系连接记录。 字段:各记录相同数据项的集合。一个字段通常对 应一个变量,或统计观测的一个指标。 索引:用于记录分类的标识字段或字段组合。 关键字:用于唯一标识记录的字段或字段组合。
逻辑运算符号
名称 与 或 非
符号 & (AND) | (OR) ^ (NOT)
例子 A< B & B<C 或 A< B AND B<C B=1 | B=2 或 B=1 OR B=2 ^C=0 或 NOT C=0
五、SAS程序调试
(注:参考程序example)
第二章 SAS数据文件操作
一、数据文件基本知识 1.文件的逻辑结构与物理结构
二、数据文件的基本操作
建立:在内存或外存中存储数据文件 输出:显示数据文件的逻辑结构 投影:从文件中选择出所需要的字段(变量)。 筛选:从文件中选择出所需要的记录。投影和筛 选可以组合使用。 垂直连接:两个或多个文件按字段对应关系纵向 连接,目的是增加样本量。 水平连接:两个或多个文件按记录对应关系横向 连接,目的是增加变量。
例1-2:散户投资者与大户投资者股 票收益的均值检验
SAS 系统 Variable x x Method Pooled Satterthwaite 22:24 Monday, July 22, 2010 Variances Equal Unequal DF 18 17 t Value 1.74 1.74 1 Pr > |t| 0.0996 0.1005
统计科学与科学统计
其名言部分来自19世纪英国首相本杰明·迪斯 雷利,此后经美国著名文豪马克·吐温之笔,被广泛 传诵,原句载马克·吐温的《我的自传》:“(统计) 数字经常欺骗我,特别是我自己整理它们时候。在此 类情况下本杰明·迪斯雷利的评述经常正确有 效:“世界上有三种谎言:谎言,该死的谎言,统计数 字。”(There are three kinds of lies: lies, damned lies, and statistics.)”。但其原句并没 有发现在本杰明·迪斯雷利的演说稿或者其他作品 中。——摘自维基百科
六、SAS软件简况
发展历史: 1966年开始研制 1976年由美国SAS公司实现商业化 1985年推出PC版本 2006推出版本为V9 客观评价 国际公认的最优秀统计软件 最昂贵的统计软件 应用领域:统计、金融、商业、经济、社 会、医学、生物、教育等。
SAS V9主要产品
2. 监视窗口
该窗口记录了SAS程序运行过程的 主要信息。如程序语句的语法错误,运 行中的逻辑错误和警告信息,使用和建 立的数据集、库文件,程序运行时间等。 这些信息为程序调试提供了帮助。
3. 输出窗口
该窗口用于显示程序的统计分析结果,还 可以在该窗口对计算结果进行输入、输出、编 辑、修改,以及文件格式转换等操作。该窗口 由被执行的SAS程序自动调出。
1.程序结构: SAS程序采用模块化结构,模块间相 互独立,每个模块完成一个任务。 模块分两种类型,数据模块和程序模 块。数据模块以英文单词Data为起始,程 序模块以Proc(Pprocedure的缩写)为起始。 模块通常用语句 “run;‖ 作为结束。 一个程序中可包含多个数据模块和程 序模块。
四、SAS运算符号 算术运算符号
名称 加号 减号 乘号 除号 乘方 符号 + * / ** 例子 A=X+Y+Z B=X-Y-Z C=X*Y*Z D=X/Y E=X**2
关系运算符号
名称 等于 不等于 大于 小于 大于等于 小于等于 属于
符号 = ^ = > < >= <= IN
例子 A=X+Y+Z B^=X-Y-Z C>X*Y*Z D<X/Y E>=X+Y+Z F<=X+Y+Z G IN (X Y Z)
家庭年收入 (万元) 130222 6 130223 7 130224 5 130225 6
家庭年收入 (万元) 20070001 6 20070002 7 20070003 5 20070004 6 学号
SAS的投影命令
Data example(keep=sn m); infile ―c:\sasv9\data\a.txt‖ ; input sn$ n$ c$ t$ m; *drop n$ c$ t$ ; Run;
标识符或数据之间用空格分隔,例如:input s$; 使用分号分隔语句; 使用“Run”分隔模块; 自定义名称最多包含8个符号,首字符为英文字母,名 称不能有保留符号,如:空格 - . , ; … $等; 缺失数据“.”表示; 文本变量名首次出现时使用“$”作为后缀; 程序可以包含注释语句,以“/*”开始,以“*/”结束, 或以“*”作为行始符表示该行为注释语句; 除数据外,SAS程序不区分英文字母大小写。
格式化输入——紧凑格式
data example; input s$ x y z@@; cards; A 1 2 3 B 4 5 6C 7 8 9 run;
格式化输入——固定列格式
data example; infile ―c:\mydir\a.txt‖ ; input s$ 1-5 x 8 y 10-12 z 13-15; run;
第一章 SAS入门
一、SAS安装和启动 二、SAS的工作窗口 PROGRAM EDIT:程序窗口 LOG:监视窗口 OUTPUT:输出窗口 GRAPH:图形窗口 EXPLORER:环境窗口
1.程序窗口
这是一个全屏幕程序编辑窗口,用 户在这个窗口输入要运行的程序,使用 SAS系统提供的编辑工具对程序进行修改、 运行、调试。当执行运行(提交)程序 命令时,该窗口的程序被执行。
Equality of Variances
Variable
x
Method
Folded F
Num DF
9
Den DF
9
F Value
1.62
Pr > F
0.4838
五、常用的统计软件
1.常用的统计软件 SAS SPSS BMDP Stata EPINFO Minitab Statistica S-PLUS R
(3)数据导入
读取异质数据文件。
PROC IMPORT OUT= WORK.aa DATAFILE="D:\sasv9\data\Book1.xls" DBMS=EXCEL2000 REPLACE; SHEET="Sheet1$"; GETNAMES=YES; RUN;
读取文本格式数据文件
语句: infile ―c:\mydir\a.txt‖ firstobs=n dlm=―c‖; data example; infile ―c:\mydir\a.txt‖ firstobs=2 ; input s$ x y z; run;
电话
20070001李明 20070002张华
家庭年收入 (万元) 130222 6 130223 7
SAS的筛选操作
Data example; infile "c:\sasv9\data\a.txt”; input sn$ n$ c$ t$ m; if c^=”统计0701” then delete; Run;
临时文件特点:建立简单、存储在内存、不共享。
(2)建立永久文件
libname p ―c:\mydir‖ ; 定义库(路径) data p.example; input s$ x y z; cards; A 1 2 3 B 4 5 6 C 7 8 9 run; 注: c:\mydir为已经建立的磁盘文件目录。 文件特点:存储在外存、共享。
第一章 导言
一、统计的科学性
(一)统计推断的基本内容: 1.点估计 待估参数 β 的点估计量为β 2.区间估计 以点估计值为中心确定误差范围β±△ 3.确定信度 确定误差范围的置信概率
(二)统计为什么存在谬误: 1.真实的谎言 使用违反数据特性的统计方法。 2.对谎言求真 没有取得真实数据 3.用谎言制造谎言 制造数据
例:找出程序中的语法错误
Data a input x-1, x-2,y’@@; CarDs; 6.11 1.04 1.30 2.60 3.51 5.20 5.41 1.82 3.64 2.21 3.38 3.77 ; Proc univariate data=a normal plot; var x; ;软件课程租
统计科学与科学统计
Lies,damned lies,and statistics.
一句著名的西方谚语。主要描 述数字的说服能力,特别是用来讽刺 一些使用统计数字支持、但毫无说服 力的分析报告,以及人们倾向于贬低 那些不支持其立场的统计结论。 ——摘自维基百科
4. 图形窗口
该窗口用于显示程序的图形分析结果,还 可以在该窗口对计算结果进行输入、输出、编 辑、修改等操作。该窗口由被执行的SAS程序 自动调出。