四个常用统计软件SAS,STATA,SPSS,R语言分析比较及其他统计软件概述一、SAS,STATA,SPSS,R语言简介(一)SAS简介SAS(全称Statistical Analysis System,简称SAS,翻译成汉语是统计分析系统)是全球最大的软件公司之一,是由美国NORTH CAROLINA州立大学1966年开发的统计分析软件。
1976年SAS软件研究所(SAS INSTITUTE INC)成立,开始进行SAS系统的维护、开发、销售和培训工作。
期间经历了许多版本,并经过多年来的完善和发展,SAS系统在国际上已被誉为统计分析的标准软件,在各个领域得到广泛应用。
其网址是:/(二)STSTA简介STATA统计软件由美国计算机资源中心(Computer Resource Center)1985年研制。
STATA 是一套提供其使用者数据分析、数据管理以及绘制专业图表的完整及整合性统计软件。
它提供许许多多功能,包含线性混合模型、均衡重复反复及多项式普罗比模式。
新版本的STATA采用最具亲和力的窗口接口,使用者自行建立程序时,软件能提供具有直接命令式的语法。
STATA提供完整的使用手册,包含统计样本建立、解释、模型与语法、文献等超过一万余页的出版品。
除此之外,STATA软件可以透过网络实时更新每天的最新功能,更可以得知世界各地的使用者对于STATA公司提出的问题与解决之道。
使用者也可以透过STATA Journal 获得许许多多的相关讯息以及书籍介绍等。
另外一个获取庞大资源的管道就是STATAlist,它是一个独立的listserver,每月交替提供使用者超过1000个讯息以及50个程序。
其网址是:/(三)SPSS简介SPSS(Statistical Product and Service Solutions),“统计产品与服务解决方案”软件。
最初软件全称为“社会科学统计软件包”(Statistical Package for the Social Sciences),但是随着SPSS产品服务领域的扩大和服务深度的增加,SPSS公司已于2000年正式将英文全称更改为“统计产品与服务解决方案”,标志着SPSS 的战略方向正在做出重大调整。
为IBM公司推出的一系列用于统计学分析运算、数据挖掘、预测分析和决策支持任务的软件产品及相关服务的总称SPSS,有Windows和Mac OS X等版本。
1984年SPSS总部首先推出了世界上第一个统计分析软件微机版本SPSS/PC+,开创了SPSS微机系列产品的开发方向,极大地扩充了它的应用范围,并使其能很快地应用于自然科学、技术科学、社会科学的各个领域。
世界上许多有影响的报刊杂志纷纷就SPSS的自动统计绘图、数据的深入分析、使用方便、功能齐全等方面给予了高度的评价。
SPSS是世界上最早的统计分析软件,由美国斯坦福大学的三位研究生Norman H. Nie、C. Hadlai (Tex) Hull 和Dale H. Bent于1968年研究开发成功,同时成立了SPSS公司,并于1975年成立法人组织、在芝加哥组建了SPSS总部。
2009年7月28日,IBM公司宣布将用12亿美元现金收购统计分析软件提供商SPSS公司。
如今SPSS已出至版本22.0,而且更名为IBM SPSS。
迄今,SPSS 公司已有40余年的成长历史。
其网址是:/(四)R语言简介R是用于统计分析、绘图的语言和操作环境。
R是属于GNU系统的一个自由、免费、源代码开放的软件,它是一个用于统计计算和统计制图的优秀工具。
R是统计领域广泛使用的诞生于1980年左右的S语言的一个分支。
可以认为R是S语言的一种实现。
而S语言是由A T&T贝尔实验室开发的一种用来进行数据探索、统计分析和作图的解释型语言。
最初S语言的实现版本主要是S-PLUS。
S-PLUS是一个商业软件,它基于S语言,并由MathSoft公司的统计科学部进一步完善。
后来Auckland大学的Robert Gentleman和Ross Ihaka及其他志愿人员开发了一个R系统。
由“R开发核心团队”负责开发。
R是基于S 语言的一个GNU项目,所以也可以当作S语言的一种实现,通常用S语言编写的代码都可以不作修改的在R环境下运行。
R的语法是来自Scheme。
R的使用与S-PLUS有很多类似之处,这两种语言有一定的兼容性。
S-PLUS的使用手册,只要稍加修改就可作为R的使用手册。
所以有人说:R,是S-PLUS的一个“克隆”。
其网址是:二、使用范围扩展性SAS语言具有强大的对数据处理的能力,但其不具有对新算法的集成功能,因此算法比较固定,需随着SAS软件的版本更新才能更新算法STATA的编程功能也很强大,每期的STATA journal都有最新的模型程序更新不具备扩展性,无法编写新算法,只能使用软件提供的固定功能R的可扩展功能很强,可以任意实现自己的算法,甚至都可以编游戏了,不过这方面并不是R的长处,R的主要应用在统计编程多维数据的图形描述SAS的图形功能很强STATA 的作图模块,主要提供如下八种基本图形的制作: 直方图(histogram) ,条形图(bar), 百分条图(oneway) ,百分圆图(pie) ,散点图(twoway) ,散点图矩阵(matrix) ,星形图(star) ,分位数图。
这些图形的巧妙应用,可以满足绝大多数用户的统计作图要求。
在有些非绘图命令中,也提供了专门绘制某种图形的功能,如在生存分析中,提供了绘制生存曲线图,回归分析中提供了残差图等。
利用SPSS可以生成数十种基本图和交互图。
交互图可有不同风格的二维、三维图。
交互图包括条形交互图、点形交互图、线形交互图、带形交互图、饼形交互图、箱形交互图、误差条形交互图、直方交互图和散点交互图等。
图形生成以后,可以进行编辑。
R的强项是绘图功能,制图具有印刷的素质,也可加入数学符号。
分析方法SAS是确切地说是一套大型集成应用软件系统,具有完备的数据存取、数据管理、数据分析和数据展现功能。
SAS系统中提供的主要分析功能包括统计分析、经济计量分析、时间序列分析、决策分析、财务分析和全面质量管理工具等等,功能相当强大。
STATA 的统计功能很强,除了传统的统计分析方法外,还收集了近20 年发展起来的新方法,如Cox比例风险回归,指数与Weibull 回归,多类结果与有序结果的logistic 回归,Poisson 回归,负二项回归及广义负二项回归,随机效应模型等。
具体说,STATA 具有如下统计分析能力:数值变量资料的一般分析,分类资料的一般分析,等级资料的一般分析,相关与回归分析,其他方法如质量控制,整群抽样的设计效率,诊断试验评价,kappa等。
提供很多常用统计方法,但是分析功能仍然有所欠缺R是一套完整的数据处理、计算和制图软件系统。
其功能包括:数据存储和处理系统;数组运算工具(其向量、矩阵运算方面功能尤其强大);完整连贯的统计分析工具;优秀的统计制图功能;简便而强大的编程语言:可操纵数据的输入和输出,可实现分支、循环,用户可自定义功能。
编程灵活性对于数据预处理、操作方面具有很强大的灵活性,但是对于统计分析功能灵活性不强,只能通过设置不同参数来改变输出结果。
STATA 是一个统计分析软件,但它也具有很强的程序语言功能几乎是固定的用法,不具备灵活性强大的编程语言。
R的功能能够通过由用户撰写的套件增强。
增加的功能有特殊的统计技术、绘图功能,以及编程界面和数据输出/输入功能。
四、软件优缺点(一)SAS优缺点一般用法优点:SAS由于其功能强大而且可以编程,很受高级用户的欢迎。
缺点:也正是基于此,它是最难掌握的软件之一。
使用SAS时,你需要编写SAS程序来处理数据,进行分析。
如果在一个程序中出现一个错误,找到并改正这个错误将是困难的。
数据管理。
优点:在数据管理方面,SAS是非常强大的,能让你用任何可能的方式来处理你的数据。
它包含SQL(结构化查询语言)过程,可以在SAS数据集中使用SQL查询。
SAS可以同时处理多个数据文件。
它可以处理的变量能够达到32,768个,以及你的硬盘空间所允许的最大数量的记录条数。
缺点:但是要学习并掌握SAS软件的数据管理需要很长的时间,在STATA 或SPSS中,完成许多复杂数据管理工作所使用的命令要简单的多。
统计分析优点:SAS能够进行大多数统计分析(回归分析,logistic回归,生存分析,方差分析,因子分析,多变量分析)。
SAS的最优之处可能在于它的方差分析,混合模型分析和多变量分析。
缺点:而它的劣势主要是有序和多元logistic回归(因为这些命令很难),以及稳健方法(它难以完成稳健回归和其他稳健方法)。
尽管支持调查数据的分析,但与STATA比较仍然是相当有限的。
绘图功能优点:在所有的统计软件中,SAS有最强大的绘图工具,由SAS/Graph模块提供。
缺点:SAS/Graph模块的学习也是非常专业而复杂,图形的制作主要使用程序语言。
SAS 8虽然可以通过点击鼠标来交互式的绘图,但不象SPSS那样简单。
(二)STATA优缺点一般用法优点:STATA以其简单易懂和功能强大受到初学者和高级用户的普遍欢迎。
使用时可以每次只输入一个命令(适合初学者),也可以通过一个STATA程序一次输入多个命令(适合高级用户)。
这样的话,即使发生错误,也较容易找出并加以修改。
缺点:有些操作用菜单不方便实现。
数据管理优点:尽管STATA的数据管理能力没有SAS那么强大,它仍然有很多功能较强且简单的数据管理命令,能够让复杂的操作变得容易。
STATA主要用于每次对一个数据文件进行操作,难以同时处理多个文件。
缺点:随着STATA/SE的推出,现在一个STATA数据文件中的变量可以达到32,768,但是当一个数据文件超越计算机内存所允许的范围时,你可能无法分析它。
统计分析优点:STATA也能够进行大多数统计分析(回归分析,logistic回归,生存分析,方差分析,因子分析,以及一些多变量分析)。
STATA最大的优势可能在于回归分析(它包含易于使用的回归分析特征工具),logistic回归(附加有解释logistic回归结果的程序,易用于有序和多元logistic回归)。
STATA也有一系列很好的稳健方法,包括稳健回归,稳健标准误的回归,以及其他包含稳健标准误估计的命令。
此外,在调查数据分析领域,STATA有着明显优势,能提供回归分析,logistic 回归,泊松回归,概率回归等的调查数据分析。
缺点:它的不足之处在于方差分析和传统的多变量方法(多变量方差分析,判别分析等)。
它分析小型数据应该是非常顺手,但能读取的数据种类有限,据我所知基本上仅仅是纯文本数据和STATA本身的数据(*.dta),而且计算受内存大小和程序版本种类限制,所以无法处理特大型的数据。