SAS系统简介一、SAS系统1.SAS系统的功能SAS系统是大型集成应用软件系统,具有完备的以下四大功能:●数据访问●数据管理●数据分析●数据呈现它是美国软件研究所(SAS Institute Inc.)经多年的研制于1976年推出。
目前已被许多国家和地区的机构所采用。
SAS系统广泛应用于金融、医疗卫生、生产、运输、通信、政府、科研和教育等领域。
它运用统计分析、时间序列分析、运筹决策等科学方法进行质量管理、财务管理、生产优化、风险管理、市场调查和预测等等业务,并可将各种数据以灵活多样的各种报表、图形和三维透视的形式直观地表现出来。
在数据处理和统计分析领域,SAS系统一直被誉为国际上的标准软件系统。
2.SAS系统的支持技术在当今的信息时代中,如何有效地利用业务高度自动化所产生的巨量宝贵数据,挖掘出对预测和决策有用的信息,就成为掌握竞争主导权的关键因素。
因此,SAS系统始终致力于应用先进的信息技术和计算机技术对业务和历史数据进行更深层次的加工。
经过二十多年的发展,SAS系统现在是以下三种技术的主要提供者:●数据仓库技术(Data Warehouse)数据仓库是用于支持管理决策过程的面向主题的、集成的、随时间而变化的、持久的(非易失的)数据集合。
通俗地说,可以将数据仓库理解为“将多个生产数据源中的数据按一定规则统一集中起来,并提供灵活的观察分析数据手段,从而为企业制定决策提供事实数据的支持”。
数据仓库最大的用途是能够提供给用户一种全新的方式从宏观或微观的角度来观察多年积累的数据,从而使用户可以迅速地掌握自己企业的经营运转状况、运营成本、利润分布、市场占有率、发展趋势等对企业发展和决策有重要意义的信息,使用户能制定更加准确科学的决策迅速对市场做出反应。
利用数据仓库技术可以使大企业运作的像小企业一样灵活,也可以使小企业像大企业一样规范。
从目前情况来看,许多企业和机构已经建立了相对完善的生产数据库系统。
随着时间的推移,这些系统中积累了大量的历史数据,其中蕴含了许多重要的信息。
利用数据仓库技术对这些历史数据进行分析和综合处理,可以找到那些对企业发展至关重要的业务信息,从而帮助有关主管和业务部门做出更加合理的决策。
当今世界充满了剧烈竞争,正确及时的决策是企业生存和发展的最重要环节。
现在,愈来愈多的企业认识到,企业要想在竞争中取胜,获得更大的收益,至关重要的是,必须利用计算机和网络技术、数据仓库技术,深层次地挖掘、分析当前和历史的生产业务数据,以及相关环境的相关数据,自动快速获取其中有用的决策信息,为企业提供快速、准确和方便的决策支持。
通过对企业生产和计划的完成情况及相关环境数据进行多角度多层次的分析,以使企业的决策者及时掌握企业的运行情况和发展趋势,并对制定生产计划和长远规划提供理论指导,提高企业的管理水平和竞争优势。
●数据挖掘技术(Data Mining)数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。
还有很多和这一术语相近似的术语,如从数据库中发现知识(KDD)、数据分析、数据融合(Data Fusion)以及决策支持等。
数据挖掘是一门很广义的交叉学科,它汇聚了不同领域的研究者,尤其是数据库、人工智能、数理统计、可视化、并行计算等方面的学者和工程技术人员。
DMKD的研究主要有3个技术支柱,即数据库、人工智能和数理统计。
数据库最实质的应用仅仅是查询吗?理论根基最深的关系数据库最本质的技术进步点,就是数据存放和数据使用之间的相互分离。
查询是数据库的奴隶,发现才是数据库的主人。
因此,在需求的驱动下,很多数据库学者转向对数据仓库和数据挖掘的研究,从对演绎数据库的研究转向对归纳数据库的研究。
专家系统曾经是人工智能研究工作者的骄傲。
专家系统实质上是一个问题求解系统,目前的主要理论工具是基于谓词演算的机器定理证明技术。
在研制一个专家系统时,知识工程师首先要从领域专家那里获取知识,这一过程实质上是归纳过程,是非常复杂的个人到个人之间的交互过程,有很强的个性和随机性。
因此,知识获取成为专家系统研究中公认的瓶颈问题。
用if-then等类的规则表达,约束性太大,用常规数理逻辑来表达社会现象和人的思维活动局限性太大,知识表示又成为一大难题。
此外,即使某个领域的知识通过一定手段获取并表达了,但这样做成的专家系统对常识和百科知识出奇地贫乏。
人工智能学者开始着手基于案例的推理,尤其是从事机器学习的科学家们,不再满足自己构造的小样本学习模式的象牙塔,开始正视现实生活中大量的、不完全的、有噪声的、模糊的、随机的大数据样本,也走上了数据挖掘的道路。
数理统计是应用数学中最重要、最活跃的学科之一,如今相当强大有效的数理统计方法和工具,已成为信息咨询业的基础。
信息时代,咨询业更为发达。
然而,数理统计和数据库技术结合得并不算快,咨询业用数据库查询数据还远远不够。
一旦人们有了从数据查询到知识发现、从数据演绎到数据归纳的要求,概率论和数理统计就获得了新的生命力,所以才会立即呈现在DMKD这个结合点上。
发现工具和方法,常用的有分类、聚类、减维、模式识别、可视化、决策树、遗传算法、不确定性处理等。
●决策支持技术(Decision Support System)决策支持系统通过结合个人的智力资源和计算机的能力来改进决策的质量。
它是一个基于计算机的支持系统,服务于处理半结构化问题的管理决策制定者。
管理的核心是“决策”。
全球经济一体化的进程以及信息技术的发展,消除了许多流通壁垒。
企业比以往任何时候都面临着更为复杂的生存环境,更难以形成并维护其竞争壁垒。
竞争的压力对企业制定决策的质量、速度都有更高要求。
决策支持系统作为一种新兴的信息技术,能够为企业提供各种决策信息以及许多商业问题的解决方案,从而减轻了管理者从事低层次信息处理和分析的负担,使得他们专注于最需要决策智慧和经验的工作,因此提高了决策的质量和效率。
3.SAS系统的主要模块SAS系统包含了众多的不同的模块,可完成不同的任务,主要模块有:●SAS/BASE(基础)——初步的统计分析;●SAS/STAT(统计)——广泛的统计分析;●SAS/QC(质量控制)——质量管理方面的专门分析计算;●SAS/OR(规划)——运筹决策方面的专门分析计算;●SAS/ETS(预测)——计量经济的时间序列方面的专门分析计算;●SAS/IML(矩阵运算)——提供了交互矩阵语言;●SAS/GRAPH(图形)——提供了许多产生图形过程并支持众多图形设备;●SAS/ACCESS(外部数据库接口)——提供了与大多数流行数据库管理系统的方便接口并自身也能进行数据管理;●SAS/ASSIST(面向任务的通用菜单驱动界面)——方便用户以菜单方式进行操作;●SAS/FSP(数据处理交互式菜单系统)●SAS/AF(面向对象编程的应用开发工具)另外SAS系统还将许多常用的统计方法分别集成为两个模块LAB和INSIGHT,供用户利用图形界面和菜单直接对数据进行统计分析二、SAS系统与统计学1.统计分析过程统计学是运用概率论和数理统计的原理、方法研究数据资料的搜集、整理、分析和推断,从而掌握事物内在客观规律。
但由于受许多偶然因素的影响,同一类事物之间会存在着差异,这种差异统计上称为变异。
所以必须在观测一定数量的基础上进行统计分析才有价值。
变异的出现是由于许多内外因素偶然性的配合所致,因此统计研究的各种对象的表现是一种随机事件。
随机事件是指一次试验结果不确定,而在一定数量重复试验的条件下呈现出统计规律性的事件。
科学研究的目的就是在于阐明客观存在的规律,以便对同类事物加以估计和预测。
整个统计分析过程如图1.1所示。
2.统计学的主要内容统计学的主要内容可概括三大块:(1) 统计研究设计 ● 调查设计 ● 试验设计 (2) 统计描述 ● 统计表和统计图 ● 定量资料统计描述:(1) 集中趋势的度量(算数均数、几何均数、调和均数、中位数、众数); (2) 离散趋势的度量(标准差、标准误差、变异系数、极差、四分位数间距); (3) 分布趋势的度量(分位数、偏度系数、峰度系数); (4) 随机变量及其概率分布分为:a. 离散型随机变量的概率分布(二项分布、普阿松分别、几何分布、超几何分布等);b. 连续型随机变量的概率分布(正态分布、t 分布、2分布、F 分布、对数正态分布、指数分布、威布尔分布等)。
● 定性资料的统计描述:相对指标(率和比)。
(3) 统计推断总 体样 本统计量抽样计算描述推断图1.1 SAS 的统计分析过程●检验:(1)对定量资料的分布类型、方差、均数的假设检验;(2)对定性资料分布情况或位置的假设检验;(3)对二种属性之间的独立性检验,及两种判断结果的一致性检验等。
●区间估计:(1)对总体参数(均数、方差、率)进行区间估计;(2)容许区间估计。
●相关分析:研究变量之间的关系,分为各指标之间无自变量与因变量和有自变量与因变量。
(1)研究变量之间的相互关系有直线相关分析、典型相关分析;(2)研究多个变量内部的从属关系有主成分分析、因子分析、对应分析;(3)研究多个变量内部或多个样品之间的亲疏关系有聚类分析;(4)研究多个变量内部的各种复杂关系有线性结构方程的协方差分析;(5)研究变量之间的依存关系有直线回归分析、曲线回归分析、多项式回归分析、多元线性回归分析、logistic概率模型回归分析、生存资料的参数模型回归分析、COX模型回归分析和对数模型回归分析。
●分类的判别分析:根据一些明确分类的总体所提供的信息,对未知个体的归属进行分类的判别分析。
●时间序列分析:预测序列的未来发展情况、分析序列的基本趋势。
a) WINDOWS运行环境下SAS系统的安装i.对计算机硬软件的要求●操作系统要求●CPU与内存要求●硬盘存储空间要求●系统时钟●CONFIG.SYS和AUTOEXEC.BAT因运行SAS系统时要同时打开几十个文件,因此必需增加或修改系统配置文件CONFIG.SYS中的同时打开文件个数FILES和缓冲区的大小BUFFERS参数值,它们的最小值为:FILES=50BUFFERS=17为了在任意目录下运行SAS系统,请在自动引导批命令文件AUTOEXEC.BAT中加上路径搜索命令,例如:PATH D:\; D:\SASii.Novell局域网上共享SAS系统操作步骤:第一步,以User Windows98进入操作系统第二步,修改主网络登录为NetWare或友好登入●双击我的电脑●双击控制面板●双击网络●主网络登录:选择NetWare或友好登入——系统将重新启动请特别注意:本机器是否在主网络登录中配置了NetWare或友好登入。