当前位置：文档之家› SAS高级统计分析教程(包括代码,超详细)

SAS高级统计分析教程(包括代码,超详细)

给每一个缺失数据一些替代值，如此得到 “完全数据集”后，再使用完全数据统计分析方法分析数据并进行统计推断。
近年来，人们开始重视数据缺失问题，着力研究插补方法。迄今为止，提出并发展了30多种的插补方法。在抽样调查中应用的主要是单一插补和多重插补。
特别注意：插补的目的并不是预测单个缺失值，而是预测缺失数据所服从的分布.
RUN;
第二节数据探索
数据特征均值中位数众数方差标准差
标准误差
定义－－观测值升序排列出现频率最高的数－－方差的平方根－－
公式
x
1 n
n i 1
xi
N为奇数： x2 n
N为偶数：
x2
n
x2
n1
2Leabharlann s2 1 n n 1 i1
2
xi x
－－
s n
程序实现
PROC MEANS; BY <DESCENDING> variable-1 <... >; CLASS variable(s); FREQ variable; ID variable(s); OUTPUT ; VAR ; WEIGHT variable; RUN;
PROC UNIVARIATE; BY variables ; CLASS variable(s); ; FREQ variable ; HISTOGRAM; ID variables ; OUTPUT ; PROBPLOT < variables >; QQPLOT < variables >; VAR variables ; WEIGHT variable ; RUN;
第三节缺失值填充
在许多实际问题的研究中，有一些数据无法获得或缺失。当缺失比例很小时，可直接对完全记录进行数据处理，舍弃缺失记录。但在实际数据中，往往缺失数据占
有相当的比重，尤其是多元数据。这时前述的处理将是低效率的，因为这样做丢失了大量信息，并且会产生偏倚，使不完全观测数据与完全观测数据间产生系统差异.
课程总体框架
第一章: 数据处理第二章：双变量分析第三章：方差分析
1.1. 数据采样 1.2. 数据探索 1.3. 缺失值填充
2.1．基本理论 2.2．相关分析 2.3．列联分析
3.1 基本理论 3.2. 两总体和多总体 3.3. 无交互效应和有交互效应
第四章: 回归分析
第五章: LOGISTIC分析
系统抽样（systematic sampling）：先把总体中的每个个体编号，然后随机选取其中之一作为抽样的开始点进行抽样，可以想象，如果编号是随机的，系统抽样与简单随机抽样是等价的。
程序实现
PROC SURVEYSELECT options; STRATA variables ; CONTROL variables ; SIZE variable ; ID variables;
4.1．基本理论 4.2．建模流程 4.3．数据探索 4.4. 简单线性回归 4.5. 多元线性回归 4.6．残差检测 4.7．强影响点判断 4.8．共线性诊断 4.9．模型预测
5.1．基本理论 5.2．建模流程 5.3．数据采样 5.4．数据探索 5.5．缺失值填充 5.6．连续变量压缩 5.7．属性变量压缩 5.8．变量筛选 5.9．模型构建 5.10．模型评估 5.11．模型预测
PROC FREQ < options > ; BY variables ; OUTPUT; TABLES requests; WEIGHT variable; RUN;
PROC BOXPLOT < options > ; PLOT analysis-variable*group-variable; BY variables; ID variables; RUN;
单一插补指对每个缺失值，从其预测分布中取一个值填充缺失值后，使用标准的完全数据分析进行处理。
插补方法:业务逻辑;均值法;最小邻居法; 比率/回归法;决策数法等。
单一插补往往会低估估计量的方差，为改善这一弊病，80年代前后，Rubin提出了多重插补。多重插补是一种以模拟为基础的方法，对每个缺失值产生m个合理的插补值，这样插补后，得到m组完全数据，使用标准的完全数据方法分析每组数据并融合分析结果。
程序实现
1.单一插补: PROC STDIZE < options > ; BY variables ; FREQ variable ; LOCATION variables ; SCALE variables ; VAR variables ; WEIGHT variable ; RUN;
2.多重插补: PROC MI < options > ; BY variables ; CLASS variables ; EM < options > ; FREQ variable ; MCMC < options > ; MONOTONE < options > ; VAR variables ; RUN;
分层抽样（stratified sampling）：对总体按照某些性质分类，再从类别中随机抽取样本。显然，分层抽样考虑到了总体要分层的性质上差异性。
整群抽样（cluster sampling）：先把总体分成若干群，再从这些群中抽取几个群；然后再在这些抽取的群中对个体进行简单随机抽样。整群抽样一般要求群之间的差异不能太大，否则会增大误差。
第一节数据采样
总体（population）：包含所要研究的个体的集合，现实世界一般不可获取。
样本（sample）：总体中的部分，一般通过抽查获取。
样本量（sample size）：样本中个体的数量。
随机样本：总体中每个个体以等概率选入所获得的样本。
抽样方法：
简单随机抽样（simple random sampling）：对总体每一个体以同等概率抽取。
第六章: 聚类分析
6.1．基本理论 6.2．建模流程 6.3．数据探索 6.4．变量压缩 6.5．数据转换 6.6．初次聚类 6.7．二次聚类 6.8．聚类验证 6.9．矩阵迁徙
第一章数据处理
培训目的： 1.掌握数据建模前数据预处理的必要工作； 2.掌握数据采样的方法； 3.掌握数据探索的方法； 4.掌握数据缺失值填充的方法

e商务文档

SAS高级统计分析教程(包括代码,超详细)

相关文档推荐：