当前位置:
文档之家› SAS高级统计分析教程(包括代码,超详细)
SAS高级统计分析教程(包括代码,超详细)
给每一个缺失数据一 些替代值,如此得到 “完全数据集”后,再使用完全数据统计 分析方法分析数据并进行统计推断。
近年来,人们开始重视数据缺失问题,着 力研究插补方法。迄今为 止,提出并发展 了30多种的插补方法。在抽样调查中应用 的主要是单一插补和多重插补。
特别注意:插补的目的并不是预测单个缺 失值,而是预测缺失数据所服从的分布.
RUN;
第二节 数据探索
数据特征 均值 中位数 众数 方差 标准差
标准误差
定义 -- 观测值升序排列 出现频率最高的数 -- 方差的平方根 --
公式
x
1 n
n i 1
xi
N为奇数: x2 n
N为偶数:
x2
n
x2
n1
2Leabharlann s2 1 n n 1 i1
2
xi x
--
s n
程序实现
PROC MEANS; BY <DESCENDING> variable-1 <... >; CLASS variable(s); FREQ variable; ID variable(s); OUTPUT ; VAR ; WEIGHT variable; RUN;
PROC UNIVARIATE; BY variables ; CLASS variable(s); ; FREQ variable ; HISTOGRAM; ID variables ; OUTPUT ; PROBPLOT < variables >; QQPLOT < variables >; VAR variables ; WEIGHT variable ; RUN;
第三节 缺失值填充
在许多实际问题的研究中,有一些数据 无法获得或缺失。当缺失比例很小时,可 直接对完全记录进行数据处理,舍弃缺失 记录。 但在实际数据中,往往缺失数据占
有相当的比重,尤其是多元数据。这时前 述的处理将是低效率的,因为这样做丢失 了大量信息,并且会产生偏倚,使不完全 观测数据与完全观测数据间产生系统差异.
课程总体框架
第一章: 数据处理 第二章:双变量分析 第三章:方差分析
1.1. 数据采样 1.2. 数据探索 1.3. 缺失值填充
2.1.基本理论 2.2.相关分析 2.3.列联分析
3.1 基本理论 3.2. 两总体和多总体 3.3. 无交互效应和有交互效应
第四章: 回归分析
第五章: LOGISTIC分析
系统抽样(systematic sampling):先把总体中的每个个体编号,然后随机选取其中 之一作为抽样的开始点进行抽样,可以想象,如果编号是随机的,系统抽样与简单随机 抽样是等价的。
程序实现
PROC SURVEYSELECT options; STRATA variables ; CONTROL variables ; SIZE variable ; ID variables;
4.1.基本理论 4.2.建模流程 4.3.数据探索 4.4. 简单线性回归 4.5. 多元线性回归 4.6.残差检测 4.7.强影响点判断 4.8.共线性诊断 4.9.模型预测
5.1. 基本理论 5.2. 建模流程 5.3. 数据采样 5.4. 数据探索 5.5. 缺失值填充 5.6. 连续变量压缩 5.7. 属性变量压缩 5.8. 变量筛选 5.9. 模型构建 5.10.模型评估 5.11.模型预测
PROC FREQ < options > ; BY variables ; OUTPUT; TABLES requests; WEIGHT variable; RUN;
PROC BOXPLOT < options > ; PLOT analysis-variable*group-variable; BY variables; ID variables; RUN;
单一插补指对每个缺失值,从其预测分布 中取一个值填充缺失值后,使用标准的完 全数据分析进行处理。
插补方法:业务逻辑;均值法;最小邻居法; 比率/回归法;决策数法等。
单一插补往往会低估估计量的方差,为改 善这一弊病,80年代前后,Rubin提出了 多重插补。多重插补是一种以模拟为基础 的方法,对每个缺失值产生m个合理的插 补值,这样插补后,得到m组完全数据, 使用标准的完全数据方法分析每组数据并 融合分析结果。
程序实现
1.单一插补: PROC STDIZE < options > ; BY variables ; FREQ variable ; LOCATION variables ; SCALE variables ; VAR variables ; WEIGHT variable ; RUN;
2.多重插补: PROC MI < options > ; BY variables ; CLASS variables ; EM < options > ; FREQ variable ; MCMC < options > ; MONOTONE < options > ; VAR variables ; RUN;
分层抽样(stratified sampling):对总体按照某些性质分类,再从类别中随机抽取样 本。显然,分层抽样考虑到了总体要分层的性质上差异性。
整群抽样(cluster sampling):先把总体分成若干群,再从这些群中抽取几个群;然 后再在这些抽取的群中对个体进行简单随机抽样。整群抽样一般要求群之间的差异不能 太大,否则会增大误差。
第一节 数据采样
总体(population):包含所要研究的个体的集合,现实世界一般不可获取。
样本(sample):总体中的部分,一般通过抽查获取。
样本量(sample size):样本中个体的数量。
随机样本:总体中每个个体以等概率选入所获得的样本。
抽样方法:
简单随机抽样(simple random sampling):对总体每一个体以同等概率抽取。
第六章: 聚类分析
6.1.基本理论 6.2.建模流程 6.3.数据探索 6.4.变量压缩 6.5.数据转换 6.6.初次聚类 6.7.二次聚类 6.8.聚类验证 6.9.矩阵迁徙
第一章 数据处理
培训目的: 1.掌握数据建模前数据预处理的必要工作; 2.掌握数据采样的方法; 3.掌握数据探索的方法; 4.掌握数据缺失值填充的方法