当前位置:文档之家› sas笔记

sas笔记

一、基本操作Editor窗口打开sas程序(扩展名*.sas)Log窗口Output窗口Explorer窗口Results窗口蓝色绿色SetMergeIf (if。

thendelete)Drop(keep)二、描述性统计1.Proc Formatvalue height 0-50=‘<50’50-60=‘50-60’60-high=‘>60’2. Proc freq data=名字order=freqTables 列表变量名/out=数据集名norow nocol nopercent(table y*x)FormatLabel weight=‘高度’By 变量3. Proc univariate data=名字Var 分析变量Histogram 变量/midpoints=7 to 29 by 24. Proc mens5. Proc gchartVbar竖直或hbar 横向Vbar math / group=sexPie sex/type=percent(以百分数显示)Block math/group=sex图形关键字绘制的图形类型图形关键字绘制的图形类型Block方块图pie饼形图Hbar水平的条形图pie3d三维饼形图6.Proc gplot Plot x*ySymbol value=star color=red 选项 意义取值V alue = 符号 表示点使用的符号 plus, x, star, square, diamond, triangle, hash, y, z, paw, point, dot, circleC olor = 颜色 表示点的符号及连线的颜色black, red, green, blue, cyan,magenta, gray, pink, orange, brown, yellow CV =颜色 专指点的符号的颜色H = n<单位> 指名符号的大小 单位有:cell, cm, pct, pt, in POINTLABEL 在点的附近表明Y 轴变量的值i = 连线方式 指明连线的方式 none, join, spline, needle CI = 颜色 专指连线的颜色L = n n 为线型的序号 0 – 空白线,1 - 实线,2 – 虚线 W idth = nn 表示线的宽度7.proc g3d data=名字 曲面图 Plot x*y=z8.proc gcontour data= 曲面图对应的等高线图 Plot x*y=z/nolegend autolabel三、T 检验 >0.05 接受H0(差异有统计学意义)用于检验两个样本总体均数是否相等 独立的,来自正态分布的总体 定量资料对于两组独立样本的定量资料,要求方差相等,两组资料来自正态总体 用proc univariate Proc meansProc ttest (能提供基本统计量的计算,对单样本资料、配对设计资料和两独立样本进行thbar3d 水平的三维条形图 donut 环形图 Vbar 竖立的条形图 star 星形图 vbar3d竖立的三维条形图检验)第一步,正态性检验 proc univariate normal (夏皮洛威尔克) Var 分析变量Freq 频数变量(频数分布资料时用)Class 分类变量(两组独立资料时用)第二步,proc ttest h0=30(已知的总体均数为30)Var 分析变量( paired x1*x2 配对设计资料时用,检验两组均值是否一致)Freq 频数变量(频数分布资料时用)Class 分类变量(两组独立资料时用)四、方差分析适用于多个样本均数的比较,资料独立,正态,各总体方差相等 方差分析可用于分析主效应,交互效应方差分析方法:完全随机设计方差分析(单因素方差分析)随机区组方差分析(双因素方差分析,无需方差齐性检验) 析因方差分析 重复测量方差分析使用 proc anova(各样本数一样)和proc glm (generalized linear model ) 第一步,正态检验 proc univariate normal Var class 第二步, proc glmClass g 分类变量 (分类变量即自变量,必须为离散型变量) Model x=g (因变量=自变量或自变量之间的交互效应)效应模型, Means g/hovtest snk(means 列出比较组的均数和标准差)(hovtest 各比较组的方差齐性检验,homogeneity of variance test ,默认levene )(snk 进行均数间的多重比较 student Newman keuls )变异来源 自由度 SSMSF组间k-121()ki i i n x x =-∑ SS 1k -组间MS组间组内Lsmeans a*b/tdiff(析因设计资料时用,列出变量或交互效应各水平的均值)(tdiff 表示对变量各水平均值或交互效应各水平均值进行两两比较的t检验)1与2、3、4有差别2与1、4有差别3与1、4有差别4与1、2、3有差别第三步,多重比较五、卡方检验卡方检验是检验观测值的频率分布与理论分布是否吻合的一种统计方法用法有卡方拟合优度检验(根据样本的频率分布检验总体分布是否吻合假定的分布,两个率或两个构成比比较的卡方检验)卡方独立性检验(一份随机样本按两种属性分类,其个体来自第一个变量某类别的概率与来自第二个变量某类别的概率是否独立)Proc freq可进行列联表资料的卡方检验Weight 权重变量(使每个量初始权重为1)Tables 行变量*列变量/expected chisq nocol norow nopercent (exact 表示用fisher’s确切概率法,理论频数小于5)Testp(0.1667,0.1667,0.1667,0.1667)(expected输出各个格子的理论频数)(chisq 进行卡方统计量的计算)N>=40 T>5 普通卡方检验T为理论频数(行*列/总)N>=40 1<=T<5 校正卡方检验N<40 T<1 fisher’s确切概率法卡方:卡方拟合优度检验df=(k-1)/(k-r-1)列联表独立性检验(2X2 2Xc rX2 rXc)配对设计资料的卡方检验( table r*c/agree )六、基于秩次的非参数统计参数统计方法(t检验、方差分析)对总体分布的参数进行估计或检验非参数统计方法不需要对总体分布形状做出任何假定,适用于总体不正态分布、分布未知、正态分布但方差不齐性、分析等级资料SAS过程:单样本、配对资料prco univariate中的signed rank 符号秩和检验(服从正态,t检验)完全随机设计两样本两独立样本proc npar1way中的wilcoxon (exact确切概率法,适用于样本量较少)完全随机设计多样本(单因素)proc npar1way中的kruskal-wallis随机区组设计(双因素)proc rank(计算秩得分)再proc glm(分析秩次)Exact在两样本量相同时,sas以秩和较大者作为统计量进行概率值的计算在两样本量不同时,sas以较小者的秩和进行概率值的计算Z includes a continuity correction of 0.5统计量包含了一个0.5的连续校正多个样本Average scores were used for ties在系列计算中使用了平均得分先用exact test,后用Z(n>50)七、线性相关与回归(因变量为连续型变量)线性相关:研究两个(或多个)随机变量间相互联系的一种统计方法。

(proc corr)为了了解变量间关系的密切程度及方向。

变量都正态分布时,用pearson相关系数r有一个不正态,用spearman等级相关系数rs(统计线性相关关系的存在,是由专业知识给出的,统计软件是根据数据找出具体的直线关系)步骤:绘制散点图计算相关系数对样本的相关系数进行假设检验(原假设:不存在相关关系)3根据p拒绝原假设,所以存在相关关系,且为正相关。

线性回归:研究变量与变量间是否存在线性依存关系。

(原假设:不存在线性关系)(proc reg)因变量为随机变量,自变量为随机、非随机变量。

要求资料满足线性、独立、正态、等方差(line条件)。

步骤:绘制散点图计算回归系数对样本回归系数进行假设检验写出回归方程的表达式方法:向前法,向后法,逐步回归法,全子集法Model y=x/selection=stepwise sle=0.10 sls=0.15 cli clm(值越小,选取变量的标准越严格)Clm总体均数%95的置信区间Cli 个体值%95的置信区间Clb 回归系数%95的置信区间Conf 总体均数%95的置信带Pred 个体值%95的预测带STUDENT.标准化残差八、logistic回归(因变量为分类变量,医学研究中用的比较多)原假设:模型无效Model y=x/selection=stepwise sle=0.10 sls=0.15 stb(要求输出标准化偏回归系数)非条件:Descending因变量由大到小Proc logistic desOR>1 危险因素条件:Strata 分层变量(匹配变量)Model outcome(event=‘1’)=gall hyper(因变量=自变量)(制定用gall hyper作为自变量,按outcomes=1即病例,拟合概率模型)Response profile响应变量的主要信息Model fit statistic模型拟合统计量九、生存分析生存率的估计有寿命表法(LT)和乘积极限法(PL)生存分析基本方法:统计描述非参数统计检验(总体分布形式已知)半参数模型回归分析(部分线性回归模型,经典线性模型和非参数回归模型的一个混合体)参数模型回归分析Cox模型(比例风险模型)Pdf probability denstiny function(概率密度函数)Testing Homogeneity of Survival Curves for days over Strata时间变量day分层曲线的一致性检验The marked survival times are censored observations标记的生存时间是删失观测值的生存时间。

相关主题