SPSS学习第一章数据文件的建立数据编码Type:Numeric:数值型 string:字符串型Missing:Measure:scale定量变量 nominal定性变量根据已有的变量建立新变量1、对于数据进行重新编码Transform—recode into different variables—选择input variable output variable –定义新变量的名称—change—开始定义新旧变量—continue2、通过SPSS函数建立新变量Transform—compute variable –从function group中选择公式范围下面选择具体的公式—if中设置要改变—continue—OK可以对变量进行各种计算第二章清除数据与基本统计分析1、对不合理的数据检查并清理检查:analysis-description statistic-frequencies—选入要检查的数据—OK结果:频数统计表—看是否有错误—missing system清理:1.对系统缺失值的清理Data—select case—if condition is satisfied—if—function groupmissing--下面选missing--continue—outputdelete unselected cases--OK—对num为哪一位的进行修改2.对sex=3的清理直接就清除了Data—select case—if condition is satisfied—if—sex调入再输入=3—continue-- outputdelete unselected cases--OK—对num为哪一位的进行修改2. 对相关变量间逻辑性检查和清理Data—select case—if condition is satisfied—if—输入表达式前后逻辑不相符合的表达式-- continue-- outputdelete unselected cases--OK—对num为哪一位的进行修改3.统计描述正态分布统计描述1、正态性检验:Analysis—nonparametric tests—legacy dialogs—1-sample K-S—one-sample Kolomogorov Smirnov test –normal—ok/2、统计描述:Analysis—descriptives--time选入—options—ok3、按照男女统计描述:data—split file –compare group –sex调入—okAnalysis-descriptive statistic –descriptive—time 调入—options选择—OK非正态分布资料统计描述1、正态性检验nonparametric2、Analysis—descriptive statistics—frequencies 选入-- statistics选择—OK 第三章T检验1、单样本t检验正态性检验—analyze—compare means—one-sample t test—test value选择要对比的数值—OK2、配对样本t检验建立数据文档—两列前和后--正态性检验—analysis- compare means—paired sample t test –调入—ok3、两独立样本t检验正态性检验的时候采用分开组,其他都要合并在一起建立数据库—第一列group第二列数值-- data—split file –compare group—调入group—ok-正态性检验—OK-- data—split file—选择analysis all—analyze—compare means—independent sample t test—选入,分组—OK结果分方差齐与否第四章方差分析前提正态1、单因素方差分析就是平常的三个组比较建立数据库—第一列group第二列数值- data—split file –compare group—调入group—ok-正态性检验—OK-- data—split file—选择analysis all--analyze—compare means—one-way-anova—数据调入dependent list—分组调入factor------options—descriptive基本统计描述—homogeneity of variance做方差齐性分析—OK2、方差分析两两比较analyze—compare means—one-way-anova---数据调入dependent list—分组调入factor—点post hoc—选择SNK LSD3、随机区组设计方差分析建立数据库—第一列group第二列block第三列数值--按照group split开,进行正态性检验—OK—general liner model—univairate—数值调入dependent variable—group和block调入fixed factor—model—custom—build termsmain effects再把group和block 调入model下的矩形框---continue—OK如果区组间无差别,组间进行两两比较;首先进行方差齐性检验:Option—调入—homogentity test—continue—ok分析:univariate —post hoc—univariate—调入group—SNK LSD—continue—ok4、多因素分析以time为观察值分析pt、da、sex间的差别General liner model—univariate—timedependent variance, pt、da、sexfix factor—model—mian factors—调入—continue—OK—将无关的逐一排除—选择出最终有差异的—求得R square第五章卡方检验1、行x列卡方检验也就是几组数据差异性比较输入数据—第一列列123—第二列行1234—第三列频数定义频数变量:Data—weight case—调入频数分析:analyze—descriptive statistics—crosstabs—第一行调入row—第二列调入column---statistics—选择chi-square—continue –cells选项—选择row—ok结果中,最后一行英文,理论值小于5的各数和最小理论值如果有统计学意义,可以进行两两比较:在数据设置那里,找到missing value—discrete missing value下的格子中填入3表示把3取掉了,只是1和2进行比较--后续操作同上2、四格表卡方检验输入数据—第一列处理因素—第二列疗效—第三列频数定义频数变量:Data—weight case—调入频数分析:analyze—descriptive statistics—crosstabs—第一行调入row—第二列调入column---statistics—选择chi-square—continue –cells选项—选择row、expected—ok结果中,最后一行英文,理论值小于5的各数和最小理论值;确切概论法,continuity correction表示校正卡方的结果Ps:诸如第一个例题中,如果分析性别与感染率的显著性差异,步骤同四个表卡方检验,由于分开写了,不用转换为频数资料而已3、配对卡方检验输入数据—第一列a—第二列b—第三列频数定义频数变量:Data—weight case—调入频数分析方法一:analyze—nonparametric—legacy dialogy--2-related sample tested—a 和b分别选入配对—激活下列的选项McNemar分析方法二:analyze—descriptive statistics—crosstabs—ab填入—statistics—点击右下McNema r—ok第六章秩和检验1、配对秩和检验定量输入数据—第一列前—第二列后分析:analyze—nonparametric—legacy dialogy--2-related sample tested—a和b分别选入配对结果:第一个表格是比较大小的数量,第二个表格是统计分析结果两独立样本比较秩和检验定量输入数据—第一列group—第二列数值分析:analyze—nonparametric—legacy dialogy --2 independent samples—输入分析的数据和分组情况—OK2、有序变量两独立样本比较秩和检验定性输入数据—第一列group—第二列有序变量--第三列频率定义频数变量:Data—weight case—调入频数分析:analyze—nonparametric—legacy dialogy --2 independent samples—有序变量调入test variables list—group调入分组并定义—ok多个独立样本的比较定量比如:甲乙丙三个样本进行比较输入数据—第一列group—第二列数值nalyze—nonparametric—legacy dialogy --K independent samples-数值调入test variable test—group调入分组矩形框给出分组范围1-3—Ok如果差别有统计学意义,那么进行两两比较,方法参考卡方的两两表,用missing来定义第七章相关与回归第一节一元线性回归1、例题:有12组发硒值和血硒值的含量表输入数据—第一列发硒—第二列血硒分析:正态性检验,相关和回归的前提是正态性正态性检验:Analysis—nonparametric tests—legacy dialogs—1-sample K-S—one-sample Kolomogorov Smirnov test –normal—ok相关分析:correlate—Bivariate—Bivariate correlation—服从正态分布的选择pearson,不服从的选择spearman回归分析:regression—regression—linear—将y变量调入dependent,x变量调入independent---statistics—linear regression—选择descriptive—OK结果分析:p值<0.05差别有统计学意义,可以建立回归方程2、频数资料的相关与回归建立数据库—第一列x—第二列y—第三列f分析:先将频数通过weight case 进行操作Analyze—regression—linear—选入自变量因变量—OKPs:这样的回归模型有常数项,也可以去掉,options—include constant in equation前面的√去掉—statistic—R square change—OK这样去去掉了常数项,但是要强调的是,有无常数项是两个完全不同的数学模型,R square也不能作为直接的比较,选择哪个回归方程最为合适,必须要把他们放在医学的实际环节中去检验才可以;3、多元相关回归好多个X的回归分析,分析x之间的相关关系Analyze—correlate—bivariate—将所数字调入—options—means and standard deviations—ok结果显示了6个X之间两两的相关系数;第二节多元线性回归研究一个Y 和多个X 的关系输入数据,x和y回归分析:analyse—regression—linear—输入自变量,因变量—OK结果:B表示偏回归系数,p<0.05有统计学意义,否则排除掉,不纳入回归方程中第三节多元逐步回归回归分析:analyse—regression—linear—输入自变量,因变量—method中输入stepwise—OK结果:将所有有意义的分布引入,都有相关系数和回归方程第八章Logistic 回归研究因变量二值变量与自变量二值或等级或计量资料的关系例如:例子中因变量为infect,自变量为一堆9个,笔者认为,由于自变量较多,logistic回归可分为两步,先用单因素分析对自变量进行筛选,然后对经单因素分析有统计学意义的自变量再做多因素logistic回归;1、将数据分类计数资料等级资料计量资料1、单因素分析对于计数资料采用卡方检验的方法:Descriptive statistic—crosstabs—infect调入到rows,计数资料调入columns—statistic—chi-square—ok结果显示:每项计数资料是否有统计学意义,经有统计学意义的资料记下来Ps:外加一个分层资料合并步骤:transform —recode—recode into different variables—old to new,就跟数据合并一样,分组合并一样对于等级资料采用秩和检验的方法:analyze—nonparametric—legacy dialogy --2 independent samples—输入分析的数据和分组情况按照Y 变量分为0-1两组—OK对于计量资料采用显著性检验的方法:Analyze—compare means—independent sample t test –调入计量资料—并分组0/1--OK 结果看p值是否有统计学意义2、logistic回归通过单因素分析,找出了有统计学意义的观察项,然后进行logistic回归;分析:Analyze—regression—binary logistic—调入因变量—调入自变量covariates--method默认enter—options—激活hosmer- lemeshow goodness of fit、CI for expB、at last step –ok 也可以根据需要在其中选择查看结果,p小于0.05,变量差别具有统计学意义,可以纳入回归方程;结果解释注意事项:logistic回归是非线性回归,自变量作用的大小视为expB值,此处输血次数的回归系数为正表示输血次数多则感染的可能性大,手术部位结肠和直肠,结肠发生感染的可能性大于直肠部位;第十一章诊断试验评价和roc曲线分析1、诊断试验建立数据库—第一列金标准—第二列待评价方法—第三列f现将频数通过weight case定义为频数变量分析:analyze—descriptive statistic—crosstabs—现实中表格左边的调入row,表格上面的调入column---cells中选择计算row、column、total的百分比—OK结果分为四行:四小行分表表示,观察值,行百分比,列百分比,总百分比2、诊断试验一致性检验—Kappa值Kappa≤0.2 差,后每增加0.2分别为一般、中等、好、很好分析:其他过程同上,在cells之后,点击statistic—选择右下Kappa—OK结果:value即为Kappa值,要注意Kappa值也要注意对卡帕检验的p值和样本量3、roc曲线分析即为:受试者操作特征曲线,通过曲线下面积反应诊断试验的诊断价值;曲线下面积等于0.5表示完全无诊断价值,后每增加0.2表示低中高;例子中将医生诊断水平与病例诊断水平做比较建立文档—定义频数变量—analyze-ROC curve—待评价的调入test variable—标准选入state variable 并在下面的对话框中选择1表示恶性--在display—with diagonal reference line and standard error and confidence interval—ok例子2是血清钠对普通感冒和rmsf发热是否有诊断作用建立文档—定量资料—analyze-- ROC curve—待评价的调入test variable—分组选入state variable 并在下面的对话框中选择1 --在display全选—options中修改默认选项为 smaller test result indicate more positive test因为血清钠越低越表示阳性,而系统默认越高越为阳性--OK结果分析:看曲线下面积第十二章生存分析1、基本概念:事件:研究规定的生存时间的重点删失:失访或截尾生存时间:从某一起点开始到所关心时间发生经历的时间中位生存时间:半数生存期,表示恰好有50%的而个体存活的时间生存曲线:以观察时间为横轴,以生存率为纵轴,将各个时间点所对应的生存率连接在一起的曲线;生存曲线是一条下降的曲线,表示随着时间的推移,生存率逐渐降低;平缓的生存曲线表示高生存率或较长的生存期,陡峭的生存曲线表示低生存率或较短生存期;2、寿命表法定期随访的大样本资料建立数据--—第一列time—第二列结局state 1/0—第三列f分析:定义频数—analyze—survival—life tables –time调入time display time interval中从0到几每隔几--结局输入statussingle value输入1表示死亡,因为看上述文字:value indicating event has occurred表示目标事件发生的值,所以输入死亡所表示的数字--options—选择life tables 和 survival plot—OK3、Kaplan-Meier 法小样本量有两个分组,两种不同方法生存分析并比较生存率建立数据--—第一列time—第二列结局state 0死亡/1失访/2存活—第三列组别分析:analyze—survival-- Kaplan-Meier—time调入time,group调入factor,结果调入status定义结果选择0,表示死亡--options选择survival table、mean and median survival --compare factor中选择log-rank法—ok结果给出两组的平均生存时间和中位生存时间,标准误和可信区间,overall comparisons表示对两者的生存率进行比较;Ps:在寿命表中也可以对生存率进行比较,options选项中compare level of first factor 中选择overall第十四章量表信度效度分析1、量表信度分类:外在信度~表示量表在不同时间测定时测量结果一致程度,重测信度、分半信度内在信度~表示量表各项目之间的一致性程度,cronbach’s a 信度Analyze—scale—reliability analysis—总体选入或根据不同的因子分别选入2、量表效度量表能够测量出研究中所欲测量特性的程度;效度越高表示该测量的结果与测验行为的真实度越符合,越能够达到测验的目的;内容效度:专家法评价,对量表的题目,内容,范围是否符合调查目的进行分析评价标准效度:必须要有比较标准,指的是测量值与标准值之前的接近程度结构效度:根据实际测量的数据,考察所用的量表是否能反映事先假设的理论结构;KMO法; 具体操作,先不用掌握了,不会考的;第十五章统计图形第一节条形图Bar chart先要看懂几个翻译,非常重要Simple 简单条形图Clustered 分组条形图Stacked 分段条形图堆积图Data in chart are:Summaries for group of cases 按照观察量分组汇总Summaries for separate variables 按单独变量汇总Value of individual cases 按某观察量的数值做条形图1.简单条形图绘制各种手术方式的人数选Simple 简单条形图-- Summaries for group of cases按照观察量分组汇总—bars represent图形代表什么选择n of case,表示直条的长短观察量分组的数值—category axis中选定要绘制的观察量;可以点击title进行标题命名,双击图形可以对其作出设置绘制手术中失血量和输血量的均值两个变量则选用:Summaries for separate variable按单独变量汇总,将两个变量选入bars represent,其他同上,也可以双击设置图形;绘制每个病例的输血次数每个变量单独绘制则选用:Value of individual cases按某观察量的数值做条形图;Bars represent输入变量—OK2.分组条形图就是有两个两个紧挨着一起,一对一对比较的图绘制不同手术方式下,感染者与非感染组的,平均手术时间读题后,理所应当的想到,图形横坐标是不同的手术方式,一对别是感染与否,bars represent手术时间Clustered-- Summaries for group of cases按照观察量分组汇总-- bars represent图形代表什么选择other ,调入time —category axis就是横轴的变量手术方式—define cluster by定义分组通过感染与否—OKPs:可以通过option添加误差线—display error bars有,置信区间,标准误,标准差,笔者选择了置信区间;3.分段条形图堆积图,百分条图竖起来的一段一段的,跟圆图表达一起意思的图,但是可以直观的对两组进行比较;不同手术下,输血次数,分为0~4次,每次有不同的次数Stacked-- Summaries for group of cases按照观察量分组汇总--category axis就是横轴的变量手术方式-- define cluster by定义分组通过手术次数—OKPs:可以通过options定义scale to 100% 转换为百分条图第二节饼图Graph—legacy dialogs—pie –pie chart –summaries for group of cases—pt 调入define slice by—OK双击可以编辑第三节线图简单线图/复合线图Graph—legacy dialogs—line –line chart –summaries for group of cases—横轴调入 category axis中,将对直线的定义调入 define lines by的对话框—OK点线图上述改为drop-line就可以;第四节直方图Graph—legacy dialogs—histogram—要绘制的变量选入variable,选择display normal row表示绘制正态曲线第五节散点图Graph—legacy dialogs—scatter/dot。