通过计算机软件实现流行病学调查的数据处理与统计分析泰山医学院 Richard 流行病与卫生统计学摘要:目的探讨通过软件实现流行病学调查数据处理和统计分析的方法,为后续流行病学研究提供理论依据和可行性案例。
方法 1.通过EpiData数据录入软件录入调查问卷或正规量表,录入完成后导出至Excel 电子表格。
2.在Excel中对数据进行预处理,检查极端值,整理各变量代码及缺失值,并对部分变量作图表。
3.将Excel导入SPSS18.0,对调查问卷中的各变量进行统计学分析,保存结果。
4.将统计结果(一般为表格形式)复制到Excel进行格式编辑处理。
结果通过各种软件的配合使用可使流行病学工作效率大大提高,统计分析结果信度和效度高,表达准确简明扼要。
结论可以通过多种软件的联合使用提高流行病学调查的工作效率。
关键词:计算机软件;流行病学;数据处理;统计分析The accomplishment of Epidemiological investigation data processing and statistical analyze by computer softwareAbstract: Objective: To explore the method of data processing and statistical analysis of epidemiological investigation by software, as to provide theoretical basis for subsequent epidemiological studies and the feasibility of the case. Method: 1. Input questionnaire or formal scale by EpiData, a data entry software, then export the result to Excel spreadsheets after the completion of inputting. 2. Preprocess the data, check the extreme values, make up each variable code and missing value, make chart of some variables In Excel. 3. Import the Excel to SPSS18.0, make statistical analysis of the variables in the questionnaire and save the statistical result.4. Copy the statistical results (generally are tables) to Excel to go on further format editing. Results: By Using a variety of software together can greatly improve the efficiency of epidemiological work, higher the reliability and validity of statistical analysis results, and make the expression accurate and succinctly. Conclusion: The co-operation of variety softwares can improve the working efficiency of the epidemiological investigation.Key words: Computer software; Epidemiology; Data processing; Statistical analysis在公共卫生领域,无论工作中还是在科研中,流行病学调查是经常开展的项目,掌握系统数据处理及统计分析,更是一个流行病与卫生统计学硕士必备的技能。
得益于计算机的普及和各种软件的诞生,流行病学工作也发生了很大变化,由以往的手动分类和计算正在向信息化和智能化迈进。
本文试对流行病学调查工作做总结概述,拟探索利用多种软件提高工作效率的方法。
1.EpiData录入软件1.1 EpiData简介EpiData是一个既可以用于创建数据结构文档,也可以用于数据定量分析的一组应用工具的集合,该软件采用帕其卡语言(Pascal)开发,可用于简单或程序化的数据录入和数据文档。
EpiData可以执行基本的统计分析、图表和综合的数据管理,如描述性统计、SPC图表、重新编码数据、标注值和变量、定义缺失值等。
EpiData软件安装如同拷贝程序文档一样简单,它可以从U盘运行,并且内存很小(<2.5MB)。
基于以上优点,EpiData备受流行病学工作者的喜爱,并在日常工作中经常使用。
目前的主流版本是EpiData 3.1。
1.2 EpiData 使用方法(1)打开软件双击软件图标或EpiData.exe文件,打开软件。
软件运行后的界面如下图:图1. EpiData 3.1 界面(2)建立QES文件首先需要建立调查表文件,即后缀名为.qes的文件。
可以点击“文件”→图2. 建立新的QES文件的三种方法“生成调查表文件(QES文件)”,或点击“打开文件”→“建立新QES文件”,或者直接点击空白页图标建立新的QES文件,三种方法详见下图(图2)。
图2. 建立新的QES文件的三种方法建好的空白QES文件如图3,此时上方标题栏有“EpiData文件1”字样。
文件中的字体和背景颜色可通过“文件”→“选项”→“背景”来进行设置,在此不赘述。
图3. 空白的QES文件接下来,需要在QES文件中输入调查问卷的内容,也可把事先编制的问卷复制过来。
在编制调查表的过程中,涉及到编号和特殊字符的使用。
首先看下面的例子(图4):图4. 狂犬病病例个案调查表说明:{}里的A、B和C为字段名或者说是变量名,变量A记录了县市名称,B代表国标码。
对于“姓名{D11}”而言,姓名只是一个提示,在生成数据库文件时不编译,而D11是变量名。
如果没有“{}”来定义变量名,软件会自动进行变量名的赋值编码,其格式如N1AA,N2等。
@表示一种对齐方式,可以控制调查表的格式。
“_”用来定义字符串,当需要输入文本时需要用多个“_”来定义,一个字母用一个“_”来表示,一个汉字用两个“_”来表示。
每一个“#”用来代表一个数字,如{B}国标码有五个“#”,就意味着该选项最大可以输入的数字为99999。
另外,QES中还可以定义日期格式或利用布尔逻辑设置变量,因实际工作中使用较少,在此不赘述。
(3)生成REC文件REC文件,即数据库文件,或者说数据录入文件。
当QES文件编写完成后就可生成REC文件,可通过点击“REC文件”→“生成REC文件”,或者点击工具栏的“2 生成REC文件”→“生成REC文件”(如图5),在生成REC文件之前可以通过“数据格式预览”或“数据表预览”查看效果,不满意可以随时更改。
选择存储路径并命名后就可生成REC文件(如图6)。
需要注意的是,REC文件和之前的QES文件最好放在同一文件夹下,方便以后使用和修改。
图5. 生成REC文件的过程图6. 狂犬病病例个案调查表生成的REC文件(4)建立CHK文件通过以上的操作,对于逻辑关系简单的问卷就可以使用了,但是为了提高录入效率同时减少录入错误率,仍需进行质量控制,这时需要建立CHK文件。
建立方法:在EpiData不打开任何文件的情况下,点击“3建立CHK文件”→选择需要关联的REC文件并打开(如图7)。
图7. 建立CHK文件建立CHK文件之后就要对各变量进行质控了,此时会有一个小窗口浮动在REC文件上方(图8)。
当选中某一变量输入框时,该输入框呈高亮状态。
质控窗口有五个选项“Range, Legal”,“Jumps”,“Must enter”,“Repeat”和“Value label”。
图8. 对变量进行质控“Range, Legal”用来定义字段的允许数值范围和允许数值,在录入时,如果录入的数值不在这两个命令定义的允许数值(范围)内,系统将报错,需重新录入“合格”的数值。
Range 限定的是字段数值的“允许范围”,比如我们可以键入“1-8”,代表该字段的数值是从1到8且连续的8个数值;而Legal则限定字段的允许数值,如果实际情况是既有连续的数值,又有不连续的,那这两个命令可以一起用,比如键入“1-5,7,8”,表示这个字段共允许7个数值,包括1到5连续的5个数和“7”和“8”这两个数。
如图8中性别(D11)的允许值为1-2,则该输入框中只能输入1或者2,若输入3则提示输入错误(图9)。
图9. 字段允许数值范围和允许数值“Jumps”选项可以使用跳转功能,如果录入的值满足设定的条件,则自动跳转到设定的字段中。
如图10中,门诊病人没有住院号,为了提高输入效率,如果病人来自门诊,则我们希望输入1后光标自动跳转到下一题。
在“Jumps”中输入“1>sex”就可以实现这一功能(可以用鼠标点击sex选项框来代替输入单词sex)。
当有多个跳转条件时,用逗号“,”(半角输入)分隔。
图10. CHK文件中跳转功能的实现“Must enter”用来控制该选项是否必须输入,如果选择了“Yes”,则该选项必须输入,否则将提示输入错误。
“Repeat”用以自动填充上一条记录中该字段的值。
一人录入多份问卷并签名时,或重复当前记录中某一字段的值可以选择此项。
“Value label”启用字段标签功能,在录入过程中如有遗忘或疑惑之处可按F9键或“+”查看标签。
如下图,若要对性别加标签,则选中性别后点击右侧“+”,会出现“编辑标记”窗口。
在输入过程中按F9或“+”则自动弹出提示标签。
图11. 标签功能设置图12. 标签功能效果图(5)录入问卷,导出结果以上工作完成后,就可以打开REC文件逐份录入问卷了。
需要注意的是QES文件、REC文件和CHK文件要放在同一文件夹下。
录入完成以后,关闭所有问卷,点击菜单栏的“数据导入/导出”→“数据导出”→“导出为XLS文件(Excel文件)”,或点击“6数据导入/导出”→“导出为XLS文件(Excel文件)”(图13);出现对话框后选择需要导出的REC文件并打开,选择导出路径及导出变量(一般全选),点击“确定”即可。
图13. 将REC文件中的统计数据导出至Excel2.Excel软件的数据预处理在流行病学工作和科研中,Excel在数据处理和绘制图表方面体现出巨大的优势。