当前位置:文档之家› 如何运用Stata完成统计数据汇总工作论文.doc

如何运用Stata完成统计数据汇总工作论文.doc

本加总在一起,合并后样本变量数目不变,样本数增加,也就是数据文件变长了。

最常见的纵向合并情况是对一项调查在不同地区或者不同时间得来的数据进行合并。

Stata 纵向合并数据文件的命令为“append”.比如,我们将调查得到的包含北京市调查数据的数据文件“bj.dta”和包含天津市调查数据的数据文件“tj.dta”纵向合并的Stata命
令为:
use bj,clear
append using tj
需要注意的是,在纵向合并两个数据文件前,两个文件中相同变量的变量名要一致,否则将会被当成两个变量处理,并产生无用的缺失值。

同时,相同变量的变量类型要一致。

汇总问卷调查结果
问卷调查时效性较强,调查结果容易量化,便于统计处理与分析,是常用的统计调查方法。

问卷调查结果用Stata 进行汇总非常方便,使用“tabulate”命令,可方便的生成列联表,根据变量的频数分布可以得到问卷回答情况的汇总结果。

比如,对10000个样本企业开展问卷调查,涉及10 个问题,分别为:
WT1,WT2, ……,WT10(每个问题的答案均为A、B、C、D 四个选项)。

汇总问题WT1 的回答情况时,只需输入命令:tabulateWT1,即可得到WT1 样本回答情况的频数(Freq)、百分比(Percent)及累计百分比(Cum)指标(Stata 输出结果见表1)。

从Freq 输出结果可见,样本企业对WT1 的回答情况为:选择答案A、B、C、D 的企业数量分别为1000、3000、4000 和2000 个。

Percent结果给出了选择答案1、2、3、4 的比重分别为10%,30%、40% 和20%.
同时,“tabulate”命令还可以生成2 维列联表,比如,需要对问题WT1 做分省回答结果的汇总时,只需对省代码(sf)和WT1 执行“tabulate”汇总。

Stata 命令为:tabulate sf WT1,即可输出表 2 格式的汇总结果{ 假设调查只涉及北京市(代码11)、天津市(代码12)、河北省(代码13)}.
类似的,可以对每一个问题的调查结果分行业、分登记注册类型、分控股情况等做交叉分组汇总。

汇总生产经营情况调查结果
现行的统计报表制度更多的是对调查单位的生产经营情况开展年度、季度或者是月度调查。

日常的数据汇总工作更多的是对生产经营指标做各种交叉分组汇总。

与问卷调查结果不同,生产经营情况的调查结果需要对调查指标数据加总或者通过计算生成新的指标,因此,我们首先要生成新的变量,来记录相应指标的汇总结果。

Stata 生成新变量的命令为“generate”及其扩展命令“egen”.“generate”用来生
成一般变量,“egen”可以生成包含函数表达式的变量。

比如,我们对规模以上服务业企业“财务状况(F103 表)”中“营业收入”指标的本年(yysr1)和上年同期(yysr2)数据进行汇总,并计算两年的同比增速(d),用到的Stata 语句为:
egen a=sum(yysr1)
egen b=sum(yysr2)
gen d=(a/b)*100-100
其中:“sum()”为求和函数,变量a 用来记录“营业收入”本年的合计数,变量 b 用来记录“营业收入”上年同期的合计数,变量d用来记录“营业收入”的同比增速。

统计调查表中通常包含多个指标,我们可以使用Stata 的循环语句“forvalues”同时对多个指标汇总。

比如,我们对规模以上服务业企业“财务状况(F103 表)”涉及的31 个财务指标汇总。

31 个指标的本年和上年同期数据我们分别用ai 和bi (i=1,2,…,31)表示。

汇总语句为:
forvalues i=1/31{
egen suma`i =sum(a`i‘)
egen sumb`i =sum(b`i’)
gen d`i =(suma`i /sumb`i‘)*100-100}
31 个指标的本年和上年同期汇总数据分别记录于sumai 和sumbi 变量,di 为同比增速(i=1,2,…,31)。

我们还可以用“by+ 变量名”实现各种交叉分组汇总。

比如,分省汇总“营业收入”本年(yysr1)和上年同期数(yysr2)指标的Stata 语句为:
by sf,sort:egen a=sum(yysr1)
by sf,sort:egen b =sum(yysr2)
其中:“sort”命令为排序命令,对省代码(sf)变量按照从小到大排序。

在用“by”命令对变量进行分类汇总前,必须要对分类变量进行排序。

运用“by+变量名”我们还可以进一步实现分行业分指标、分登记注册类型分指标及分省分行业等交叉汇总工作。

比如,分省分行业大类汇总“营业收入”指标的语句为:
sort sf hydl :egen suma=sum(yysr1)
sort sf hydl :egen sumb=sum(yysr2)
综上可见,运用Stata 语句,可以快速、灵活的完成统计数据的各种交叉汇总工作,为数据的审核及后续的分析研究工作带来便利。

同时,Stata的数据汇总结果既可以以文本格式直接粘贴进Word 等文字编辑器,也可以以表格的形式粘贴进Excel 等数据表格处理器,便于存储和使用。

相关主题