当前位置:文档之家› Stata上机实验笔记

Stata上机实验笔记

Stata上机实验Stata 统计软件包是目前世界上最著名的统计软件之一,国外将Stata与SAS、SPSS 一起被并称为三大权威软件。

它同时具有数据管理软件、统计分析软件、绘图软件、矩阵计算软件和程序语言的特点,几乎可以完成全部复杂的统计分析工作。

Stata有什么优势?1。

Stata 的命令语句极为简洁明快,易学易记。

2。

强大的帮助信息。

本地帮助 Help 命令名在线帮助Findit 命令名3。

始终处于计量经济学和统计学的最前沿。

许多Stata 程序员会针对计量经济学发展编写一些最新的程序(ADO 文件), Stata提供了严谨、简练而灵活的程序语句,用户可以编写自己的命令和函数,同时可随时到Stata 网站寻找并下载最新的升级文件。

下载后可以直接使用,也可以自行修改、添加功能。

(例如当前流行的面板单位根和面板门限数据,均可以安装下载使用)不同版本对样本容量、变量个数、矩阵阶数、宏的字符长度等有着不同的限制。

以SE版为例,其最大变量个数为32767,最大字符长度为244字节,最大矩阵阶数为11000(即11000 11000)。

Stata默认值为:最大变量个数为5000,最大矩阵阶数为400,最大内存为10兆。

如果用户需要更多的内存或者更多的变量,可以在命令栏输入如下命令进行扩展。

set maxvar 5000 <最大变量个数5000个。

>set memory 50m <占内存50兆。

>最重要的有三类文件1。

文件名.dta 数据文件2。

文件名.do 命令文件3。

文件名.ado 程序文件如果不加改变,安装时Stata会将系统程序安装到:C:\Program file\stata10 中。

将所用系统自带的一些系统数据、应用程序、帮助文件安装到C:\Program file\stata10\ado\base 中将所有升级程序安装到:C:\Program file\stata10\ado\update 中1。

所有的系统自带数据可以利用sysuse命令打开。

2。

Use命令只能打开 C:\data 或者 D:\data中的数据。

3。

如果需要打开其他文件夹的数据,必须改变目录(例如,将自己的数据放入D:\abc)cd "D:\abc”或者直接 file------open特别注意:1。

Stata的命令区分大小写。

2。

大部分命令可以缩写。

use 打开数据文件,一般加clear选型清空内存中现有数据。

sysuse 打开系统数据文件。

describe 描述数据edit 利用数据编辑器进行数据编辑list 类似于edit,但只能显示不能修改数据。

display 显示计算结果。

经常写为: disummarize 求某个变量的观察值个数、平均值、标准差、最小值和最大值。

经常写为:sumscatter 生成两个变量的散点图。

set obs 定义样本个数(使用前一定要用drop或者clear命令清空)generate 建立新变量并赋值。

经常写为gen举例:画出Y=X2的曲线图drop _all (drop data from memory)set obs 100 (make 100 observations)gen x = _n (x = 1, 2, 3, .., 100)gen y = x^2 (y = 2, 4, 9, .., 10000)scatter y x (make a graph)stata命令格式[by varlist:] command [varlist] [=exp] [if exp] [in range] [weight] [, options]1。

Command 命令动词,经常用缩写。

2。

varlist 表示一个变量或者多个变量,多个变量之间用空格隔开。

如 sum price weight3。

by varlist 分类信息按照某一变量的不同特性分类4。

=exp 赋值及运算5。

if exp 挑选满足条件的数据6。

in range 对数据进行范围筛选7。

Weight 给数据赋一个权重8。

, options 命令增加一些可选信息Stata数据处理1。

Stata的数据格式为文件名.dta2。

对于系统自带数据文件,任何情况下可以用 sysuse 命令打开。

3。

对于C:\data(或者D:\data)下的文件,可以使用use命令打开。

4。

放在其他目录的文件可以利用设置目录或者“打开”菜单打开。

Stata数据类型数值型:用0、1、2…9 及+、–(正负号)与小数点和( )来表示。

字符型:字符串变量由字母数字或一些特殊的符号组成(如地名、住址,职业等等)。

注意:数字不表示大小信息,如电话、身份证号等。

字符型数据必须要加“”。

日期型:在Stata中,1960 年1 月1 日被认为是第0 天,因此1959 年12 月31 日为第-1天,表示形式为:jan/10/2001或者10jan2001。

数据导入1。

直接录入。

利用data editor2。

在Excel或者记事本文件编辑好后导入。

直接粘贴3。

Import导入除了csv格式,还可以导入txt格式和raw格式。

添加标签1。

为整个数据添加标签:例如,将数据命名为“工资表”。

菜单:Data->Labels->Label dataset命令:label data “工资表“2。

为变量增加标签,例如,给变量wage增加标签“年工资总额”菜单:Data->Labels->Label variables命令 label variable wage “年工资总额"3.为变量值增加标签例如:为变量marrid添加数值标签marry:1=married; 0=Unmarried 菜单:Data->Labels->Label values->Define or modify label values Data->Labels->Label values->Assign label values to variable命令:. label define marry 1 “married” 0 “unmarried". label values married marryStata作图STATA 提供各种曲线类型,包括点(scatter)、线(line)、面(area),直方图(histogram)、条形图(bar)、饼图(pie)、函数曲线(function)以及矩阵图(matrix)等。

同时,对时间序列数据有以ts 开头的一系列特殊命令,如tsline。

还有一类是对双变量的回归拟合图(lfit、qfit 、lowess)等。

小样本OLS小样本OLS假设条件较为严格假设1: 二者之间存在线性关系y = a0 + a1*x1 + a2*x2 + ... + ak*xk +εy = Xb +ε假设2: X 是满秩的,i.e. rank(X) = k假设3: 干扰项的条件期望为零(严格外生性)* E[ε| X] = 0通过上课的学习我们得到:1ˆ(')'-=βX X X y习惯上我们用y_hat = X*b /* 被解释变量的拟合值*/e = y - y_hat = y - Xb /* 残差 */建立回归方程打开系统文件auto ,建立如下方程:sysuse auto,clearregress price mpg weight foreignRegress 命令详解:regress depvar [indepvars] [if] [in] [weight] [, options]1。

要求方程省略常数项(自己设置常数项)reg price mpg weight foreign, nocons(hascons)2。

稳健性估计(一般用于大样本OLS )reg price mpg weight foreign, vce(robust)或者:reg price mpg weight foreign, r3。

设置置信区间(默认95%)reg price mpg weight foreign, level(99)4。

标准化系数reg price mpg weight foreign, beta5。

部分数据回归reg price mpg weight length foreign in 1/30(为什么foreign 被drop 掉?)reg price mpg weight length if foreign==0回归结果解读系数/标准误差= t 值P 值 系数=0的概率为 p 值在5%的水准上显著不为0否则和0的差异不显著95%下限=估计值-t 值*标准误差95%下限=估计值+t 值*标准误差置信区间:系数在95%的概率下会落在---之间跨越0,则与0不显著模型常用的其他形式:对数 平方项 n 次方 指数 交乘项虽然对函数形式的选择有检验方法,但最好还是从“经济意义”角度确定。

回归后预测值的获得Predict1。

拟合值的获得:predict yhat, xb 或者 predict yhat2。

残差的获得predict e , residuals 或者 predict e, res回归的假设检验Test命令例一 sysuse auto, clearreg price mpg weight length1。

检验参数的联合显著性2。

分别检验各参数的显著性3。

三个参数对被解释变量的影响相同例二: use wage2, clearreg lnwage educ tenure exper expersq1。

教育(educ)和工作时间(tenure)对工资的影响相同。

test educ=tenure2。

工龄(exper)对工资没有影响test exper 或者 test exper =03。

检验 educ和 tenure的联合显著性test educ tenure 或者 test (educ=0) (tenure=0)例三:生产函数productionuse production,clearreg lny lnl lnktest lnl lnktest (lnl=0.8) (lnk=0.2)test lnk+lnl=1非线性检验:testnl例一 .sysuse autogen weight2 = weight^2reg price mpg trunk length weight weight2 foreigntestnl _b[mpg] = 1/_b[weight]testnl (_b[mpg] = 1/_b[weight]) (_b[trunk] = 1/_b[length])例二:打开productionreg lny lnl lnktestnl _b[lnl] * _b[lnk] = 0.25testnl _b[lnl] * _b[lnk] = 0.5大样本OLS大样本OLS经常采用稳健标准差估计(robust)稳健标准差是指其标准差对于模型中可能存在的异方差或自相关问题不敏感,基于稳健标准差计算的稳健t统计量仍然渐进分布t分布。

相关主题