计量经济学读书笔记第一章:统计基础 (2)第二章:计量经济学总论 (7)第三章:双变量回归分析 (9)第3.1回归方法 (9)第3.2结果检验 (10)第3.3回归参数的分布 (11)第四章:多变量回归分析 (13)第五章:OLS的基本假设 (14)第六章:多重共线性 (16)第七章:异方差性 (17)第八章:自相关 (18)第九章:时间序列分析 (20)第十章:面板数据分析 (30)第十一章:其他重要的分析方法 (49)******加权最小二乘法 (50)******二阶段最小二乘法TSLS (51)******非线性最小二乘法 (51)******多项分布滞后(PDLS) (51)******广义矩估计 (52)******logit和probit模型 (52)******因子分析 (54)******Granger因果分析 (55)****** 广义线性回归(Generalized least squares) (55)******格兰格因果检验 (57)******误差修正模型(ECM) (57)第十二章:EVIEWS (58)第12.1节EVIEWS基本操作 (58)第12.3节EVIEWS时间序列分析 (60)第十三章:SPSS (61)第13.1SPSS基本操作 (61)第十四章:数据分析实战经验 (70)第一章:统计基础0 常用英文词汇的统计意义 panel data=longitudinal data 是对各个个体进行连续观察的截面数据。
回归时的扰动项u=unobserved是影响因变量的其他变量之和,Univariate 单个变量的,如Univariate descriptives 意思是单个变量的统计指标1 基本概念统计总体是我们所关心的一些个体组成,如由多个企业构成的集合,统计意义上的总体通常不是一群人或一些物品的集合,而是一组对个体某种特征的观测数据。
参数总体的数值特征描述,如均值、标准差等。
统计量是用样本数据计算出来总体参数的估计值,从一个给定的总体中抽取容量为N的所有可能的样本,对于每一个样本我们可计算出某个统计量的值,不同的样本得到的该统计量的值是不一样的,该统计量的不同的值是不同抽样的结果(根据这些不同抽样计算出的对同一参数进行估计的统计量,可以计算出由各个统计量构成的集体的方差,该方差就是在统计软件中参数后面扩号内的方差),这符合随机变量的定义,因此该统计量也是随机变量,这个统计量的分布称之为抽样分布,它是从同一总体所抽出,同样大小的所有可能样本,其统计量的值的分布,一般情况下是一个正态分布,因为所有的估计值都是对总体参数的近似估计,因而服从以真实值为中心的正态分布,如果总体的分布是已知的则可以根据公式计算统计量抽样分布的分布参数(均值为总体的均值,标准差为总体的标准差与N的比值)。
4在一个样本之中包含若干个样本点,各个样本点所对应的个体的某种特征是一个变量,不同个体的该变量的取值相互独立,并且服从某种分布,因此根据样本计算的统计量可以看成是若干个独立变量的函数形式,其分布参数如均值、标准差可用数学公式推导。
时间序列是指同一现象在不同时间的相继观察值排列而成的序列,平稳序列,它的各种统计指标不随着时间而变化,在时间序列的散点图中表现为各点分布在一个以均值为中心的条状带中,同一时间序列的因素分析是指区分时间序列中各种不同因素的影响,确定长期趋势(找一条长期的趋势线)、季节变动(确定季节比率)、循环变动和不规则变动。
时间序列分析时一项重要的内容就是根据过去已有的数据来预测未来的结果,利用时间序列数据进行预测时,通常假定过去的变化趋势会延续到未来,这样就可以根据过去已有的形态或模式进行预测。
统计决策是指根据样本的信息对总体的情况做出判断。
点估计是根据样本用与计算总体参数相同的法则(如求平均数)+估计总体参数的具体值,因而叫点估计如用样本的平均身高作为总体的平均身高。
区间估计就是点估计值 边际误差,边际误差是根据显著性水平及统计量的标准差,如大样本时在0.05的水平下边际误差为1.96*标准差。
95%置信区间是用样本数据计算出来的对总体参数一个区间估计,保证根据所有样本计算的置信区间中,有95%会把真正的总体参数包含在区间之中,根据不同样本数据对同一总体参数进行估计的相同概率的置信区间不同,根据一个样本计算的对参数进行估计的置信区间是对总体参数的一个区间估计,是总体参数的若干置信区间中的一个,如果继续不断的抽样下去。
每个样本会产生一个新的对总体参数的置信区间,如果我们如此不停的抽样下去,所有区间中有95%会包含真正的参数值。
区间的概念提醒我们,因为我们只有样本数据,所以我们对于总体的所有叙述都不是确定的。
变量是说明个体的某种特征的概念,如“受教育程度”、“身高”等,说明事物类别的名称叫做分类变量(categorical variable),如性别就有两个分类变量男、女;说明事物有序类别的一个名称,称为顺序变量(rank variable),如一等品、二等品、小学、初中、大学等;说明事物数字特征并且有米、或者公里、年、吨等度量衡单位的叫做数值型变量(metric variable 或者scale variable)是量数据如产品产量年龄等。
数值型数据围绕其平均值分布的集中程度称为数据的离差。
根据不同度量可以定义不同的离差,最常用的有全距、标准差等。
以变量X 的标准差S 为单位来度量X 与其平均值X 之间的偏差的变量Z 称为标准化变量,它是一个无量纲量,标准化变量的数值称为标准分数或Z 分数。
偏度是一个分布中不对称程度或偏离对称程度的反映,如果分布的频数曲线右边的尾部比左边的长,则称分布是向右偏反之则称分布是向左偏。
偏度=(均值-众数)/标准差。
峰度是分布陡峭程度的反映,通常是相对于正态分布言,其值叫做峰度系数,用四阶中心矩与标准差的四次方的比值表示。
变异系数是指变量的标准差与平均值之比。
相关系数反映两个变量之间线性关系的强弱。
假设检验分为参数检验和非参数检验,前者是指对总体分布函数中未知参数提出某种假设,然后利用样本信息对所提出的假设进行检验并做出判断,参数检验需要样本所依赖的总体的分布作出一系列假定如总体服从正态分布且标准差相等,但实际情况中,上述的假定不一定完全合理,或者在应用中对这些假定有怀疑,因此统计学家设计了许多与总体的分布及相关参数无关的检验方法,称之为非参数检验。
如一个人号称罚球命中率为80%,为了检验他是不是吹牛皮,于是让他现场投20个球,这就是显著性检验,结果他只投进了4个,计算得在命中率为80%情况下,投20个只进4个的概率为0.2%,则此0.2%就是通常所说的P 值。
如果P 值很低(通常小于5%)则可以拒绝原假设。
假设检验是为了比较两个值是否有显著的差别,在很多情况下我们给出一个原假设仅仅是为了拒绝它,因此原假设通常是与数据表面所显现出来的现象的相对立的现象。
在假设检验中研究者如要确定某参数是否等于某个值须用双尾检验,如检验零件直径是否等于10;如果要确定参数大于或小于某值则用单尾检验如检验奶粉中蛋白质的含量是否大于30%。
两者的区别仅仅在于拒绝域不同。
在做假设检验时犯第一类错误(原假设正确却遭到拒绝)的最大概率称为显著性水平,显著性水平越高则表明限制条件越严格,在正态分布图豉肚部分的面积越小同时两侧的阴影部分的面积就越大,原假设被拒绝的可能性就越大,回归结果中某系数的精确显著性水平越高则越有可能接受原假设,即系数越有可能为0,系数在越高的显著性水平下显著则越有可能接受原假设即系数越有可能为0,系数不为0的可能性越小,在越低的显著性水平下显著则表明系数不为0的可能性越大。
假设一个统计量(如灯泡寿命)A 服从均值为μ标准差为δ的正态分布,则(A-μ)/δ叫做Z 分数(也叫标准化变量),它服从均值为0标准差为1的标准正态分布。
t 统计量是模仿Z 分数而建立的,区别在于后者用于小样本标准差未知的情况下的均值检验而前者用于大样本标准差已知情况下的均值的检验(Z 或t 统计量计算公式中的μ都取原假设中的值),此时作为分母的是s/1 N 代替(s 为样本标准差),也就是用多个变量的均值的标准差代替,因为该统计量是根据样本的均值计算而得,也是用于均值的检验。
T 和Z 检验用于检验回归方程中某个自变量的系数是否为0,F 检验用于检验是不是所有的系数都为0。
方差分析用于从方差的角度比较两个或多个总体的均值是否相等,研究分类型自变量对数值型自变量是否有影响,包括它们之间有没有关系、关系的强度如何等,所采用的方法就是通过检验各总体的均值是否相等来判断分类型自变量对数值型因变量是否有显著的影响,如行业不同是否对受到投诉的数量有影响,行业是称为因素,旅游、零售、家电具体的行业叫做因素水平(在SPSS 中相当于一个VARIABLE 的不同的值)。
计算旅游、零售、家电各行业各自的标准差,然后平均得到组内方差,并认为组内方差是完全是由随机因素造成的,根据各行业的各自的平均值与总均值之差的平方和得到组间方差,并认为组间方差是由于不同的因素水平所造成的,如果各因素水平对因变量(投诉量)无影响,则组内方差与组间方差应该相等,或者说两者的差别在统计上是不显著的,组间与组内方差之比是一个F 统计量,通过检验这两个方差的差别是否显著来判断不同行业接受投诉量的均值是否有明显差别。
17 描述性统计量是对(相当于SPSS中的)某一变量特征进行描述的一些统计指标,均值是对一个变量的中心位置的度量,其计算方法是先加总所有CASE的值然后除以数据的个数,其应用如应收帐款的平均帐龄为45天。
中位数是对中心位置的度量,它是当CASE按照升序排列时,处于中间位置的CASE的变量值,它是对均值的补充,如在年度收入和资产价值数据的报告中,这是因为个别异常大的收入或资产价值能够使均值膨胀,此时中位数是对中心位置的更好的度量,如应收帐款的帐龄的中位数为35天表示超过一半的应收帐款帐龄的天数在35天以上。
众数也是对均值的补充,是在各CASE中出现频率最高的数据的值,如应收帐款帐龄的众数为31天,表示应收帐款最普通的帐龄为31天。
四分位数是先把数据进行升序排列,然后把数据依次分为四段,每段含有25%的观察值,中间的三个分段点从小到大分别称为第一二三四分数点,如帐龄的第一四分数点为12天表示有25%的CASE的帐龄小于12天有75%的CASE的帐龄大于12天。
极差是各CASE的某变量值的最大和最小值的差,该指标容易受异常值的影响,很少单独用来表示变异程度,如帐龄的极差为18表示最长的帐龄比最短的帐龄多18天。
方差是利用所有的CASES对某变量值的变异程度的度量,在单位相同时可以用于比较两个变量的变异程度,可以用来度量与股票投资相关的风险,它给出每月收益如何围绕和期平均收益波动。