引子:中国汽车的保有量会超过1.4亿辆吗?中国经济的快速发展,居民收入不断增加,数以百万计的中国人开始得以实现拥有汽车的梦想,中国也成为世界上成长最快的汽车市场。
中国交通部副部长在“中国交通可持续发展论坛”上作出预测:“2020年,中国的民用汽车保有量将比2003年的数字增长6倍,达到1.4亿辆左右”。
(资料来源:人民网、新华网、中新网)是什么因素导致了中国汽车数量的快速增长?影响中国汽车行业发展的因素并不单一,经济增长、消费趋势、市场行情、业界心态、能源价格、道路发展、内外环境、相关政策……,都会使中国汽车行业面临机遇和挑战。
怎样分析多种因素对汽车市场的影响?分析中国汽车业行业未来的趋势,应当具体分析这样一些问题:中国汽车市场发展的状况如何(用销售量观测)影响中国汽车销量的主要因素是什么?(如收入、价格、费用、道路状况、政策、环境等)各种因素对汽车销量影响的性质怎样?(正、负)各种因素影响汽车销量的具体数量关系是什么?所得到的数量结论是否可靠?中国汽车行业今后的发展前景怎样?应当如何制定汽车的产业政策?很明显,只用一个解释变量已经很难分析汽车产业的实际发展,而简单线性回归模型又不能解决多变量问题的分析,还需要寻求有多个解释变量的回归分析方法。
第三章 多元线性回归模型本章讨论:如何将简单线性回归的研究方式推广到多元的情况:● 多元线性回归模型● 多元线性回归参数的估计及区间估计 ● 多元线性回归方程的拟合优度 ● 多元线性回归的显著性检验 ● 多元线性回归预测第一节 多元线性回归模型及古典假定一、多元线性回归模型的定义一般形式:对于有1k -个解释变量的线性回归模型,可表示为与简单线性回归模型不同,模型中的(1,2,,)j j k β=是偏回归系数,样本容量为n 。
偏回归系数:控制其他解释量不变的条件下,第j 个解释变量的单位变动对被(1,2,,)k ki iX u i n β+++=解释变量平均值的影响。
对偏回归系数的理解例如2β和2α都是2i X 对i Y如果323222i i i X b b X u =++,则可证明 22332ˆb αββ=++误差项 22332ˆˆ()E b αββ=+ (证明将古加拉蒂《计量经济学》附录7A.5)结论:只要320b ≠,2β与2α是有区别的。
多元线性回归的“线性”指对各个回归系数而言是“线性”的,对变量则可以是线性的,也可以是非线性的。
例如:生产函数 Y AL K u αβ=取对数ln ln ln ln ln Y A L K u αβ=+++这也是多元线性回归模型,只是这时变量为ln Y 、ln L 、ln K 。
多元总体回归函数:条件均值表现形式:将i Y 的总体条件均值表示为多个解释变量的函数:如2312233(|,,,)(1,2,,)i i i ki i i k kiE Y X X X X X X i n ββββ=++++=注意:这时Y 总体条件均值的轨迹是k 维空间的一条线。
个别值表现形式: 引入随机扰动项:23(|,,,)i i i i i ki u Y E Y X X X =-12233i i i i Y X X u βββ=+++1i i u +或表示为12233(1,2,,)i i i k ki iY X X X u i n ββββ=+++++=多元样本回归函数Y 的样本条件均值表示为多个解释变量的函数12233ˆˆˆˆˆ(1,2,,)i i ik kiY X X X i n ββββ=++++=或12233ˆˆˆˆ(1,2,,)i i ik ki iY X X X e i n ββββ=+++++=回归剩余(残差):ˆi i ie Y Y =- 多元线性回归模型有多个解释变量,参数的估计式及各种统计量用代数式法表述较为困难,需要借助矩阵形式去表达。
二、多元线性回归模型的矩阵表示k 个解释变量的多元线性回归模型的n 个观测样本,可表示为:1122133111212223322212233k k k k n n n k kn nY X X X u Y X X X u Y X X X u ββββββββββββ=+++++=+++++=+++++用矩阵表示:2111112222222111111k k n k n nkn n n kk n X X Y u Y X X u Y u X X βββ⨯⨯⨯⨯⎡⎤⎡⎤⎡⎤⎡⎤⎢⎥⎢⎥⎢⎥⎢⎥⎢⎥⎢⎥⎢⎥⎢⎥=+⎢⎥⎢⎥⎢⎥⎢⎥⎢⎥⎢⎥⎢⎥⎢⎥⎣⎦⎣⎦⎣⎦⎣⎦YXu β矩阵表示方式总体回归函数 ()E =Y X β 或 =+Y X u β样本回归函数 ˆˆ=YX β 或 ˆ=+Y X e β 其中: ˆY,Y,u,e 都是有n 个元素的列向量ˆβ,β是有k 个元素的列向量X 是第一列为1的n k ⨯阶解释变量数据矩阵(截距项可视为解释变量取值为1)三、多元线性回归中的基本假定假定1:零均值假定:()0(1,2,,)i E u i n ==或 ()E =0u假定2和假定3:同方差和无自相关假定:2()(,)[(())(())]()0()i j i i j j i j i j Cov u u E u E u u E u E u u i j σ==--==≠ 假定4:随机扰动项与解释变量不相关(,)02,3,,ki i Cov X u k k ==假定5:无多重共线性假定(多元中增加的)假定各个解释变量之间不存在线性关系,或各个解释变量观测值之间线性无关,或解释变量观测值矩阵X 列满秩(k 列)。
()()Rank X k Rank X X k '=→=→即()X X '可逆假定6:正态性假定2~(0,)i u N σ第二节 多元线性回归模型的估计一、普通最小二乘法(OLS )原则:寻求剩余平方和最小的参数估计式22ˆmin :()i i ie Y Y =-∑∑ 2212233ˆˆˆˆmin :[()]i i i ik kie Y X X X ββββ=-++++∑∑ 求偏导,令其为02()0ˆi je β∂=∂∑ 即122332122332312233312233ˆˆˆˆ2[]00ˆˆˆˆ2[]00ˆˆˆˆ2[]00ˆˆˆˆ2[i i ik kii i i i i k ki i i i i i i k ki i i ki i i ik ki Y X X X e X Y X X X X e X Y X X X X e X Y X X X ββββββββββββββββ--++++=→=--++++=→=--++++=→=--++++∑∑∑∑∑∑]00ki i X e =→=∑∑偏导数1212222212111000i n i i k k kn n ki i e e X X X e X e X X X e X e ⎡⎤⎡⎤⎡⎤⎡⎤⎢⎥⎢⎥⎢⎥⎢⎥⎢⎥⎢⎥⎢⎥⎢⎥'===⎢⎥⎢⎥⎢⎥⎢⎥⎢⎥⎢⎥⎢⎥⎢⎥⎢⎥⎣⎦⎣⎦⎣⎦⎣⎦'∑∑∑0X e X e因为样本回归函数为ˆ=+Y X e β两边左乘'Xˆ'''=+X Y X X X e β根据最小二乘原则 '=0X e则OLS 的正规方程为 ˆ''=X X X Y βOLS 估计式: 由正规方程ˆ''=X X X Y β()k k *'X X 是满秩矩阵,其逆矩阵存在,因此多元回归中参数估计式 ˆ''-1=()X X X Y β当只有两个解释变量时:注意:x 和y 为X 、Y 的离差OLS 回归线的性质(与简单线性回归相同)● 回归线通过样本均值,即12233ˆˆˆˆk kY X X X ββββ=++++ ● 估计值ˆi Y 的均值等于实际值i Y 的均值Y ,即ˆY Y n=∑ ● 剩余项i e 的均值为0,即0ii e e n==∑● 估计值ˆi Y 与剩余项i e 不相关,即ˆ(,)0i i Cov Y e = 或 ˆ(,)0iie Y =∑● 解释变量i X 与剩余项i e 不相关,即(,)0(1,2,,)ji i Cov X e j k ==二、OLS 估计式的性质1、线性特征1ˆ)-''=(X X X Y β因1()-''X X X 是非随机或取固定值的矩阵,ˆβ是Y 的线性函数 2、无偏特性ˆ()E =ββ 证明:ˆ()ˆ()()=E E ''''=''''=''''∴=-1-1-1-1-1-1()()()()()()β=X X X Y X X X X β+u X X X X β+X X X u =β+X X X uββ+X X Xu β 3、最小方差特性2ˆˆ()ˆˆˆˆ((())(()))ˆˆ(()())()()E E E E E E E σ''='∴'=''''=''''='=-1-1-1-1-1-1()()()()()()=+X X X u,----X X X u u X X X X X X uu X X X X X ββββββββββββ则2ˆ()i ii Var βσ'=-1()X X ,记(),,1,2,,ij C i j k '==-1()X X有22ˆ()ˆˆ(,)i iii j ijVar c Cov c βσββσ⎧=⎪⎨=⎪⎩ 下面证明最小方差性:设*β为β的另一个关于Y 的线性无偏估计式,可知*=AY β(A 为常数矩阵)由无偏性可得*()()())()()()E E E E E E ===+==(+AY A X u AX A u AX βββββ 所以必须有=AX I要证明最小二乘法估计式的方差ˆ()Var β小于其他线性无偏估计式的方差*()Var β,只要证明协方差矩阵之差ˆˆ[()()][()()]E E ''-**----ββββββββ为半正定矩阵,则称最小二乘估计ˆβ是β的最小方差线性无偏估计式。
因为*-=-=(+)-=+-=-=βββββββββAY A X u AX Au Au Au+所以2[()()](()())()()E E E E σ''=''=''='=**--Au Au Auu A A uu A AA ββββ所以21212ˆˆ[()()][()()]()[()]E E σσσ--''''-=-''=-**----AA X X AA X X ββββββββ由于111111111[()][()][()][()]()()()()()---------'''''''''--=--''''''''=--+''=-A X X X A X X X A X X X A X X X AA X X X A AX X X X X X X X X AA X X 且1()-''-AA X X 是对称的实矩阵,如果令1[()]-''-=A X X X C ,则111[()][()]()---''''''''=--=-CC A X X X A X X X AA X X由线性代数知,对任一实矩阵C ,'CC 为半正定矩阵,即1()-''-AA X X 为半正定矩阵,由于半正定矩阵对角线元素非负,因此有1(())-''-≥0diag AA X X 即*ˆ(()())0(1,2,,)j j j j E E j k ββββ---≥=diag这证明了j β的最小二乘估计ˆjβ在j β的所有无偏估计中是方差最小的估计式。