第七章 相关与回归分析一、本章学习要点(一)相关分析就是研究两个或两个以上变量之间相关程度大小以及用一定函数来表达现象相互关系的方法。
现象之间的相互关系可以分为两种,一种是函数关系,一种是相关关系。
函数关系是一种完全确定性的依存关系,相关关系是一种不完全确定的依存关系。
相关关系是相关分析的研究对象,而函数关系则是相关分析的工具。
相关按其程度不同,可分为完全相关、不完全相关和不相关。
其中不完全相关关系是相关分析的主要对象;相关按方向不同,可分为正相关和负相关;相关按其形式不同,可分为线性相关和非线性相关;相关按影响因素多少不同,可分为单相关和复相关。
(二)判断现象之间是否存在相关关系及其程度,可以根据对客观现象的定性认识作出,也可以通过编制相关表、绘制相关图的方式来作出,而最精确的方式是计算相关系数。
相关系数是测定变量之间相关密切程度和相关方向的代表性指标。
相关系数用符号“γ”表示,其特点表现在:参与相关分析的两个变量是对等的,不分自变量和因变量,因此相关系数只有一个;相关系数有正负号反映相关系数的方向,正号反映正相关,负号反映负相关;计算相关系数的两个变量都是随机变量。
相关系数的取值区间是[-1,+1],不同取值有不同的含义。
当1||=γ时,x 与y 的变量为完全相关,即函数关系;当1||0<<γ时,表示x 与y 存在一定的线性相关,||γ的数值越大,越接近于1,表示相关程度越高;反之,越接近于0,相关程度越低,通常判别标准是:3.0||<γ称为微弱相关,5.0||3.0<<γ称为低度相关,8.0||5.0<<γ称为显著相关,1||8.0<<γ称为高度相关;当0||=γ时,表示y 的变化与x 无关,即不相关;当0>γ时,表示x 与y 为线性正相关,当0<γ时,表示x 与y 为线性负相关。
皮尔逊积距相关系数计算的基本公式是: ∑∑∑∑∑∑∑---==])(][)([22222y y n x x n y x xy n y x xy σσσγ 斯皮尔曼等级相关系数和肯特尔等级相关系数是测量两个等级变量(定序测度)之间相关密切程度的常用指标。
(三)回归分析是对具有相关关系的两个或两个以上变量之间数量变化的一般关系进行测定,确定一个相应的数学表达式,以便从一个已知量来推测另一个未知量,为估计预测提供一个重要的方法。
回归分析按自变量的个数分,有一元回归和多元回归,按回归线的形状分,有线性回归和非线性回归。
与相关分析相比,回归分析的特点是:两个变量是不对等的,必须区分自变量和因变量;因变量是随机的,自变量是可以控制的量;对于一个没有因果关系的两变量,可以求得两个回归方程,一个是y 倚x 的回归方程,一个是x 倚y 的回归方程。
简单线性回归方程式为:bx a y c +=,式中c y 是y 的估计值,a 代表直线在y 轴上的截距,b 表示直线的斜率,又称为回归系数。
回归系数的涵义是,当自变量x 每增加一个单位时,因变量y 的平均增加值。
当b 的符号为正时,表示两个变量是正相关,当b 的符号为负时,表示两个变量是负相关。
a 、b 都是待定参数,可以用最小平方法求得。
求解a 、b 的公式为:∑∑∑∑∑--=22)(x x n y x xy n b ; n x b n y a ∑∑-= 回归估计标准误差是衡量因变量的估计值与观测值之间的平均误差大小的指标。
利用此指标可以说明回归方程的代表性。
其计算公式为: 2)(2--=∑n y y S c yx 或22---=∑∑∑n xy b y a y S yx 回归估计标准误和相关系数之间具有以下关系:)1(222γσ-=y yx S 2221y yxS σγ-=相关系数与回归系数之间具有以下的关系: xy r b σσ=二、本章思考题及练习题(一) 填空题1、 在相关关系中,把具有因果关系相互联系的两个变量中起影响作用的变量称为_______,把另一个说明观察结果的变量称为________。
2、 现象之间的相关关系按相关的程度分有________相关、________相关和_______相关;按相关的方向分有________相关和________相关;按相关的形式分有-________相关和________相关;按影响因素的多少分有________相关和-________相关。
3、 对现象之间变量关系的研究中,对于变量之间相互关系密切程度的研究,称为_______;研究变量之间关系的方程式,根据给定的变量数值以推断另一变量的可能值,则称为_______。
4、 完全相关即是________关系,其相关系数为________。
5、 在相关分析中,要求两个变量都是_______;在回归分析中,要求自变量是_______,因变量是_______。
6、 相关系数是在________相关条件下用来说明两个变量相关________的统计分析指标。
7、 相关系数的变动范围介于_______与_______之间,其绝对值愈接近于_______,两个变量之间线性相关程度愈高;愈接近于_______,两个变量之间线性相关程度愈低。
当_______时表示两变量正相关;_______时表示两变量负相关。
8、 当变量x 值增加,变量y 值也增加,这是________相关关系;当变量x 值减少,变量y 值也减少,这是________相关关系。
9、 在判断现象之间的相关关系紧密程度时,主要用_______进行一般性判断,用_______进行数量上的说明。
10、 在回归分析中,两变量不是对等的关系,其中因变量是_______变量,自变量是_______量。
11、已知13600))((=----∑y y x x ,14400)(2=--∑x x ,14900)(2=-∑-y y ,那么,x 和y 的相关系数r 是_______。
12、用来说明回归方程代表性大小的统计分析指标是________指标。
13、已知150=xy σ,18=x σ,11=y σ,那么变量x 和y 的相关系数r 是_______。
14、回归方程bx a y c +=中的参数b 是________,估计特定参数常用的方法是_________。
15、 若商品销售额和零售价格的相关系数为-0.95,商品销售额和居民人均收入的相关系数为0.85,据此可以认为,销售额对零售价格具有_______相关关系,销售额与人均收入具有_______相关关系,且前者的相关程度_______后者的相关程度。
16、 当变量x 按一定数额变动时,变量y 也按一定数额变动,这时变量x 与y 之间存在着_________关系。
17、 在直线回归分析中,因变量y 的总变差可以分解为_______和_______,用公式表示,即_____________________。
18、一个回归方程只能作一种推算,即给出_________的数值,估计_________的可能值。
19、如估计标准误差愈小,则根据回归直线方程计算的估计值就_______ 20、 已知直线回归方程bx a y c +=中,5.17=b ;又知30=n ,∑=13500y ,12=-x ,则可知_______=a 。
21、 已知回归直线斜率为0.8,自变量x 的方差是200,样本容量为20,那么回归平方和是_______。
22、 已知变量y 倚变量x 的直线回归方程的斜率为b ,又知变量y 和x 之间的相关系数γ,那么,变量x 倚y 的直线回归方程斜率是_______。
(二) 单项选择题1、当自变量的数值确定后,因变量的数值也随之完全确定,这种关系属于( )A 、相关关系B 、函数关系C 、回归关系D 、随机关系2、测定变量之间相关密切程度的代表性指标是( )A 、估计标准误B 、两个变量的协方差C 、相关系数D 、两个变量的标准差3、现象之间的相互关系可以归纳为两种类型,即( )A 、相关关系和函数关系B 、相关关系和因果关系C 、相关关系和随机关系D 、函数关系和因果关系4、相关系数的取值范围是( )A 、10≤≤γB 、11<<-γC 、11≤≤-γD 、01≤≤-γ5、变量之间的相关程度越低,则相关系数的数值( )A 、越小B 、越接近于0C 、越接近于-1D 、越接近于16、在价格不变的条件下,商品销售额和销售量之间存在着( )A 、不完全的依存关系B 、不完全的随机关系C 、完全的随机关系D 、完全的依存关系7、下列哪两个变量之间的相关程度高( )A 、商品销售额和商品销售量的相关系数是0.9;B 、商品销售额与商业利润率的相关系数是0.84;C 、平均流通费用率与商业利润率的相关系数是-0.94;D 、商品销售价格与销售量的相关系数是-0.918、回归分析中的两个变量( )A 、都是随机变量B 、关系是对等的C 、都是给定的量D 、一个是自变量,一个是因变量9、每一吨铸铁成本(元)倚铸件废品率(%)变动的回归方程为:x y c 856+=,这意味着( )A 、 废品率每增加1%,成本每吨增加64元B 、 废品率每增加1%,成本每吨增加8%C 、 废品率每增加1%,成本每吨增加8元D 、 如果废品率增加1%,则每吨成本为56元。
10、某校对学生的考试成绩和学习时间的关系进行测定,建立了考试成绩倚学习时间的直线回归方程为:x y c 5180-=,该方程明显有错,错误在于( )A 、a 值的计算有误,b 值是对的B 、b 值的计算有误,a 值是对的C 、a 值和b 值的计算都有误D 、自变量和因变量的关系搞错了11、配合回归方程对资料的要求是( )A 、因变量是给定的数值,自变量是随机的B 、自变量是给定的数值,因变量是随机的C 、自变量和因变量都是随机的D 、自变量和因变量都不是随机的。
12、估计标准误说明回归直线的代表性,因此( )A 、估计标准误数值越大,说明回归直线的代表性越大;B 、估计标准误数值越大,说明回归直线的代表性越小;C 、估计标准误数值越小,说明回归直线的代表性越小;E 、 估计标准误数值越小,说明回归直线的实用价值越小。
13、在相关分析中,要求相关的两个变量( )A 、都是随机变量B 、都不是随机变量C 、其中因变量是随机变量D 、其中自变量是随机变量14、在简单回归直线bx a y c +=中,b 表示( )A 、当x 增加一个单位时,y 增加a 的数量B 、当y 增加一个单位时,x 增加b 的数量C 、当x 增加一个单位时,y 的平均增加值D 、当y 增加一个单位时,x 的平均增加值15、相关关系是( )A 、现象之间,客观存在的依存关系B 、现象之间客观存在的,关系数值是固定的依存关系C 、现象之间客观存在的,关系数值不固定的依存关系D 、函数关系16、判断现象之间相关关系密切程度的主要方法是( )A 、对客观现象作定性分析B 、编制相关表C 、绘制相关图D 、计算相关系数17、当变量x 按一定数额变化时,变量y 也随之近似地按固定的数额变化,那么,这时变量x 和y 之间存在着( )A 、正相关关系B 、负相关关系C 、直线相关关系D 、曲线相关关系18、两个变量间的相关关系称为( )A 、单相关B 、无相关C 、复相关D 、多相关19、如果两个变量之间的相关系数8.0||>γ,说明这两个变量之间存在( )。