当前位置:文档之家› 统计学基础 第八章 相关与回归分析

统计学基础 第八章 相关与回归分析

统计学基础第八章相关与回归分析【教学目的】1.掌握相关系数的测定和性质2.明确相关分析与回归分析的特点3.建立回归直线方程,掌握估计标准误差的计算【教学重点】1.相关关系、相关分析和回归分析的概念2.相关系数计算3.回归方程的建立和依此进行估计和预测【教学难点】1.相关分析和回归分析的区别2.相关系数的计算3.回归系数的计算4.估计标准误的计算【教学时数】教学学时为8课时【教学内容参考】第一节相关关系一、相关关系的含义宇宙中任何现象都不是孤立地存在的,而是普遍联系和相互制约的。

这种现象间的相互联系、相互制约的关系即为相关关系。

相关关系因其依存程度的不同而表现出相关程度的差别。

有些现象间存在着严格的数据依存关系,比如,在价格不变的条件下销售额量之间的关系,圆的面积与半径之间的关系等等,均具有显著的一一对应关系。

这些关系可由数学中的函数关系来确切的描述,因而也可以认为是一种完全相关关系。

有些现象间的依存关系则没有那么严格。

当一种现象的数量发生变化时,另一种现象的数量却在一定的范围内发生变化,比如身高与体重的关系就是如此。

一般来说,身高越高,体重越重,但二者之间的关系并非严格意义上的对应关系,身高1.75米的人,对应的体重会有多个数值,因为影响体重的因素不只身高而已,它还会受遗传、饮食习惯等因素的制约和影响。

社会经济现象中大多存在这种非确定的相关关系。

在统计学中,这些在社会经济现象之间普遍存在的数量依存关系,都成为相关关系。

在本章,我们主要介绍那些能用函数关系来描述的具有经济统计意义的相关关系。

二、相关关系的特点1.现象之间确实存在数量上的依存关系如果一个现象发生数量上的变化,则另一个现象也会发生数量上的变化。

在相互依存的两个变量中,可以根据研究目的,把其中的一个变量确定为自变量,把另一个对应变量确定为因变量。

例如,把身高作为自变量,则体重就是因变量。

2.现象之间数量上的关系是不确定的相关关系的全称是统计相关关系,它属于变量之间的一种不完全确定的关系。

这意味着一个变量虽然受另一个(或一组)变量的影响,却并不由这一个(或一组)变量完全确定。

例如,前面提到的身高和体重之间的关系就是这样一种关系。

三、相关关系的种类现象之间的相互关系很复杂,它们涉及的变动因素多少不同,作用方向不同,表现出来的形态也不同。

相关关系大体有以下几种分类:(一)正相关与负相关按相关关系的方向分,可分为正相关和负相关。

当两个因素(或变量)的变动方向相同时,即自变量x值增加(或减少),因变量y值也相应地增加(或减少),这样的关系就是正相关。

如家庭消费支出随收入增加而增加就属于正相关。

如果两个因素(或变量)变动的方向相反,即自变量x值增大(或减小),因变量y值随之减小(或增大),则称为负相关。

如商品流通费用率随商品经营的规模增大而逐渐降低就属于负相关。

(二)单相关与复相关按自变量的多少分,可分为单相关和复相关。

单相关是指两个变量之间的相关关系,即所研究的问题只涉及到一个自变量和一个因变量,如职工的生活水平与工资之间的关系就是单相关。

复相关是指三个或三个以上变量之间的相关关系,即所研究的问题涉及到若干个自变量与一个因变量,如同时研究成本、市场供求状况、消费倾向对利润的影响时,这几个因素之间的关系是复相关。

(三)线性相关与非线性相关按相关关系的表现形态分,可分为线性相关与非线性相关。

线性相关是指在两个变量之间,当自变量x值发生变动时,因变量y值发生大致均等的变动,在相关图的分布上,近似地表现为直线形式。

比如,商品销售额与销售量即为线性相关。

非线性相关是指在两个变量之间,当自变量x值发生变动时,因变量y值发生不均等的变动,在相关图的分布上,表现为抛物线、双曲线、指数曲线等非直线形式。

比如,从人的生命全过程来看,年龄与医疗费支出呈非线性相关。

(四)完全相关、不完全相关与不相关按相关程度分,可分为完全相关、不完全相关和不相关。

完全相关是指两个变量之间具有完全确定的关系,即因变量y值完全随自变量x值的变动而变动,它在相关图上表现为所有的观察点都落在同一条直线上,这时,相关关系就转化为函数关系。

不相关是指两个变量之间不存在相关关系,即两个变量变动彼此互不影响。

自变量x值变动时,因变量y值不随之作相应变动。

比如,家庭收入多少与孩子多少之间不存在相关关系。

不完全相关是指介于完全相关和不相关之间的一种相关关系。

比如,农作物产量与播种面积之间的关系。

不完全相关关系是统计研究的主要对象。

第二节相关分析一、相关分析的主要内容相关分析是指对客观现象的相互依存关系进行分析、研究,这种分析方法叫相关分析法。

相关分析的目的在于研究相互关系的密切程度及其变化规律,以便作出判断,进行必要的预测和控制。

相关分析的主要内容包括:(一)确定现象之间有无相关关系这是相关与回归分析的起点,只有存在相互依存关系,才有必要进行进一步的分析。

(二)确定相关关系的密切程度和方向确定相关关系密切程度主要是通过绘制相关图表和计算相关系数。

只有对达到一定密切程度的相关关系,才可配合具有一定意义的回归方程。

(三)确定相关关系的数学表达式为确定现象之间变化上的一般关系,我们必须使用函数关系的数学公式作为相关关系的数学表达式。

如果现象之间表现为直线相关,我们可采用配合直线方程的方法;如果现象之间表现为曲线相关,我们可采用配合曲线方程的方法。

(四)确定因变量估计值误差程度使用配合直线或曲线的方法可以找到现象之间一般的变化关系,也就是自变量x变化时,因变量y将会发生多大的变化。

根据得出的直线方程或曲线方程我们可以给出自变量的若干数值,球的因变量的若干个估计值。

估计值与实际值是有出入的,确定因变量估计值误差大小的指标是估计标准误差。

估计标准误差大,表明估计不太精确;估计标准误差小,表明估计较精确。

二、相关关系的测定相关分析的主要方法有相关表、相关图和相关系数三种。

现将这三种方法分述如下:(一)相关表在统计中,制作相关表或相关图,可以直观地判断现象之间大致存在的相关关系的方向、形式和密切程度。

在对现象总体中两种相关变量作相关分析,以研究其相互依存关系时,如果将实际调查取得的一系列成对变量值的资料顺序地排列在一张表格上,这张表格就是相关表。

相关表仍然是统计表的一种。

根据资料是否分组,相关表可以分为简单相关表和分组相关表。

1.简单相关表简单相关表是资料未经分组的相关表,它是把自变量按从小到大的顺序并配合因变量一一对应平行排列起来的统计表。

【案例】为研究分析产量(x)与单位产品成本(y)之间的关系,从30个同类型企业调查得到的原始资料并将产量按从小到大的顺序排列,可编制简单相关表,结果见表8-2所示。

表8-2 产量和单位产品成本原始资料从表8-2中可以看出,随着产量的提高,单位产品成本却有相应降低的趋势,尽管在同样产量的情况下,单位产品成本存在差异,但是两者之间仍然存在一定的依存关系。

2.分组相关表在大量观察的情况下,原始资料很多,运用简单相关表表示就很难使用。

这时就要将原始资料进行分组,然后编制相关表,这种相关表称为分组相关表。

分组相关表包括单变量分组相关表和双变量分组相关表两种。

(1)单变量分组表。

在原始资料很多时,对自变量数值进行分组,而对应的因变量不分组,只计算其平均值,根据资料具体情况,自变量可以是单项式,也可以是组距式。

【案例】以上例原始资料为例,将同类型30个企业的产量(x )与单位产品成本(y )原始资料,按产量分组编制单变量分组表,结果见表8-3。

表8-3 产量和单位产品成本简单相关表 从表8-3中可以较明显地看出二者之间存在正相关关系。

(2)双变量分组表。

对两种有关变量都进行分组,交叉排列,并列出两种变量各组间的共同次数,这种统计表称为双变量分组相关表。

这种表格形似棋盘,故又称棋盘式相关表。

【案例】仍以原始资料为例,将同类型30个企业的产量(x )与单位产品成本(y )原始资料,编制双变量分组相关表,结果见表8-4。

表8-4 产量和单位产品成本双变量分组相关表从表8-4看出,产量集中在左上角到右下角的对角斜线上,表明产量与单位产品成本是负相关关系。

制作双变量分组相关表,须注意自变量为纵栏标题,按变量值从小到大自左向右排列,因变量为横行标题,按变量值从大到小自上而下排列。

这样做的目的是将相关表与相关图结合起来,便于一致性判断相关关系的性质。

(二)相关图相关图又称散点图。

它是以直角坐标系的横轴代表自变量x,纵轴代表因变量y,将两个变量间相对应的变量值用坐标点的形式描绘出来,用来反映两变量之间相关关系的图形。

相关图可以按未经分组的原始资料来编制,也可以按分组的资料,包括按单变量分组相关表和双变量分组相关表来编制。

通过相关图将会发现,当y对x是函数关系时,所有的相关点都会分布在某一条线上;在相关关系的情况下,由于其他因素的影响,这些点并非处在一条线上,但所有相关点的分布也会显示出某种趋势。

所以相关图会很直观地显示现象之间相关的方向和密切程度。

【案例】以上例原始资料中编制的产量与单位产品成本单变量分组相关表为例,绘制相关图,结果见图8-1。

从图8-1中可以看出,单位产品成本随着产量增加而降低,并且散布点的分布近似地表现为一条直线。

由此可以判断产量与单位产品成本两个变量之间存在着直线负相关关系。

(三)相关系数相关表和相关图大体说明变量之间有无关系,但它们的相关关系的紧密程度却无法表达,因此,需运用数学解析方法,构建一个恰当的数学模型来显示相关关系及其密切程度。

对现象之间的相关关系的紧密程度做出确切的数量说明,就需要计算相关系数。

1.相关系数的计算相关系数是在直线相关条件下,说明两个现象之间关系密切程度的统计分析指标,记为γ。

相关系数的计算公式为()()()()∑∑∑∑----==222111y y nx x n y y x x nyx xyσσσγ式中 n ——资料项数;x ——x 变量的算术平均数;y ——y 变量的算术平均数x σ——x 变量的标准差; y σ——y 变量的标准差; xy σ——xy 变量的协方差。

在实际问题中,如果根据原始资料计算相关系数,可运用相关系数的简捷法计算,其计算公式为()()2222∑∑∑∑∑∑∑---=y y n x x n y x xy n γ【案例】根据教材中表8-5中的资料,已知居民家庭月收入与消费支出之间为直线相关,计算居民家庭月收入与消费支出的相关系数(见表8-6)。

表8-399.034915571104652975110349465214291022=-⨯⨯-⨯⨯-⨯=γ2.相关系数的分析明晰相关系数的性质是进行相关系数分析的前提。

现将相关系数的性质总结如下: (1)相关系数的数值范围,是在-1和+1之间,即:-1≤γ≤1。

相关主题