当前位置:文档之家› 人教版高中数学必修三 第二章 统计变量间的相关关系(线性回归)

人教版高中数学必修三 第二章 统计变量间的相关关系(线性回归)

变量间的相关关系(线性回归)一、变量之间的相关关系1、凭我们的学习经验可知,物理成绩与数学成绩有一定的关系,数学成绩的好坏会对物理成绩造成影响。

但除此以外,还存在其他影响物理成绩的因素。

例如,是否喜欢物理,用在物理学习上的时间等。

当我们主要考虑数学成绩对物理成绩的影响时,就要考察这两者之间的相关关系。

自变量取值一定时,因变量的取值带有一定随机性的两个变量之间的关系叫做相关关系。

2、相关关系与函数关系的异同点相同点:两者均是指两个变量的关系。

不同点:(1)函数关系是一种确定的关系。

如匀速直线运动中时间t 与路程s 的关系;相关关系是一种非确定的关系。

如一块农田的水稻产量与施肥量之间的关系。

事实上,函数关系是两个非随机变量的关系,而相关关系是非随机变量与随机变量的关系。

(2)函数关系是一种因果关系,而相关关系不一定是因果关系,也可能是伴随关系。

例如,有人发现,对于在校儿童,鞋的大小与阅读能力有很强的相关关系,然而学会新词并不能使脚变大,而是涉及第三个因素――年龄,当儿童长大一些,他们的阅读能力会提高而且由于长大脚也变大。

(3)相关关系的分析方向由于相关关系的不确定性,在寻找变量间相关关系的过程中,统计发挥着非常重要的作用。

我们可以通过收集大量的数据,在对数据进行统计分析的基础上,发现其中的规律,对它们的关系作出判断。

二、两个变量的线性相关 1、回归分析对具有相关关系的两个变量进行统计分析的方法叫回归分析。

通俗地讲,回归分析是寻找相关关系中非确定性关系的某种确定性。

一般地,对于某个家庭来说,它的年饮食支出不一定随年收入的增加而增加或减少。

但如果是大量的个体,可能就会表现出一定的规律来。

观察表中数据,大体上来看,随着家庭看收入的增加,年饮食支出也在增加。

为了确定这一相关关系的细节,我们需要进行数据分析。

与以前一样,我们可以作统计图、表。

通过作统计图、表,可以使我们对两个变量之间的关系有一个直观上的印象和判断。

除我们在前面所学的有关图、表外,我们还可以通过另外一种图――散点图来分析两个变量之间的关系。

2、散点图将样本中n 个数据点(,)i i x y (1,2,,i n )描在平面直角坐标系中,以表示具有相关关系的两个变量的一组数据的图形叫做散点图。

如上例中,为了更清楚地看出两变量是否有相关关系,我们以年收入x 的取值作为横坐标,把年饮食支出y 的相应取值作为纵坐标,可得相应散点图。

如图所示。

散点图形象地反映了各对数据的密切程度。

由图可见,年收入越高,年饮食支出超高。

图中点的趋势表明两个变量间确实存在一定的关系。

3、正相关、负相关从散点图可以看到点散布的位置是从左下角到右上角的区域,即一个变量的值由小变大时,另一个变量的值也由小变大,这种相关称为正相关。

如年龄由小变大时,体内脂肪含量也在由小变大。

反之,如果两个变量的散点图中散布的位置是从左上角到右下角的区域。

即一个变量的值由小变大时,另一个变量的值由大变小,这种相关称为负相关。

如汽车的重量和汽车每消耗1L 汽油所行驶的路程成负相关。

汽车越重,每消耗1L 汽油所行驶的平均路程就越短。

4、如果关于两个变量统计数据的散点图呈现如图的形状,则这两个变量之间不具有相关关系。

例如,学生的身高与学生的数学成绩没有相关关系。

利用散点图可以判断变量之间有无相关关系。

三、回归直线方程1、回归直线:观察散点图的特征,发现各点大致分布在通过散点图中心的一条直线附近。

如果散点图中点的分布从整体上看大致在一条直线附近,我们就称这两个变量之间具有线性相关关系,这条直线叫做回归直线。

2、根据不同的标准可画出不同的直线来近似地表示这种线性关系。

比如可以连接最左侧点和最右侧点得到一条直线;也可以让画出的直线上方的点和正方的点数目相等……这些办法,能保证各点与此直线在整体上是最接近的吗?它们虽然都有一定的道理,但总让人感到可靠性不强。

四、散点图和回归直线的画法1、建立直角坐标系,两轴的长度单位可以不一致。

2、将n 个数据点(,)(1,2,3,,)i i x y i n =描在平面直角坐标系中。

3、描的点可以是实心点,也可以是空心点。

4、画回归直线时,一定要画在多数点经过的区域。

实际画线时,先观察有哪两个点在直线上即可。

5、具体作回归直线时,用一条透明的直尺边缘在这些点间移动,使它尽量靠近或通过大多数点,然后画出直线。

五、回归直线方程的求法1、回归直线方程的求法-------最小二乘法实际上,求回归直线方程的关键是如何用数学的方法来刻画“从整体上看各点与此直线的距离最小”。

即最贴近已知的数据点,最能代表变量x 与y 之间的关系。

设与n 个观测点(,)(1,2,,)i i x y i n =最接近的直线方程为ˆy bx a =+(注意它与表示一次函数的习惯y ax b =+相反;y 表示y 的估算值)。

其中,a b 是待定系数。

当变量x 取(1,2,,)i x i n =时,可以得到:(1,2,,)i i y bx a i n =+=,它与实际收集到i y 之间的偏差是:()(1,2,,)i i i i y y y bx a i n -=-+=。

可见,偏差i i y y -的符号有正有负,若将它们相加会造成相互抵消,所以它们的和不代表n 个点与相应直线在整体上的接近程度。

故采用n个偏差的平方和2221122()()()n n Q y bx a y bx a y bx a =--+--++--表示n 个点与相应直线在整体上的接近程度。

(类似的思想方法在定义方差时用过) 记21()n iii Q y bx a ==--∑(1ni =∑为连加符号)。

上式展开后,是一个关于,a b 的二次多项式,应用配方法,可求出使Q 取得最小值时,a b 的值,即1122211()(),(),n ni i i i i i n n i i i i x x y y x y nx y b x x x nx a y bx ====⎧-⋅--⋅⎪⎪==⎨--⎪⎪=-⎩∑∑∑∑ 其中11n i i x x n ==∑,11ni i y y n ==∑。

如此得到的方程y bx a =+叫做回归直线方程,相应的直线叫做回归直线,由于y bx a =+,故巧合的是:(,)(1,2,,)i i x y i n =的中心点(,)x y 在回归直线上。

0x 处的估计值为0y bx a =+。

上述求回归直线的方法,是使得样本数据的点到它的距离的平方和最小。

由于平方又叫二乘方,所以这种使“偏差平方和为最小”的方法,叫做最小二乘法。

2、回归直线方程求解的方法步骤根据最小二乘法的思想和公式,利用计算器或计算机,可以方便地求出回归方程。

对上表中的数据进行具体计算,可列出以下表格: 故可得到:10110222110117.7106 1.837.90.1724061064610i ii ii x y x yb t xx ==-⋅-⨯⨯===≈-⨯-∑∑1.830.17260.800a y bx =-=-⨯≈,从而得到回归直线方程为0.8000.172y x =+。

由此可归纳出求线性回归直线方程的步骤: 第一步:列表,,i i i i x y x y ; 第二步:计算22111,,,,n n niii ii i i x y x y x y ===∑∑∑,第三步:代入公式计算,b a 的值; 第四步:写出直线方程y a bx =+。

六、利用回归直线对总体进行估计利用回归直线,我们可以进行预测。

若回归直线方程为y bx a =+,则0x x =处的估计值为:00y bx a =+。

例如上例中,知道了某个家庭的年收入,就可以利用回归方程来预测该家的年饮食支出。

例如,某家庭年收入为9万元,可预测该家庭的年饮食支出在0.17290.800 2.348⨯+=万元附近的可能性。

不过我们不能说该家庭的年饮食支出一定是2.348万元。

事实上,这个2.348万元是对年收入为9万元的家庭中的大部分家庭的饮食支出所作出的估计。

例:(江西南昌质量检测题)假设关于某设备的使用年限x 和所支出的维修费用y (万元)有如下的统计资料:(1)线性回归方程y bx a =+的回归系数,a b ; (2)估计使用年限为10年时,维修费用是多少?解析:因为y 对x 呈线性相关关系,所以可以用线性相关的方法解决问题。

(1)利用公式:1221ni ii nii x y nx yb xnx ==-⋅=-∑∑,a y bx =-来计算回归系数。

有时为了方便常制表对应算出2,i i i x y x ,以便于求和。

(2)获利线性回归方程后,取10x =,即得所求。

于是有21.23905410b ===-⨯,5 1.2340.08a y bx =-=-⨯=。

(2)回归直线方程是 1.230.08y x=+,当10x =年时, 1.23100.0812.38y =⨯+=万元,即估计使用10年时维修费用是12.38万元。

七、相关关系的强与弱对于变量x 与y 的一组观测值,称:()()niix x y y r --=∑ni ix y nx yr -⋅=∑叫做变量y 与之间的样本相关关系,简称为相关系数,用它来衡量,x y 之间的线性关系的强弱。

相关系数的性质: (1)1r ≤。

(2)当r 越接近于1时,相关程度越大。

特殊地,当1r =时,n 个点在同一直线上,当r 越接近于0时,相关程度越小。

(3)r 的大小反映了x 与y 之间的线性关系的强弱,相关系数r 至少大到什么程度才可以认为x 和y 的线性关系是显著的呢?这就需要进行显著性检验,即相关性检验。

一般地,由公式计算出样本的相关系数r 查表得到相应的临界值a r ,比较r 与a r 的大小。

若a r r ≥,就认为x 与y 线性相关显著;若a r r <,就认为在显著水平a 下,x 与y 线性相关不显著。

相关主题