当前位置:文档之家› 1.1回归分析的基本思想及其初步应用

1.1回归分析的基本思想及其初步应用


ˆ y
160
(2)从散点图还可以看到,样本点散布在某一条 直线的附近,而不是一条直线上,所以不能用一次 函数y=bx+a来描述它们之间的关系。这时我 们用下面的线性回归模型来描述身高和体重的关系: y=bx+a+e其中a和b为模型的未知参数,e ˆ 是y与 y之间的误差,通常e称为随机误差。
图表标题 80 60 40 20 0 150 160 170 180
模 分 析 拟
y = f(x)
y = f(x)
1、定义: 自变量取值一定时,因变量的取值带有一定随
机性的两个变量之间的关系叫做相关关系。 1):相关关系是一种不确定性关系; 注 2):对具有相关关系的两个变量进行
统计分析的方法叫回归分析。 2、现实生活中存在着大量的相关关系。
如:人的身高与年龄;产品的成本与生产数量;
建立回归模型的基本步骤:
(1)确定研究对象,明确哪个变量是解释变量,哪个变 量是预报变量;
(2)画出确定好的解释变量和预报变量的散点图,观察 它们之间的关系(是否存在线性关系); 是否存在线性关系
(3)由经验确定回归方程的类型(如观察到数据呈线性关 系,则选用线性回归方程y=bx+a); (4)按一定规则估计回归方程中的参数(如最小二乘 法); (5)得出结果后分析残差图是否异常(个别数据对应残 差过大,或残差呈现不随机的规律性等),若存在异常, 则检查数据是否有误,或模型是否合适等.
n (xi -x)(yi -y) b= i=1 ˆ = n 2 (xi -x) i=1 ˆ a=y-bx. ˆ
x y
i=1 n
n
i i 2
- nxy - nx
2
x
i=1
,
i
1 n 1 n 其中x = y xi, = yi. n i=1 n i=1
(x,y)
2
y = 0.8485x - 85.712 体重 线性 (体重) 线性 (体重) 线性 (体重)
它的均值E(e)= 0,方差D(e)=σ > 0
线性回归模型

y=bx+a+e
E(e)= 0,
2 D(e)=σ
y=bx+a+e其中a和b为模型的未知参数, e是y与 y 之间的误差,通常e称为随机误差。 ˆ
商品的销售额与广告费;家庭的支出与收入。等等
相关系数
• 1.计算公式
r=
(x
i=1 n i=1
n
i
- x)(yi - y)
n
(xi - x)2 (yi - y)2
i=1
• 2.相关系数的性质 • (1)|r|≤1. • (2)|r|越接近于1,相关程度越大;|r|越接 近于0,相关程度越小. • 问题:达到怎样程度,x、y线性相关呢?它 们的相关程度怎样呢?
一只红铃虫的产卵数y和温度x有关,现收集了7组观 测数据作散点图:
350 300 250
产卵数
200 150 100 50 0 0 10 20 温度 30 40
系列1
身高 165 体重 48
求根据一名女大学生的身高预报她的体重的 回归方程,并预报一名身高为172cm的女 大学生的体重。
分析:由于问题中 要求根据身高预报 体重,因此选取身 高为自变量,体重 为因变量.
1. 散点图; 2.回归方程: ˆ y 0.849 x 85.172
身高172cm女大学生体重 ˆ y = 0.849×172 - 85.712 = 60.316(kg)
正相关
负相关
复习、变量之间的两种关系
问题1:正方形的面积y与正方形的边长x之间 的函数关系是 确定性关系 y = x2 问题2:某设备的使用年限x和维修费用y之间 是否有一个确定性的关系? 例如:某设备的使用年限x和维修费用y(万元) 之间,有如下所示的统计数据:
使用年限x
2
3
4
5
6 7
维修费用y 2.2 3.8
本例中, r=0.798>0.75.这表明体重与身高有很强的线性相关关 系,从而也表明我们建立的回归模型是有意义的。
探究: 身高为172cm的女大学生的体重一定是60.316kg 吗?如果不是,你能解析一下原因吗? 答:身高为172cm的女大学生的体重不一定是 60.316kg,但一般可以认为她的体重接近于 60.316kg。
使用年限x
2
3
4
5
6
7
维修费用y 2.2 3.8 y 维修费用 · 7
6 5
5.5 6.5
·
·
4
3 2
· ·
2 3 4
2 2.2 3 3.8 4 5.5 5 6.年限 x
解: 1.画出散点图 2.求出 b = 1.23, a = 0.08 ˆ 3.写出回归方程 y = 1.23x + 0.08
类比样本方差估计总体方差的思想
n 1 1 2 ˆ ˆ ˆ ˆ ei Q(a, b)(n 2) n 2 i 1 n2 ˆ ˆ Q(a, b)称为残差平方和 2
(1)根据散点图来粗略判断它们是否线性相关。
(2)是否可以用线性回归模型来拟合数据
ˆ ˆ ˆ ˆ (3)通过残差 e1, e2, e3, .....en, 来判断模型拟合的效 果这种分析工作称为残差分析
异 常 点
• 错误数据 • 模型问题
回归模型的适用范围:
(1)回归方程只适用于我们所研究的样本的总体。样本数据 来自哪个总体的,预报时也仅适用于这个总体。 (2)模型的时效性。利用不同时间段的样本数据建立的模型, 只有用来对那段时间范围的数据进行预报。 (3)建立模型时自变量的取值范围决定了预报时模型的适用 范围,通常不能超出太多。 (4)在回归模型中,因变量的值不能由自变量的值完全确定。 正如前面已经指出的,某个女大学生的身高为172cm,我们不 能利用所建立的模型预测她的体重,只能给出身高为172cm的 女大学生的平均体重的预测值。
维修费用 y
7 6 |yi - yi | 5 4 3 2
(x · · ,y )
i i
·
散点图
·
(xi ,yi )
·
2
n
使用年限
3 4 5 6
x
Q(a,b)= (yi - bxi - a)2 取最小值时,a,b的值.
i=1
推导过程可参阅《数学3》P80
最小二乘法:y = bx + a ˆ ˆ ˆ
必修3(第二章 统计)知识结构
收集数据
(随机抽样)
整理、分析数据 估计、推断 用样本估计总体 变量间的相关关系
简 单 随 机 抽 样
分 层 抽 样
系 统 抽 样
用样本 的频率 分布估 计总体 分布
用样本 数字特 征估计 总体数 字特征
线 性 回 归 分 析
统计的基本思想
实际 抽 样
样本
y = f(x)
为了衡量预报的精度,需要估计的σ2值?
Q( , ) ( yi xi ) 2
i 1 n
随机误差ei yi bxi a (i 1, 2,....n) ˆ ˆ ˆ ˆ 其估计值为: e y y y bx a
i i i i i
ˆ ei称为相应点(xi ,yi )的残差
残差 6000 4000 2000 0 -2000 -4000 0 2 4 6 8 10 12 残差
残差图的制作及作用。P5 • 坐标纵轴为残差变量,横轴可以有不同的选择; • 若模型选择的正确,残差图中的点应该分布在以 横轴为心的带形区域; • 对于远离横轴的点,要特别注意。
身 高 与 体 重 残 差 图
5.5 6.5
探索1:使用年限x和维修费用y大致有何规律?
使用年限x
2
3
4
5
6 7
散点图
维修费用y 2.2 3.8 y 维修费用 · 7
6 5 4
3 2
5.5 6.5
·
·
· ·
2 3 4 5 6
使用年限 x
探索2:在这些点附近可画直线不止一条, 哪条直线最能代表x与y之间的关系呢? 发现:图中各点,大致分布在某条直线附近。
即,用这个回归方程不能给出每个身高为172cm 的女大学生的体重的预测值,只能给出她们平均 体重的值。
(1)由图形观察可以看出,样本点呈条状分 布,身高和体重有比较好的线性相关关系,因 此可以用线性回归方程刻画它们之间的关系。
图表标题 80 60 40 20 0 150
ˆ y
y = 0.8485x - 85.712 体重 线性 (体重) 线性 (体重) 线性 (体重) 170 180
ˆ 回归方程 y = 1.23x + 0.08 的理解
1、请问y与x是正相关,还是负相关?
2、当x增加1个单位时,y一定增加1.23个单位吗? 3、回归方程一定经过的点是? 4、估计使用年限为10年时,维修费用是多少?
案例1 从某大学中随机选出8名女大学生,其身 高和体重数据如下表:
编号 1 2 165 57 3 157 50 4 170 54 5 175 64 6 165 61 7 155 43 8 170 59
称为样本点的中心。
2、回归直线方程: 1、所求直线方程 y = bx + a 叫做回归直 ˆ ˆ ˆ ---线方程;其中

ˆ b=
(x
i=1
n
i
- x)(yi - y) =
i
x y
i i=1 n
n
i
- nxy
2
(x
i=1
n
- x)
2
x
i=1
,
2 i
- nx
相关主题