当前位置:文档之家› 实验数据分析方法

实验数据分析方法


xk yk
xk yk N
(xk x )( yk y)
xk2

1 N
(
xk )2
(xk x )2
b0

1 N
(
yk b
xk ) y bx,
实验数据分析方法_Chap.6
7
其中 1 N
1N
x

N
xk , y
k 1

N
k 1
yk .
在给定参数估计值b, b0后,可得到相应的回归方程 (或回归函数)为: yˆ b0 bx.
(5) 作出显著性判断:若F>Fα(1,N-2),则回归方程显 著;若F<Fα(1,N-2),则回归方程不显著.
例 试利用40个B型旋涡星系SD的氢含量(MH/MT)、色 指数(B-V)0的资料,求出它们之间的回归关系,并检验 回归结果是否显著。(见书P125)
实验数据分析方法_Chap.6
13
(二) 相关系数检验法
面的检验过程称为方差分析。
实验数据分析方法_Chap.6
12
F检验的步骤可归纳如下:
(1) 建立原假设H0: =0。
(2) 确定统计量 F Q,/(UN确 2定) 其分布
F ~ F(1, N 2)
(3) 给定显著水平α, 由分布表查得置信限:
Fα(1,N-2) (4) 由样本计算统计量F,
0, 的“好”的估计量,从而得到一条最能描述y和x关系
的回归直线(见上图中的直线),它的方程可表为:
式中b0,b 为参数0, 的估 计值,yk为y的回归值。
实验数据分析方法_Chap.6
yˆk b0 bxk ,
6
下面我们利用最小二乘准则给出b0,b 的计算公式:
由最小二乘原理,b0, b应该是满足残差 k yˆk yk
第六章 回归分析
回归分析是处理变量与变量之间统计相关关系的 一种数理统计方法。在观测天文学中,它是最基本 的、被频繁使用的统计工具。
变量间的统计相关关系是指变量间的关系是非确定性的。 例如,某一天的气温与气压的关系;星系中氢含量与色指 数、光度的关系;太阳耀斑与黑子相对数、某波段太阳射 电辐射流量等因素的关系等。造成变量间关系的不确定性 的原因通常有两个方面:一是,在影响一个量的众多因素 中,有些是属于人们尚未认识或掌握的;另一个原因是, 与所用仪器的精度或观测条件有关的观测误差及其它随机 因素的影响。但人们也发现,只要对这种存在不确定性关 系的变量进行大量观测或实验,就可能会找到它们蕴藏的 内在规律。也就是说,在一定条件下,从统计的意义上来 说,它们又可能存在某种确定的关系。通常,把变量之间 这种不完全确定的关系称为统计相关关系。
的y的变化部分。 这样我们就把引起因变量y变化的两
方面原因从数量上分开了。
实验数据分析方法_Chap.6
10
即 lyy U Q
从回归平方和U和剩余平方和Q的意义很易说明,回归效果 的好坏取决于U和Q的大小。下面我们从假设检验的角度来给 出衡量回归效果好坏或判别回归方程显著与否的标准。
(一) F检验法
实验数据分析方法_Chap.6
11
lyy ~ 2(N 1), U ~ 2 (1), Q ~ 2 (N 2),
并且,当=O成立时回归平方和与剩余平方和是相 互独立的。故构成如下的统计量:F U ,
Q /(N 2)
因总平方和lyy的自由度F总=FU +FQ ,所以统计量F是服 从第一自由度为l,第二自由度为N―2的F分布。
6.1.1 一元线性回归模型及参数估计
对于两个大致成线性关系的变量y和x,通常用如下 的回归模型来描述它们之间的线性相关关系:
yk 0 xk k
式中,x称为自变量或预测变量,y为因变量,0,为待定的模 型参数, 是随机误差项,它表示除自变量x以外的随机因素对
因变量y影响的总和。
回归平方和U反映了在y的总变化中由于x与y的线
性关系而引起的部分。因此,可以用U在总平方
和lyy中所占的比例大小来衡量回归效果好坏.通
常,用r2表示比值U/lyy,并称 的相关系数。
ra

Fa (为1, Nx与2)y
(N 2) Fa (1, N 2)
由r的定义可知r<l。当r的绝对值较大时,说明y与x的线 性相关较密切;r的绝对值较小时,说明y与x的线性相关程 度较弱,这时散点离回归直线较分散;当r=1时,所有的 点都在回归直线上,表示y与x完全线性相关;而当r=0时, 则表示y与x毫无线性关系。下图显示了不同线性相关系数
假设检验必须要给出原假设,在讨论两个变量之间是否有线性 关系时,主要就是要检验模型中模型参数是否为零:如果=0, 则两个变量之间无线性关系。因此,我们把“=0”作为检验的 原假设H0。
有了原假设后就要构造一个统计量,这个统计量必须满足三个 条件:(1) 能用样本值计算得到;(2) 和原假设有关;(3) 已知这 个统计量的分布。根据这三个条件,统计量应该从反映y变化的 回归平方和及剩余平方和中去找。利用正交线性变换可以证明: 总平方和、回归平方和、剩余平方和都是变量2,且有:
散点的分布情况。
实验数据分析方法_Chap.6
14
实验数据分析方法_Chap.6
15
从上面的讨论看出,相关系数r可用来衡量两变量之间线性 相关的密切程度。但在一个具体问题中,r应大到什么程度
才能认为它们之间确实存在线性相关关系,方可用一条回归
直线来表示? 这需要规定一个指标,作为鉴定回归方程是否
1、从一组数据出发,确定这些变量之间的 数学表达式——回归方程或经验公式;
2、对回归方程的可信程度进行统计检验; 3、进行因素分析,例如从对共同影响一个
变量的许多变量(因素)中,找出哪些是 重要因素、哪些是次要因素。
实验数据分析方法_Chap.6
3
§6.1 一元线性回归
在许多情况下,两个变量之间的相关关系呈线性关 系,它是统计相关关系中最简单的一种,也是天文 上实际问题中最常见的情况。我们的目的则是要找 出能描述这两个变量之间的线性相关关系的定量表 达式。
实验数据分析方法_Chap.6
1
虽然统计相关关系和函数关系(变量间的关系完全 是确定的)是两种不同类型的变量关系,但它们之 间也不是一成不变的:一方面,在理论上有函数 关系的几个变量由于观测误差的影响,每次测得 变量的数值之间并不是准确的满足这种函数关系, 造成某种不确定性;另一方面,当人们对事物的 规律性了解得更加深入时,相关关系又可能转化 为函数关系。事实上,自然科学中的许多定理、 公式正是通过对研究对象的大量观测数据的分析 处理,通过总结和提高得到的。
平方和最小的解,记
n
n
Q

2 k

( yk b0 bxk )2 ,
k 1
k 1
则利用Q=min可得正规方程组:


b0

2
( yk b0 bxk ) 0,

b

2
( yk b0 bxk )xk 0,
解之可得:
b
衡量回归效果好坏的标准
在回归分析中,通常把因变量y看作为随机变量,并称某
一次观测的实际观测值yk与它的平均值 y 的差 yk 为y离差, N次观测的离差平方和称为总平方和,用lyy表示,即:
实验数据分析方法_Chap.6
N
lyy ( yk y )2 , 9 k 1
将总平方和进行分解,有: lyy ( yk y)2 ( yk yˆk ) ( yˆk y)2
确定了统计量F的分布以后,对给定的显著水平α (0.01,0.05,0.1),由F分 布表查出置信限Fα(1,N-2):这意味着p(F<Fα(1,N-2))=1-α ,而F> Fα(1,N-2)是否定域。因此,如果由样本算出的统计量F>Fα(1,N-2),说 明原假设H0不成立,我们则称回归直线方程是显著的:且对于F> F0.01(1,N-2)的情况属于高度显著,对F>F0.05(1,N-2)的情况,称为在 0.05水平上显著,对F >F0.1(1,N-2)的情况是在0.1水平上显著。当F< Fα (1,N-2)时,则称回归方程在α 水平上不显著,表明所求得回归直线没 有实际意义。这种检验方法就称为F检验法。在统计学中,也通常把上
组数据(xk,yk),k=1-N,都可由回归方程组求出一组b0,b, 从而得
到一条回归直线。但并非对每一组数据配的回归直线都有实际 意义:例如对平面上分布完全杂乱无章的散点所配的直线就毫 无意义。因此,通常在求得直线回归方程以后必须进行检验, 判别所配直线是否有实际意义。如果检验结果回归方程是显著 的,则表明所配回归直线揭示了因变量y与自变量x之间有较强 的线性相关性;如果检验结果回归方程不显著,则表明所配回 归直线没有实际意义。
回归分析就是利用大量的观测数据来确定变量间
的相关关系的一种数学方法。在观测天文学中,
回归分析常被用来定量描述某一研究对象两个特
征量之间的显式关系;校准和量化对宇宙大尺度
结构研究极其重要的“宇宙距离尺度”;在激光
测月的资料处理中,回归分析也起了很重要的作
用。
实验数据分析方法_Chap.6
2
总的来说,回归分析所要解决的主要 问题是:
略去的许多因素的影响,这些因素在一定范围内影响因变量 取值,并且随机的变化:依中心极限定理,它们近似服从正 态分布。
实验数据分析方法_Chap.6
5
当假设误差项k为正态分布时,上述模型被称为正
态误差回归模型。下图给出了正态误差回归模型的 图示:
对于形如前式的模型,回归分析的任务是找到回归参数
由于yk是均值为 b0 b方xk ,差为2的随机变量,对上述
相关主题