当前位置:文档之家› 概率论与数理统计课程设计_一元线性回归分析

概率论与数理统计课程设计_一元线性回归分析

沈阳理工大学课程设计论文成绩评定表课程设计任务书沈阳理工大学课程设计论文摘要数理统计是具有广泛应用的数学分支,在生产过程和科学实验中,总会遇到多个变量,同一过程中的这些变量往往是相互依赖,相互制约的,也就是说他们之间存在相互关系,这种相互关系可以分为确定性关系和相关关系。

变量之间的确定性关系和相关关系在一定条件下是可以相互转换的。

本来具有函数关系的变量,当存在试验误差时,其函数关系往往以相关的形式表现出来相关关系虽然是不确定的,却是一种统计关系,在大量的观察下,往往会呈现出一定的规律性,这种函数称为回归函数或回归方程。

回归分析是一种处理变量之间相关关系最常用的统计方法,用它可以寻找隐藏在随机后面的统计规律。

确定回归方程,检验回归方程的可信度等是回归分析的主要内容。

按回归模型类型可划分为线性回归分析和非线性回归分析。

本文利用概率纶与数理统计中的所学的回归分析知识,对用切削机房进行金属品加工时为了适当地调整机床,测量刀具的磨损速度与测量刀具的厚度间的关系建立数学模型,利用这些数据做出刀具厚度x关于时间y的线性回归方程,并MATLAB 与EXCEL软件对验数据进行分析处理,得出线性回归系数与拟合系数等数据,并用F检验法检验了方法的可行性,同时用分布参数置信区间和假设检验问题,得出了刀具厚度x关于时间y的线性关系显著,并进行了深入研究,提出了小样本常用分布参数的置信区间与假设检验的解决方法。

关键词:统计量法;置信区间;假设检验;线性关系;回归分析目录一.设计目的 (1)二.设计问题 (1)三.设计原理 (1)四.方法实现 (5)五.设计总结 (14)参考文献 (15)致谢 ...................................................... 错误!未定义书签。

沈阳理工大学课程设计论文一.设计目的了解一元回归方程,回归系数的检验方法及应用一元回归方程进行预测的方法;学会应用MATLAB软件进行一元回归实验的分析方法。

同时更好的了解概率论与数理统计的知识,熟练掌握概率论与数理统计在实际问题上的应用,并将所学的知识结合Excel对数据的处理解决实际问题。

本设计是利用一元线性回归理论对用切削机房进行金属品加工时为了适当地调整机床,测量刀具的磨损速度与测量刀具的厚度间的关系建立数学模型,并用Excel分析工具库中的回归分析软件进行解算。

二.设计问题用切削机床进行金属加工时,为了适当地调节机床,需要测定刀具的磨损速由此,我们利用这些数据做出刀具厚度x关于时间y的线性回归方程。

三.设计原理在实际问题中,经常会出现两个变量之间的相关关系不是线性的(即直线型),而是非线性的(即曲线型)。

设其中有两个变量x 与y ,我们可以用一个确定函数关系式:)(x y x=大致的描述y 与x 之间的相关关系,函数)(x u 称为y 关于x的回归函数,方程)(x u y=称为y 关于x的回归方程。

一元线性回归处理的是两个变量x 与y 之间的线性关系,可以设想y 的值由两部分构成:一部分由自变量x 的线性影响所致,表示x 的线性函数bxa +;另一部分则由众多其他因素,包括随机因素的影响所致,这一部分可以视为随机误差项,记为ε。

可得一元线性回归模型ε++=bx a y (1)式中,自变量x 是可以控制的随机变量,成为回归变量;固定的未知参数a,b 成为回归系数;y 称为响应变量或因变量。

由于ε是随机误差,根据中心极限定理,通常假定),0(~2σεN ,2σ是未知参数。

确定y 与x 之间的关系前,可根据专业知识或散点图,选择适当的曲线回归方程,而这些方程往往可以化为线性方程或者就是线性方程,因此我们可以用线性方程:bxa y +=大致描述变量y 与x之间的关系;1)模型回归系数的估计为了估计回归系数,假定试验得到两个变量x 与y 的n 个数据对(),3,2,1,,n iy x i i =我们将这n 对观测值代入式(1),得n i bx a y n i i ,3,2,1, =++=ε这里n εεε,,,21 互独立的随机变量,均服从正态分布,即n ,1,2,3i ),~N(0,2 =σε回归系数估计的方法有多种,其中使用最广泛的是最小二乘法,即要求选取的a ,b , 的值使得述随机误差ε 的平方和达到最小,即求使得函数()()∑∑==--==ni i ini ibx a y b a Q 1221,ε取得最小值的a ,b 。

由于()b a Q,是a ,b 的二元函数,利用微积分中的函数存在极值的必要条件,分别对()b a Q ,求a ,b 偏导数,并令其为0,构成二元一次方程组∑==--nii i bx a y 00)(,∑===--010)(i ii i i x bx a y ,化简后得到如下正规方程组 ,)(11∑∑===+ni nii i y b x na a .)()(1112∑∑∑====+nii i n i ni i i y x b x a x 解方程组得到总体参数b a ,估计量∑∑-=i ix nbna y 1ˆ1ˆ,∑∑∑∑∑--=22)(ˆi i i i i i x x n y x y x n b这里, )2,1(和n i y x i i =均已有的观测数据。

由此得到回归方程x ba y ˆˆ+= 带入观测i x ,得到值i y 称为回归预测值。

方程的直线称为回归直线。

2)回归方程显著性检验建立一元线性回归方程当且仅当变量之间存在线性相关关系时才是有意义的,因此必须对变量之间的线性相关的显著性进行检验,即对建立的回归模型进行显著性检验。

我们首先引入几个概念:(1) ∑=-=niT y y SS 1i 2)(,称为T SS 总偏差平方和,它表示观测值i y 总的分散程度;(2) ∑=-=niR y y SS 1i 2)ˆ(,称R SS 为回归平方和,它是由回归变量x 的变化引起的,放映了回归变量x 对变量y 线性关系的密切程度;(3) ∑=-=ni i E y y SS 1i 2)ˆ(,称E SS 为残差(剩余)平方和,它是由观测误差等其他因素起误差,它的值越小说明回归方程与原数据拟合越好。

可以证明下列关系成立 E R TSS SS SS +=即∑=-niy y 1i 2)(=∑=-ni y y 1i 2)ˆ(+ ∑=-ni i y y 1i 2)ˆ(我们主要考虑回归平方和在总偏差和中所占的比重,记TRSS SS R =2。

(0<=R<=1 ),称R 为复相关系数,用R 的大小来评价模型的有效性,R 越大,则反映回归变量与相应变量之间的线性函数关系越密切。

引入F 统计量。

定义)2(-=n SS SS F ER ,可知F~F (1,n-2).对于给定的显著水平a(一般这里取0.05或0.01),查表可得临界值F a (1,n-2)如果F> F α(1,n-2),则认为y 与x 之间的线性关系显著;如果F<= F α(1,n-2),则认为y 与x 之间的线性关系不显著,或者不存在线性关系,在实际应用中也可以通过F 对应的概率P<α来说明y 与x 之间的线性相关性显著。

3)回归系数的置信区间回归方程(1)的回归系统^a ,^b 是一个点估计值,给定置信水平1-α后,可得到他们对应的置信区间,并且回归区间越短越好,如果摸个回归系数的置信区间包含0点,则说明该回归变量的影响不显著,需要进一步地修改回归方程,尽量是每个回归系数的置信区间都不包含0点。

4)利用模型预测在对所建立的回归模型进行相关程度检验与分析之后,如果预测变量y 与相关变量x 的每一个给定值x 0,带入回归模型,就可以求得一个相对应的回归预测值0^y ,0^y 称为模型的点估计值。

四.方法实现(1)输入数据,并输入作散点图命令:>> y=[30 29.1 28.4 28.1 28.0 27.7 27.5 27.2 27.0 26.8 26.5 26.3 26.1 25.7 25.3 24.8 24.0 23.7 23.1 22.9 22.6 22.3 22.1 21.7 21.5 21.3 21.0 20.6 20.3 20.1];>> x=[0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29];>> plot(x,y,'*')生成图(1),可以看出x 和y 大体成线性关系。

图 1 散点图(横轴:X 纵轴Y)(2)作一元回归分析,输入:>> n=length(y);>> X=[ones(n,1),x'];>> [b,bint,r,rint,s]=regress(y',X);>> b,bint,sb =29.5501-0.3329bint =29.3326 29.7676-0.3458 -0.3200s =1.0e+003 *0.0010 2.8019 0 0.0001一元回归方程为:x y 3329.05501.29-=从几个方面都可以检验模型是有效的:F 检验-P -接近于0;1β的置信区间不含零点;α<p ;用MATLAB 命令finv(0.95,1,28)计算得到()F F <=1960.428,195.0,F 为统计量观测值,所以X 与Y 的相关性显著。

残差及其置信区间作图代码输入: rcoplot(r,rint)结果如图2所示:51015202530-1-0.8-0.6-0.4-0.200.20.40.60.81Residual Case Order PlotR e s i d u a l sCase Number图 2 残差图(横轴:削磨时间 纵轴:残差分析值)所谓残差是指实际观察值与回归估计值的差,残差分析就是通过残差所提供的信息,分析出数据的可靠性、周期性或其它干扰。

从残差图可以看出,数据的残差离零点较近,且残差的置信区间均包含零点,这说明回归模型x y 3329.05501.29-=能很好的符合原始数据。

(3)讲上面的回归系数估计值5501.29ˆ0=β,3329.0-ˆ1=β带入回归方程,刀具磨损速度的测试中,对时间间隔为30/h 的刀具厚度进行预测,得到19.5631ˆ0=y 。

在05.0=α,刀具的厚度预测区间简化为⎥⎦⎤⎢⎣⎡+---s u y s u y 210210ˆ,ˆαα,输入计算指令:>> t1=19.5631-norminv(0.0975,0,1)*sqrt(sum(r.^2)/16) t1 =20.0742>> t2=19.5631+norminv(0.0975,0,1)*sqrt(sum(r.^2)/16) t2 =19.0520即时间间隔为30/h 的刀具磨损速度测试中,刀具厚度的置信度为0.95的预测区间为[]0742.20,0520.19。

相关主题