当前位置:文档之家› 数学建模 第二单元 初等数据分析方法

数学建模 第二单元 初等数据分析方法

第二单元初等数据分析方法1数学建模方法论:类比、创新2最简定量关系:人类建立起来的变量之间最简单最直观的定量关系就是函数关系(1)函数概念的力学来源.(2)1637年笛卡尔的《几何学》首次涉及到变量,也引入了函数思想.(3)1667年英国数学家格雷果里被认为是函数解析定义的开始(4)公认最早提出函数概念的是17世纪德国数学家莱布尼茨.(5)为了得到变量之间的函数关系需要采集数据,于是提出三个问题:(6)如何采集数据?采集什么数据?如何分析数据3建立函数关系的方法由此产生建立变量之间函数关系三种基本方法观察法:利用数据的比例性质拟合方法、插值方法统称初等数据分析方法数据及其品质(1)有的提供数据:2008年“奥运场馆设计” (2)有的不给数据:2010年世博会的影响力(3)有的问你需要什么数据:2008年重金属污染源头问题(4)有的需要你自己判明应该采集什么数据才能说明这件事情:2015年“出租车”试建立合理的指标并分析不同时空出租车资源的“供求匹配”程度因此,需要评估数据的精确性,由于收集数据时精确度不高比如记录或报告一个数据时的人为错误,或测量精度限制等多种情况。

比如在绘制地图时是按比例缩小的但测量时总有误差在分析一个数据集合时,可能遇到的问题是: (1)根据收集的数据进行建模.要么数据具有明显特征要么插值(2)按照选出的一个或多个模型(函数)类型对数据进行拟合.(3)从已经拟合模型中选取最合适的例:判断指数与多项式模型哪个拟合更好4 观察法和初等数学方法通过大量数据利用变量之间的比例性质得到自然规律:(1)Kepler(开普勒)第三定律开普勒曾帮第谷(Tycho Brahe) 收集了13年火星的相对运动的观察资料到1609年开普勒已经形成了头两条定律: a)每个行星都沿一条椭圆轨道运行太阳在该椭圆的一个焦点处.b)对每个行星来说,在相等的时间里该行星和太阳的联线扫过相等的面积.开普勒花了许多年来验证并形成了第三定律T = c其中T 是周期(天数)而R是行星到太阳的平均距离他建立了轨道周期与从太阳到行星平均距离之间的关系.如表2.1中的数据图画出了周期对平均距离的3/2次方的图形该图形近似于一条通过原点的直线纵坐标是周期(天数),横坐标量纲是英里×10−4.任取过原点的这条直线上的两点,易估计其斜率(比例常数):斜率估计其模型为T = 0.410(2)(波义耳定律(Boyle’s law)1662年)一定量的理想气体的压强P体积V 和绝对温度T 之间具有关系R是普适气体常量.(3)(虎克定律(Hooke)1678年) 一个线性弹簧的形变(x) 与弹力(F )之间的关系F = −Kx 负号表示形变的方向与弹力方向相反.(4)(牛顿(Newton)万有引力公式1687年)两个物体之间相互作用时的相互吸引来表示吸引力与其他因素之间的规律.(5)(欧姆定律(Ohm’s law)1826年) 在同一电路中,通过某一导体的电流跟这段导体两端的电压成正比跟这段导体的电阻成反比I:(电流)的单位是安培(A) U:(电压)的单位是伏特(V)R :(电阻)的单位是欧姆(Q).观察法与初等数学知识结合:案例2.1:::半径为1的轮子置于平地上轮子边缘一点A与地面相接触。

求当轮子滚动时,A点运动的函数表示.解:建立坐标系Oxy,设轮子滚动时A点的坐标为A(x, y),当轮子滚动到P 点着地时,线段OP 的长度等于圆弧AP 的长度,也等于轮子转过的角度(以弧度为单位).令参数t表示轮子转过的角度,得到( x = t −sint, y = 1 −cost.此即为旋轮线的参数表示.案例2.2:::一船由甲地逆水匀速行驶到乙地,甲乙两地相距s(千米),水速为常数p(千米/时),船在静水中的最大速度为q (千米/时,其中q > p),已知船每小时的燃料费用(以元为单位) 与船在水中的速度v(千米/小时) 的平方成正比,比例系数为k.(1)将全程燃料费用y(元) 表示为船在静水中的速度v(千米/小时)的函数,并指出这个函数的定义域;(2)为了使全程燃料费用最少,船的实际前进速度应为多少?解:(1) 由题意知,船由甲地逆水匀速行驶到乙地,且水速p,而船在静水中的速度v.因此,船在实际前进时的速度v −p为变量,再由船在静水中的最大速度q 为常量,知v的范围是p < v < q,由此,船由甲地均匀行驶到乙地。

由于每小时燃料费用为y = kv2(其中k 为常数).因此,所求全程燃料费用函数为:(2) 将船的实际前进速度v −p用m表示,则由v ∈(p, q)可知,m ∈(0, q −p)且v = p + m,得到由题意可知,k,s,m都是正数,由算术平均值不小于几何平均值得:y ≥ks(2p + 2p)= 4ksp当且仅当即m = p时取等号.①当p ∈(0, q −p], 0 < p ≤q −p, 0 < 2p ≤q,即q ≥2p,即当m = p时,全程燃料费用y最少.②当p ∈/ (0, q −p],即q < 2p,设先证明当m ∈(0, q −p]时,全程燃料费用函数y = f (m)是减函数.设0 < m1 < m2 < q −p,有f (m1) −f (m2)由0 < m1 < m2 < q −p且q −p < p得:m2 −m1 > 0, p2 −m1m2 > 0所以f (m1) > f (m2).故y = f (m)在区间(0, q −p)上是减函数.当q < 2p时有f (m) > f (q −p),当且仅当m = q −p时取等号,即当m = q −p时全程燃料费用最少综上所述,为使全程燃料费用最少,当q ≥2p时,船的实际前进速度应为p(千米/小时);当q < 2p时,船的实际前进速度应为q −p(千米/小时).案例2.3:::市场均衡问题.商晶的价格是由其供需关系决定的.如果市场上某种商晶的价格使得该种商晶的总需求等于总供给,则称这一商晶市场达到均衡,这时的价格称为均衡价格,在此价格下,商晶的供给量也就是需求量称为均衡数量.首先建立供需与价格关系的数学模型.市场对该种商晶的需求量总是随着价格的上扬而有所下降,即商晶的需求量Q d 是价格P 的递减函数,记为Q d(P );但是,生产厂商的积极性会随着价格的上扬而上升,即商晶的供应量Q s 是价格P 的递增函数,记为Q s(P ).因此,经济学中需求和供给函数模型最简单的是线性函数分别为Q d(P ) = −aP + b Q s(P ) = cP −d其中a,b,c,d均为非负常数.显然Q d(P )和Q s(P )分别是P 的递减和递增函数.注意到当P = 0时,Q d = b,即当该商晶为免费时的需求量为b.因此,b称为社会极大需求量.而当Q s(P ) = cP −d = 0时,可解得P = ,即当价格为时,该商晶的产量为0即为生产商能够承受的最低价格.所谓均衡价格,就是使得Q d(P ) = Q s(P )的价格P .Q d(P )和Q s(P )的表达式,应有−aP + b = cP −d.由此解得均衡价格和相应的均衡供求量这就解决了均衡价格的问题.还有一些更加复杂的非线性模型.比如需求函数模型有它们分别称为二次函数模型指数函数模型根式函数模型以及的分式函数模型.供给与价格关系的函数模型还有分式函数模型以上各模型中的a,b,c,d均为非负常数.经济学中运用计量方法建立了许多经济量之间的关系:等成本线也叫企业预算线成本函数与平均函数收益函数和利润函数(与产量)案例2.4:::将4条腿长相同的方椅子放在不平的地上,怎样才能放平?如何才能把它抽象成数学问题?【问题分析】假定椅子中心不动,每条腿的着地点用A、B、C、D表示,把AC和BD 连线看做坐标系中的x轴和y轴,把转动椅子看做坐标的旋转,如图用θ表示对角线AC 转动后与初始位置x轴正向的夹角.设g(θ)表示A,C两腿旋转θ角度后与地面距离之和.f (θ) 表示B,D两腿旋转θ角度后与地面距离之和.当地面形成的曲面为连续函数时,f (θ),g(θ)皆为连续函数.因为三条腿总能同时着地,即对任意θ,总有f (θ) ·g(θ) = 0.不妨设初始位置θ = 0 时g(θ) = 0,f (θ) > 0,于是问题转化为:是否存在一个θ0,f (θ0) = g(θ0) = 0.这样椅子问题就抽象成如下数学问题:已知f (θ),g(θ)连续,g(0) = 0,f (0) > 0,且对任意的θ都有f (θ) ·g(θ) = 0.求证:存在θ0,使得f (θ0) = g(θ0) = 0.数学问题的证明:令h(θ) = g(θ) −f (θ),则h(0) = g(0) −f (0) < 0将椅子转动,即将AC与BD位置互换,而h(θ)是连续函数,根据连续函数的零点定理知使得h(θ0) = 0,即g(θ0) = f (θ0);又由条件对任意θ,恒有f (θ) ·g(θ) = 0,所以g(θ0) = f (θ0) = 0;既存在θ0方向,四条腿能同时着地.所以椅子问题的答案是:如果地面为光滑曲面,椅子中心不动最多转动角度.则四条腿一定可以同时着地.5 数据拟合方法一、源头问题:问题1:请找出一个函数经过所有的数据点.问题2:请预测当x = 3.5时,y的值.作为数据处理的基本方法,拟合和插值都是要求通过已知的观测数据去寻求某个近似函数,使得近似函数与已知数据有较高的拟合精度。

具体来说:(1)拟合:求过已知有限个数据点的近似函数,不要求过所有的已知数据点,只要求在某种意义下它在这些点上的总偏差最小.主要用来反应数据的基本趋势.(2)插值:求过已知有限个数据点的近似函数,要求所求的近似函数过已知的数据点.二、数学思想与建模方方法法假设想要对数据点集拟合一条直线y = ax + b,应如何选择a和b,使直线最好地拟合数据?数据点和直线间总存在一些纵向差异,称这些纵向差异为绝对偏差.定义2.1 给定m个数据点(x i, y i)的集合,用直线y = ax + b 拟合该集合,确定参数a和b,使任一数据点(x i, y i)和其对应的直线上的点(x i, ax i + b)间的距离之和最小,即:极小化绝对偏差|y i −y(x i)|的和.可以将直线的极小化绝对偏差之和准则推广到给定曲线情形:给定某一函数y = f (x),以及m个数据点(x i, y i)的集合,极小化绝对偏差|y i −y(x i)|的和,也就是确定函数类型y = f (x)的参数,极小化再看另一种选择定义2.2 给定m个数据点的集合(x i, y i), i = 1, 2, ···, m,用直线y = ax + b 拟合该集合,确定参数a和b,使任一数据点(x i, y i)和其对应的直线上的点(x i, ax i + b)间的距离最小,也就是对整个数据点集极小化最大绝对偏差|y i −y(x i)|.现将直线的极小化最大绝对偏差准则推广到给定曲线的情形:给定某种函数y = f (x)和m个数据点(x i, y i)的一个集合,对整个集合极小化最大绝对偏差|y i −y(x i)|,即确定函数类型y = f (x)的参数从而极小化数量Max|y i −y(x i)| i = 1, 2, ···, m 这一准则称为Chebyshev近似准则Chebyshev准则的困难在于求解这个最优化问题需要高级的数学方法.三、案例分析案例2.5:::设要度量直线段AB,BC和AC,假定测量的结果为AB = 13,BC = 7,AC = 19.这时,AB和BC值加起来是20 而不是测出的AC = 19.问各自真值?解:假定对每一次测量有相同的信任度,这样每一测量值有相等的权值.这种情况下,差异应均等地分配到每一线段,令x1代表线段AB长度的真值,x2代表BC的真值.令r1、r2、r3表示真值和测量值间的差异.即线段AB:r1 = x1 −13线段BC:r2 = x2 −7,线段AC:r3 = x1 + x2 −19数值r1、r2、r3称为残差.如果用Chebyshev 准则,应指定r1、r2、r3的值使三个数值|r1|、|r2|、|r3|的最大者达到最小.如果记最大的数为r,那么我们要求最小化r,约束有三个条件|r1| ≤r或−r ≤r1 ≤r,|r2| ≤r或−r ≤r2 ≤r,|r3| ≤r或−r ≤r3 ≤r问题则叙述为经典的数学问题:最小化r 满足约束条件r −x1 + 13 ≥0(r −r1 ≥0),r + x1 −13 ≥0(r + r1 ≥0) ,r −x2 + 7 ≥0(r −r2 ≥0),r + x2 −7 ≥0(r + r2 ≥0),r −x1 −x2 + 19 ≥0(r −r3 ≥0) r + x1 + x2 −19 ≥0(r + r3 ≥0) 这一问题称为线性规划问题.推广这一过程,给定某一函数类型y = f (x),其参数侍定,给定m个数据点(x i, y i)的一个集合,并确定出残差为r i = y i − f (x i)。

相关主题