当前位置:文档之家› 数学建模专题汇总-离散模型

数学建模专题汇总-离散模型

离散模型§ 1 离散回归模型一、离散变量如果我们用0,1,2,3,4,⋯说明企业每年的专利申请数,申请数是一个离散的变量,但是它是间隔尺度变量,该变量类型不在本章的讨论的被解释变量中。

但离散变量0和1可以用来说明企业每年是否申请专利的事项,类似表示状态的变量才在本章的讨论中。

在专利申请数的问题中,离散变量0,1,2,3 和4 等数字具有具体的经济含义,不能随意更改;而在是否申请专利的两个选择对象的选择问题中,数字0和1只是用于区别两种不同的选择,是表示一种状态。

本专题讨论有序尺度变量和名义尺度变量的被解释变量。

、离散因变量在讨论家庭是否购房的问题中,可将家庭购买住房的决策用数字1 表示,而将家庭不购买住房的决策用数字0 表示。

1 yesx0 no如果x 作为说明某种具体经济问题的自变量,则应用以前介绍虚拟变量知识就足够了。

如果现在考虑某个家庭在一定的条件下是否购买住房问题时,则表示状态的虚拟变量就不再是自变量,而是作为一个被说明对象的因变量出现在经济模型中。

因此,需要对以前讨论虚拟变量的分析方法进行扩展,以便使其能够适应分析类似家庭是否购房的问题。

因为在家庭是否购房问题中,虚拟因变量的具体取值仅是为了区别不同的状态,所以将通过虚拟因变量讨论备择对象选择的回归模型称为离散选择模型。

三、线性概率模型现在约定备择对象的0 和1 两项选择模型中,下标i 表示各不同的经济主体,取值0或l的因变量 y i表示经济主体的具体选择结果,而影响经济主体进行选择的自变量 x i 。

如果选择响应YES 的概率为 p(y i 1/ x i ) ,则经济主体选择响应NO 的概率为 1 p(y i 1/ x i),则E(y i /x i) 1 p(y i 1/x i) 0 p(y i 0/x i)= p(y i 1/x i)。

根据经典线性回归,我们知道其总体回归方程是条件期望建立的,这使我们想象可以构造线性概率模型p(y i 1/ x i) E(y i / x i) x iβ0 1 x i1 L k x ik u i描述两个响应水平的线性概率回归模型可推知,根据统计数据得到的回归结果并不一定能够保证回归模型的因变量拟合值界于[0,1]。

如果通过回归模型式得到的因变量拟合值完全偏离0或l两个数值,则描述两项选择的回归模型的实际用途就受到很大的限制。

为避免出现回归模型的因变量预测值偏离0或1的情形,需要限制因变量的取值范围并对回归模型式进行必要的修正。

由于要对其进行修正,那么其模型就会改变,模型改变会导致似然函数改变,这就是我们下面要讨论的。

现在我们讨论的模型与判别分析的目的是一样的,但有区别。

§ 2 二元离散选择模型一、效用函数为了使得二元选择问题的有进一步研究可能,首先建立一个效用函数。

在讨论家庭是否购房的问题中,可将家庭购买住房的决策用数字1 表示,而将家庭不购买住房的决策用数字0表示。

用 U i1表示第i个人选择买房的效用, U i0表示第i个人选择不买房的效用。

其效用均为随机变量,于是有1 1 1U i1 1 X iβ1u i1(1)U i00X iβ0u i0(2)将(1)-(2),得U i 1U i 012X i (β1β0) (u i 1u i 0)记:y i *U i 1U i 012β*β1 β010u i *u i 1u i 0则有 **Y i**X iβ*u i *,格林称该模型为潜回归这是二元选择模型的切入点。

称 Y i *为过渡变量(潜在的) 测的。

当效用差 Y i *大于零,则应该选 “1,”即购房;,这个变量是不可观当效用差Y i*小于零,则应该选“0,”即不购房。

故p(Y i 1) p(Y i*0) P(u i*-X iβ*) 1 F -X iβ*p(Y i 0) p(Y i*0) P(u i*-X iβ*) F-X iβ*此处已经通过Y i*,将自变量与事件发生的概率联系起来了。

为概率提供了一个潜在的结构模型。

现在的问题是F ( )服从何种分布?F ( )既然是分布函数,则必须满足分布函数的条件.二、两类常用的模型根据以上的分析,我们的问题已经转化为作为F ( )有什么形状,即密度函数f 具有什么样的函数形式。

采用累积标准正态概率分布函数的模型称作Probit 模型,或概率单位模型,用正态分布的累积概率作为Probit 模型的预测概率。

另外logistic函数也能满足这样的要求,采用 logistic 函数的模型称作 logit 模型,或对数单位模 型。

注:分布在此时是以 y 轴为对称。

(一) Logit 模型 因为p(Y i 1) p(Y i0) P(u i *X i β*) P(u i *X i β* ) FX i β*如果我们取 F .)为逻辑函数LOGIT ),即(x) F (x)x1e xx1 e 1 e满足分布函数的条件) ,有p(Y i 1) FX i β(*1 X i β*) 1 e1* X i β*e * X i β* 1 e X i β为了更简化模型Y i**X i β*u i *,我们令β*β*,x i 1x i1 x i2 L x ik ,u i u则Yi*xiβu i有FX iβ*=(x iβ)exp(x iβ)1 exp( x iβ)p(y i1/ x i)=exp(x iβ) (x iβ) i1 exp( x i β)p(y i1/x i)exp(x iβ)1 exp(x i β)1 exp(x iβ) p(y i 1/ x i) exp(x iβ) p(y i 1/ x i) p(y i 1/x i )exp( x iβ) exp(x iβ) p(y i 1/x i) exp(x iβ) p(y i 1/ x i)exp(x iβ)p(y i 1/x i ) exp(x i β) p(y i 1/ x i )exp(x i β)p(y i 1/ x i ) 1 p(y i 1/ x i ) ln 1p(p y (i yi1/1x /i x )i )x iβ (广义非线性) 称( 2)式为逻辑斯蒂回归模型 。

(二) PROBIT 模型更为一般的情形,如果选择 F (.)是标准正态分布,则产生 PROBIT 回归模exp (x i β) (非线性)ln1 p(p y (iy i 1)1)x i β u i2)3)xi β1 1 212exp( 12t2)dt1( p i) x iβ称(3)式为PROBIT 回归模型。

注Probit 曲线和logit 曲线很相似。

标准正态概率分布曲线p i p(y i 1/ x i) (x iβ)0.80.60.40.20 5 10 15 20 25 30logistic 分布曲线使用哪个分布是一个很自然的问题,logit 曲线除了在尾部比正态分布厚得多以外,两条曲线都是在p i = 处有拐点,logit 曲线更接近一个自由度为7 的t 分布(格林书认为自由度是4 的t 分布)。

所以,对于x β的中间值(比如到之间)来说,两种分布会给出类似的概率,但是当x β非常小时,逻辑斯蒂回归模型比PROBIT 回归模型倾向于给出y 0( y*0 )较大的概率值,而在x β非常大时,倾向于给出y 0( y*0 )较小的概率值。

利用函数式可以得到的概率值见表表一Probit 模型和logit 模型概率值正态分布函数y i逻辑概率分布t21 yi p i = 1 i e 2dt1p i = y1 ey i特点尾薄尾厚§ 3 二元离散选择模型最大似然估计下面我们来构造二元离散选择模型的似然函数。

这是二元离散选择模型最关键的问题。

因为 p(Y i 1) p(Y i*0) P(u i x i β)p(Y i 0) p(Y i*0) P(u i -x iβ)我们假设有以Y 轴为对称的概率密度函数f(.),则 p(Y i 1)p(Y i*0) p(x iβ u i 0)P(u i -x i β)1 P(u i -x iβ)1 F (-x iβ) F (x iβ)p(Y i 0) p(Y i*0) P(u i -x iβ) F(-x iβ) 1 F (x iβ) 于是模型的似然函数为P(Y1,Y2,L ,Y n) 1 F(x iβ) F (x iβ)Y i 0 Y i 1n1 Y i Y iL 1 F(x iβ) 1Y i F(x iβ) Y ii1两边同时取自然对数,则nln L Y i ln F (x iβ) (1 Y i)ln 1 F (x iβ)i1对数似然函数最大化的条件是i X i 04)Y i f i β i 1 F i(1 Yi)(1 F i ) 、对数单位模型的似然函数lnL将 F X β (X β) 1X β e X β和ed (X β) d X βX βe 2X β 21e(X β)[1 (X β)] 代 入4),则似然方程为 ln βLy i(X i β) X i0。

i1若X i 包含常数项,则一阶条件意味着预测概率的平均值一定等于样本中 1的”比率。

对数单位模型对数似然函数的二阶导数为 ln L ββn(X i β)(1 (X i β))X i X i i1二、概率单位模型的 似然函数 如果是正态分布,则对数似然函数为y i 1 y i 0例一〕 在一次住房展销会上, 与房地产商签订初步购房意向书的共有 325 名顾客,在随后的 3 个月的时间内,只有一部分顾客确实购买了房屋。

购买了房屋的 顾客记为 “1,”没有购买的人记为 “0。

”以顾客的年家庭收入为自变量 X ,根据表二 资料,分析收入万元的家庭买房的可能性。

程序如下 data a;input x n r; cards;ln L ln(x i β) ln 1(x i β) ln Lβy i 1(x i β) x xi (x i β) i(x i β) xxi y i1(x i β)y i对数似然函数的二阶导数为: ln L ββni( i X i β)X i X i。

i11i xiy iix 0概率单位模型的proc logistic data=a; output out=ll p=phat ; model r/n=x / link =normit; proc print data=ll;run ;表二例一的分组数据资料分别用LOGIT 和PROBIT 模型讨论这个问题表三LOGIT 模型ln p1.1992 0.243X1pln p1.1992 0.243 9.5 1.1093 1p pexp(0.6728)1pp(y i 1/x i )exp(x i β) exp(1.1093)1 exp(x i β) 1 exp(1.1093)0.75192表四 probit 模型0.7445 0.151x 1 12 t t 2exp( 2t 2)dt0.7445 0.151*9.5 1 112exp( 12t 2)d§ 4 多元离散选择模型多种选择的情形存在着几种决策,这是在三个或三个以上的备择中选择一个决 策。

相关主题