当前位置:
文档之家› 数学建模 第二章 概率统计模型
数学建模 第二章 概率统计模型
2.1.3. 逻辑回归方法的一般原理
逻辑回归
• 实际问题中,我们经常需要探讨变量之间的关系。 • 当两个变量之间或者多个变量之间具有较高的相关关系,而又需
要我们通过某个(些)变量 的变化来解释另一个(些)变量 的 变化情况,则我们会先尝试采用线性回归的方法探讨解释变量对 响应变量的影响。 • 当响应变量为定性变量时,相应回归方法的改进就称为 LOGISTIC回归模型,中文称为逻辑回归模型。
• 统计学家拿着这张分布图,指着那些没有弹孔的地方说, 这就是要增加护甲的地方,因为这地方中弹的飞机都
• 没能返回。
例子的背后
• 上面的例子可以领略到统计学的精彩之处。 • 统计模型是数学模型的重要组成部分,尤其对具有大量数据的对
象,统计建模具有极其重要的作用。
大量的数据挖掘工作,就其本质而言,就是对于这些海量数据的 统计处理。
果更为可取。 • 模型估计完成后,要评价模型有效匹配观测数据的程度。若模型
的预测值与对应的观测值有较高的一致性,则认为该回归模型拟 合数据,即所谓“拟合优”,否则需重新估计模型,这就是拟合 优度检验。
2.1.4. 聚类分析方法的一般原理
聚类分析过程
• 面对大量的数据和变量,如何快速将具有相近特质的样本或变量 分在一类,从而达到降维和寻找共性的目的就成为一个重要的研 究方向。
logit 变换
logit ( p) ln( p ) 1 p
一元Logistic回归方程
• 设有一个自变量x,用logit(p)与x建立起回归关系为
• •
这用里回的归方法为lo求回g出it归(回p系)归数系,数0 为,随代1x机+入误上差式。,经过简单运算可得下式:
0,1
eb0 + b1x p = p(Y = 1| x) =
样品相似性度量
• 样品相似性的度量包括闵可夫斯基距离、马氏距离和兰氏距离等 等。
• 闵可夫斯基距离
d
1
d (xi , x j ) ( | xik x jk |q )q
k 1
• 当q=1,称绝对距离,当q=2,称欧氏距离。
• 马氏距离
• 马氏距离又称为广义欧几里得距离。
di2j (M ) (Xi X j )'1(Xi X j )
第二章 概率统计模型
一个例子
• 二战时期,,为了提高飞机的防护能力,英国的科学家、 设计师和工程师决定给飞机增加护甲.
• 为了不过多加重飞机的负载,护甲必须加在最必要的地 方,那么是什么地方呢?
• 统计学家将每架中弹但仍返航的飞机的中弹部位描绘在 图纸上,然后将这些图重叠,形成了一个密度不均的弹 孔分布图.
参数检验
• 回归系数的检验,即检验每个解释变量对响应变量的影响是否有 统计学上的意义。若有m个回归系数 ,假设检验为:
• 常用的回1归,L系,数m检验方法有Wald统计量:
H0 : b j = 0 H1 : b j ? 0 (j 1,2,L ,m)
• 式中分子为解释变量的参数估计值,分母为参数估计值Wald的标
1+ eb0 + b1x
多元Logistic回归方程
• 如果解释变量不止一个,则可以将一元logistic回归推广到多元 logistic回归,得到模型如下:
logit(
p)
ln( 1
p
p
)
0
1x1
2
x2
L
m xm +
• 即可类似求得Y=1的概率:
eb0 + b1x1+ b2 x2 + L + bm xm p = 1+ eb0 + b1x1+ b2x2 + L + bmxm
• 马尔科夫过程的特性在于未来的演变不依赖于它过去的演变。例 如明天是否会下雨不依赖于昨天是否下雨。这种性质被称作无后 效性。
马尔科夫链
0 ? t1
i1, i2 ,L , ik- 1, i, j t2 < L < tk- 1 < tk < tk+1
P(Xtk+1 = j | Xt1 = i1,L , Xtk- 1 = ik- 1, Xtk = i) = P( Xtk+1 = j | Xtk = i)
机抽取相应分布的伪随机数来作为随机样本)以模拟原问题的随 机量; • (4) 求出随机样本的样本均值.
2.1.2. 马尔科夫方法的一般原理
马尔科夫过程
• 现实中很多问题都可以看作马尔科夫过程:如布朗运动、传染病 爆发过程、车站候车人流量等。
• 马尔科夫模型也在网站流量分析、教学质量评估、股票期权等方 面得到了广泛的应用。
dij (L)
1 d
d|
k 1
xik xik
x jk x jk
概率统计模型
2.1. 概率统计模型的基本理论
2.1.1.蒙特卡洛方法的一般原理
蒙特卡洛方法解题的基本步骤
• (1) 确定所要模拟的目标以及实现这些目标的随机变量,一般情况 下,目标就是这些随机变量的期望;
• (2) 找到原问题中随机变量的分布规律; • (3) 大量抽取随机样本(在如今的计算机时代, 一般是利用计算
准误。
Wald
2
[ˆj
/
se(ˆj )]2
模型评价
• 一般情况下,Wald检验的结果趋向于保守。 • 当样本量较小时,可能会产生一个很大的标准误,从而导致Wald
值变得很小,增加犯第二类错误的可能。 • 这种情况下采用似然比检验更为可靠。 • 当Wald检验与似然比检验结果出现不一致时,一般似然比检验结
转移概率矩阵
ቤተ መጻሕፍቲ ባይዱ(Xmn j | Xm i) 1
jE
遍历性与极限分布
平稳分布
平稳分布与遍历性关系
• 当马尔科夫链具有遍历性时,极限分布必定存在且唯一。当马尔科 夫链不具有遍历性时,极限分布必定不存在,而平稳分布可能存在 且不唯一。
• 当有限马尔科夫链具有遍历性,极限分布必定是平稳分布;当无限 马尔科夫链具有遍历性,如果极限分布存在,则极限分布必定是平 稳分布。
• 聚类分析正是这样一种快速将大量数据分类的统计方法,有很强 的应用价值。
• 宗旨:根据数据样本的性质,将具有相近特质的样品或变量分在 一组,既可以根据不同组的特性进行不同的处理,也可以对同组 数据进行更进一步的分析。
Q型聚类
• 对样品进行分类处理,距离由样品相似性来度量。
R型聚类
• 对变量进行分类处理,距离由变量相似性来度量。