贝叶斯理论
贝叶斯论关注于在当前数据的前提下,某个模型成立的概率,得到的是具 体的概率值,而该概率值不用于对某个假说的判断。
频率学派的基础是不断重复进行实验,认为模型的参数是客观存在的,不 会改变,虽然未知,但是为固定值。
贝叶斯学派认为参数是一个随机值,因为没有观测到,那么它和一个随机 数没有区别,因此参数也是有分布的,使用一些采样的方法,可以很容易 地构建复杂的模型。
Least Squares
解释一个小问题:最小二乘法 误差的平方求和: LS=(ΔY1)^2 + (ΔY2)^2 + .. 为什么不是误差的绝对值求和或其它?
Least Squares
正态分布概率密度函数:
所有偏离左图黄线的数据点, 都是含有噪音的,是噪音使它 们偏离了完美的一条曲线。合 理的假设就是偏离黄线越远的 概率越小,具体小多少 ,可以
Bayes Theory
树挡箱子例子:
这是一 棵树
Bayes Theory
曲线拟合实例
根据奥卡姆剃刀的精神, 越是高阶的多项式越是繁 复和不常见的。
同时,对于P(D|h)而言, 我们注意到越是高阶的多 项式,它的轨迹弯曲程度 越大,那么一个高阶的多 项式在平面上随机生成一 堆N个点全都恰好近似构 成一条直线的概率P(D|h) 又有多少呢?
常规的曲线似合方法,使模型参数 a,b的输出结果与实际样点值在最小 二乘法意义下的误差最小,那么就确 定了最优的A,B值。
Bayes Inversion
但是贝叶斯慷慨地给出一堆解! 这是采用模拟退火方法求解:
Bayes Inversion
这是采用MCMC方法求得的反演sion
Bayes Inversion
贝叶斯随机反演思想:
指出每种模型生成观测数据的可能度,可以根据先验信息进行挑选。一系列模 型是满足参数同分布的。
Bayes Inversion
Bayes Inversion
看到这么简单的样点空间分布,我们 决定用最简单的模型:
y=Ax+B
现在要根据这些点,确定到a和b是多 少!
当观测的结果并不是因为误差而显得“不精确”,而是因为实际情况中,对数据 的结果产生贡献的因素太多了,这些偏差是另外一些因素集体贡献的结果,不是 单纯的建模所能解释的。一个现实的模型往往只解释几个我们关注的,重要的因 素,不要试图通过调整模型来“完美”匹配数据(非Bayes方法,如频率学派下 的如稀疏脉冲就是这样做。)。这时,观测数据会倾向于围绕你的有限模型的预 测结果呈正态分布,于是你实际观测的结果就是这个正态分布的随机取样,这个 取样很可能受到其余因素的影响,而偏离你模型所预测的中心。
Precision Problem
那么,当我用这个仪器检测完一个人之后,结果呈阳性了! 他有多大的可能是真的吸毒呢?有多大的可能是被冤枉的呢?
贝叶斯告诉你:当检测结果呈阳性时,这 个人只有1/3的可能是吸毒的!大部分情 况都是被冤枉的!
精度
99% 的仪器
怪我喽?
那么问题出在哪里?——吸毒的人太少了!!!
Bayes Theory
例子1:单词纠错
看到用户输入了一个“thew”,字典里没有这个词。那 我们要猜测:他丫到底想输入什么单词!
我们要求这个概率:
P(我们猜测他想输入的单词 | 他实际输入的单词)
并找出那个使得这个概率最大的猜测单词。
猜测的词h1= the 猜测的词h2= they 猜测的词h3= thaw 猜测的词h4= them 猜测的词h5= then
同一参数反演解簇满足的概率分布
a
b
Bayes Inversion
通过概率分布的 情况,还反映参数的 取值范围。或者简单 地直接取该参数的期 望。
Bayes Inversion
贝叶斯思想,是指导我们重新认识什么样的解是最优的! (贝叶斯思想下的一系列方法,是指导我们怎么去寻找贝叶斯思想下的最优解 集!) 它不指定某一个具体的解,说“它就是最佳的”! 对于我们的反演问题来说,对于一个欠定的问题来说,最佳解本就不唯一。 那么贝叶斯提供给我们一个解簇! 它们在具有统一的概率统计规律。提供给我们相差无几的正演结果。 各个结果之间的区别,就是我们这个欠定问题中,所欠的成分造成的影响! 欠定的成分,可能是误差,可能是忽略的高阶项,也可能是未知的影响因素!
那么问题来了:对于高精度的地震仪器或其它高精度 的处理方法,对于指定目标,尤其是小概率的目标, 我们对于它的结果,能信多少?
HMM & MCMC
四:贝叶斯思想下的几种方法简介
哪些问题要用贝叶斯方法? 建立概率模型时,反问题对应的模型中,概率分布不好求,但
是正问题的概率好求。 哪些问题要用蒙特卡洛?
也就是说,就是有1%的概率测错!
精度这么高的仪器用起来到底怎么样呢?
我对一群自愿者进行检测,我提前已经知道了这群自愿者里有0.5%的人是吸毒的!
那我的仪器使用效果怎么样呢?
来算一下!
Precision Problem
令“D”为雇员吸毒事件,“N”为雇员不吸毒事件,“+”为检测呈阳性事件。可得: P(D)代表雇员吸毒的概率,不考虑其他情况,该值为0.005。这个值就是D的先验概率。 P(N)代表雇员不吸毒的概率,显然,该值为0.995,也就是 1-P(D)。 P(+|D)代表吸毒者被检测出来的概率,这是一个条件概率,由于阳性检测准确性是99%, 因此该值为0.99。 P(+|N)代表不吸毒者被误诊为吸毒的概率,也就是出错的概率,该值为0.01。 P(+)代表不考虑其他因素的影响的阳性检出率。 P(+) = 吸毒者被检出(0.5% x 99% = 0.495%)+ 不吸毒者被误检(99.5% x 1% = 0.995%)。 P(+)=0.0149 是检测呈阳性的先验概率。
Bayes Theory
醉了!
Occam’s Razor
奥卡姆剃刀精神
如果两个理论具有相似的解释力度,那么优先选择更简单的。
/wiki/Occam%27s_razor
“自然界选择最短的路径”
违反这个精神的情况——过配(Overfitting) 过分去寻求能够完美解释观测数据的模型,甚至连误差(噪音)都去解释。
频率学派最关心的是似然函数。更客观,更无偏。 贝叶斯学派最关心的则是后验分布。
Bayesian / Frequentist
区别二: 频率论对概率的解释是:一个事件在一段较长的时间内发生的频率; 贝叶斯理论对概率的解释是:人们对某事件是否发生的认可程度。
区别三: 贝叶斯论善于利用过去的知识和抽样数据,而频率论仅仅利用抽样数据。因
Hidden Markov Model
建立显式链与隐式链之间的概率模型,从而根据 观测到的显示链数据,反演出隐式链模型:
显式链 隐式链
运动1 |
天气1
运动2 |
天气2
运动3 |
天气3
…… ……
运动n |
天气n
显式链 隐式链
振幅1 |
阻抗1
振幅2 |
阻抗2
振幅3 |
阻抗3
…… ……
打球
跑步
隐
雨
晴
阴
性
Hidden Markov Model
可以观察到的状态序列和隐藏的 状态序列是概率相关的。于是我 们可以将这种类型的过程建模为 有一个隐藏的马尔科夫过程和一 个与这个隐藏马尔科夫过程概率 相关的并且可以观察到的状态集 合。
隐马尔可夫模型 (Hidden Markov Model) 是一种统计模型,用来描 述一个含有隐含未知参数的马尔 可夫过程。其难点是从可观察的 参数中确定该过程的隐含参数, 然后利用这些参数来作进一步的 分析。
此贝叶斯推论中前一次得到的后验概率分布可以作为后一次的先验概率。
区别四: 对置信区间的不同解释:频率论中95%置信区间解释为:100次抽样计算得
到的100个置信区间中有95个包含了总体参数,5个没有,而不能解释成在一次 抽样中有95%的可能性包含总体参数。
Sparse-Spike Inversion
…..
概率为P1 概率为P2 概率为P3 概率为P4 概率为P5
…..
Bayes Theory
于是: P(我们的猜测1 | 他实际输入的单词) 可以抽象地记为: P(h1 | D) 类似地,对于我们的猜测2,则是 P(h2 | D)。不妨统一记为: P(h | D) 运用一次贝叶斯公式,我们得到: P(h | D) = P(h) * P(D | h) / P(D) 对于不同的具体猜测 h1 h2 h3 .. ,P(D) 都是一样的,所以在比较 P(h1 | D) 和 P(h2 | D) 的时候我们可以忽略这个常数。
1.对初始猜测模型的波阻抗曲线进行方 形滤波.
3.将得到的合成记录与真实的记录相 比较.
2.用块化的波阻抗和已知的地震子波进 行褶积形成地震合成记录:
4.改变方波化波阻抗的振幅和厚度来提 高它与真实波阻抗的拟和程度:
重复上述步骤直到达到理想的结果.
Sparse-Spike Inversion
基于模型反演 只能根据初始猜测模型输入地震道. 能够得到与初始猜测模型最相近的模型, 同时与地震数据相符. 与只用地震数据相比, 基于模型反演能够得到高分辨率的结果. 存在非唯一性解. 反演结果取决于初始模型.
Bayes Theory
贝叶斯理论简介
拉普拉斯说: “概率论只不过是把常识用数学公式表达了出来.” 胡瑞卿
Outline
一、概率统计下的频率学派与贝叶斯学派 二、贝叶斯定理 三、实际中的一个问题 四、贝叶斯思想下的方法简介
Bayesian / Frequentist
区别一:
频率论先建立无效模型,然后计算在此无效模型的前提下得到从实际数据 中得来的参数的可能性,假如这个可能性很小,我们就认为无效模型不成 立,从而选择备择模型;