第二章主观概率和先验分布Subjective Probability and Prior Distribution本章主要参考文献:60,52,上帝怎样掷骰子§2-1 基本概念一、概率(probability)1. 频率f n(A)==N a/NP (A)==limf n(A)…古典概率的定义n2. Laplace在《概率的理论分析》(1812)中的定义P(A)==k/N式中,k为A所含基本事件数,N为基本事件总数适用条件 1.基本事件有限2.每个基本事件等可能3.公理化定义E是随机试验,S是E的样本空间,对E的每一事件A,对应有确定实数P(A),若满足:①非负性:0≤P(A)≤1②规范性:P(S)=1③可列可加性:对两两不相容事件A k (k=1,2…) (A i∩A j=φ)P(∪A k)=∑P(A k)则称P(A)为事件A发生的概率二、主观概率(subjective probability, likelihood)1. 为什么引入主观概率。
有的自然状态无法重复试验如:明天是否下雨新产品销路如何明年国民经济增长率如何能否考上博士生。
试验费用过于昂贵、代价过大例:洲导弹命中率战争中对敌方下一步行动的估计2.主观概率定义:合理的信念的测度某人对特定事件会发生的可能的度量。
即他相信(认为)事件将会发生的可能性大小的程度。
这种相信的程度是一种信念,是主观的,但又是根据经验、各方而后知识,对客观情况的了解进行分析、推理、综合判断而设定(Assignment)的,与主观臆测不同。
例:考博士生、掷硬币、抛图钉三、概率的数学定义对非空集Ω,元素ω,即Ω={ω},F是Ω的子集A所构成的σ-域(即Ω∈F;若A∈F则A∈F;若A i∈F i=1,2,…则∪A i∈F)若P(A)是定在F上的实值集函数,它满足①非负性P(A)≥0②规范性P(Ω)=1③可列可加性则称P(A)为直的(主以或客观)概率测度,简称概率ω为基本事件A为事件三元总体(Ω,F,P)称为概率空间注意:主观概率和客观概率(objective probability)有相同的定义四、主客观概率的比较(一) 基本属性:O:系统的固有的客观性质,在相同条件下重复试验时频经的极限S:概率是观察者而非系统的性质,是观察者对对系统处于某状态的信任程度(二)抛硬币:正面向上概率为1/2O:只要硬币均匀,抛法类似,次数足够多,正面向上的概率就是1/2,这是简单的定义。
S:这确是定义,DMer认为硬币是均匀的,正、反面出现的可能性(似然率)相同,1/2是个主观的量。
(三)下次抛硬币出现正面的概率是1/2O:这种说法不对,不重复试验就谈不上概率S:对DMer来说,下次出现正、反是等可能的。
但是他不是说硬币本身是公正的,它可能会有偏差,就他现有知识而言,没有理由预言一面出现的可能会大于另一面,但多次抛掷的观察结果可以改变他的信念。
O、S:下次抛硬币出现正面还是反面不能确定,但知道:要么是正面,要么是反面。
§2-2 先验分布(Prior distribution)及其设定在决策分析中,尚未通过试验收集状态信息时所具有的信息叫先验信息,由先验信息所确定的概率分布叫先验分布。
设定先验分布是Bayesean分析的需要.一、设定先验分布时的几点假设1.连通性(Connectivity),又称可比性即事件A和B发生的似然性likelihood是可以比较的:A >L B或A ~L B或B >L A 必有一种也仅有一种成立.** A >L B读作A 发生的似然性大于B 发生的似然性,A ~LB 读作A 发生的似然性与B 发生的似然性相当。
2.传递性(Transitivity)若对事件A,B,C , A >L B,B >L C 则A >L C3. 部分小于全体:若A B则B L A例:设定明年国民经济增长率时:①A:8~11% B:12~15% C:15~20%若A >L B,B >L C ,则A >L C②A:8~11% D:8~10% 必有D >L A二、离散型随机变量先验分布的设定1.对各事件加以比较确定相对似然率例1. 考博士生E:考取E:考不取若P(E)=2P(E) 则P(E)=2/3 P(E)=1/3例2。
某地气候状况:正常年景θ1,旱θ2,涝θ3正常与灾年之比:3∶ 2 则P(θ1)=0.6水旱灾之比1∶ 1 P(θ2)=P(θ3)=0.2该法适用于状态数较少的场合2.打赌法设 事件E 发生时收入P ,(0 <P <1) 且 E \c =(1—P)调整P ,使决策人感到两者无差异为止, 则:P(E)=P三、连续型RV 的先验分布的设定1.直方图法·该法适用于θ取值是实轴的的某个区间的情况·步骤:①,将区间划分子区间θi …离散化②设定每个子区间的似然率π(θi)…赋值③变换成概率密度曲线例如:明年国民经济的增长率0.050.10.150.22%3%4%5%6%7%8%9%10%11%12%13%14%15%·缺点:①子区间的划分没有标准②赋值不易③尾部误差过大2.相对似然率法·适用范围:同1步骤:①离散化②赋值:给出各区间似然的相对比值③规范化:例如:同1A. 相对似然率R 似然率π(A)子区间8~9% 10 10/ΣR7~8 9 9/ΣR9~10 7.5 7.5/ΣRB. 决策者给出每二个状态似然率的比例关系a ij = p i /p j (1)应有a ij = 1/a ji (2)a ij =a ik .a kj (3)在(3)式不满足时,可用最小二乘法估计决策人心目中真正的主观概率分布Pi i=1,…,n 即求规划问题min{∑∑(a ij p j - p i )}s.t. ∑p i = 1 , p i ≥0*用拉格朗日乘数法,构造拉格朗日函数L =()()ap p ij j n i n i i i n ===∑∑∑-+-112121λ上式对p i ,i=1,2…n 求偏导数,并令其为0,得:()()ap p a a p p il i n l i il lj j n j l ==∑∑---+=110λl=1,2,…,n.与 p i ∑=1 联列,构成n+1阶齐次方程组,求得P i, i=1,…,n3.区间对分法·适用范围:可以是开区间·步骤:①求中位②确定上、下四分位点(quartile fractile)③由于误差积累,最多确定八分位点(Eighth fractile)例:产品销售量(预计明年)·缺点:精度差4.与给定形式的分布函数相匹配这是最常用,且常常被滥用的方法·步骤:①选择一个与先验信息匹配得最好的函数如正态,泊松,β,e-Cauchy 分布等例:a)在单位时间以恒常的平均比率入出现,则在T 单位长度时间内该事件出现的次数服从Poisson 分布2-4b)若影响某一随机变量的因素很多而每一因素的作用均不显著,则该变量服从正态分布。
例如,测量误差,弹落点,人的生理特征的度量,农作物产量等均服从正态分布。
c)事件A 出现的概率为P ,n 次独立试验出现r 次A 的概率b(p,r,n)= C p p n r r n r ()1-- .即服从二项分布。
②参数估计:A.矩法:N(μ,σ) Be(α,β)·缺点:尾部估计不准,但对矩的影响却很大B.分位数:利用几个分位点和现成的概率密度函数分位数表,估计参数并检验。
5. 概率盘法(dart)用园盘中的扇形区表示抽奖事件, 透用于西方管理人员·注意:状态的概率或概率分布不是也不应富由决策分析人员来设定,而应当由决策人和有关问题专家提供基本信息。
理由:§2-3 无信息先验分布一、为什么要研究无信息先验·Bayesean法需要有先验分布,贝叶斯法的简明性使人在无信息时也想用它。
二、如何设定无信息先验分布1.位置参数随机变量X的概率密度函数形如f(x-θ)时θ∈称为位置参数其无信息先验π(θ)必为一常数2.标度参数X的密度函数为1/σf(x/σ)σ>称为标度密度σ称为标度参数其无信息先验π(σ)=1/σ§2.4 利用过去的数据设定先验分布一、有θ的统计数据为能获得θ的观察值θi i=1,…,n的数据,则可:①通过直方图勾划出先验分布②选取可能的函数形式作为先验分布,再定参数③求频率(离散RV)二、状态θ不能直接观察时若直接观察的只是与θi 有关的x i (通常都是如此)则要从x i 中获取θi 的先验信息很困难:x i 的分布是随边缘分布m(.)而定的:m(x)=f x d (|)()θπθθΘ⎰ 或m(x)=p x (|)()θπθΘ∑ X 、Θ的联合密度是h(x,θ)=f(x |θ)μ(θ) 由x i 估计m(x)不难,但即使f(x |θ)已知,由此估计μ(θ)就难得多。