当前位置:文档之家› 运筹学课件——第4讲 马尔可夫决策培训资料

运筹学课件——第4讲 马尔可夫决策培训资料


2020/8/10
例:人力资源预测
• 某高校1990年为编制师资发展规划,需要预测 为了教师队伍的结构。现在对教师状况进行如 下四个分类:青年,中年,老年和流退(流失 或退休)。根据历史资料以及调查分析,各类 教师按照一年一期的状态转移概率矩阵如下, 目前青年教师400人,中年教师360人,老年 教师300人。试分析3年后教师的结构以及为保 持编制不变,3年内应当多少硕士和博士毕业 生充实教师队伍?
p11
P
(
pi
)j n
Xn
p2 1 ... pn1
p12 ... p22 ... ... ... pn2 ...
p1n
p2n p..n.n
2020/8/10
多步状态转移概率 pij
• 一步状态转移概率:用 pij(1) 表示, pij(1) 即 pij ,表 示从状态 Si 经过一个时刻转移到状态 Sj 的概率,记 为:
0.6 0.1 0.3
0.5
0.25
0.25
0.5
0.25
0.25
正规概率矩阵
• 设 P 为马尔可夫链的一步状态转移概率矩阵,如果 存在自然数 k 使 Pk 的所有元素都是正数,则称 P 为正规概率矩阵。
• 正规概率矩阵的例子 • 正规概率矩阵的判断方法:看任意两状态之间是否
可以相互连通(彼此到达),若是,则为正规概率 矩阵,若否,则不是正规概率矩阵。
• P(k)=P · P · …· P= Pk
2020/8/10
例:通过 P ( 1 )计算 P ( 3 )
• 已知一步状态转移概率矩阵 P ( 1 )= P ,计算三步状态转移概率矩阵P ( 3 )=?
2020/8/10
固定概率向量 u
• 设 P 为马尔可夫( Markov )链的一步状态转移概率 矩阵,如果存在概率向量 u=( u1 , u2 ,…, un) 满足 于
2020/8/10
例:项目选址问题
• 某汽车维修公司有甲、乙、丙3个维修厂。由于公 司注重对员工的技术培训,树立顾客至上,信誉第
一的理念,管理模式先进,所以公司在本行业具有
良好的形象,形成了一定规模的客户群。对客户的 调查显示,客户在甲、乙、丙3个维修厂之间的转 移概率如下,由于资金的原因, 公司目前打算
引例:牛奶厂决策
• 最佳经营策略选择:

北京地区鲜牛奶由三个厂家提供,该地
区客户总数为 100 万户,假定厂家每年从每个
客户那里平均获利 50 元,客户资源每月都在三
个厂家之间相互流动,厂家 2 考虑从以下两套
候选方案之中选择一个实施:
• 方案一:吸引老客户,须花费 450 万元;
• 方案二:吸引厂家 1 和厂家 3 的客户,须花 费 400 万元。
• 您有什么好的建议来帮助厂家 2 决策?
2020/8/10
市场调查数据

今年一月份厂家 2 对 2000 名消费者进行了调
查,购买厂家 1 , 2 , 3 产品的消费者人数分别
为 800 , 600 和 600 ,得到市场占有率向量(概
率向量)为( 0.4 , 0.3 , 0.3 );

同时通过询问这 2000 名消费者下月的购买
来)的状态只与 t 时刻(现在)的状态有关而与 t 时刻 之前(过去)的状态无关,即 P{ Xk+1= Sik+1/ X1=Sik1 , X2=Sik2 ,… ,Xk=Sik}
=P{ Xk+1= Sik+1/Xk=Sik}
• 马尔可夫( Markov )链:具备无后效性的时间序列 。
2020/8/10
2020/8/10
马尔可夫链基本定理
• 定理:设 P 为马尔可夫链的一步状态转移概率矩 阵,如果 P 为正规概率矩阵,则存在唯一的由正 数组成的固定概率向量(均衡点) u ,并且对于 任意的初始概率向量 u0 ,向量序列:

u0 P , u0 P2 ,…, u0 Pk 以 u 为极
限,
• 即当 k→ ∞时,有 lim u0 Pk =u
相应的 k 步状态转移概率矩阵记为 P ( k )。
P(k) 与 P ( 1 )之间的关系如何?
2020/8/10
例:三品牌洗衣粉下月 购买意愿调查
A B C 调查总数
A
40 30 30
100
B
60 30 60
150
C
60 30 30
120
• 求( 1 )一步状态转移概率矩阵 P ( 1 )=?

倾向,得到如下1 转移频2数矩源自:3•320 240 240 1
N 360 180 60 2
360 60 180 3
2020/8/10
状态转移概率矩阵 P
• 从转移频数矩阵到状态转移概率矩阵 P :

用各行总数分别去除转移频数矩阵 N 的每行
各元素,得到状态转移概率矩阵 P 如下:
320 240 240 /800

u=0.25 , u1=0.44 , u2=0.42 ,
• 因此,如果采用方案一可获利:

100 Х (0.44- 0.25) Х 50 – 450=500 (万元)

如果采用方案二可获利:

100 Х (0.42- 0.25) Х 50 – 400=450 (万元)
结论:选择方案一,即吸引老客户的方案为佳。
( 2 )购买 C 品牌的顾客在未来第 2 个月购买
各品牌的概率?

( 3 )二步状态转移概率矩阵 P ( 2 )=?
• 您发现P(K)的一般规律了吗?
2020/8/10
规律:P(K)=Pk
• 定理: k 步状态转移概率矩阵 P ( k )等于一步状态转移概率矩阵 P ( 1 )= P 的k 次幂, 即
uP =u 则称 u 为 P 的固定概率向量或者均衡点 • 示例: u 为 P 的固定概率向量 • 引例中均衡状态时的市场占有率就是 P 的固定 概率向量(均衡点) u 。 • 均衡点是否一定存在,是否唯一?
2020/8/10
牛奶厂例:市场占有率变动 表及均衡状态
月份 k
0 1 2 3 4 5 6 7
• pij=pij(1)=P ( Xt+1= Sj/Xt= Si ),
相应的一步状态转移概率矩阵记为 P ( 1 )= P 。 • k 步状态转移概率:用 pij(k) 表示,表示从状态 Si 经
过 k 个时刻转移到状态 Sj 的概率,记为:
• pij(k)=P ( Xt+ k=Sj/Xt= Si ),
2020/8/10
马尔可夫( Markov )链
• 随机过程:不确定变化的随机变量序列 • 时间序列:{X1 , X2 ,…, Xt, …} ,指与时间相关
的离散随机变量序列 • 状态集合: S={S1 , S2 ,…, Sn} ,一般表示为
Xt= Si • 无后效性(马尔可夫性):时间序列在 t+1 时刻(将
• 均衡点举例
2020/8/10
均衡点 u 的求法
• 设概率向量 u 为状态转移矩阵 P 的均衡点,有:
uP =u 即 u ( P- I) =0 ,其中I为单位矩阵
等式两边取转置,得到:
( PT - I) uT =0
• 方法:联立求解以下线性方程组
( PT - I) uT =0
u1+u2+ … + un =1
2020/8/10
三个厂家的市场占有率
u1
u2
u3
0.4
0.3
0.3
0.52 0.496
0.24 0.252
0.24 0.252
0.4 0.3 0.3
0.5008 0.2496 0.2496 P 0.6 0.3 0.1
0.49984 0.25008 0.25008 0.500032 0.249984 0.249984
只对其中的一个 维修厂
进行改造,并且扩大 规 模。试决定应该
0.8 0.2
0
选择哪个维修厂? 0.2 0 0.8
0.2 0.2 0.6
2020/8/10
作业
• 作业本:习题1.6 • 预习:层次分析方法决策
2020/8/10
谢谢! 再 见!
2020/8/10
状态转移概率矩阵 P
• 状态转移概率: pij 表示从状态 Si 转移到状态 Sj 的概 率,记: pij= P ( Sj/ Si ) =P ( Xk+1=Sj/Xk= Si ) , 简称为从状态 i 到状态 j 的转移概率。
• 状态转移概率矩阵:由状态转移概率 pij ( i , j=1,2 ,…,n )构成的 n 阶方阵 P
N 360 180 60 /600
360 60 180 /600
0.4 0.3 0.3 P 0.6 0.3 0.1
0.6 0.1 0.3
2020/8/10
厂家 2 的方案选择
• 有了均衡状态时的市场占有率 u , u1 和 u2 ,厂家 2 就能够方便地进行分别方案选择,根据前面的数据, 我们知道:
相关主题