当前位置：文档之家› 决策理论与方法教学作者罗党第四章(2)

决策理论与方法教学作者罗党第四章(2)

8
… X2=1
9
a1
a2
（略）
a1
3 a2
A2
A3
6
7
… 决策A理4 论与方法教(2学) 作者罗党第四章
该问题的费用矩阵为：相应的损失矩阵为
先进行第一次抽样的后验概率计算
PPT文档演模板
决策理论与方法教学作者罗党第四章 (2)
PPT文档演模板
决策理论与方法教学作者罗党第四章 (2)
【例8.2】
序列决策在进行决策后又产生一些新的情况，需要进行新的决策，接着又有一些新的情况，又需要进行新的决策。这样决策、情况、决策……，这就构成一个序列。
PPT文档演模板
决策理论与方法教学作者罗党第四章 (2)
4.3 序贯决策
4.3.1 序贯决策的基本概念
序贯决策是用于随机性或不确态定性动态系统最优化的决策方法。它的特点是：
§试进行序列决策：
（1）是否需要抽样？（若需要，抽样几次？）
（2）在抽样或不抽样的前提下，采用何种方案进行检验？
PPT文档演模板
决策理论与方法教学作者罗党第四章 (2)
【例8.2】
解： θ1，θ2，θ3分别表示产品次品率为 0.01 ，0.4， 0.9三种状态。对于抽样检验一件产品，X=1和X=0分别表示样品为次品和合格品两个结果。结果值均用期望损失值表示。
2）系统下一步可能出现的状态的概率分布不知道，只能用主观概率的条件分布来描述。用于这类系统的序贯决策属于决策分析的内容。
PPT文档演模板
决策理论与方法教学作者罗党第四章 (2)
4.3 序贯决策
4.3.2 序贯决策的决策方法
序贯决策的过程是：从初始状态开始，每个时刻做出最优决策后，接着观察下一步实际出现的状态，即收集新的信息，然后再做出新的最优决策，反复进行直至最后。
PPT文档演模板
决策理论与方法教学作者罗党第四章 (2)
4.3 序贯决策
§为了更好地做出决定可以先从一箱中随机抽取1件作为样本检验它，然后根据这件产品是都次品再决定该箱是否要检验，抽样成本为4.2元。进行第一次抽样后，除选择检验还是不检验外，还可以根据前面抽样的结果，考虑再进行一次抽样检验如此形成一个决策序列。
a1
19.5
19.5 若为正品，则无须检验整箱产品；
若a为2 次品，则整箱检验。 25
0.6 0
0.2
0.2
0
0
0.6 0
0.2
125
A PPT文1 档演模板
A2
S1
A3
序列决策树图不能够一次绘制成功，而是随着决策过程序列的延伸和终止依次进行。为了简化图形，行动方案al和a2可能出现的状态及其对应的损失值均在图中略去，仅在方案枝末端标注上期望损失值。
PPT文档演模板
决策理论与方法教学作者罗党第四章 (2)
１
A PPT文1 档演模板
X1=0
4
2
X1=1
5
… X2=0
PPT文档演模板
决策理论与方法教学作者罗党第四章 (2)
本讲内容
4.3序贯决策
4.3.1序贯决策的基本概念 4.3.2序贯决策的决策方法
PPT文档演模板
决策理论与方法教学作者罗党第四章 (2)
4.3 序贯决策
4.3.1 序贯决策的基本概念
上面的多阶段决策，阶段数是确定的。除这种决策外，还有一些决策的阶段数不是事先确定的，它依赖于执行决策过程中出现的情况。这种决策问题称为序贯决策（sequential decision problem）。
决策理论与方法教学作者罗党第四章(2)
PPT文档演模板
2020/11/10
决策理论与方法教学作者罗党第四章 (2)•第四Biblioteka 动态决策分析PPT文档演模板
决策理论与方法教学作者罗党第四章 (2)
学习目的
§ 了解多阶段决策、序贯决策的概念及特点； § 掌握动态规划与决策树方法及其在多阶段决策、
序贯决策中的应用。
PPT文档演模板
决策理论与方法教学作者罗党第四章 (2)
4.3 序贯决策
4.3.1 序贯决策的基本概念
系统在每次作出决策后下一步可能出现的状态是不能确切预知的，存在两种情况：
1）系统下一步可能出现的状态的概率分布是已知的，可用客观概率的条件分布来描述。对于这类系统的序贯决策研究得较完满的是状态转移律具有无后效性的系统，相应的序贯决策称为马尔可夫决策过程，它是将马尔可夫过程理论与决定性动态规划相结合的产物。
解决序贯决策问题的有效办法仍然是决策树，解决序贯决策的关键是确定一个决策序列终止的原则。在下例中，这个原则就是：不管到决策的哪个阶段，只要有一个非经抽样的后悔期望值小于进行一次抽样的费用，决策序列便可终止。
PPT文档演模板
决策理论与方法教学作者罗党第四章 (2)
4.3 序贯决策
4.3.2 序贯决策的决策方法
第一次抽样的后验概率矩阵为
PPT文档演模板
决策理论与方法教学作者罗党第四章 (2)
后验行动方案的期望损失值矩阵为
PPT文档演模板
一次抽样后最满意方案分别为：
决策理论与方法教学作者罗党第四章 (2)
0.3426
97.5
a1
33.40
0.6228
0
0.0346
0
0.578
4.325
0.3426 0
a2
4.325
0.5687 0
0.4265
125
0.0047
97.5
2.69
0.4582 a1
0.5687 0
0.4265
0.4582 0.422
a2
0 0.0047
0
6.89
53.31
0.5687 0
0.4265
最满意方案是，应抽取一件产品作样0品.2 检验125。 97.5
期望损失值(包含抽样费用)
例4-3-1 某工厂的产品每1000件装成一箱出售。每箱中产品的次品率有0.01，0.40，0.90三种可能，其概率分别为0.2，0.6，0.2。现在的问题是：出厂前是否要对产品进行严格检验，将次品挑出。可以选择的行动有两个：① 整箱检验(a1) ，检验费为每箱100 元；②整箱不检验(a２) ，但如果顾客在使用中发现次品，每件次品除条换为合格品外还要赔偿0.25元损失费。
1）所研究的系统是动态的，即系统所处的状态与时间有关，可周期（或连续）地对它观察；
2）决策是序贯地进行的，即每个时刻根据所观察到的状态和以前状态的记录，从一组可行方案中选用一个最优方案（即作最优决策），使取决于状态的某个目标函数取最优值（极大或极小值）；
3）系统下一步(或未来)可能出现的状态是随机的或不确定的。

e商务文档

决策理论与方法教学作者罗党第四章(2)

相关文档推荐：