This proposal initiates a comprehensive research program into the constrained and unconstrained optimal control problems for risk-sensitive continuous-time Markov decision processes (MDP) with unbounded transition rates and history-dependent policies as well as general spaces. The motivation of this project stems from the following facts: 1) The models of continuous-time MDP of many real-world situations such as population processes and queueing systems have unbounded transition rates and Borel spaces; 2) different decision-makers may have different risk preferences towards the given performance; 3) any decision-making may be influenced by the action histories and limited by the resources of the decision-maker. Basing on these facts, in the proposal we attend to accomplish the following technical objectives: Given any one of the risk-sensitive finite-horizon criterion, the first passage risk-sensitive discount criterion, and the risk-sensitive average criterion for the continuous-time MDP, we aim to give reasonable conditions for the existence of optimal policies and efficient algorithms for computing optimal control policies for the corresponding constrained or unconstrained optimal control problems. These research is the real improvements of the existing works from the bounded transition rates and Markov policies to the case of unbouneded transition rates and history-dependent policies, and the research on the constrained risk-sensitive continuous-time MDP is the first time.
本项目致力于研究策略依赖历史、转移速率无界、状态空间不必可数的连续时间马氏决策过程(MDP)的风险灵敏最优控制问题。项目的提出源于下列事实:1)已有风险灵敏连续时间MDP的研究均局限在转移速率有界和状态空间可数,而许多连续时间MDP(如,人口过程、 空间排队系统)的转移速率是无界的且和状态空间连续;2)不同决策者对收益风险的厌恶态度不全相同;3)决策者在制定策略时不仅会受决策历史的影响而且还会受成本的约束,而已有工作均局限在马氏策略和无约束情形。本项目将对连续时间MDP风险灵敏有限阶段准则、风险灵敏折扣准则、及风险灵敏平均准则,在策略可依赖历史且随机的策略类中,给出这三个准则受约束或无约束时相应最优策略的存在性条件、计算方法、及其应用。本项目不仅是将已有风险灵敏连续时间MDP的研究向转移速率可以无界且策略可依赖历史等方面的深入拓展,而且对受约束风险灵敏连续时间MDP的研究还是首次。
本项目致力于风险灵敏的连续时间马氏决策过程(英文缩写为CTMDP)的研究,对风险灵敏连续时间马氏决策过程的折扣模型、有限阶段模型、平均模型,以及约束最优控制问题的最优性条件及其算法研究中,取得系列重要进展, 将已有的局限于马氏策略类和有界CTMDP的相关主要结果成功拓展到“无界且策略依赖历史”的更广泛的一般情形。简单地说,首次研究转移率和报酬(费用)均无界的CTMDP,建立了新的应用更广泛的非马氏情形下的Dynkin-公式,在历史依赖的策略类中证明了有限阶段风险灵敏最优策略的存在性。首次研究转移率与报酬率均无界的CTMDP折扣模型,发现了无界CTMDP最优方程的解不再满足已有文献中的一致收敛性条件,并提出了新的更合理的条件。在新的条件下,我们不仅证明的最优方程解的存在性,而且利用新条件的特征与新建的Dynkin-公式,在历史依赖的策略类中证明了折扣最优策略的存在性,并进一步用例子阐明我们所得结果的优越性。在风险灵敏CTMDP平均模型的研究,我们导出了风险灵敏有限阶段CTMDP的乘积动态规划原理,建立了风险灵敏平均最优方程解的存在性和唯一性,解决了M.K. Gosh & S. Saha (Stochastics,vol.86, 655-675,2014) 提出的“unsolved” 问题,进而给出了风险灵敏最优策略的逼近算法及其收敛性证明,还用数值例子展示我们算法的有效性。另外,还探索了多目标约束的风险灵敏的半马氏决策过程的有限阶段模型,证明了约束风险灵敏最优策略的存在性,发现了约束风险灵敏最优策略的线性规划算法。所得部分主要结果已在在控制论和应用数学领域的SIAM J. Control Optim., Trans. Automat. Control,Math. Oper. Res.,Adv. Appl. Probab., J. Appl. Probab., J. Optim. Theory Appl.等国际著名杂志上发表,并得到同行专家的好评和肯定。
{{i.achievement_title}}
数据更新时间:2023-05-31
DeoR家族转录因子PsrB调控黏质沙雷氏菌合成灵菌红素
正交异性钢桥面板纵肋-面板疲劳开裂的CFRP加固研究
黄河流域水资源利用时空演变特征及驱动要素
特斯拉涡轮机运行性能研究综述
2016年夏秋季南极布兰斯菲尔德海峡威氏棘冰鱼脂肪酸组成及其食性指示研究
连续时间马氏决策过程受约束问题的研究
连续时间马氏决策过程均值-方差优化问题的研究
连续时间马氏过程的指数非常返性
连续时间马氏决策过程的最优停止、受约束平均最优以及有限状态逼近问题