风险灵敏的连续时间马氏决策过程

基本信息
批准号:61773411
项目类别:面上项目
资助金额:67.00
负责人:郭先平
学科分类:
依托单位:中山大学
批准年份:2017
结题年份:2021
起止时间:2018-01-01 - 2021-12-31
项目状态: 已结题
项目参与者:黄永辉,张俊玉,李炜,廖仲威,孙中洋,卢相刚,霍海峰,郭圳滨,刘竹青
关键词:
考虑性能优化的控制策略马氏决策过程约束马氏决策过程随机优化
结项摘要

This proposal initiates a comprehensive research program into the constrained and unconstrained optimal control problems for risk-sensitive continuous-time Markov decision processes (MDP) with unbounded transition rates and history-dependent policies as well as general spaces. The motivation of this project stems from the following facts: 1) The models of continuous-time MDP of many real-world situations such as population processes and queueing systems have unbounded transition rates and Borel spaces; 2) different decision-makers may have different risk preferences towards the given performance; 3) any decision-making may be influenced by the action histories and limited by the resources of the decision-maker. Basing on these facts, in the proposal we attend to accomplish the following technical objectives: Given any one of the risk-sensitive finite-horizon criterion, the first passage risk-sensitive discount criterion, and the risk-sensitive average criterion for the continuous-time MDP, we aim to give reasonable conditions for the existence of optimal policies and efficient algorithms for computing optimal control policies for the corresponding constrained or unconstrained optimal control problems. These research is the real improvements of the existing works from the bounded transition rates and Markov policies to the case of unbouneded transition rates and history-dependent policies, and the research on the constrained risk-sensitive continuous-time MDP is the first time.

本项目致力于研究策略依赖历史、转移速率无界、状态空间不必可数的连续时间马氏决策过程(MDP)的风险灵敏最优控制问题。项目的提出源于下列事实:1)已有风险灵敏连续时间MDP的研究均局限在转移速率有界和状态空间可数,而许多连续时间MDP(如,人口过程、 空间排队系统)的转移速率是无界的且和状态空间连续;2)不同决策者对收益风险的厌恶态度不全相同;3)决策者在制定策略时不仅会受决策历史的影响而且还会受成本的约束,而已有工作均局限在马氏策略和无约束情形。本项目将对连续时间MDP风险灵敏有限阶段准则、风险灵敏折扣准则、及风险灵敏平均准则,在策略可依赖历史且随机的策略类中,给出这三个准则受约束或无约束时相应最优策略的存在性条件、计算方法、及其应用。本项目不仅是将已有风险灵敏连续时间MDP的研究向转移速率可以无界且策略可依赖历史等方面的深入拓展,而且对受约束风险灵敏连续时间MDP的研究还是首次。

项目摘要

本项目致力于风险灵敏的连续时间马氏决策过程(英文缩写为CTMDP)的研究,对风险灵敏连续时间马氏决策过程的折扣模型、有限阶段模型、平均模型,以及约束最优控制问题的最优性条件及其算法研究中,取得系列重要进展, 将已有的局限于马氏策略类和有界CTMDP的相关主要结果成功拓展到“无界且策略依赖历史”的更广泛的一般情形。简单地说,首次研究转移率和报酬(费用)均无界的CTMDP,建立了新的应用更广泛的非马氏情形下的Dynkin-公式,在历史依赖的策略类中证明了有限阶段风险灵敏最优策略的存在性。首次研究转移率与报酬率均无界的CTMDP折扣模型,发现了无界CTMDP最优方程的解不再满足已有文献中的一致收敛性条件,并提出了新的更合理的条件。在新的条件下,我们不仅证明的最优方程解的存在性,而且利用新条件的特征与新建的Dynkin-公式,在历史依赖的策略类中证明了折扣最优策略的存在性,并进一步用例子阐明我们所得结果的优越性。在风险灵敏CTMDP平均模型的研究,我们导出了风险灵敏有限阶段CTMDP的乘积动态规划原理,建立了风险灵敏平均最优方程解的存在性和唯一性,解决了M.K. Gosh & S. Saha (Stochastics,vol.86, 655-675,2014) 提出的“unsolved” 问题,进而给出了风险灵敏最优策略的逼近算法及其收敛性证明,还用数值例子展示我们算法的有效性。另外,还探索了多目标约束的风险灵敏的半马氏决策过程的有限阶段模型,证明了约束风险灵敏最优策略的存在性,发现了约束风险灵敏最优策略的线性规划算法。所得部分主要结果已在在控制论和应用数学领域的SIAM J. Control Optim., Trans. Automat. Control,Math. Oper. Res.,Adv. Appl. Probab., J. Appl. Probab., J. Optim. Theory Appl.等国际著名杂志上发表,并得到同行专家的好评和肯定。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

DeoR家族转录因子PsrB调控黏质沙雷氏菌合成灵菌红素

DeoR家族转录因子PsrB调控黏质沙雷氏菌合成灵菌红素

DOI:10.3969/j.issn.1673-1689.2021.10.004
发表时间:2021
2

正交异性钢桥面板纵肋-面板疲劳开裂的CFRP加固研究

正交异性钢桥面板纵肋-面板疲劳开裂的CFRP加固研究

DOI:10.19713/j.cnki.43-1423/u.t20201185
发表时间:2021
3

黄河流域水资源利用时空演变特征及驱动要素

黄河流域水资源利用时空演变特征及驱动要素

DOI:10.18402/resci.2020.12.01
发表时间:2020
4

特斯拉涡轮机运行性能研究综述

特斯拉涡轮机运行性能研究综述

DOI:10.16507/j.issn.1006-6055.2021.09.006
发表时间:2021
5

2016年夏秋季南极布兰斯菲尔德海峡威氏棘冰鱼脂肪酸组成及其食性指示研究

2016年夏秋季南极布兰斯菲尔德海峡威氏棘冰鱼脂肪酸组成及其食性指示研究

DOI:10.13679/j.jdyj.20190001
发表时间:2020

郭先平的其他基金

批准号:61374067
批准年份:2013
资助金额:82.00
项目类别:面上项目
批准号:60574002
批准年份:2005
资助金额:23.00
项目类别:面上项目
批准号:60874004
批准年份:2008
资助金额:30.00
项目类别:面上项目
批准号:10271120
批准年份:2002
资助金额:20.00
项目类别:面上项目
批准号:19901038
批准年份:1999
资助金额:5.00
项目类别:青年科学基金项目

相似国自然基金

1

连续时间马氏决策过程受约束问题的研究

批准号:11526092
批准年份:2015
负责人:魏清达
学科分类:A0405
资助金额:3.00
项目类别:数学天元基金项目
2

连续时间马氏决策过程均值-方差优化问题的研究

批准号:11201182
批准年份:2012
负责人:叶柳儿
学科分类:A0209
资助金额:22.00
项目类别:青年科学基金项目
3

连续时间马氏过程的指数非常返性

批准号:11501576
批准年份:2015
负责人:宋延红
学科分类:A0209
资助金额:18.00
项目类别:青年科学基金项目
4

连续时间马氏决策过程的最优停止、受约束平均最优以及有限状态逼近问题

批准号:11801080
批准年份:2018
负责人:张文钊
学科分类:A0209
资助金额:22.00
项目类别:青年科学基金项目