风险灵敏的连续时间马氏决策过程

基本信息

批准号：61773411

项目类别：面上项目

资助金额：67.00

负责人：郭先平

学科分类：

依托单位：中山大学

批准年份：2017

结题年份：2021

起止时间：2018-01-01 - 2021-12-31

项目状态：已结题

项目参与者：黄永辉,张俊玉,李炜,廖仲威,孙中洋,卢相刚,霍海峰,郭圳滨,刘竹青

关键词：

考虑性能优化的控制策略马氏决策过程约束马氏决策过程随机优化

结项摘要

This proposal initiates a comprehensive research program into the constrained and unconstrained optimal control problems for risk-sensitive continuous-time Markov decision processes (MDP) with unbounded transition rates and history-dependent policies as well as general spaces. The motivation of this project stems from the following facts: 1) The models of continuous-time MDP of many real-world situations such as population processes and queueing systems have unbounded transition rates and Borel spaces; 2) different decision-makers may have different risk preferences towards the given performance; 3) any decision-making may be influenced by the action histories and limited by the resources of the decision-maker. Basing on these facts, in the proposal we attend to accomplish the following technical objectives: Given any one of the risk-sensitive finite-horizon criterion, the first passage risk-sensitive discount criterion, and the risk-sensitive average criterion for the continuous-time MDP, we aim to give reasonable conditions for the existence of optimal policies and efficient algorithms for computing optimal control policies for the corresponding constrained or unconstrained optimal control problems. These research is the real improvements of the existing works from the bounded transition rates and Markov policies to the case of unbouneded transition rates and history-dependent policies， and the research on the constrained risk-sensitive continuous-time MDP is the first time.

本项目致力于研究策略依赖历史、转移速率无界、状态空间不必可数的连续时间马氏决策过程（MDP）的风险灵敏最优控制问题。项目的提出源于下列事实：1）已有风险灵敏连续时间MDP的研究均局限在转移速率有界和状态空间可数，而许多连续时间MDP(如，人口过程、空间排队系统）的转移速率是无界的且和状态空间连续；2）不同决策者对收益风险的厌恶态度不全相同；3）决策者在制定策略时不仅会受决策历史的影响而且还会受成本的约束，而已有工作均局限在马氏策略和无约束情形。本项目将对连续时间MDP风险灵敏有限阶段准则、风险灵敏折扣准则、及风险灵敏平均准则，在策略可依赖历史且随机的策略类中，给出这三个准则受约束或无约束时相应最优策略的存在性条件、计算方法、及其应用。本项目不仅是将已有风险灵敏连续时间MDP的研究向转移速率可以无界且策略可依赖历史等方面的深入拓展，而且对受约束风险灵敏连续时间MDP的研究还是首次。

项目摘要

本项目致力于风险灵敏的连续时间马氏决策过程（英文缩写为CTMDP）的研究，对风险灵敏连续时间马氏决策过程的折扣模型、有限阶段模型、平均模型，以及约束最优控制问题的最优性条件及其算法研究中，取得系列重要进展，将已有的局限于马氏策略类和有界CTMDP的相关主要结果成功拓展到“无界且策略依赖历史”的更广泛的一般情形。简单地说，首次研究转移率和报酬（费用）均无界的CTMDP，建立了新的应用更广泛的非马氏情形下的Dynkin-公式，在历史依赖的策略类中证明了有限阶段风险灵敏最优策略的存在性。首次研究转移率与报酬率均无界的CTMDP折扣模型，发现了无界CTMDP最优方程的解不再满足已有文献中的一致收敛性条件，并提出了新的更合理的条件。在新的条件下，我们不仅证明的最优方程解的存在性，而且利用新条件的特征与新建的Dynkin-公式，在历史依赖的策略类中证明了折扣最优策略的存在性，并进一步用例子阐明我们所得结果的优越性。在风险灵敏CTMDP平均模型的研究，我们导出了风险灵敏有限阶段CTMDP的乘积动态规划原理，建立了风险灵敏平均最优方程解的存在性和唯一性，解决了M.K. Gosh & S. Saha (Stochastics，vol.86, 655-675，2014) 提出的“unsolved” 问题，进而给出了风险灵敏最优策略的逼近算法及其收敛性证明，还用数值例子展示我们算法的有效性。另外，还探索了多目标约束的风险灵敏的半马氏决策过程的有限阶段模型，证明了约束风险灵敏最优策略的存在性，发现了约束风险灵敏最优策略的线性规划算法。所得部分主要结果已在在控制论和应用数学领域的SIAM J. Control Optim., Trans. Automat. Control，Math. Oper. Res.，Adv. Appl. Probab., J. Appl. Probab., J. Optim. Theory Appl.等国际著名杂志上发表，并得到同行专家的好评和肯定。

项目成果

DOI：{{i.doi}}

发表时间：{{i.publish_year}}

暂无此项成果

数据更新时间：2023-05-31

其他相关文献

DOI：10.13334/j.0258-8013.pcsee.190276

发表时间：2020

DOI：10.1051/jnwpu/20213920292

发表时间：2021

DOI：10.13197/j.eeev.2019.05.95.fuwq.009

发表时间：2019

DOI：

发表时间：2021

DOI：10.7641/CTA.2018.70969

发表时间：2018

郭先平的其他基金

批准号：61374067

批准年份：2013

资助金额：82.00

项目类别：面上项目

批准号：60574002

批准年份：2005

资助金额：23.00

项目类别：面上项目

批准号：60874004

批准年份：2008

资助金额：30.00

项目类别：面上项目

批准号：10271120

批准年份：2002

资助金额：20.00

项目类别：面上项目

批准号：19901038

批准年份：1999

资助金额：5.00

项目类别：青年科学基金项目

相似国自然基金

连续时间马氏决策过程受约束问题的研究

批准号：11526092

批准年份：2015

负责人：魏清达

学科分类：A0405

资助金额：3.00

项目类别：数学天元基金项目

连续时间马氏决策过程均值-方差优化问题的研究

批准号：11201182

批准年份：2012

负责人：叶柳儿

学科分类：A0209

资助金额：22.00

项目类别：青年科学基金项目

连续时间马氏过程的指数非常返性

批准号：11501576

批准年份：2015

负责人：宋延红

学科分类：A0209

资助金额：18.00

项目类别：青年科学基金项目

连续时间马氏决策过程的最优停止、受约束平均最优以及有限状态逼近问题

批准号：11801080

批准年份：2018

负责人：张文钊

学科分类：A0209

资助金额：22.00

项目类别：青年科学基金项目

风险灵敏的连续时间马氏决策过程

{{i.achievement_title}}

暂无此项成果

其他相关文献

多能耦合三相不平衡主动配电网与输电网交互随机模糊潮流方法

一种基于多层设计空间缩减策略的近似高维优化方法

基于被动变阻尼装置高层结构风振控制效果对比分析

药食兼用真菌蛹虫草的液体发酵培养条件优化

具有随机多跳时变时延的多航天器协同编队姿态一致性

郭先平的其他基金

终止时间随机且折扣因子不确定的Markov控制过程

排队系统的最优控制及其应用的研究

随机动态系统高级最优控制的研究

一般状态连续时间马氏过程最优控制的研究

马氏决策过程的理论与应用

相似国自然基金