本项目成果:在研究对象模型方面,概括了随机最优控制与马氏最优决策过程的三种应用上最重要、最普遍的模型即折扣指标、时间平均指标、最大最小指标模型。在理论与方法方面,提出了建立在严密理论基础上的处理连续状态与控制空间的离散化处理方法,使之可应用Q-学习进行自学习控制,提出了建立在严密理论基础上的强化强化学习中的状态集结法,一定程度上克服大系统自学习控制的维数灾困难,提出了强化学习与神经网络结合的新方法以提高其效能;提出了改进的Q-学习,R-学习与H-学习方法。在应用方面,通过仿真实验验证了所发展的新方法在机器人路径规划、生物工程、库存控制等宽广领域内的应用效益。对其中若干应用上重要的方法,开发了专用软件。
{{i.achievement_title}}
数据更新时间:2023-05-31
基于分形L系统的水稻根系建模方法研究
涡度相关技术及其在陆地生态系统通量研究中的应用
拥堵路网交通流均衡分配模型
内点最大化与冗余点控制的小型无人机遥感图像配准
卫生系统韧性研究概况及其展望
基于自适应动态规划的多智能体系统分布式最优协同控制
自学习高智能系统
基于脑机接口的智能控制系统研究
用规划生成系统进行智能控制