基于多智能体深度自适应动态规划的优化控制方法与应用

基本信息
批准号:61803371
项目类别:青年科学基金项目
资助金额:27.00
负责人:张启超
学科分类:
依托单位:中国科学院自动化研究所
批准年份:2018
结题年份:2021
起止时间:2019-01-01 - 2021-12-31
项目状态: 已结题
项目参与者:夏中谱,陈亚冉,李栋,李浩然,王俊杰,李楠楠
关键词:
马氏决策过程最优控制最优自适应学习系统数据驱动控制自适应动态规划
结项摘要

As the expansion of modern control systems, the optimal control problem of the multi-agent system is becoming a new research hotspot, which puts forward new requirements for the design of the control system. For recent years, deep reinforcement learning/adaptive dynamic programming have made remarkable contribution in the field of optimal control for the individual agent and zero-sum game environment. As a typical method to deal with multi-agent systems in the simple environment, multi-agent reinforcement learning can be combined with deep adaptive dynamic programming effectively, which can provide solutions for the optimal control of multi-agent systems in complex game environments. Therefore, out project aims to study the key issues of multi-agent deep adaptive dynamic programming method. In theory and methodology, the experience replay will be improved to adapt the non-static environment of multi-agent systems. With the adaptive learning ability of multi-agent deep adaptive dynamic programming, the optimal control method for the nonzero-sum game with cooperation and competition and the cooperation game considering communication behaviors will be investigated, and theoretical analysis of system stability will be given. In experiment and application, mobile robot will be the main research objective of the proposed method. The simulation and real scenarios for the cooperative and operational task and car following task will be established. Then, validation experiments and comparative analysis for the proposed multi-agent deep adaptive dynamic programming will be given, which will lay the foundation of intelligent robot application.

随着现代控制系统规模的不断扩大,多个智能体间的优化控制问题逐渐成为新的研究热点,这也对控制系统的设计提出了新的要求。近年来深度强化学习/自适应动态规划在求解复杂未知环境的单个体优化控制和零和博弈问题方面做出了突出贡献。多智能体强化学习作为处理简单环境下博弈优化问题的典型方法,与深度自适应动态规划相结合,将为复杂博弈环境下的多智能体优化控制问题提供新的研究思路。本项目拟对多智能体深度自适应动态规划的关键问题进行研究,在理论方法方面,改进经验回放技术以适应多智能体非静态环境,借助多智能体深度自适应动态规划的自学习能力实现合作与竞争博弈下多智能体的协同对抗及合作博弈下考虑学习通信的协同优化方法,并对系统稳定性进行理论分析。在应用方面,以移动机器人为主要研究目标,建立多台移动机器人的协同作战与跟随行驶仿真及实际场景,对提出的多智能体深度自适应动态规划进行实验验证和对比分析,奠定智能机器人应用基础。

项目摘要

近年来深度强化学习/自适应动态规划领域快速发展,针对单智能体和多智能体环境均做出了突出贡献。本项目针对多智能体深度自适应动态规划的关键问题进行研究,首先在理论方法方面,针对多智能体斯塔克伯格博弈提出一种新的分层优化控制框架,保证闭环系统一致最终有界稳定的前提下该多智能体深度自适应动态规划算法可以近似获得斯塔克伯格博弈均衡。其次,针对合作与竞争博弈,提出了考虑内部奖赏的多智能体深度自适应动态规划算法QMIX-INTRI,在2V2的多机器人博弈对抗任务中对提出的算法进行实验验证和对比分析,相关工作获得国际会议2020 ICRA RoboMaster AI Challenge一等奖。此外,针对于机器人未知环境的自主探索,提出基于深度强化学习的探索策略,相关工作发布于国际顶级期刊IEEE TNNLS。进一步地,我们将相关方法扩展至自动驾驶的超车换道任务中,提出基于深度强化学习与规则约束结合、与虚拟样本结合的超车换道算法,发表多篇会议论文,并取得了国际会议2020 DAI SMARTS Competition竞赛第一名。总体而言,基于本项目参与人员共计发表论文14篇,包括6篇SCI论文和8篇EI论文,授权发明专利2项,获得了6项国内外比赛的奖项,培养研究生5名,顺利完成了项目目标和指标。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

基于分形L系统的水稻根系建模方法研究

基于分形L系统的水稻根系建模方法研究

DOI:10.13836/j.jjau.2020047
发表时间:2020
2

涡度相关技术及其在陆地生态系统通量研究中的应用

涡度相关技术及其在陆地生态系统通量研究中的应用

DOI:10.17521/cjpe.2019.0351
发表时间:2020
3

论大数据环境对情报学发展的影响

论大数据环境对情报学发展的影响

DOI:
发表时间:2017
4

DeoR家族转录因子PsrB调控黏质沙雷氏菌合成灵菌红素

DeoR家族转录因子PsrB调控黏质沙雷氏菌合成灵菌红素

DOI:10.3969/j.issn.1673-1689.2021.10.004
发表时间:2021
5

一种光、电驱动的生物炭/硬脂酸复合相变材料的制备及其性能

一种光、电驱动的生物炭/硬脂酸复合相变材料的制备及其性能

DOI:10.16085/j.issn.1000-6613.2022-0221
发表时间:2022

张启超的其他基金

相似国自然基金

1

深度自适应动态规划理论方法和应用

批准号:61573353
批准年份:2015
负责人:赵冬斌
学科分类:F0301
资助金额:66.00
项目类别:面上项目
2

基于自适应动态规划的多智能体系统分布式最优协同控制

批准号:61903199
批准年份:2019
负责人:张怀品
学科分类:F0301
资助金额:23.00
项目类别:青年科学基金项目
3

基于多参数规划的鲁棒自适应波束优化控制方法研究

批准号:60904035
批准年份:2009
负责人:刘福来
学科分类:F0301
资助金额:20.00
项目类别:青年科学基金项目
4

基于自适应动态规划的脉冲系统优化方法研究

批准号:61104006
批准年份:2011
负责人:王小华
学科分类:F0301
资助金额:24.00
项目类别:青年科学基金项目