Inspired by the mechanisms of human cognition development and learning, we propose a novel developmental robot learning architecture under human supervision, which integrates task planning in the symbolic layer and sensory-motor learning in the sub-symbolic layer. By comparing how humans and robots perceive and act, we formalize the human-robot mutually understandable cognition and behavior models, and we represent the causal affordances between humans, robots and objects as learnable and usable knowledge. In other words, this knowledge can not only be used for task planning, but also be updated through learning. In addition, we develop a symbolic multi-agent systems that aligns human-robot cognition models. Taking into account constrains of time, capability, and action rules, we propose a mix-initiative human-robot collaborative task planning method. Besides, we deal with the challenges of active sensory-motor learning in continuous state and action spaces, as well as model-based human-robot hybrid reinforcement learning. As a result, novel knowledge can contribute to the cognition development. Overall, cognition development supports task planning, and task planning initiates sensory-motor learning, meanwhile the learning aids cognition development. In this way, we have proposed a novel human-robot task collaboration mechanism that satisfies the requirement of observability, predictability and directability for collaborative task planning and execution.
本项目面向人机协作任务规划问题,借鉴人的认知发展和学习机制,提出一种有人监督下的机器人发育学习架构,融合了符号层的任务规划和亚符号层的感知运动学习。首先,根据人机协同“感知-行动”模型的特点,研究人机互理解的认知行为模型表示方法,将“人-机-物”之间潜在的行为因果关系表示为可学习和可使用的知识。该知识不仅可以用于任务规划,而且可以通过学习进行更新。其次,构建面向人机认知协同的多智能体符号系统,研究时间、能力、规则等约束条件下的人机混合主动任务规划方法。此外,研究连续空间中的主动感知运动学习和基于模型的人机混合快速强化学习方法,从而能够获取新知识用于促进认知发展。“认知发展、任务规划、感知运动学习”三者相互支撑,实现了面向动态任务的可观察、可预测、可干预的人机协作新模式。
本项目提出了一种跨层次的人机互理解认知行为模型,基于“信念-愿望-意图(BDI)”模型和马氏决策(MDP)模型,提出了融合推理和学习的机器认知发展架构,设计了融合符号逻辑系统和策略学习的COG-DQN算法。其次,采用基于智能体的HATP人机混合任务规划系统,提出了时间、能力、规则等约束条件下的人机混合任务规划方法,将任务自动分解至可由人/机器人单独执行或人机协同执行的原子任务,得到层次化的任务分解树和协同任务行动流,在有人机/无人机群协同任务中进行了应用和验证。最后,提出了连续空间中的多智能体高效强化学习算法和人机混合快速强化学习方法。其中,MACACER算法解决连续动作空间中的有人机/无人机群混合编队协调控制问题,基于卷积神经网络和注意力机制的SEMP模块可以将变长维度的输入编码为固定维度的特征向量,从而处理可变规模多机器人系统的协同学习和决策问题。此外,提出了融合PID控制与深度强化学习的控制方法,并引入人的经验与干预,加速PID参数的自主学习过程,实现了旋翼无人机在运动无人车上的快速自主降落策略学习。
{{i.achievement_title}}
数据更新时间:2023-05-31
EBPR工艺运行效果的主要影响因素及研究现状
多能耦合三相不平衡主动配电网与输电网交互随机模糊潮流方法
复杂系统科学研究进展
新型树启发式搜索算法的机器人路径规划
"多对多"模式下GEO卫星在轨加注任务规划
面向多任务人机协作的通道匹配机理研究
满足长期任务复杂要求的多架小型无人机持久协作规划研究
复杂高动态对抗博弈下人机协作决策与规划
灾难环境中大规模人与智能体协作任务规划