强化学习关键技术及其在机器人行为学习中的应用

基本信息
批准号:60974050
项目类别:面上项目
资助金额:31.00
负责人:程玉虎
学科分类:
依托单位:中国矿业大学
批准年份:2009
结题年份:2012
起止时间:2010-01-01 - 2012-12-31
项目状态: 已结题
项目参与者:孙伟,叶宾,赵绍刚,金珠,王建功,刘博
关键词:
知识迁移策略梯度强化学习机器人行为学习
结项摘要

针对强化学习存在的基函数选取困难、学习速度慢及算法收敛性难以保证等问题,设计一类有效的强化学习控制方法,并将其应用于机器人行为学习领域。研究内容包括:基于图上测地高斯基函数的强化学习、基于自然策略梯度的强化学习、基于知识迁移的强化学习。为了能够有效反映机器人世界的拓扑结构,引入测地高斯基函数逼近值函数,并通过递归策略迭代实现机器人的在线、增量式学习;为避免由于值函数逼近误差造成的策略震荡,研究黎曼空间中的自然策略梯度强化学习算法;进一步,如果具有不同传感器-驱动器的异构机器人面临一系列相关或者类似任务时,借助于认知心理学中的知识迁移概念,实现源任务与目标任务间的自主映射以有效提高强化学习的速度。通过在移动机器人行为学习问题中的应用,验证上述强化学习控制方法的可行性和有效性。研究成果将深化和丰富现有的强化学习理论,增强机器人的自主能力。

项目摘要

针对强化学习存在的基函数选取困难、学习速度慢及算法收敛性难以保证等问题,对强化学习算法性能进行改进并将其应用于机器人行为学习等领域。为更好体现动作之间的差异性,提出基于状态-动作图测地高斯基的策略迭代强化学习;把强化学习构建为一个简单的二分类问题,提出基于概率型支持向量机的Q学习;利用参数模型的丰富学习经验,提出基于半参数回归模型的强化学习;针对强化学习方法应用于电梯群控系统时面临的维数灾难问题,提出基于抽象状态的贝叶斯强化学习;为有效重复使用过去收集的样本和降低梯度估计方差,提出基于自适应重要采样的离策略Actor-Critic学习;为在Critic评估中平衡数据有效性和计算有效性之间的关系,提出增量式Actor-Critic学习;为减小梯度估计方差以及提高算法的学习收敛速度,提出基于参数探索的期望最大化策略搜索;同时考虑蚁群算法的所有运行参数,利用图论将源任务的参数知识自动地迁移到目标任务,得到针对目标任务的最优参数组合,提出一种基于图知识迁移的蚁群算法参数选择方法;根据源任务数据是否可以访问,自适应地采用路径预测概率或成分预测概率进行相似度判定,提出基于相似度衡量的决策树自适应迁移;为充分利用源域包含的有用信息,同时避免无关信息可能导致的负迁移现象,提出一种加权多源TrAdaBoost;基于知识迁移的Ant-Q利用贝叶斯理论从源任务中筛选出有效迁移样本,指导Agent快速做出合理决策;利用拉普拉斯特征映射能保持状态空间局部拓扑结构的特点,对基于谱图理论的层次分解技术进行改进,提出一种基函数与子任务最优策略迁移相结合的强化学习混合迁移方法。此外,根据国内外与本项目相关内容的发展情况,还对智能优化、半监督学习等机器学习方法进行了研究。基于上述成果,培养博、硕士研究生6名,发表学术论文35篇,被SCI收录8篇,被Ei收录33篇。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

基于SSVEP 直接脑控机器人方向和速度研究

基于SSVEP 直接脑控机器人方向和速度研究

DOI:10.16383/j.aas.2016.c150880
发表时间:2016
2

基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例

基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例

DOI:
发表时间:2022
3

服务经济时代新动能将由技术和服务共同驱动

服务经济时代新动能将由技术和服务共同驱动

DOI:10.19474/j.cnki.10-1156/f.001172
发表时间:2017
4

基于协同表示的图嵌入鉴别分析在人脸识别中的应用

基于协同表示的图嵌入鉴别分析在人脸识别中的应用

DOI:10.3724/sp.j.1089.2022.19009
发表时间:2022
5

一种改进的多目标正余弦优化算法

一种改进的多目标正余弦优化算法

DOI:
发表时间:2019

程玉虎的其他基金

批准号:61273143
批准年份:2012
资助金额:80.00
项目类别:面上项目
批准号:61772532
批准年份:2017
资助金额:62.00
项目类别:面上项目

相似国自然基金

1

基于事件的强化学习及其在群机器人优化控制中的应用

批准号:61273327
批准年份:2012
负责人:陈春林
学科分类:F03
资助金额:79.00
项目类别:面上项目
2

策略搜索强化学习方法及在移动机器人运动控制中的应用

批准号:61603150
批准年份:2016
负责人:王滨
学科分类:F0306
资助金额:19.00
项目类别:青年科学基金项目
3

基于交互强化学习的水下机器人自主学习与控制方法研究

批准号:51809246
批准年份:2018
负责人:李光亮
学科分类:E1102
资助金额:25.00
项目类别:青年科学基金项目
4

增强学习泛化方法研究及其在移动机器人导航中的应用

批准号:60075020
批准年份:2000
负责人:贺汉根
学科分类:F0603
资助金额:11.00
项目类别:面上项目