This project is to study reinforcement learning algorithms based on value function approximation in order to deal with large scale reinforcement learning problems. The research work include .(1) study of new reinforcement learning algorithms based on linear function approximation; .(2) study of new reinforcement learning algorithms based on multi-kernel learning, which will mainly focus on .(i) new methods on multi-kernel selection;.(ii) new methods on multi-kernel dictionary learning;.(iii) new methods on multi-kernel based value function learning;.(3) study of the applications of the above algorithms in large scale, high dimensional reinforcement learning problems and interactive games.
在强化学习技术中,研究出能够解决大规模强化学习问题的值函数估计算法。研究基于线性值函数估计的强化学习新型算法;研究基于多核的强化学习新型算法,设计基于多核的核函数选取策略,设计基于多核的字典学习算法以及基于多核的值函数学习算法。将以上研究的线性值函数估计强化学习、基于核方法的强化学习应用到大规模、高维强化学习问题以及交互式游戏。
本项目研究基于值函数估计的若干强化学习模型和相关算法,如基于平均奖赏强化学习的常值偏移优化、多臂老虎机的常值偏移收敛速度研究、基于斜投影的迭代优化等。此外,我们将所提方法应用于交互式游戏中。基于所研究成果,我们在国内外重要期刊、会议上发表论文20篇,申请专利2项,培养毕业硕士生4名和在读硕士生3名。
{{i.achievement_title}}
数据更新时间:2023-05-31
基于MCPF算法的列车组合定位应用研究
现代优化理论与应用
高分五号卫星多角度偏振相机最优化估计反演:角度依赖与后验误差分析
城市生活垃圾热值的特征变量选择方法及预测建模
相关系数SVD增强随机共振的单向阀故障诊断
基于深度强化学习的集群资源调度算法研究
基于损失函数的统计机器学习算法及其应用研究
基于信号统计特征及复学习率的复值神经网络学习算法研究
DEM构建的多面函数抗差插值算法研究