基于重要性采样的并行离策略强化学习方法研究

基本信息
批准号:61502329
项目类别:青年科学基金项目
资助金额:21.00
负责人:傅启明
学科分类:
依托单位:苏州科技大学
批准年份:2015
结题年份:2018
起止时间:2016-01-01 - 2018-12-31
项目状态: 已结题
项目参与者:章晓芳,许洪华,邱劲,黄蔚,钟珊,顾亚军,姒绍辉
关键词:
强化学习函数近似重要性采样离策略
结项摘要

Recently, off-policy reinforcement learning has been a focus in reinforcement learning field. In contrast to the on-policy reinforcement learning, from the perspective of the theory, the convergence analysis of off-policy reinforcement learning methods is more complicated, but for the application, the research of off-policy reinforcement learning methods will promote the application of reinforcement learning greatly in practice. The project focuses on the research about the theory and application of approximate off-policy reinforcement learning, which mainly can be divided into the following four parts: 1) combined with the weighted importance sampling method, construct a novel parameter update rule under off-policy case and propose the off-policy reinforcement learning algorithm; 2) prove the consistence of parameter update rule under the on-policy case and off-policy case theoretically; 3) Based on the proposed off-policy reinforcement learning algorithm, construct a parallel off-policy reinforcement learning framework for real-time control problems; 4) apply the proposed parallel off-policy reinforcement learning framework to the construction conservation problem, seek the optimal policy and control the related equipments of the building online and in real time. Therefore, the above researches will promote the development of reinforcement learning theory to a certain extent and solve the application difficulties of off-policy reinforcement learning in practice efficiently.

近年来,离策略强化学习方法逐渐成为强化学习领域的一个研究热点。相对于在策略强化学习方法,从理论分析的角度,离策略方法的收敛性分析更为复杂,然而从实际应用的角度,离策略方法的研究将极大推动强化学习在实践中的应用。本项目主要围绕近似离策略强化学习理论及应用展开研究,工作主要分为以下四个方面:1)利用带权重要性采样方法构建可用于处理离策略样本数据的值函数参数更新规则,提出一种基于带权重要性采样的离策略强化学习算法;2)从理论上证明所提出参数更新规则能够保证离策略评估与在策略评估的一致性;3)结合所提出的离策略强化学习算法,构建一种可用于实时控制的并行离策略强化学习框架;4)将所提出的并行离策略强化学习框架用于实际的建筑节能问题,求解最优节能策略,实现建筑内相关设备的实时在线控制。因此,通过上述研究,将在一定程度上促进强化学习理论的发展,同时有效地解决离策略强化学习方法在实践中的应用难题。

项目摘要

目前,强化学习已经成为机器学习领域的一个重要研究方向,强化学习在理论和应用两个方面都取得较大的进展,其中大部分的工作主要集中于在策略强化学习方法的研究,而随着强化学习理论的进一步完善以及应用的进一步扩展,离策略强化学习方法逐渐成为强化学习领域的热点和难点。相对于在策略强化学习方法理论研究,目前离策略强化学习方法的理论研究仍不是很完善,大部分离策略强化学习的理论研究主要针对一些特定的算法,且很多离策略强化学习方法的性能分析仍处于实验分析阶段,缺乏针对通用离策略方法的理论研究成果。同时,在具体的仿真或者实际问题中,离策略强化学习方法的收敛性能通常低于在策略强化学习方法,且难以将离策略强化学习方法用于一些实时性要求较高的问题。本项目主要围绕近似离策略强化学习理论及应用展开研究,工作主要分为以下几个方面:1)研究离策略场景下的强化学习值函数更新规则,并从理论上证明其有效性。2)构建一种可用于实时控制的并行离策略强化学习框架,并行评估行为策略及多个目标策略,并在学习过程中通过“选择”、“ 交叉”及“变异”操作重构“策略池”,提高策略评估的效率。此外,通过将策略评估线程与动作执行线程相分离,提高动作执行的实时性。3)提出一种基于生成对抗网络的强化学习算法,在训练初期,通过随机策略收集经验样本构成真实样本池,并利用所收集的经验样本训练生成对抗网络,然后利用生成对抗网络生成新的样本构成虚拟样本池,结合真实样本池以及虚拟样本池批量选择训练样本,以此来提高学习速度。同时,提出关系修正单元,结合深度神经网络,训练真实样本池中样本的状态、动作与后续状态、奖赏之间的内部联系,结合相对熵优化生成对抗网络,提高生成样本的质量。4)将所提出的并行离策略强化学习方法用于实际的建筑节能问题,求解最优节能策略。本项目的研究不仅具有一定的理论意义,同时对强化学习在实践中的应用具有一定的指导意义。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

拥堵路网交通流均衡分配模型

拥堵路网交通流均衡分配模型

DOI:10.11918/j.issn.0367-6234.201804030
发表时间:2019
2

基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例

基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例

DOI:
发表时间:2022
3

基于余量谐波平衡的两质点动力学系统振动频率与响应分析

基于余量谐波平衡的两质点动力学系统振动频率与响应分析

DOI:10.6052/1672⁃6553⁃2017⁃059
发表时间:2018
4

基于协同表示的图嵌入鉴别分析在人脸识别中的应用

基于协同表示的图嵌入鉴别分析在人脸识别中的应用

DOI:10.3724/sp.j.1089.2022.19009
发表时间:2022
5

一种改进的多目标正余弦优化算法

一种改进的多目标正余弦优化算法

DOI:
发表时间:2019

傅启明的其他基金

相似国自然基金

1

针对大规模环境下复杂任务的策略搜索强化学习方法研究

批准号:61502339
批准年份:2015
负责人:赵婷婷
学科分类:F06
资助金额:20.00
项目类别:青年科学基金项目
2

基于近似多步模型的连续空间强化学习方法研究

批准号:61702055
批准年份:2017
负责人:钟珊
学科分类:F06
资助金额:25.00
项目类别:青年科学基金项目
3

策略搜索强化学习方法及在移动机器人运动控制中的应用

批准号:61603150
批准年份:2016
负责人:王滨
学科分类:F0306
资助金额:19.00
项目类别:青年科学基金项目
4

大数据可信排序学习方法及其并行化研究

批准号:61762052
批准年份:2017
负责人:李金忠
学科分类:F0211
资助金额:37.00
项目类别:地区科学基金项目