基于策略梯度学习的自优化模糊控制研究

基本信息
批准号:61563019
项目类别:地区科学基金项目
资助金额:34.00
负责人:李大海
学科分类:
依托单位:江西理工大学
批准年份:2015
结题年份:2019
起止时间:2016-01-01 - 2019-12-31
项目状态: 已结题
项目参与者:王振东,欧阳城添,郑剑,彭秋英,刘聪
关键词:
策略梯度算法强化学习
结项摘要

Fuzzy control is a widely applied technique for solving control problems of complex non-linear systems, as it's capable of converting human expert's knowledge efficeintly to fuzzy control rules. However, how to optimize the large amount of parameters of fuzzy control rules becomes one of the key issues to wide utilization of fuzzy control.Since policy gradient based reinforceemnt learning algorithms are capable of self-optimizing their behaviours or action policies based on achieved knowledge or experiences through interactions with the external environment,this research aims to combine recursive least squares based policy gradient algorithms with fuzzy control,and propose a novel self-optimizing fuzzy control algorithm which can efficeintly self-optimizes its controll parameters under semi-supervised learning environement. This research maily focus on the three espects: applying kernel function techniques to achieve self-construction of the value function approximation in order to improve existed polciy gradient reinforcement algorithms; inducting the least squares estimation of policy gradient of the selft-optimizing fuzzy control algorithm; completing the convergency proof of the novel algorithm and testifying the learning efficiency of the algorithm through experiments.

模糊控制被广泛应用于解决复杂非线性系统的控制问题,其能够有效的将人类专家的经验转化为模糊控制逻辑,从而可以不依赖精确的系统模型达到较好的系统控制效果。但是如何优化模糊控制规则所附带的大量控制参数是解决其广泛应用的一个关键问题。由于基于策略梯度的强化学习算法能够在半监督环境下根据已获知的经验有效的进行其行为或策略优化,因此本研究针对模糊控制算法参数量大以及其产生控制输出的特定形式,采用基于最小二乘迭代的策略梯度学习算法,与模糊控制相结合,构建具有在半监督学习环境下能够快速有效自优化模糊控制规则的新算法。本研究拟使用基于核函数进行值函数近似器自动构造,以改进已有的策略梯度学习算法;根据模糊控制输出与其控制参数的函数关系推导相应的策略梯度的最小二乘估计公式;并证明其新算法的收敛性以及有效性质。

项目摘要

模糊控制能够有效的将人类专家的经验转化为模糊控制逻辑,从而可以不依赖精确的系统模型达到较好的系统控制效果。如何优化模糊控制规则所附带的大量控制参数是解决其广泛应用的一个关键问题。随机优化算法是求解此类多参数优化问题的有效工具。随机优化算法并不试图搜索所有的参数组合以求解优化问题的最优参数,因为其对应计算时间过长以至于无法有效求解问题。随机优化算法是基于特定的随机策略实现对参数空间的有效搜索,从而在相对较短的时间内求得优化问题的最优或者次优解。对此课题组重点研究了目前较新的单目标和多目标随机优化算法,比如差分进化算法(DE)、细菌觅食算法(BFA)、灰狼算法(GWO)、天牛群算法(BSO)、以及阴阳对算法(YYPO)包括阴阳对多目标优化算法(F-YYPO)。在此基础之上,对上述的算法进行改进,以提高其的搜索速度和搜索精度,并研究了上述算法包括改进算法在无线网络节点优化覆盖问题,正则极限学习机参数优化等问题上的应用。具体研究内容上,先后提出了基于全邻域搜索的自适应差分进化算法NSSDE;基于改进参数控制策略的新单目标阴阳对算法IYYPO;基于多组合搜索策略和改进参数控制策略的多目标阴阳对算法F-ACYYPO;提出了基于改进灰狼优化的网络节点最优覆盖算法;基于改进花朵授粉算法的节点优化覆盖算法;基于改进差分进化算法下的网络节点部署优化策略以及基于混沌觅食算法的点部署优化算法;基于天牛群优化与改进正则化极限学习机的网络入侵检测方法。其中单目标优化IYYPO算法和多目标优化F-ACYYPO算法都不依赖种群进行搜索,而是进行两点搜索,所以是轻量级的高效随机搜索算法。本课题研究成果为一般的单目标以及多目标多参数优化问题求解提供了易于实现、计算量小、并且高效的搜索算法,对于此类问题求解具有一定的参考价值。后期将在取得成果基础上进行相关应用推广。在本课题资助下,研究团队共发表(包括录用)学术研究论文7篇,其中SCI检索论文1篇,EI期刊检索论文3篇,核心期刊论文3篇,并获取专利一项。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例

基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例

DOI:
发表时间:2022
2

惯性约束聚变内爆中基于多块结构网格的高效辐射扩散并行算法

惯性约束聚变内爆中基于多块结构网格的高效辐射扩散并行算法

DOI:10.19596/j.cnki.1001-246x.8419
发表时间:2022
3

物联网中区块链技术的应用与挑战

物联网中区块链技术的应用与挑战

DOI:10.3969/j.issn.0255-8297.2020.01.002
发表时间:2020
4

基于协同表示的图嵌入鉴别分析在人脸识别中的应用

基于协同表示的图嵌入鉴别分析在人脸识别中的应用

DOI:10.3724/sp.j.1089.2022.19009
发表时间:2022
5

一种改进的多目标正余弦优化算法

一种改进的多目标正余弦优化算法

DOI:
发表时间:2019

李大海的其他基金

批准号:61377018
批准年份:2013
资助金额:80.00
项目类别:面上项目
批准号:61875142
批准年份:2018
资助金额:62.00
项目类别:面上项目

相似国自然基金

1

复杂系统模糊推理和自学习模糊控制策略研究

批准号:69274016
批准年份:1992
负责人:诸静
学科分类:F0301
资助金额:5.00
项目类别:面上项目
2

自进化二型模糊极限学习系统的优化算法研究

批准号:61402260
批准年份:2014
负责人:王会东
学科分类:F06
资助金额:26.00
项目类别:青年科学基金项目
3

广义系统自学习模糊建模及其控制策略研究

批准号:60974143
批准年份:2009
负责人:胡刚
学科分类:F0303
资助金额:30.00
项目类别:面上项目
4

基于对抗学习策略的模糊辨识性特征计算方法研究

批准号:61872327
批准年份:2018
负责人:曹洋
学科分类:F0210
资助金额:64.00
项目类别:面上项目