基于支持向量机的增量式强化学习技术及其应用研究

基本信息
批准号:61373094
项目类别:面上项目
资助金额:77.00
负责人:伏玉琛
学科分类:
依托单位:苏州大学
批准年份:2013
结题年份:2017
起止时间:2014-01-01 - 2017-12-31
项目状态: 已结题
项目参与者:凌兴宏,朱斐,谷瑞,孙金霞,傅启明,朱文文,金玉净,房俊恒
关键词:
强化学习核方法维数灾支持向量机
结项摘要

For the "Curse of Dimensionality" of the continuous state space, this research proposes a modeling mathod for reinforcement learning in continuous state space, which using support vector kernel methods and approach the model. The main idea of this reaearch is to solve reinforcement learning problems integrating with support vector kernel method. The learning process of the reinforcement learning system is more similar to human, in which self-learning as the leading, supervised learning for auxiliary, cooperate with each other and thus a better solution to the complex problem. Firstly, it uses kernel methods nonlinear modeling complex problems of the original input space. Then it transforms nonlinear problem into linear problem in high dimensional feature space, which takes advantage of the kernel function mechanism, and avoids the computational complexity caused by rising dimension. So we can build an accurate model of the original input space of complex problems, and can solve the linear model efficiently in high dimensional feature space. The linear model has excellent generalization performance, which is the core needs of solving the continuous space reinforcement learning problems. Therefore, the research of the continuous space reinforcement learning model construction and approximation has a highly theoretical value and application prospect.

本项目针对连续状态空间的"维数灾"问题,提出利用支持向量核方法对连续状态空间强化学习问题进行建模并逼近所建模型。主要思想是结合机器学习中最具发展前景的核方法来解决强化学习问题,结合了支持向量核方法的强化学习系统,学习过程与人类更加的相似,以自学习为主导、监督学习为辅助,相互配合从而更好的解决复杂问题。首先利用核方法对原输入空间复杂问题进行非线性建模,然后利用核函数机制将输入空间非线性问题转化到高维特征空间中的线性问题,并巧妙避开升维所带来的计算复杂性,这样就可以对原输入空间复杂问题进行精确的模型构建,同时在高维特征空间可以高效的求解线性模型,线性模型具有很优良的泛化特性,而泛化能力正是解决连续空间强化学习问题的核心需求。因此,基于支持向量核方法的连续空间强化学习模型构建与逼近研究极富理论价值和应用前景。

项目摘要

项目组将机器学习中最具发展前景的支持向量核方法应用到强化学习问题中,采用核函数机制有效地将原输入空间的非线性问题转化到高维特征空间的线性问题,建立了一套完整的问题表示、转化和求解模型。在保证精确度的条件下,有效的提高了算法的泛化能力并降低了算法时间和空间复杂度。核方法是建立在统计学习理论基础上,有一个强有力的理论保障体系,利用核方法可以有效处理高维、非线性以及有限样本问题。.在连续状态MDP中,环境的连续性状态无法枚举,面临维数灾难问题。强化学习在线学习系统中,样本集构建的好坏直接决定了最终学习效果的好坏。基于核方法构建值函数的在线逼近模型,在线自适应的构建训练样本集,从而提高逼近模型的精度。.利用支持向量分类器来平衡强化学习中的探索和利用问题,探索和利用控制着学习过程的收敛速度和效果,有效平衡探索和利用是强化学习研究的核心问题,而支持向量机的典型应用就是二分类问题,提出利用支持向量分类器来平衡探索和利用将有效提高强化学习算法的性能。.当前强化学习的研究中,对于新模型、新算法的验证一般基于简单、理想的试验,如格子世界、Mountain Car、赌徒问题等;然而在实际应用中,由于种种原因导致新模型、新算法难以应用,使得新模型、新算法在理论实验上完美收敛,却在实际应用中无法实现。在本项目中,将研究的模型、算法应用于面向Deep Web搜索引擎的自适应爬虫搜索问题中,以验证所研究的成果在实际大规模问题中的作用。传统搜索引擎爬虫程序存在抓取信息结构不全、内容不够细化、对历史经验信息无记忆性等特点,本项目结合强化学习算法,构建一个智能的Deep Web检索原型,将检索过程构造成一个MDP模型,基于支持向量核方法的连续空间强化学习算法,利用已有的检索信息,优化检索策略。与传统方法相比,本项目所提出的爬虫模型具有较高的查询精度与查询速度。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

基于 Kronecker 压缩感知的宽带 MIMO 雷达高分辨三维成像

基于 Kronecker 压缩感知的宽带 MIMO 雷达高分辨三维成像

DOI:10.11999/JEIT150995
发表时间:2016
2

基于LASSO-SVMR模型城市生活需水量的预测

基于LASSO-SVMR模型城市生活需水量的预测

DOI:10.19679/j.cnki.cjjsjj.2019.0538
发表时间:2019
3

基于SSVEP 直接脑控机器人方向和速度研究

基于SSVEP 直接脑控机器人方向和速度研究

DOI:10.16383/j.aas.2016.c150880
发表时间:2016
4

自然灾难地居民风险知觉与旅游支持度的关系研究——以汶川大地震重灾区北川和都江堰为例

自然灾难地居民风险知觉与旅游支持度的关系研究——以汶川大地震重灾区北川和都江堰为例

DOI:10.12054/lydk.bisu.148
发表时间:2020
5

内点最大化与冗余点控制的小型无人机遥感图像配准

内点最大化与冗余点控制的小型无人机遥感图像配准

DOI:10.11834/jrs.20209060
发表时间:2020

伏玉琛的其他基金

批准号:61070122
批准年份:2010
资助金额:32.00
项目类别:面上项目

相似国自然基金

1

精确的增量式支持向量机的研究

批准号:61202137
批准年份:2012
负责人:顾彬
学科分类:F0605
资助金额:24.00
项目类别:青年科学基金项目
2

基于支持向量机的复杂连续系统强化学习控制研究

批准号:60804022
批准年份:2008
负责人:王雪松
学科分类:F0303
资助金额:18.00
项目类别:青年科学基金项目
3

粒度支持向量机学习方法及应用研究

批准号:60975035
批准年份:2009
负责人:王文剑
学科分类:F0603
资助金额:33.00
项目类别:面上项目
4

基于支持向量机的智能诊断技术及应用研究

批准号:50175087
批准年份:2001
负责人:张周锁
学科分类:E0503
资助金额:18.00
项目类别:面上项目