项目主要研究非马尔可夫决策过程中的强化学习技术和应用。主要研究内容包括:采用神经网络模型学习部分可感知马尔可夫决策过程(POMDP)的感知函数,从而研究高效的、可应用在POMDP中的强化学习算法;对于连续状态MDP模型,将研究在增量学习中满足收敛性的、一种新的函数估计模型,并将其应用在连续MDP的强化学习算法中;对于半马尔可夫决策过程(SMDP)的强化学习,本项目将致力于学习过程中自主发现子目标,从而建立分层的强化学习框架;并在分层强化学习框架中结合符号知识,以提高强化学习的收敛速度。项目理论研究成果将应用在Web用户分类、行为预测以及面向领域的搜索引擎技术中。
{{i.achievement_title}}
数据更新时间:2023-05-31
基于 Kronecker 压缩感知的宽带 MIMO 雷达高分辨三维成像
拥堵路网交通流均衡分配模型
基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例
基于协同表示的图嵌入鉴别分析在人脸识别中的应用
一种改进的多目标正余弦优化算法
Chitosan oligomers 用于改善蛋白质、肽类难吸收药物口服吸收及其吸收促进机制的研究
马尔可夫决策规划
非马尔可夫过程中的消费者决策机制:实证研究及动态蒙特卡罗模拟
马尔可夫跳跃系统的决策-控制策略研究与优化
非马尔可夫系统中的单光子阻塞效应及其应用