Modelling visual attention is an interdiscipline research topic which invloves in computer science, psychophysiology and computational neuroscience. Current visual attention models mainly focus on modelling the center-surround mechanism of the simple cells in primary visual cortex. However, large amounts of experiments show that selective attention mechanism exists in each layer of visual cortex, and different visual features play different roles in selective attention. In this project, we will propose a deep learning-based hierarchical visual attention model which not only simulates the selective attention of each visual layer with its internal driving mechanism, but also learns multi-layer visual features by combining bottom-up data and top-down task, and learns the importances of the features in each layer. For one thing, the proposed model will improve the accuracy of fixation prediction, which has a large amount of potential applications; for another, embedding attention mechanism into deep learning framework will improve its performances in several other visual tasks, such as object detection and object recognition. This project is highly theoretical and of high practicality.
视觉注意建模是计算机科学、心理生理学、计算神经科学等领域的多学科交叉研究问题,目前的视觉注意模型主要模拟初级视皮层简单细胞的"中心-周围"机制,而大量的实验表明在不同层次视皮层中都存在注意机制,而且对不同的视觉特征表现出不同的选择性。本项目将研究一种基于深度学习的层次化视觉注意计算模型,这种层次化的深度学习框架不仅模拟了各级视皮层的选择性注意机制,而且学习了在自下而上数据驱动与自上而下任务驱动共同作用下的多层视觉特征、不同视觉特征在视觉注意中的重要性。一方面,本项目提出的层次化注意模型将提高对人眼关注位置的预测精度,具有很大的潜在应用价值;另一方面,在深度学习理论中引入注意机制,有望提高深度学习算法在其它视觉任务中的性能(如提高目标检测和目标识别的精度)。本研究项目具有很强的理论性和实用性。
视觉注意是人类认知中很重要的一部分,本项目将研究一种基于深度学习的层次化视觉注意计算模型,这种层次化的深度学习框架不仅模拟了各级视皮层的选择性注意机制,而且学习了自下而上数据驱动与自上而下任务驱动共同作用下的多层视觉特征在视觉注意中的重要性。本项目首先较好地完成了层次化视觉注意的显著性度量,层次化视觉注意模型各层视觉特征权重以及层间显著图权重的学习算法,然后把研究重心放在层次化的深度学习框架上,取得了一些列研究成果。在无监督深度学习方面,通过引入数据关系提出了广义自编码机,在此基础上提出了一个数据降维的统一框架,扩展并实现了多种数据降维方法,还通过对数据关系建模,提出了基于深度嵌入网络的聚类算法。在监督深度学习方面,提出了基于多任务深度神经网络的多标签学习算法,该方法利用神经网络来挖掘不同标签之间的关联性,能够广泛地应用于多类别标注问题,在标签数量较多的大规模图像标注中仍然可以保证较高的准确率。在对视觉序列建模方面,提出了基于层级化递归神经网络的人体骨架行为识别算法,该方法根据人体结构特征及运动相对性,在实现高精度识别率的同时避免复杂的计算,克服了传统方法中只考虑局部运动信息、需要对序列做预对齐等问题,本项目还提出了一种全卷积的双向循环网络来对视频序列进行建模,利用权重共享的卷积操作来降低计算复杂度以及保留视频的空间结构信息,该网络应用于视频超分辨率取得了当前最好的结果。针对出现的大规模多模态数据,通过在高阶玻尔兹曼机中引入关系标记,提出了基于条件高阶玻尔兹曼机的关系学习,极大增强了模型的判别性,特别适合判别性较强的关系学习任务,还提出了一种多模态多标签条件波尔兹曼机模型,可以在一个框架下解决模态缺失,模态融合和类别共生关系建模的问题,突破了传统方法的基本假设:模态数据的之间是相互独立的,模态数据是完整无缺失的,提出的方法应用更为广泛。本项目按照预订研究计划执行,在国际学术会议和期刊上发表论文8篇,其中包括最佳论文奖1篇,大会报告文章2篇,最佳学生论文奖1篇,3篇国际顶级会议文章(CVPR/ICCV/NIPS),1篇国际核心期刊,申请发明专利3项,进入国际一流水平会议进行交流和讨论,协助培养博士生3名,硕士生1名,达到了预期研究成果。
{{i.achievement_title}}
数据更新时间:2023-05-31
粗颗粒土的静止土压力系数非线性分析与计算方法
基于SSVEP 直接脑控机器人方向和速度研究
中国参与全球价值链的环境效应分析
基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例
面向云工作流安全的任务调度方法
基于快速视觉注意模型和深度学习的视觉跟踪
深度学习框架下基于情境线索的视觉注意研究
基于层次化情感本体和深度学习的社交媒体视觉内容情感分析
共融机器人的视觉注意模型及其深度强化学习方法