In human vision, observation point of eyes is controlled by attention mechanism. Therefore most of the limited processing resources are focused on fovea fixation. In this study, we introduce attention scheme to deep structures, combine both “what” and “where” modules into one computational framework, and propose a deep attention models. This model learns visual features via deep structures, and determines which point to focus on next through strategies learned by previous observation results. Shape and its invariance of space transformation play a crucial role in attention model. Thus in this study we describe this property explicitly by network models. By ensuring the differentiability of these descriptions, we offer necessary conditions for training model parameters end-to-end by BP algorithm. In addition, optimizing parameters of both “what” and “where” modules simultaneously will make the objective function more complex. To solve this problem, we propose optimization algorithm based on variational method, and prevent learning strategy from falling into local optima by balancing “exploration” and “exploitation” operations. Finally, we study self-adaptation technique of parameters in deep attention model to improve its generalization ability for new tasks. This study extends deep models with attention mechanism and makes it feasible to improve its efficiency and performance. Hence this project makes sense in both theory and practice.
人类通过注意力机制控制眼球的观察位置,将有限信息处理资源更多地投放到凝视点区域。本研究在深度结构中引入该机制,将“看什么(what)”和“往哪里看(where)”这两个功能模块融合在一个计算框架之下,提出深度注意模型。它利用深度结构学习视觉特征,并依据部分区域观测结果学习接下来的凝视点位置选择策略。鉴于形状及其空间变换不变性在注意力模型中起着关键作用,因此,本项目对该性质采用网络模型的显示描述,通过保证该描述的可微分性,为研究采用反向传递算法实现端到端的参数训练创造必要条件。此外,针对同时优化两个模块参数将导致目标函数更加复杂的问题,提出基于变分思想的优化算法,并通过平衡“探索”与“扩张”操作,避免策略学习的局部最优。最后研究深度注意模型的参数自适应技术,提高其面向新任务时的泛化能力。该研究通过注意力机制扩展深度模型,为提高其效率和性能提供了一条可行途径,因此本项目具有理论和现实意义。
深度学习模型通常要求大量标注数据和模型参数的可微性,它们在一定程度上制约着深度模型的效果与应用扩展。本项目以图像中物体检测和分割为应用背景,开展低计算量并可利用微分方法估计模型参数的深度结构模型及其应用研究。依据项目计划及研究过程的改进,本项目主要开展如下内容的研究:.针对传统方法只利用图像底层特征,缺乏形状先验造成分割结果不理想的问题,提出基于形状先验的图像前景目标分割方法。该方法首先提出使用形状的线性表示和FDCM形状匹配算法生成更加准确的且具有类别独立性的形状先验。此过程采用数据驱动机制,省略模型训练过程,从而增强了模型的泛化能力。其次提出融合形状先验的图切算法提高分割准确率;.此基础上提出融合位置信息和EM算法的弱监督图像语义分割方法,并通过变分方法解决了E 步像素标签估计不准确的问题,进而提出一种混合训练策略进一步发挥位置线索作用;针对分类网络只能识别出目标的判别性区域导致从图像级标注获取的像素标签不完整的问题,提出融合注意力图和显著图的弱监督图像语义分割方法。研究并提出一种新的注意力图产生方法,该方法能够挖掘出更准确的物体区域。最后提出融合注意力图和显著图的伪像素标注生成算法并训练分割网络,该过程不仅充分地利用了注意力图的类别信息,又通过显著图补充未被注意力图挖掘到的目标区域。研究了Superpixel-CRF优化模型,解决了目标轮廓先验不足的问题,修正了初始伪标注中存在的错误标记。实验结果表明该方法能够获得更加准确的伪像素标注,分割性能也得到了大幅度的提升;在前述基础上,鉴于深度模型运行效率不高问题,提出一种无需目标候选集合获取过程, 并且对于测试图像仅通过网络的前向传递过程就可以获取检测结果的方法, 因此极大地加快了检测的速率;.在研究不可导的模型时,本项目研究将强化学习应用到末制导问题中,显示出良好地应用前景,有望在实际领域中加以应用。.综上,项目组较好地完成了研究计划,并为下一步研究奠定基础。
{{i.achievement_title}}
数据更新时间:2023-05-31
演化经济地理学视角下的产业结构演替与分叉研究评述
粗颗粒土的静止土压力系数非线性分析与计算方法
正交异性钢桥面板纵肋-面板疲劳开裂的CFRP加固研究
中国参与全球价值链的环境效应分析
端壁抽吸控制下攻角对压气机叶栅叶尖 泄漏流动的影响
共融机器人的视觉注意模型及其深度强化学习方法
基于深度学习的层次化视觉注意模型研究
基于自适应深度表观模型的高效目标跟踪方法研究
基于自学习对比度视觉注意模型和自适应深度特征的无分类目标检测