With the exponential growth of video data, it is urgent to segment and track video object automatically for effective analyzing and using of the large-scale video data. Combining object segmentation with object tracking is able to overcome the challenges of each problem and improve the performance of each other. However, in order to adapt to the diversity of video content and object categories, the traditional methods only construct general object model and ignore the semantics of the specific category of object, which will lead to the following problems: the inaccurate object segmentation, and the damage of the consistency of the general object model. These two problems seriously affect the performance of object segmentation and tracking. To solve these bottlenecks and challenges, this project aims to explore the deep awareness of object semantics during the process of video processing, and introduces the semantic object model to compensate for the shortage of general object model. In addition, focusing on the key problems of deep semantic-aware, we will propose a set of theory and technology systematically for recurrent spatio-temporal visual attention based semantic labelling, deep semantic-aware model generating, and contour of object reasoning with the fusion of semantic-aware model and the motion of optical flow, and then achieve robust online segmentation and tracking for arbitrary category of object based on these new theories and technologies. This project will provide a new idea for deep awareness of object semantics during the process of category-free vision problems. The research achievement can provide basic technical support for many important applications such as large-scale video analysis, public security, virtual reality, medical diagnosis and military guidance.
视频数据的指数级增长,迫切需要自动进行视频目标的分割与跟踪,以便有效的分析使用视频大数据。将目标分割与跟踪这两个问题结合处理可克服各自难点、提升两者性能;但为了适应视频内容、目标类型的多样性,传统研究方法仅构建通用的目标模型,忽略特定类型目标语义,从而存在目标分割不准确、及通用目标模型的一致性破坏问题,严重影响目标分割与跟踪性能。针对上述瓶颈与挑战,本项目拟探索在视频处理过程中深度感知目标语义,引入语义目标模型,弥补通用目标模型的不足;并围绕深度语义感知关键科学问题,拟系统性地提出一套循环时空注意的在线视频语义标签生成、深度语义感知模型生成、融合语义感知与运动光流的目标轮廓推理理论及技术体系,实现鲁棒的任意类型目标在线分割与跟踪。本项目将为类型无关视觉处理中深度感知特定语义信息提供一条新思路;研究成果可为视频大数据分析、公共安防、虚拟现实、医疗诊断、军事制导等众多重要应用提供基础技术支撑。
视频目标分割和目标跟踪是计算机视觉中的两个基础研究问题,智能移动终端与互联网的迅猛发展,使得视频数据呈指数级增长,感兴趣目标分割与跟踪显得十分迫切。鉴于此,本项目主要研究语义感知下目标分割与跟踪的理论方法和关键技术,具体包括深度语义感知模型的识别与跟踪研究、视频目标语义标签生成研究、以及深度目标搜索与推理研究等。. 在语义感知目标跟踪方面,提出了语义感知的视频目标跟踪方法,它将语义信息引入到跟踪过程中,利用显式的语义先验信息扩展了视频目标跟踪中的目标模型。为所有感兴趣的目标引入了联合学习框架,提出将运动模型和置信度指标引入多目标视觉跟踪,以提高跟踪器的性能。在视频目标语义标签生成方面,提出了一个联合注意力模块,捕捉不同帧间的相关性,并通过联合注意力模块的叠加获得了良好的性能。提出一种基于时空目标模型的端到端编码—时空部件图—解码视频目标分割方法,利用了历史帧的时空部件特征结构信息。在深度目标搜索与推理方面,提出了样本生成与深度互补分类的行人搜索方法,使用对抗生成网络增加数据的多样性和解决样本缺失的问题,并利用深度互补分类器可提高定位目标对象区域的性能,提出中心约束的三元组损失,获得良好性能。提出具有在线差异识别模块的高效轻量级视频行人重识别方法,以节省计算资源并满足实际应用需求。. 通过本项目的实施,有力推动了视频目标分割与跟踪研究,为实际应用提供了理论基础和技术支持。本项目共发表学术研究论文27篇,其中SCI收录的论文19篇,包括IEEE Trans系列论文3篇,Pattern Recognition论文2篇,IEEE CVPR论文1篇,并申报国家发明专利8项。在国内外学术交流方面,多次邀请国内外知名专家进行学术交流,多次参加知名国内外会议。人才培养方面,近几年先后培养了一批作秀的人才,其中毕业博士生1名,硕士生7名,2篇学位论文评为中国矿业大学优秀研究生学位论文。
{{i.achievement_title}}
数据更新时间:2023-05-31
基于 Kronecker 压缩感知的宽带 MIMO 雷达高分辨三维成像
基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例
基于协同表示的图嵌入鉴别分析在人脸识别中的应用
一种改进的多目标正余弦优化算法
面向工件表面缺陷的无监督域适应方法
目标外观剧烈变化场景下的视频跟踪和分割研究
交互式持续学习的图像目标语义感知分割
复杂场景下基于状态感知的视频运动目标跟踪研究
时空上下文感知的网络视频主题目标发现与分割研究