Human temporal action detection is one of the important research contents of video intelligent understanding, and has a wide application prospect in the field of public security video surveillance. When facing complex scenes, temporal action detection meets great challenges. Low accuracy greatly restricts its practical applications. Based on previous works, we introduce deep learning method to study each stage of temporal action detection: feature extraction, candidate segment proposal, action classification and boundary location. First, we construct a deep neural network to extract action features. The network structure is designed by combining with human pose information, making the learnt action features more focus on human motion. Second, we research method of two phase candidate segments proposal. We filter action regions by temporal actionness grouping method, and then build candidate segments proposal network to select final segments based on feature pyramid. Then, we explore multi-layer feature fusion method of feature pyramid to enhance the semantic information of each feature layer, and on this basis we build an action classification network. Finally, we extract action context information and predict action boundaries from whole action. This project aims to conduct theoretical analysis and design key algorithms to promote the practical application of temporal action detection technology.
人体时序行为检测是视频智能理解的重要研究内容之一,在公共安全视频监控领域有着广泛应用前景。在面对复杂场景时,时序行为检测遇到较大挑战,较低的准确度使得其在实际应用中受到很大限制。本项目在前期研究基础上,引入深度学习方法对时序行为检测涉及的特征提取、候选片段提名、行为分类以及边界定位各阶段展开研究。首先,构建提取行为特征的深度神经网络,在结构设计中结合人体姿态信息,使得所学特征更加关注人体运动;其次,研究分阶段的候选片段提名方法,通过时序行为概率组合方法筛选行为片段,进而基于特征金字塔构建候选片段提取网络进行片段精选。然后,探索特征金字塔的多层特征融合方法,增强各特征层语义信息,在此基础上构建行为分类网络;最后,提取行为上下文信息,从行为全局预测行为边界。通过研究,建立理论框架并设计关键算法,推动行为时序检测技术的实用化。
人体时序行为检测的任务是检测一段完整视频中人体的所有行为动作片段,确定行为动作片段的类别和行为的起止时间,在公共安全视频监控领域有着广泛应用前景。在面对复杂场景时,时序行为检测遇到较大挑战,较低的准确度使得其在实际应用中受到很大限制。本项目引入深度学习方法对时序行为检测涉及的特征提取、候选片段提名、行为分类以及边界定位各阶段展开研究,提出了一个新的基于三维特征金字塔特征提取网络的两阶段检测网络模型。模型分为单支网络模型和双支网络模型,分别以单独特征输入和混合特征输入,经过特征金字塔特征提取网络产生不同分辨率和抽象程度的特征图。这些不同级别的特征图在网络的后两个阶段发挥作用,一是在提案阶段结合锚方法,使得不同时间长度的锚段具有与之对应的不同大小的感受野,锚段在不同特征图上进行的初次预测更加准确;二是在感兴趣区域池化阶段,不同的提案片段映射给对应级别特征图进行预测,复用多级特征图同时再一次增强了特征利用的针对性,平衡了分类和回归对特征图抽象度和分辨率的需求。单支网络模型以RGB帧作为输入,双支网络模型则同时以RGB帧和光流帧作为输入,通过两个独立的特征金字塔特征提取网络分别提取RGB特征和光流特征,在网络的后两个阶段分别预测并进行特征晚融合。网络可以进行端到端的训练,并通过整体优化的方法提升网络的预测准确率。在最广泛使用的公开数据集THUMOS’14上所提模型进行了训练和测试,并与目前的典型方法进行比较,所提模型测试准确率超过了大部分现有方法;通过对不同行为动作的检测准确率进行比较,验证了网络对于持续时间较短的行为片段检测准确率的提升。此外,通过消融性实验探究了多级特征图在网络的不同部分所发挥的作用。模型具有广泛的适用性,经过训练后能对任意视频进行行为检测。项目共发表相关论文7篇,获得国家发明专利1项,培养研究生1名。
{{i.achievement_title}}
数据更新时间:2023-05-31
基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例
居住环境多维剥夺的地理识别及类型划分——以郑州主城区为例
基于细粒度词表示的命名实体识别研究
基于全模式全聚焦方法的裂纹超声成像定量检测
基于协同表示的图嵌入鉴别分析在人脸识别中的应用
面向复杂场景的显著性检测方法研究
面向复杂场景低空慢速小目标检测方法研究
自然场景视频人体行为识别特征析取关键问题研究
面向复杂公众场景安全监控的异常行为快速检测与识别