During the past few decades, we have witnessed an explosion in the production of video data due to the advancement of information technologies. It has been more and more important to automatically understand video content for many applications. Since human action is one of the most predominant parts in video content, many significant studies have been carried out in the computer vision domain. However, most of existing algorithms focus on the datasets acquired in well-controlled settings, which prevents those techniques from being utilized in more realistic scenarios. In this proposal, we are going to investigate the problems in this emerging direction, realistic human action recognition by utilizing the deep learning theory for realistic human action representation, as its strong learning ability in some successful cases. The deep learning technique has been combined to the visual saliency for searching the interesting districts and pruning the invalid space-time interest points. And then the deep learning theory has been utilized in the bag-of-features model again, in order that we can find the optimal visual vocabulary size. Finally, the SVM has been adopted for the human action recognition. The investigation on realistic human action recognition based on deep learning theory is of important research value and great importance in applications.
随着信息技术的飞速发展,在过去的几十年内,我们见证了生活中无限泛滥的视频大数据。因此,自动分析和理解视频内容在大数据时代就变得越来越重要。而人的行为是视频内容中的重要组成部分,已提出的大部分方法都是基于相对简单的数据库下的研究,因此,很难被应用到对实际场景下的人的行为的分析。在本项目申报书中,我们拟采用深度学习的方法来对实际场景中的人体行为进行表征。首先,基于人体视觉感知特性,采用深度卷积神经网络训练学习,来获取图像中感兴趣的区域,从而确定作为图像主体的人的位置区域,根据这个有效区域来对局部噪声时空兴趣点进行去除;另外,借助无监督的深度置信网来对bag-of-features模型中视频词库进行选择,得到了一种更有表征能力的bag-of-features模型。最后,采用SVM方法来实现在上述两层特征选择基础上的人体行为特征的识别。本项目的研究不仅具有重要的理论意义,同时也具有广泛的应用前景。
在过去的几年时间里,深度学习以无可比拟的特征表征能力,在图像视频领域取得了突破性的进展。因此,本课题在对深度学习理论及应用展开全面调研,以及对课题的研究现状进入深入分析后,该项目主要从以下两方面着手展开研究。首先,针对传统手工特征存在的问题,寻找有效的改进策略。如,改进了Haar特征;设计了轻量化但高效的算法;基于图像质量评估的系统;提出了一种基于高斯分布的融合算法;改进的分数阶光流模型;提出了一种新颖的基于动态时间卷积的多距离方法。其次,基于深度学习的理论,探索设计新的基于深度学习的特征提取方法。在对深度学习的进一步研究后,成功设计了一种浅层卷积神经网络FPNet。针对现有的深度网络进行改进,设计了一种双流卷积神经网络。常规的视频词库的选择,主要依赖于经验和主观的判断。提出了一种基于数据驱动的方法来选择视频词库的大小,即通过最小化局部泛化误差来实现视频词库自动选择的目的。本项目的研究不仅具有重要的理论意义,同时也具有广泛的应用前景。
{{i.achievement_title}}
数据更新时间:2023-05-31
基于SSVEP 直接脑控机器人方向和速度研究
内点最大化与冗余点控制的小型无人机遥感图像配准
基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例
氯盐环境下钢筋混凝土梁的黏结试验研究
居住环境多维剥夺的地理识别及类型划分——以郑州主城区为例
基于深度时空轨迹特征的复杂场景人体行为识别
复杂交通场景下基于深度迁移学习的车辆识别方法研究
基于深度多任务学习的人体行为识别研究
视频侦查中基于深度学习的人体行为识别技术研究