Action recognition is the main research direction in the field of computer vision and machine learning, and has wide range of theoretical significance and application value. Theoretically, the study of action recognition will lead to the integration, crossover and innovation of theoretical knowledge in different fields. Practically, action recognition has broad application prospects in the fields of intelligent video surveillance, assisted medical care, intelligent human-computer interaction, holographic motion analysis and virtual reality. However, due to the complexity of the problem and the uncertainty of the actual situation, action recognition is restricted by the diversity of the environment, the structure of the target movement, and the limitation of resources. This project focuses on above three difficulties, and studies the key technologies of action recognition via the hierarchical visual representation and the theory of depth learning. Firstly, at the lower level of vision, we construct a multi stream network model based on space-time, multi-view and multi-source streams, and propose the hidden distribution constrained and the semi-coupled fusion models, so that multi stream information can be organically integrated. Secondly, to integrate the high level semantics into the low level multi stream network, a latent semantic guided multi stream network is proposed. Finally, a network compression model via tensor decomposition is proposed, which can effectively compress the network to improve the computing efficiency.
行为识别是计算机视觉和机器学习领域的主流研究方向,具有广泛的理论意义和应用价值。在理论方面,行为识别的研究将引发不同领域理论知识之间的融合、交叉以及革新。在应用方面,行为识别在智能视频监控、辅助医疗监护、智能人机交互、全息运动分析以及虚拟现实等领域具有广阔的应用前景。然而,由于问题的复杂性以及实际情况的不确定性,行为识别受到客观环境多样性、目标运动的结构性以及资源有限性的制约。本项目围绕行为识别的上述难点,以分层视觉表示为基础,结合深度学习理论,开展行为识别的关键技术研究。首先,在视觉低层,构建以时空、多视角和多源为基础的多流网络模型,并提出基于隐分布约束和基于半耦合的融合模型,从而将多流信息有机地融合起来。其次,为将高层语义先验融入低层多流网络,提出基于潜在语义指导的多流网络模型。最后,提出基于张量分解的网络压缩模型,进而有效地压缩网络以提升运算效率。
行为识别是计算机视觉和机器学习领域的主流研究方向,具有广泛的理论意义和应用价值。本项目针对行为识别任务的主要难点,以分层视觉表示为基础,结合深度学习理论,开展行为识别的关键技术研究。首先,以视觉注意力机制为核心,构建了以时空、多源以及多尺度为基础的特征提取方法。以双流网络为核心,提出了大量多源、多尺度融合的行为识别算法。其次,以提升行为识别算法的效率与效果为目标,提出了新的图卷积网络、图结构搜索算法。以提升行为识别的应用性,提出了新的相关算法,包括目标检测、目标跟踪等。最后,构建了室内场景行为识别数据库,用于训练并验证提出的算法模型。并且,以所提的相关算法为基础,实现了与行为识别相关的演示系统。
{{i.achievement_title}}
数据更新时间:2023-05-31
演化经济地理学视角下的产业结构演替与分叉研究评述
低轨卫星通信信道分配策略
基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例
居住环境多维剥夺的地理识别及类型划分——以郑州主城区为例
基于细粒度词表示的命名实体识别研究
基于深度子空间表示的分层视频摘要研究
面向暴力行为识别的深度特征联合稀疏表示关键算法研究
基于稀疏表示和字典学习的深度图像序列人体行为识别
基于分层超完备字典稀疏表示的深度学习算法研究及应用