With the convenience and miniaturization of video collection devices, video data are growing exponentially and are playing more and more critical roles in our daily life. It is an important way and vital aspect to analyze and discover latent event semantics for video understanding. Hence, this project targets the major strategy requirement of national and social public security, mainly focusing on the theory and methods of video event detection and recognition...Motivated by video event understanding and based on large-scale video data, this project primarily solves how to sufficiently employ the video temporal information, human visual attention mechanism, the inherent relation between the spatiotemporal dimensions, and the complementary advantages existing in multimodal data. In particular, from the perspective of deep sequence learning, visual attention fusion, hierarchical spatiotemporal modeling, and multimodal ensemble, we concentrate on recurrent convolutional network using sequential memory, convolutional sequential learning with visual attention, hierarchical spatiotemporal deep convolutional network, ensemble learning via multimodal feature aggregation. This project attempts to build a unified video event analysis model, and to promote developing the direction of video event understanding and also enrich its theory system. Moreover, it can provide broad and creative ideas for intelligent computing in the Internet plus era. Additionally, it offers reliable support and solution technically in many practical applications. Therefore, this project has scientific value and practical significance.
随着视频采集设备的便捷化和小巧化,视频数据的规模正呈指数级增长同时在人们的日常生产生活中占据着愈发重要的地位,分析和挖掘视频潜在的事件语义是理解视频的重要途径和关键环节。为此,本项目瞄准国家和社会公共安全的重大战略需求,主要研究视频事件检测与识别的理论和方法。.项目以视频数据为研究对象,以视频事件理解为驱动力;重点解决如何充分利用视频数据的时序信息、人类视觉注意机制、时间和空间维度的内在关系、多模态数据的互补优势的关键科学问题,具体从深度序列学习、视觉注意融合、层次时空建模、多模态集成等角度研究基于序列记忆的递归卷积网络、融合视觉注意的卷积序列学习、层次化的时空深度卷积网络、基于多模态特征融合的集成学习;力图构建统一的视频事件分析和挖掘模型,推动视频事件理解方向发展并丰富其理论体系,为互联网+时代的智能计算提供创新思路,为实际应用场景提供可靠技术支持和解决方案,具有重要科学价值和现实意义。
随着视频数据的规模呈指数级增长,视频内容理解成为重要研究课题,而分析和挖掘视频潜在的事件语义是理解视频的重要途径。本项目从深度序列学习、视觉注意融合、层次时空建模、多模态表征等角度围绕视频理解主要研究了视频动作事件检测、视频内容描述、视频摘要等三方面内容,具体成果包括:(1)提出点监督原型对比学习算法生成动作片段的伪标记用于时序动作检测,构建循环压缩卷积网络刻画在压缩域的视频帧间时序依赖用于检测短视频事件,将低秩音频视觉融合机制与层次时序上下文编码结合用于视频高光片段检测;(2)利用多粒度词性信息构建图卷积网络并通过元学习方式准确描述视频内容,提出基于多样性约束的时域频域循环转换器用于缩小视频和文本模态间的语义鸿沟;(3)利用时序表征学习、自注意力和上下文融合基于图卷积网络捕捉最具信息量的视频帧,设计全局多样性注意力机制从全局角度考虑视频帧的成对时序关系,以及构建循环一致对抗长短时记忆网络用于浓缩视频内容。..这些新理论和新方法充分利用视频数据的时序表征、人类视觉注意机制、时空维度内在关系、多模态内容互补,有利于视频内容的高层语义理解,能为城市大脑、公共安全、工业物联网等实际应用场景提供视频事件分析方面的技术支撑。项目研究期间获得省部级科技成果一等奖2项,发表高质量论文13篇,其中SCI TOP期刊或CCF-A类顶会9篇(含ICCV、AAAI、TMM、TCYB、PR等)、CCF-B类会议1篇,授权国家发明专利8项,1人晋升教授、入选浙江省高校领军人才培养计划、获浙江省杰出青年科学基金资助。
{{i.achievement_title}}
数据更新时间:2023-05-31
基于分形L系统的水稻根系建模方法研究
基于SSVEP 直接脑控机器人方向和速度研究
基于多模态信息特征融合的犯罪预测算法研究
基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例
基于细粒度词表示的命名实体识别研究
基于深度学习和事件驱动的视频聚合研究
基于深度学习的多源多模态城市大数据融合建模
联合能量泛函与深度学习的多模态医学图像多级别融合
基于深度学习的多模态神经影像融合分析与脑疾病诊断