协同深度视频理解、描述和视觉问答的关键技术研究

基本信息

批准号：61772116

项目类别：面上项目

资助金额：66.00

负责人：宋井宽

学科分类：

依托单位：电子科技大学

批准年份：2017

结题年份：2021

起止时间：2018-01-01 - 2021-12-31

项目状态：已结题

项目参与者：徐行,罗亮,欧阳德强,赵磊,何涛,曹良富,郭昱宇,李向鹏,陈岱渊

关键词：

视觉问答视频理解视频描述生成深度学习自然语言处理

结项摘要

The explosion of massive video data requires novel applications for computer vision communities. An important application is to combine deep learning based video analysis and natural language processing, which is a key technique for the next generation of intelligent video analysis, but remains unsolved. To address this issue, we explore the techniques of deep learning based video analysis, visual semantics and natural language processing. Specifically, in this project, we are focusing on three research tasks:1) proposing a two–stream 3D convNet fusion for feature extraction in videos with arbitrary size and length; 2) jointly learning of keywords and descriptions for video captions with deep Recurrent Neural Networks (RNNs); and 3) Bridge the gap between vision and language to propose efficient approaches for video question answering system. The three tasks are narrated progressively, and they provide theoretical support and experimental evaluation for combining video analysis and natural language processing. The project intends to output a series of key technologies for deploying collaborative applications of video analysis and natural language processing, such as video content analysis, semantic understanding, natural language processing, etc., as well as promoting the applicable range of video analysis in relevant disciplines.

随着数据爆炸时代的到来，海量视频数据的生成给计算机视觉的研究领域带来了新的应用需求。其中如何深度理解视频以及利用自然语言和视频进行交互仍亟待解决，其实现会为下一代大规模智能视频分析提供关键的技术支撑。本项目针对此重要课题展开研究，拟深入探索视觉内容分析、视觉语义以及自然语言理解等关键技术，具体对三个方面的内容展开研究：(1)提出一个轻量的深度网络对海量的视频语义特征进行快速有效的提取；(2)协同视频理解与自然语言处理实现视频的文本描述；和(3)协同视觉理解与自然语言处理实现视频智能问答系统。上述三个研究点依次递进，为视频理解和自然语言的协同提供理论支持和实用验证。本项目拟输出一系列协同视频分析和自然语言处理的关键技术，为视觉内容分析、语义理解以及自然语言处理等应用奠定理论基础，并促进视频分析在跨相关学科中的应用。

项目摘要

随着数据爆炸时代的到来，海量视频数据的生成给计算机视觉的研究领域带来了新的应用需求。其中如何深度理解视频以及利用自然语言和视频进行交互仍亟待解决，其实现会为下一代大规模智能视频分析提供关键的技术支撑。本项目针对此重要课题展开研究，拟深入探索视觉内容分析、视觉语义以及自然语言理解等关键技术，具体对三个方面的内容展开研究：(1)提出紧致视觉特征和复杂场景的语义理解，促进视觉理解；(2)协同视频理解与自然语言处理实现视频的文本描述；和(3)协同视觉理解与自然语言处理实现视频智能问答系统。上述三个研究点依次递进，为视频理解和自然语言的协同提供理论支持和实用验证。本项目产出了一系列协同视频分析和自然语言处理的关键技术，为视觉内容分析、语义理解以及自然语言处理等应用奠定理论基础，并促进视频分析在跨相关学科中的应用。依托本项目，已完成的研究成果为：发表高水平论文22篇(CCF A类会议论文和JCR B区以上期刊论文)，培养研究生(博士和硕士)15名，申请专利2项。

项目成果

DOI：{{i.doi}}

发表时间：{{i.publish_year}}

暂无此项成果

数据更新时间：2023-05-31

其他相关文献

DOI：10.7524/j.issn.0254-6108.2021021801

发表时间：2022

DOI：10.1360/SSM-2020-0035

发表时间：2020

DOI：10.16798/j.issn.1003-0530.2020.01.008

发表时间：2020

DOI：10.12305/j.issn.1001-506x.2022.03.19

发表时间：2022

DOI：10.11834/jrs.20209056

发表时间：2020

宋井宽的其他基金

相似国自然基金

协同视觉语义理解和社会媒体分析的关键技术研究

批准号：61572108

批准年份：2015

负责人：杨阳

学科分类：F0210

资助金额：66.00

项目类别：面上项目

融合自然语言处理的深度视觉理解关键技术研究

批准号：61872064

批准年份：2018

负责人：高联丽

学科分类：F0210

资助金额：65.00

项目类别：面上项目

视觉语义启发的视频事件理解技术研究

批准号：61201319

批准年份：2012

负责人：邹晓春

学科分类：F0113

资助金额：26.00

项目类别：青年科学基金项目

融合实体关系模型的视觉问答关键技术研究

批准号：61906044

批准年份：2019

负责人：赵佳

学科分类：F0604

资助金额：24.00

项目类别：青年科学基金项目

协同深度视频理解、描述和视觉问答的关键技术研究

{{i.achievement_title}}

暂无此项成果

其他相关文献

水中溴代消毒副产物的生成综述

现代优化理论与应用

TVBN-ResNeXt:解决动作视频分类的端到端时空双流融合网络

空中交通延误预测研究综述

基于编解码网络的航空影像像素级建筑物提取

宋井宽的其他基金

相似国自然基金