Visual understanding is one of the popular research fields in the past decade. With the explosive growth of multimedia data and the invention of deep learning technologies, it brings strong demands for new practical applications, as well as supporting techniques and theories. Among these applications and techniques, how to integrate natural language processing into visual understanding is a key research topic, which remains largely unsolved. Its implementation will provide the consumers with a natural way to understand and interact with the visual data, and will build the technical foundation for the next-generation multimedia analysis. In this project, we are focusing on three research tasks: 1) to propose a general deep neural framework to effectively and efficiently extract useful representations from large scale visual or text data; 2) to integrate natural language processing techniques to enhance large scale visual understanding and visual captioning; 3) to combine visual understanding, object detection and deep learning techniques to enhance Visual Question Answering.
视觉理解一直是计算机应用领域的研究热点之一。图像视频是视觉数据的主要载体,其爆炸式增长以及深度学习的不断发展,给该领域的研究带来了新颖的实际应用需求和技术理论支撑。其中如何融合自然语言处理技术用于深度视觉理解,以提供给用户更为自然的图像视频理解与交互方式,仍亟待研究。其实现会为下一代大规模智能多媒体分析提供关键的技术支撑。本项目针对此重要课题展开研究,拟深入探索多媒体内容理解、语义分析以及自然语言处理等关键技术,具体对三个方面的内容展开研究:(1)提出一个普适的深度网络对海量的图像视频和文本特征进行快速有效的提取;(2)将自然语言处理融合进视觉理解以改进视觉的文本描述;和(3)融合交互式视觉理解与自然语言处理以完善视觉问答系统。上述三个研究点关联紧密且相互增强,为融合自然语言处理的视频理解奠定了理论基础。
视觉理解一直是计算机应用领域的研究热点之一。图像视频是视觉数据的主要载体,其爆炸式增长以及深度学习的不断发展,给该领域的研究带来了新颖的实际应用需求和技术理论支撑。其中如何融合自然语言处理技术用于深度视觉理解,以提供给用户更为自然的图像视频理解与交互方式,仍亟待研究。其实现会为下一代大规模智能多媒体分析提供关键的技术支撑。本项目针对此重要课题展开研究,拟深入探索多媒体内容理解、语义分析以及自然语言处理等关键技术,具体对三个方面的内容展开研究:(1)提出一个普适的深度网络对海量的图像视频和文本特征进行快速有效的提取;(2)将自然语言处理融合进视觉理解以改进视觉的文本描述;和(3)融合交互式视觉理解与自然语言处理以完善视觉问答系统。上述三个研究点关联紧密且相互增强,为融合自然语言处理的视频理解奠定了理论基础。依托本项目,已完成的研究成果为:发表高水平论文30篇(CCF A类会议论文和JCR二区以上期刊论文),培养研究生(博士和硕士)17名,申请专利2项。
{{i.achievement_title}}
数据更新时间:2023-05-31
现代优化理论与应用
TVBN-ResNeXt:解决动作视频分类的端到端时空双流融合网络
空中交通延误预测研究综述
基于编解码网络的航空影像像素级建筑物提取
基于边信息的高光谱图像恢复模型
协同深度视频理解、描述和视觉问答的关键技术研究
融合先验建模和深度学习的自然场景视觉理解研究
单光子成像与深度学习融合的仿生视觉芯片关键技术研究
自然语言理解中事件真实性判别关键技术研究