融合自然语言处理的深度视觉理解关键技术研究

基本信息
批准号:61872064
项目类别:面上项目
资助金额:65.00
负责人:高联丽
学科分类:
依托单位:电子科技大学
批准年份:2018
结题年份:2022
起止时间:2019-01-01 - 2022-12-31
项目状态: 已结题
项目参与者:邢冠宇,徐行,许辉,欧阳德强,赵磊,樊凯旋,陈岱渊,李涛,张轶岳
关键词:
视觉问答视频描述深度学习不确定性视觉内容理解
结项摘要

Visual understanding is one of the popular research fields in the past decade. With the explosive growth of multimedia data and the invention of deep learning technologies, it brings strong demands for new practical applications, as well as supporting techniques and theories. Among these applications and techniques, how to integrate natural language processing into visual understanding is a key research topic, which remains largely unsolved. Its implementation will provide the consumers with a natural way to understand and interact with the visual data, and will build the technical foundation for the next-generation multimedia analysis. In this project, we are focusing on three research tasks: 1) to propose a general deep neural framework to effectively and efficiently extract useful representations from large scale visual or text data; 2) to integrate natural language processing techniques to enhance large scale visual understanding and visual captioning; 3) to combine visual understanding, object detection and deep learning techniques to enhance Visual Question Answering.

视觉理解一直是计算机应用领域的研究热点之一。图像视频是视觉数据的主要载体,其爆炸式增长以及深度学习的不断发展,给该领域的研究带来了新颖的实际应用需求和技术理论支撑。其中如何融合自然语言处理技术用于深度视觉理解,以提供给用户更为自然的图像视频理解与交互方式,仍亟待研究。其实现会为下一代大规模智能多媒体分析提供关键的技术支撑。本项目针对此重要课题展开研究,拟深入探索多媒体内容理解、语义分析以及自然语言处理等关键技术,具体对三个方面的内容展开研究:(1)提出一个普适的深度网络对海量的图像视频和文本特征进行快速有效的提取;(2)将自然语言处理融合进视觉理解以改进视觉的文本描述;和(3)融合交互式视觉理解与自然语言处理以完善视觉问答系统。上述三个研究点关联紧密且相互增强,为融合自然语言处理的视频理解奠定了理论基础。

项目摘要

视觉理解一直是计算机应用领域的研究热点之一。图像视频是视觉数据的主要载体,其爆炸式增长以及深度学习的不断发展,给该领域的研究带来了新颖的实际应用需求和技术理论支撑。其中如何融合自然语言处理技术用于深度视觉理解,以提供给用户更为自然的图像视频理解与交互方式,仍亟待研究。其实现会为下一代大规模智能多媒体分析提供关键的技术支撑。本项目针对此重要课题展开研究,拟深入探索多媒体内容理解、语义分析以及自然语言处理等关键技术,具体对三个方面的内容展开研究:(1)提出一个普适的深度网络对海量的图像视频和文本特征进行快速有效的提取;(2)将自然语言处理融合进视觉理解以改进视觉的文本描述;和(3)融合交互式视觉理解与自然语言处理以完善视觉问答系统。上述三个研究点关联紧密且相互增强,为融合自然语言处理的视频理解奠定了理论基础。依托本项目,已完成的研究成果为:发表高水平论文30篇(CCF A类会议论文和JCR二区以上期刊论文),培养研究生(博士和硕士)17名,申请专利2项。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

现代优化理论与应用

现代优化理论与应用

DOI:10.1360/SSM-2020-0035
发表时间:2020
2

TVBN-ResNeXt:解决动作视频分类的端到端时空双流融合网络

TVBN-ResNeXt:解决动作视频分类的端到端时空双流融合网络

DOI:10.16798/j.issn.1003-0530.2020.01.008
发表时间:2020
3

空中交通延误预测研究综述

空中交通延误预测研究综述

DOI:10.12305/j.issn.1001-506x.2022.03.19
发表时间:2022
4

基于编解码网络的航空影像像素级建筑物提取

基于编解码网络的航空影像像素级建筑物提取

DOI:10.11834/jrs.20209056
发表时间:2020
5

基于边信息的高光谱图像恢复模型

基于边信息的高光谱图像恢复模型

DOI:10.19734/j.issn.1001-3695.2020.12.0564
发表时间:2021

高联丽的其他基金

批准号:61502080
批准年份:2015
资助金额:21.00
项目类别:青年科学基金项目

相似国自然基金

1

协同深度视频理解、描述和视觉问答的关键技术研究

批准号:61772116
批准年份:2017
负责人:宋井宽
学科分类:F0210
资助金额:66.00
项目类别:面上项目
2

融合先验建模和深度学习的自然场景视觉理解研究

批准号:61672273
批准年份:2016
负责人:路通
学科分类:F0209
资助金额:59.00
项目类别:面上项目
3

单光子成像与深度学习融合的仿生视觉芯片关键技术研究

批准号:61704167
批准年份:2017
负责人:于双铭
学科分类:F0402
资助金额:26.00
项目类别:青年科学基金项目
4

自然语言理解中事件真实性判别关键技术研究

批准号:61703293
批准年份:2017
负责人:邹博伟
学科分类:F03
资助金额:24.00
项目类别:青年科学基金项目