Image captioning is one of the most challenging topic in machine learning and computer vision. The research on image captioning is valuable in theory and has applications in image retrieval, robotics and abnormly detection. This project aims for the high-performance high-reality image captioning based on deep learning and generative adversarial modeling. In particular, this project focuses on the large-scale image captioning based on deep generative adversarial networks (GANs). Firstly, we research on the saliency detection based on GANs and attention mechanism. Secondly, we research on the descriptive keyword detection, especially the object recognition, attribute and behavior analysis based on GANs. Thirdly, we research on the modeling for context and keywords connection. Finally, based the natural language processing and GANs, we research on the sentence generation methods. The main purpose of this project is for the end-to-end deep GANs for high-performance high-reality image captioning.
图像描述是机器学习和计算机视觉领域有挑战性的课题,其研究有重要的理论意义,且在视频监控、图像检索、机器人导航等领域有实际应用价值。本项目将研究基于深度学习和生成式对抗建模学习的图像语义描述理论与方法。针对现有基于图像描述深度神经网络误差传播及高真实感需求难以建模的问题,重点研究基于新型深度生成式对抗神经网络的大数据图像描述方法。本项目将首先基于人类视觉注意机制研究基于生成式对抗神经网络的显著性检测方法;基于此构建生成式对抗神经网络并研究物体识别、属性和行为分析方法,实现图像描述关键词检测;进一步研究上下文信息提取方法并实现多属性关键词关联;在基于生成式对抗神经网络的自然语言处理研究基础上,最终结合多属性关键词生成自然描述语句。本课题的创新之处在于利用生成式对抗建模学习对主观真实感进行建模,构建并学习“端到端”的深度神经网络,实现高性能高真实感的图像语义描述。
图像描述是计算机视觉领域的前沿课题,其研究有重要的理论价值和实用价值。本项目针对高真实感图像描述的需求,研究新型图像描述方法。首先研究了面向长尾分布和监督信息缺失条件下的目标检测方法,提出了基于注意机制的目标检测方法,基于数据蒸馏的跨监督目标检测方法,实现了图像描述主体的提取;其次,研究了基于自监督学习的目标属性识别和视觉关系挖掘方法,提出了基于小样本学习和部件特征提取的目标再识别方法;最后,结合注意机制研究图像描述方法,研究目标导向的图像描述方法。特别的,我们关注到图像描述系统的多样性,研究图像描述多样性的评价指标以及提升图像描述多样性的采样策略,实现高真实感的图像描述。本项目的创新性地之处在于关于图像描述多样性对于真实感的重要性,并构建学习“端到端”的深度神经网络,在目标关注和多重注意机制的基础上,提升图像描述的精度和真实感。本项目的研究成果将进一步应用至机器人导航等应用领域。
{{i.achievement_title}}
数据更新时间:2023-05-31
基于SSVEP 直接脑控机器人方向和速度研究
内点最大化与冗余点控制的小型无人机遥感图像配准
基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例
居住环境多维剥夺的地理识别及类型划分——以郑州主城区为例
基于细粒度词表示的命名实体识别研究
基于深度学习的图像文本描述自动生成方法研究
深度认知神经网络理论与方法研究
基于深度学习的特征点检测与描述方法研究
基于深度卷积神经网络的多源遥感图像时空融合方法研究