Image caption provides a powerful technical support that enables computers to have human-like image recognition capabilities and natural interaction with the real world. However, the task faces some challenging problems, including the diversity and complexity of visual content, the richness and logicality of language expression, and the synergy effect between the both sides. To achieve accurate, diverse, reasonable and natural textual sentence description of image content, the proposal will mainly study knowledge directed image caption via adversarial learning framework. First, we attempt to construct a knowledge map suitable for image caption tasks by exploring the diversity of target objects in the image, the richness of contextual information, and the correlations of semantic concepts. Second, we research to build a knowledge-guided image caption model, during which how to import knowledge into the model design and learning mechanism, and the reasoning and decision making process will be emphasized. Third, we design a new generative adversarial network (GAN) striving for the consistency between model learning performance and human subjectivity. Finally, we introduce the idea of policy gradient algorithm to assist the model optimization, in order to solve the non-differentiable problem during the adversarial learning for the discrete sequence generation task. Besides, the problem of stable optimization based on the strategy gradient algorithm will be studied.
图像文本描述是使计算机具有类人图像认知能力,与现实世界进行自然交互的有力技术支撑,同时面临着视觉内容多样性与复杂性、语言表达的丰富性与逻辑性以及各种特性的协同学习等挑战问题。基于此,本项目将主要研究联合知识引导与对抗学习的图像文本描述的相关技术,旨在实现图像内容的准确、多样、合理且自然的文本语句表达。具体包含以下四方面的研究内容:(1)充分考虑图像中目标物体的多样性、上下文信息的丰富性以及语义概念的关联性,构建适于图像文本描述任务的知识图谱;(2)探讨在图像文本描述生成模型建模过程中知识图谱的有效嵌入,强调知识引导下的模式设计、学习机制与推理决策;(3)研究基于生成对抗网络的图像文本描述方法,力求模型学习性能与人类主观评判的一致性;(4)研究联合策略梯度的生成对抗网络优化学习算法,解决生成对抗网络模型训练在离散序列生成任务中的不可微问题,同时关注基于策略梯度算法的稳定优化求解问题。
图像文本描述是使计算机具有类人图像认知能力,与现实世界进行自然交互的有力技术支撑,同时面临着视觉内容多样性与复杂性、语言表达的丰富性与逻辑性以及各种特性的协同学习等挑战问题。基于此,本项目在领域知识图谱构建、模型构建中知识嵌入、对抗网络模型设计、优化训练方法等方面开展了深入研究工作,有效提升了图像文本描述模型的学习性能与语义表达的生成质量,在相关领域产生了积极的学术影响。具体来说,在知识图谱构建与知识引导的图像文本描述模型方面,提出了基于上下文增强表示的图像语义描述,提出了用结构性的图来统一地表示这些视觉语义单元,提出了基于标准化自注意力机制的图像语义描述,提出了基于多模态训练的通用知识表示学习。在基于对抗学习的图像文本描述生成方面,提出了一种能够生成多种语言风格的图像描述的模型,提出了基于多智能体强化学习的非自回归图像语义描述。在联合策略梯度与对抗网络学习的图像文本描述生成方面,提出了基于强化学习的多重解码图像文本描述模型,提出了基于预训练模型的图像/视频文本描述,提出了基于密集的模态间与模态内交互的视觉文本描述。截至目前,项目组成员发表论文共计22篇,其中国际期刊论文10篇,国际会议论文12篇,获得国内外重要会议竞赛冠军3项,授权国家发明专利3项,搭建展示系统一套。项目组成员积极开展国际学术交流,有10人次参加线上国际学术会议。综上,我们按照预定计划较好的完成了研究任务,取得了多项先进的成果,实现了预期目标。
{{i.achievement_title}}
数据更新时间:2023-05-31
跨社交网络用户对齐技术综述
内点最大化与冗余点控制的小型无人机遥感图像配准
城市轨道交通车站火灾情况下客流疏散能力评价
基于FTA-BN模型的页岩气井口装置失效概率分析
服务经济时代新动能将由技术和服务共同驱动
circRNA_5303通过miR-138-5p调控Smad4参与钙化性主动脉瓣膜病变的分子机制研究
基于深度学习的图像文本描述自动生成方法研究
知识驱动的视频文本描述生成
基于教育文本和图像的三维虚拟学习场景生成方法研究
基于生成对抗网络的释义文本生成研究