Images grow explosively on the Internet. The metadata which describes the semantic meaning of network images provides an opportunity to reduce the "semantic gap". However, the characteristics of metadata, such as inaccurate definition, asymmetric distribution and incompleteness, restrict the applicability of traditional image recognition methods to network images. Considering the characteristics of the metadata, an image recognition method based on deep visual-semantic model with joint text prior and multi-label is constructed in this project. First, a multi-label depth visual model is built to construct the relationship between semantic tags and objects in images. Then, the metadata is used as a bridge, to connect visual semantic features and the standard semantic similarity prior obtained from texts. In this way, a deep visual semantic model is built, which uses the text semantic information to improve the model robustness and generalization ability. Finally, we modify the network structures and optimize model parameters to improve the effectiveness of the deep visual semantic model. This project ensembles the prior knowledge, deep neural network modeling and parameter optimization into a unified frame work. This project uses the network and semantic information of metadata effectively, which results in an effective image recognition method. The research achievements will provide the theoretical and technical basis for network image recognition, information management and retrieval of mass images.
互联网上的图像呈爆炸性增长,描述图像语义的元数据为降低“语义鸿沟”提供了有力支撑。但元数据具有定义不严格、分布不均衡、不完备等特点,这限制了传统图像识别方法在网络图像上的应用。为此,本课题针对元数据的特点,构建联合文本先验和多标注信息的图像深度视觉语义识别方法。首先构建多标签深度视觉模型以建立图像目标与语义标签之间的联系;然后,以标签元数据为桥梁,关联图像视觉特征与规范化的文本语义相似性先验,从而构建深度视觉语义模型,利用文本语义提高模型对元数据的鲁棒性和对新类别外延的表示能力;最后改进网络结构,并行优化模型参数,使得深度视觉语义模型的训练更加高效。本课题将先验知识表示、深度网络模型构建及参数优化三个问题统一至一个整体的框架中,充分挖掘网络图像及其元数据的特点,形成一套有效的图像识别方法。研究成果为网络图像识别、海量图像信息管理以及检索等技术的发展提供理论和技术支持。
网络环境下,图像数量巨大、种类庞多、类别差异小等均使得图像识别极具挑战性。大量的网络图像及描述图像语义的元数据为降低“语义鸿沟”提供了有力支撑。但是元数据具有定义不严格、分布不均衡和不完备等特点,因此本课题针对元数据的特点,构建结合文本语义相似性先验的深度视觉语义模型,以期取得更好的图像识别效果。首先构建多标签深度视觉模型以建立图像目标与语义标签之间的联系;然后,以标签元数据为桥梁,关联图像视觉特征与规范化的文本语义相似性先验,从而构建深度视觉语义模型,该模型利用规范化的文本语义先验来提高模型对元数据的鲁棒性和对新类别外延的表示能力;最后改进网络结构,并行优化模型参数,使得深度视觉语义模型的训练更加高效。因此,本课题进行了如下方面的深度研究:(1)图像先验构建;(2)基于影像深度视觉语义多特征的图像理解;(3)多任务模型构建及参数优化方面;此外本课题还扩展了一个新的研究方向:图像特征迁移。在理论创新方面,提出了一系列新思想、新方法,共发表包括国际期刊论文18篇,包含国际会议论文9篇;在关键技术方面,授权专利6项,受理专利4项;共培养博士生5名,硕士生18名;课题组成员(1)举办国际会议1次;(2)参加国际学术会议11人次;(3)课题组成员参加国内学术会议22人次;(4)举办学术研讨会10次。促进了本课题研究成果的传播,实现思想的碰撞和学科的交叉,发掘新的科学问题和新的研究方向。基于这些方向的研究成果为网络图像识别、海量图像信息管理以及检索等技术的发展提供理论和技术支持。
{{i.achievement_title}}
数据更新时间:2023-05-31
带有滑动摩擦摆支座的500 kV变压器地震响应
智能煤矿建设路线与工程实践
现代优化理论与应用
基于直觉模糊二元语义交互式群决策的技术创新项目选择
带球冠形脱空缺陷的钢管混凝土构件拉弯试验和承载力计算方法研究
基于深度学习和迁移学习的图像自动语义标注方法研究
基于多信息融合的自然场景图像中的文本检测和识别方法研究
语义深度理解驱动的图像及文本统一检索研究
基于深度特征语义感知视觉字典学习的联合图像分类及对象定位方法研究