Image semantic segmentation is an important fundamental technology in computer vision system for image understanding, whose target is to assign a semantic label for each pixel of a given image. Deep convolutional neural networks have become the main stream method for image semantic segmentation due to their powerful feature learning ability and feature representation ability. But there are still several limitations for application of existing semantic segmentation methods in vision system, especially that semantic spatial consistency of image segmentation and robustness of objects' intra-variance need be advanced urgently. To address the problems and challenges of image semantic segmentation with deep neural networks model, this project attempts to improve existing deep learning model and training methods for multi-task learning, enhance the accuracy of semantic segmentation algorithm and multiple types of intra-class changes. To be exact, our research mainly covers multi-level structured feature representation method with multi-task deep neural networks, modeling of local and global vision invariance, object detection method with multi-level feature fusion and context semantic information, image semantic segmentation method with deep neural networks model that fusing multi-grain context information. This study is expected to provide a novel viewpoint for image understanding research and to support the development of practical application of intelligent interaction technology based on vision system.
图像语义分割技术为图像的每个像素赋予特定的语义标注,是计算机视觉系统实现图像理解的重要技术基础。深度卷积神经网络以其强大的特征学习能力和特征表达能力,成为图像语义分割的主流方法,但是面向视觉系统应用,现有的方法仍然存在很多局限性,特别是图像语义空间一致性以及目标类内变化的鲁棒性亟待提高。本项目针对基于深度神经网络模型的图像语义分割方法面临的问题和挑战,研究改进的多任务深度学习模型及其训练方法,提高语义分割算法的精度以及多种类内变化的适应性。主要研究内容有:基于多任务深度神经网络模型的多层级结构化特征表达方法;局部与全局视觉不变性建模;多层级特征融合及上下文语义的目标检测方法;基于深度神经网络的融合多粒度上下文的图像语义分割方法。本项目研究将为图像理解研究提供新的思路,并推动基于视觉的智能交互技术向实用化发展。
目前已有的基于深度神经网络的图像语义分割方法,例如FCN、Deep lab等网络,缺乏对于图像上下文语义特征的建模,而多尺度及特征融合和上下文知识对分割结果的提高有很大影响。为了解决这些问题,本项目构建融合多粒度上下文特征的图像语义分割网络模型,并在Cityscapes数据集上进行验证,它包含2975个训练,500个验证和1525个测试图像。具体地,深度神经网络同时处理图像的颜色、形状和纹理信息用于像素级分类,通过研究多任务深度学习,利用边缘分支设计损失联合提升语义分割性能。首先,采用tri-stream 深度网络模型结构,将形状、纹理信息分别作为单独处理的分支,利用多任务学习框架解决多粒度上下文语义特征融合问题,提高图像分割精度;改进了训练数据的方法,进一步适应训练数据有限条件下提高模型精度。在图像语义分割数据集中的比较试验验证了我们所提出的多任务神经网络模型对于解决融合多粒度特征的图像语义分割问题的有效性。本项目的研究工作在自动驾驶中的场景识别与理解、增强现实等领域具有广泛的应用前景,为智能无人平台实现自主环境感知和导航控制提供技术支撑。
{{i.achievement_title}}
数据更新时间:2023-05-31
内点最大化与冗余点控制的小型无人机遥感图像配准
基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例
水氮耦合及种植密度对绿洲灌区玉米光合作用和干物质积累特征的调控效应
基于协同表示的图嵌入鉴别分析在人脸识别中的应用
空气电晕放电发展过程的特征发射光谱分析与放电识别
基于深度学习和迁移学习的图像自动语义标注方法研究
基于深度学习的医学图像交互式分割方法研究
基于深度无监督分簇的混合监督图像语义分割方法研究
基于弱监督学习的图像语义分割研究