Scene parsing is one of the fundamental researches in image understanding area. Deep learning and structural learning are promising solutions for improving performance of scene parsing. Currently, deep learning methods lack explicit structural learning capability, in order to overcome the limitation, a novel hybrid deep networks, which includes explicit structural learning layer, is proposed to improve the performance of learning medium/large scale structure on scene. An effective learning algorithm, which based on high-performance GPU, will also be researched and implemented. Superpixel is an effective solution for structural learning, in order to improve the segmentation accuracy, depth data pre-processing and RGB-D superpixel segmentation method will be researched. For resolving the problem of existing 3D shape descriptors absence hierarchical descriptive capability, a 3D convolutional deep belief networks will be researched and corresponding high-speed learning algorithm will be investigated. To cope with the low-performance of current method on complex 3D environment, a new research scheme, which based on fusing 2D and 3D data through a multi-modal deep networks, is proposed. Through this way, 3D information of objection can be used; on the other hand, the deficiency of information of 3D point can be avoided. We will adopt standard image and RGBD datasets to evaluate the performance of researched methods, and also compare with some representative methods. The success of the proposed methods will provide a fundamental theory and tools to complex scene parsing, and it will bring improvement to related research fields and products.
场景解析是图像理解的一个重要的研究方向,深度学习与结构学习是提高其性能的关键方法。但目前深度学习的结构学习能力较弱,本项目深入研究一种融合结构学习的深度网络,在深度网络中引入一个结构学习层,并研究与之对应的学习算法,从而提高中、大尺度上的结构学习效果;为提高超像素分割精度,研究深度数据的预处理方法,并尝试使用融合图像和深度数据的超像素分割;针对三维数据缺乏阶层特征提取的问题,研究三维点云数据的卷积深度置信网,并实现高速学习算法;针对已有方法对复杂三维场景处理效果不佳的现状,提出融合使用图像、深度数据的研究思路,研究二维、三维特征的多模态深度网络来提取表达能力更高的综合特征。使用国际上通用的数据库对研究方法进行性能评价,与代表方法进行比较并分析本方法的优缺点。该研究成果可应用到自动驾驶,智能多媒体,图像识别、检索等领域,对推动相关领域发展起到积极的作用。
场景解析是将图像中每个像素标注其所属类别,从而让机器对所处的环境有智能的理解,是机器学习、机器人领域重要的研究课题。目前已有的方法缺少显式的结构学习,因此无法分析并获得高层次的空间结构关系;此外大部分的方法仅仅使用二维图像,而三维信息对提高复杂场景的解析精度能起到重要的作用。为获得更好的复杂三维场景的解析精度,本项目开展的研究工作包括:1)深度数据预处理与超像素分割:研究一种精度和鲁棒性较高的方法来修复缺失的深度数据,研究融合深度信息与图像信息的超像素分割方法;2)研究如何将结构学习融入深度网络,设计并实现一种新型混合深度网络,使其在特征提取过程中具备一定的空间推理能力;3)研究构建基于三维数据的深度置信网络来提取阶层式特征;4)本项目从二维、三维互补融合的角度克服单纯使用图像或三维信息导致的信息不完备问题。通过三年不懈的努力,项目取得了一定的成果,达到了预期的目标。研究过程中提出了一些原创的研究方法:Mesh Convolutional Restricted Boltzmann Machines、基于体素化的三维形状无监督学习、融合结构学习的深度神经网络、基于自适应加权的场景认识方法等一系列原创性研究成果。发表学术论文15篇,其中SCI索引论文12篇。申请国家发明专利9项。通过此项目的研究,探明了如何将结构学习融入深度神经网络,通过实验证明将显式的结构学习放入深度神经网络,能够显著提高神经网络的场景解析精度;研究的多模态深度学习,更进一步揭示了视觉对二维、三维物体分析的机理。研究成果对场景解析领域有一定的支撑作用,一定程度上惠及几乎所有依赖视觉信息理解的应用。此外本项目提出的混合深度神经网络的新思路,能够进一步扩展深度学习理论和应用范围。
{{i.achievement_title}}
数据更新时间:2023-05-31
演化经济地理学视角下的产业结构演替与分叉研究评述
基于多模态信息特征融合的犯罪预测算法研究
基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例
居住环境多维剥夺的地理识别及类型划分——以郑州主城区为例
基于细粒度词表示的命名实体识别研究
基于深度学习的复杂三维场景复原方法研究
基于深度信息的复杂场景文字识别研究
基于深度学习与光场成像的条纹结构光动态复杂场景三维测量
基于深度学习的复杂场景下人体行为识别研究