基于混合深度网络的复杂三维场景解析研究

基本信息
批准号:61573284
项目类别:面上项目
资助金额:66.00
负责人:布树辉
学科分类:
依托单位:西北工业大学
批准年份:2015
结题年份:2019
起止时间:2016-01-01 - 2019-12-31
项目状态: 已结题
项目参与者:刘贞报,程塨,韩治中,张鼎文,韩鹏程,程少光,王旭斌,赵勇,孙林杰
关键词:
场景解析深度学习物体识别结构学习特征融合
结项摘要

Scene parsing is one of the fundamental researches in image understanding area. Deep learning and structural learning are promising solutions for improving performance of scene parsing. Currently, deep learning methods lack explicit structural learning capability, in order to overcome the limitation, a novel hybrid deep networks, which includes explicit structural learning layer, is proposed to improve the performance of learning medium/large scale structure on scene. An effective learning algorithm, which based on high-performance GPU, will also be researched and implemented. Superpixel is an effective solution for structural learning, in order to improve the segmentation accuracy, depth data pre-processing and RGB-D superpixel segmentation method will be researched. For resolving the problem of existing 3D shape descriptors absence hierarchical descriptive capability, a 3D convolutional deep belief networks will be researched and corresponding high-speed learning algorithm will be investigated. To cope with the low-performance of current method on complex 3D environment, a new research scheme, which based on fusing 2D and 3D data through a multi-modal deep networks, is proposed. Through this way, 3D information of objection can be used; on the other hand, the deficiency of information of 3D point can be avoided. We will adopt standard image and RGBD datasets to evaluate the performance of researched methods, and also compare with some representative methods. The success of the proposed methods will provide a fundamental theory and tools to complex scene parsing, and it will bring improvement to related research fields and products.

场景解析是图像理解的一个重要的研究方向,深度学习与结构学习是提高其性能的关键方法。但目前深度学习的结构学习能力较弱,本项目深入研究一种融合结构学习的深度网络,在深度网络中引入一个结构学习层,并研究与之对应的学习算法,从而提高中、大尺度上的结构学习效果;为提高超像素分割精度,研究深度数据的预处理方法,并尝试使用融合图像和深度数据的超像素分割;针对三维数据缺乏阶层特征提取的问题,研究三维点云数据的卷积深度置信网,并实现高速学习算法;针对已有方法对复杂三维场景处理效果不佳的现状,提出融合使用图像、深度数据的研究思路,研究二维、三维特征的多模态深度网络来提取表达能力更高的综合特征。使用国际上通用的数据库对研究方法进行性能评价,与代表方法进行比较并分析本方法的优缺点。该研究成果可应用到自动驾驶,智能多媒体,图像识别、检索等领域,对推动相关领域发展起到积极的作用。

项目摘要

场景解析是将图像中每个像素标注其所属类别,从而让机器对所处的环境有智能的理解,是机器学习、机器人领域重要的研究课题。目前已有的方法缺少显式的结构学习,因此无法分析并获得高层次的空间结构关系;此外大部分的方法仅仅使用二维图像,而三维信息对提高复杂场景的解析精度能起到重要的作用。为获得更好的复杂三维场景的解析精度,本项目开展的研究工作包括:1)深度数据预处理与超像素分割:研究一种精度和鲁棒性较高的方法来修复缺失的深度数据,研究融合深度信息与图像信息的超像素分割方法;2)研究如何将结构学习融入深度网络,设计并实现一种新型混合深度网络,使其在特征提取过程中具备一定的空间推理能力;3)研究构建基于三维数据的深度置信网络来提取阶层式特征;4)本项目从二维、三维互补融合的角度克服单纯使用图像或三维信息导致的信息不完备问题。通过三年不懈的努力,项目取得了一定的成果,达到了预期的目标。研究过程中提出了一些原创的研究方法:Mesh Convolutional Restricted Boltzmann Machines、基于体素化的三维形状无监督学习、融合结构学习的深度神经网络、基于自适应加权的场景认识方法等一系列原创性研究成果。发表学术论文15篇,其中SCI索引论文12篇。申请国家发明专利9项。通过此项目的研究,探明了如何将结构学习融入深度神经网络,通过实验证明将显式的结构学习放入深度神经网络,能够显著提高神经网络的场景解析精度;研究的多模态深度学习,更进一步揭示了视觉对二维、三维物体分析的机理。研究成果对场景解析领域有一定的支撑作用,一定程度上惠及几乎所有依赖视觉信息理解的应用。此外本项目提出的混合深度神经网络的新思路,能够进一步扩展深度学习理论和应用范围。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

演化经济地理学视角下的产业结构演替与分叉研究评述

演化经济地理学视角下的产业结构演替与分叉研究评述

DOI:10.15957/j.cnki.jjdl.2016.12.031
发表时间:2016
2

基于多模态信息特征融合的犯罪预测算法研究

基于多模态信息特征融合的犯罪预测算法研究

DOI:
发表时间:2018
3

基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例

基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例

DOI:
发表时间:2022
4

居住环境多维剥夺的地理识别及类型划分——以郑州主城区为例

居住环境多维剥夺的地理识别及类型划分——以郑州主城区为例

DOI:10.11821/dlyj201810008
发表时间:2018
5

基于细粒度词表示的命名实体识别研究

基于细粒度词表示的命名实体识别研究

DOI:10.3969/j.issn.1003-0077.2018.11.009
发表时间:2018

布树辉的其他基金

批准号:61202185
批准年份:2012
资助金额:24.00
项目类别:青年科学基金项目

相似国自然基金

1

基于深度学习的复杂三维场景复原方法研究

批准号:61375042
批准年份:2013
负责人:董秋雷
学科分类:F0304
资助金额:80.00
项目类别:面上项目
2

基于深度信息的复杂场景文字识别研究

批准号:61501192
批准年份:2015
负责人:李南希
学科分类:F0116
资助金额:19.00
项目类别:青年科学基金项目
3

基于深度学习与光场成像的条纹结构光动态复杂场景三维测量

批准号:61905178
批准年份:2019
负责人:朱新军
学科分类:F0501
资助金额:23.00
项目类别:青年科学基金项目
4

基于深度学习的复杂场景下人体行为识别研究

批准号:61503141
批准年份:2015
负责人:吴秋霞
学科分类:F0605
资助金额:22.00
项目类别:青年科学基金项目