This project proposes a concept inspired by human hierarchical perception model that scene understanding should achieve semantic parsing interacting with geometric parsing, against the mobile robot indoor scene understanding problems that current technologies mainly use short-range context, long-range context is generally intractable and single-view image limits robot’s field of view. Further the project effectively breaks through the limitation of field of view and implements the modeling of long-range context by designing a panoramic layout extraction and stratification method, and then achieves scene understanding by fusing the proposed long-range context with CRF. The panoramic layout extraction based on panoramic point cloud, long-range context modeling based on panoramic layout and stratification information, and scene labeling fusing long-range context, respectively corresponds to three progressive phases of human hierarchical perception model. Consequently our scene understanding method completely reproduces human perception model, which impulses intersecting and fusing of multiple fields and is promising for the development of Chinese intelligent robot.
本课题深入分析了室内移动机器人的三维环境感知与场景理解机理,针对现有技术在利用上下文方面以短距离上下文为主、已有的长距离上下文求解难度大且作用范围有限、单视角图片限制了机器人视野等缺陷,受人类的层级式感知模式启发,提出完整的场景理解应实现几何解析与语义解析交互这一概念,进而通过设计一种基于全景点云的全景布局提取和场景分层算法,突破了机器人的视野限制,有效地实现了长距离上下文建模,并最终利用条件随机场将该上下文引入场景标记算法框架中,实现了几何解析与语义解析交互的场景理解。本课题提出的基于全景点云的全景布局提取、基于全景布局与分层信息的长距离上下文建模和融合长距离上下文的场景标记,分别对应着人类层级式感知中依次递进的三个阶段,因此最终实现的几何解析与语义解析交互的场景理解,是对人类层级式感知模型的完整重现,有力推动了多领域研究的交叉与融合,有望为我国智能机器人技术的发展做出贡献。
本课题深入分析与研究了上下文信息在室内移动机器人场景理解中的基本原理,针对上下文建模理论与技术的发展局限以及缺乏完整的视角的问题,提出了融合长距离与短距离上下文的场景理解算法,进一步提高了算法精度,从而完善了场景理解理论。本课题首先通过基于曝光融合的高动态范围成像技术,在室内复杂光照情况下采集了室内全景图像数据。然后设计了特殊形状描述子对三维物体进行识别,并设计优化了目标检测网络,以此实现对场景物体布局信息的有效提取。最后在场景理解模型中对长距离上下文信息进行建模:1)首先在传统的基于机器学习的场景语义分割算法中实现了对长距离上下文的建模,并验证了长短距离结合的上下文信息的有效性;2)然后在基于深度学习的场景语义分割算法中实现的长距离上下文建模,实现了端到端的长短距离上下文有效融合;3)最后还将长距离上下文的思想引入到图像显著性区域检测这一图像理解任务中,进一步验证了长距离上下文信息的有效性和必要性。.课题组通过对长距离上下文信息的逐步研究和有效建模,提出了融合长短距离上下文信息的室内语义分割神经网络模型。该模型在NYU v2数据集上的平均像素精度为67.1%,比先前最好方法(61.8%)提高了8.6%,;在SUN RGBD数据集上平均像素精度为69.1%,比先前最好方法(65.7%)提高了5.2%。本课题充分验证了长距离上下文信息在场景理解任务中的实际效用,推动了场景理解、图像识别等相关学科领域的理论发展。目前共发表SCI源的国际期刊论文20篇,EI论文21篇,北大中文核心论文2篇,申请发明专利6项。通过该项目,共培养了4个博士生和10个硕士生。
{{i.achievement_title}}
数据更新时间:2023-05-31
基于分形L系统的水稻根系建模方法研究
基于 Kronecker 压缩感知的宽带 MIMO 雷达高分辨三维成像
基于SSVEP 直接脑控机器人方向和速度研究
基于结构滤波器的伺服系统谐振抑制
极区电离层对流速度的浅层神经网络建模与分析
基于主动学习的移动机器人室内场景理解与统一建图
基于视觉和语义的室内场景理解与实时建模
基于视觉语义推理与上下文约束建模的场景理解方法研究
室内场景的三维感知与理解