Generally, after a person enters a new environment, he(she) would orderly judge “What Scene?”, “What objects here?”, “How do the objects interact?”, “What function does the object have?” etc. So the understanding is multimodal semantic information including concepts, relations etc. Indoor scene understanding based on vision analyzes multimodal semantic information automatically by computing with images or video, which is valuable for improving robot’s ability of automatic sensing and working..With rapid development of hardware equipment, depth camera has been preferred for capturing vision information. This project would study indoor scene multimodal semantic analysis with RGBD data, based on “detection-recognition” general process and deep learning. Structure/semantic based over segmentation detects labeling region having objectness. Scene understanding based on learning focuses on learning interactions between objects with hypergraph, object labeling in manifold space and defining characters with superpixels. Optimizing scene semantic based on context, which provides optimized object semantic and interaction semantic information with graph method.
人类认知室内场景的一般过程通常是,进入环境后渐次判定“当前场景是什么场景?”、“当前场景有哪些物品?”、“场景内物品间是什么交互关系?”、“物品有什么用途?”等等,认知结果表现为概念、关系等多模态语义。基于视觉信息的室内场景理解基于图像/视频自动分析场景语义,对提高服务机器人自主感知环境能力、提升服务机器人自主工作程度具有重要价值。.随着硬件设备的快速发展,深度相机成为获取视觉数据的优选设备。本项目拟基于RGBD数据,结合人类认知场景“检测-识别”一般过程及深度学习方法,展开室内场景多模态语义分析的相关研究。研究基于结构/语义的场景过分割,为场景对象标注提供更具有对象性(objectness)的标注区域;研究基于学习的场景语义理解,基于超像素集定义特征并在流形空间进行场景对象标注,基于超图学习场景对象交互关系;研究基于上下文场景语义优化,基于图方法优化对象语义及对象交互语义。
基于RGBD图像分析室内场景的多模态语义,为机器人自动感知环境并与环境交互提供重要数据基础。人类进入一个未知环境时,可以理解环境的类型(教室、会议室、起居室等)、理解环境中的物体(椅子、电视、水杯等)、理解环境中物体的用途(椅子可以坐、电视可以看、水杯可以盛水等),因此从多个维度理解场景的语义有助于更好地支持机器人在环境中自动执行任务。.本项目针对室内场景多模态语义分析的核心问题,研究了场景数据的特征学习和高效表示技术及方法;发展了多层次场景语义分析技术及语义标注方法;探索了面向机器人交互的场景理解所面临的技术瓶颈和难题。基于RealSense相机和Kinova Jaco2 Robot,本项目搭建了一个机器人交互原型系统,验证了多模态语义分析方法对机器人在真实环境中实施自动交互的支持作用。.本项目严格按照项目计划书圆满完成了各项研究任务,在场景表示、场景语义理解、场景语义优化等方面取得突破和进展,获得一系列理论创新技术应用成果,并搭建了一个机器人交互原型系统,验证了理论方法的正确性与关键技术的实用性。
{{i.achievement_title}}
数据更新时间:2023-05-31
基于铁路客流分配的旅客列车开行方案调整方法
基于多色集合理论的医院异常工作流处理建模
基于改进LinkNet的寒旱区遥感图像河流识别方法
基于腔内级联变频的0.63μm波段多波长激光器
结直肠癌免疫治疗的多模态影像及分子影像评估
基于跨模态学习和条件随机场的RGBD室内场景理解研究
基于视觉和语义的室内场景理解与实时建模
语义关联的室内场景对象建模及功能理解
基于晶格状超像素的室内场景实例语义分割方法研究