As an important way of scene depth perception technology, binocular stereo vision has a wide range of potential applications in many fields such as intelligent driving vehicle. However, existing research and application of binocular stereo vision technology mainly focus on the visible band, and are not suitable for all-weather and complex environment, such as low light, rain, fog, haze, dust, etc. Meanwhile, the complexity and varying characteristics of road scenes of the intelligent driving vehicle bring great challenges for building efficient, robust and precise scene depth perception. To handle these challenges, this project plans to use visible-infrared combined binocular sensors to collect multimodal image data efficiently, and conduct a deep study on the key technologies of multimodal stereo vision based depth perception: establish a road scenes oriented unsupervised cross-modal image registration model to address the problems of different image perspectives and structures; explore and analyze the structural correlation of heterogeneous modal images to design multimodal image fusion; the characteristics of road scenes and depth information are analyzed, and an unsupervised deep learning framework is established to calculate the disparity of the fused images, realizing depth perception for the road scenes under all-weather condition. This project aims to provide the theoretical basis and core technologies for the scene depth perception of the intelligent driving vehicles under all-weather condition and provide vision solutions for the industrialization of intelligent driving vehicles.
双目立体视觉技术作为场景深度感知的重要手段之一,在汽车智能驾驶等领域具有广泛应用前景。然而,现有双目立体视觉技术的研究和应用主要集中在可见光波段,无法适应低光照、雨雾、霾、浮尘等全天候复杂环境。同时,汽车智能驾驶的道路场景复杂多变,仅靠视觉设备实现高效、鲁棒和精确的场景深度感知面临着诸多挑战性问题。针对这些挑战,本项目采用可见光-红外联合双目传感设备,高效采集多模态数据,并开展多模态立体视觉深度感知关键技术研究:面向道路场景,针对图像视角不同,成像结构差异等问题,研究无监督下的跨模态图像配准;探索和分析异构模态图像的结构相似性,设计多模态图像融合;分析道路场景及深度信息的特点,并建立无监督深度学习框架对融合后的图像进行视差计算,实现全天候环境下的道路场景深度感知。本项目旨在为全天候环境下智能驾驶汽车的环境深度感知问题提供理论基础和核心技术,为智能驾驶汽车的产业化提供视觉解决方案。
双目立体视觉技术是计算机视觉领域的重要分支,基于此技术可以模拟人类视觉系统的方式辅助计算机感知客观世界。本项目从当前通过深度学习技术计算代价高,缺乏有效理论保障的核心问题出发,提出了一系列的深度学习图像处理的优化算法;在其基础上,针对面向恶劣环境下的图像增强问题,提出了基于空间时序的多分支融合网络、基于空间时序注意力机制和通过时序信息融合与引导的视频去雨算法;在多模态图像配准与融合问题上,针对图像视角不同与成像结构差异而产生的一系列问题,提出了基于多源融合的视频感知算法与基于多模态融合的循环矫正网络;同时,引入GPU计算硬件加速方法,改进基于深度学习的光学邻近校正算法。在本项目资助下,共发表论文12篇,其中8篇为CCF推荐列表论文, 3篇为IEEE汇刊论文,4篇为CCF推荐A类期刊/会议论文;申请发明专利24项,其中已授权专利2项。此外,项目负责人主持GF 重点 XH 项目 1 项、JKW 重大专项 1 项、校企联合实验室项目 1 项,主持/参与其他项目8项。基于本项目的研究,未来将在双目立体视觉与图像处理领域的一些重点问题展开重点研究,攻克其核心技术,实现双目立体视觉深度感知技术的实用化。
{{i.achievement_title}}
数据更新时间:2023-05-31
基于 Kronecker 压缩感知的宽带 MIMO 雷达高分辨三维成像
基于多模态信息特征融合的犯罪预测算法研究
基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例
惯性约束聚变内爆中基于多块结构网格的高效辐射扩散并行算法
物联网中区块链技术的应用与挑战
基于立体视觉的弯道环境感知及车辆自主驾驶控制
面向无人驾驶汽车的视觉道路环境感知算法研究
基于运动与深度感知的立体视觉舒适度研究
智能驾驶前视全向红外立体视觉理论与自然感彩色化方法研究