Visual scene understanding is an important topic in the field of computer vision, and also the key part of potential applications like smart cities, intelligent visual surveillance and anonymous driving. Existing methods mainly make use of deep learning based structure, trying to model the relationship between the multi-modality input and the multi-task output. Great progress has achieved but there are still significant limitations. Firstly, the information processing structure between the input and the output are artificially fixed instead of dynamically learned. Secondly, the relations between multi-modalities and multi-tasks are straightly connected rather than multi-scale modeled. Thirdly, the process is mainly bottom-up instead of top-town integration, which cannot be optimized globally. In this proposal, we will try to research on the dynamic learning methods to connect the input and output; the multi-scale modeling methods to describe the relationship between the multi-modalities and the multi-tasks; combine the bottom-up and top-down strategies to achieve a global optimization. Finally, we will try to propose a totally new structure of dynamic multi-modality multi-task learning and hope to achieve a more accurate and efficient performance in visual scene understanding. Existing work has illustrated the feasibility of our proposal.
视觉场景感知是计算机视觉中的核心科学问题,在智慧城市、智能监控和无人驾驶等领域具有广泛应用前景。其以图像、视频或者多模态数据为输入,以场景语义标注建模、场景三维信息获取、场景显著性分析、场景边缘信息获取等一系列视觉任务为输出,在深度网络方法出现以后取得了长足进展,但依旧存在显著局限性。具体包括:输入模态与输出任务之间的信息处理架构相对固化,不能够动态建模;模态与模态、任务与任务之间的整合相对简单,不能够多尺度关联;任务间的信息传导方向相对单一,不能够全局优化。本项目试图以动态多模态多任务学习为核心驱动,从人类信息处理机制寻求启发,研究从输入模态到输出任务的动态建模;研究多模态、多任务之间的多尺度关联分析;实现自底向上与自顶向下信息处理过程的迭代优化;最终提出一整套基于动态多模态多任务学习的新型神经网络架构,为视觉场景感知提供更为准确、更为高效的解决方案。前期工作初步验证了所提方法的可行性。
本项目以动态多模态多任务学习为核心驱动,经过为期四年的执行,从4个方面具体研究动态多模态多任务学习问题,包括:1)从输入模态到输出任务的动态建模;2)研究多模态、多任务之间的多尺度关联分析;3)实现自底向上与自顶向下信息处理过程的迭代优化;4)提出一整套基于动态多模态多任务学习的新型神经网络架构,为视觉场景感知提供更为准确、更为高效的解决方案。项目最终并提出了一系列创新理论和先进技术。.本项目完成了全部研究任务,完成了全部既定指标:.提出创新理论,突破了关键技术:项目提出的创新理论和关键技术解决方案在本领域国际权威学术期刊和会议上,如IEEE TIP、Neurocomputing、Pattern Recognition、ICCV、ECCV、AAAI和IJCAI等,发表论文36篇;.提出先进解决方案:共申请6项专利,其中已授权专利3项,提出的技术思路和方法有效提升了三维目标检测、识别和多目标跟踪等技术在复杂多变的环境中的精度和鲁棒性,相关专利技术已在自动驾驶、智能监控等场景中得到有效验证。.支撑技术落地:研究成果支撑了具有自主知识产权的多源信息融合感知自主机器人平台(“小智”巡检机器人)、下一代数字孪生智慧监控平台、自动驾驶平台(“小智驾驶”APP)和智能视频分析平台。其中“小智驾驶”APP在ios手机上下载量已突破3500次,部分技术并在搜狗、腾讯、图森、中国电信等企业的地图产品中落地应用,创造直接经济价值超过500万元。.助力人才成长:项目负责人2020年入选教育部长江学者特聘教授,2019年入选第四批国家“万人计划”青年拔尖人才支持计划,2020年晋升为中科院脑科学与智能技术卓越创新中心骨干。项目负责人正在指导或联合指导博士后1名、博士生17名、硕士生13名,指导已毕业博士生3人、硕士生4人,联合神经所培养交叉学科领域的博士生1名。
{{i.achievement_title}}
数据更新时间:2023-05-31
跨社交网络用户对齐技术综述
基于多模态信息特征融合的犯罪预测算法研究
基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例
城市轨道交通车站火灾情况下客流疏散能力评价
基于细粒度词表示的命名实体识别研究
基于多任务概率视觉语义模型的图像场景理解
基于多任务稀疏特征学习的海量图像理解方法研究
面向复杂环境的RGB-D多视觉模态场景识别与理解技术研究
基于视觉的智能机器人场景理解方法研究