基于动态多模态多任务学习的视觉场景理解方法研究

基本信息
批准号:61773375
项目类别:面上项目
资助金额:64.00
负责人:张兆翔
学科分类:
依托单位:中国科学院自动化研究所
批准年份:2017
结题年份:2021
起止时间:2018-01-01 - 2021-12-31
项目状态: 已结题
项目参与者:张驰,朱贵波,金小娟,郝王丽,彭君然,樊峻菘,关赫,李林
关键词:
多模态学习目标表示卷积网络场景特征多任务学习
结项摘要

Visual scene understanding is an important topic in the field of computer vision, and also the key part of potential applications like smart cities, intelligent visual surveillance and anonymous driving. Existing methods mainly make use of deep learning based structure, trying to model the relationship between the multi-modality input and the multi-task output. Great progress has achieved but there are still significant limitations. Firstly, the information processing structure between the input and the output are artificially fixed instead of dynamically learned. Secondly, the relations between multi-modalities and multi-tasks are straightly connected rather than multi-scale modeled. Thirdly, the process is mainly bottom-up instead of top-town integration, which cannot be optimized globally. In this proposal, we will try to research on the dynamic learning methods to connect the input and output; the multi-scale modeling methods to describe the relationship between the multi-modalities and the multi-tasks; combine the bottom-up and top-down strategies to achieve a global optimization. Finally, we will try to propose a totally new structure of dynamic multi-modality multi-task learning and hope to achieve a more accurate and efficient performance in visual scene understanding. Existing work has illustrated the feasibility of our proposal.

视觉场景感知是计算机视觉中的核心科学问题,在智慧城市、智能监控和无人驾驶等领域具有广泛应用前景。其以图像、视频或者多模态数据为输入,以场景语义标注建模、场景三维信息获取、场景显著性分析、场景边缘信息获取等一系列视觉任务为输出,在深度网络方法出现以后取得了长足进展,但依旧存在显著局限性。具体包括:输入模态与输出任务之间的信息处理架构相对固化,不能够动态建模;模态与模态、任务与任务之间的整合相对简单,不能够多尺度关联;任务间的信息传导方向相对单一,不能够全局优化。本项目试图以动态多模态多任务学习为核心驱动,从人类信息处理机制寻求启发,研究从输入模态到输出任务的动态建模;研究多模态、多任务之间的多尺度关联分析;实现自底向上与自顶向下信息处理过程的迭代优化;最终提出一整套基于动态多模态多任务学习的新型神经网络架构,为视觉场景感知提供更为准确、更为高效的解决方案。前期工作初步验证了所提方法的可行性。

项目摘要

本项目以动态多模态多任务学习为核心驱动,经过为期四年的执行,从4个方面具体研究动态多模态多任务学习问题,包括:1)从输入模态到输出任务的动态建模;2)研究多模态、多任务之间的多尺度关联分析;3)实现自底向上与自顶向下信息处理过程的迭代优化;4)提出一整套基于动态多模态多任务学习的新型神经网络架构,为视觉场景感知提供更为准确、更为高效的解决方案。项目最终并提出了一系列创新理论和先进技术。.本项目完成了全部研究任务,完成了全部既定指标:.提出创新理论,突破了关键技术:项目提出的创新理论和关键技术解决方案在本领域国际权威学术期刊和会议上,如IEEE TIP、Neurocomputing、Pattern Recognition、ICCV、ECCV、AAAI和IJCAI等,发表论文36篇;.提出先进解决方案:共申请6项专利,其中已授权专利3项,提出的技术思路和方法有效提升了三维目标检测、识别和多目标跟踪等技术在复杂多变的环境中的精度和鲁棒性,相关专利技术已在自动驾驶、智能监控等场景中得到有效验证。.支撑技术落地:研究成果支撑了具有自主知识产权的多源信息融合感知自主机器人平台(“小智”巡检机器人)、下一代数字孪生智慧监控平台、自动驾驶平台(“小智驾驶”APP)和智能视频分析平台。其中“小智驾驶”APP在ios手机上下载量已突破3500次,部分技术并在搜狗、腾讯、图森、中国电信等企业的地图产品中落地应用,创造直接经济价值超过500万元。.助力人才成长:项目负责人2020年入选教育部长江学者特聘教授,2019年入选第四批国家“万人计划”青年拔尖人才支持计划,2020年晋升为中科院脑科学与智能技术卓越创新中心骨干。项目负责人正在指导或联合指导博士后1名、博士生17名、硕士生13名,指导已毕业博士生3人、硕士生4人,联合神经所培养交叉学科领域的博士生1名。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

跨社交网络用户对齐技术综述

跨社交网络用户对齐技术综述

DOI:10.12198/j.issn.1673 − 159X.3895
发表时间:2021
2

基于多模态信息特征融合的犯罪预测算法研究

基于多模态信息特征融合的犯罪预测算法研究

DOI:
发表时间:2018
3

基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例

基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例

DOI:
发表时间:2022
4

城市轨道交通车站火灾情况下客流疏散能力评价

城市轨道交通车站火灾情况下客流疏散能力评价

DOI:
发表时间:2015
5

基于细粒度词表示的命名实体识别研究

基于细粒度词表示的命名实体识别研究

DOI:10.3969/j.issn.1003-0077.2018.11.009
发表时间:2018

张兆翔的其他基金

批准号:61005016
批准年份:2010
资助金额:20.00
项目类别:青年科学基金项目
批准号:61375036
批准年份:2013
资助金额:80.00
项目类别:面上项目

相似国自然基金

1

基于多任务概率视觉语义模型的图像场景理解

批准号:61301192
批准年份:2013
负责人:魏巍
学科分类:F0116
资助金额:25.00
项目类别:青年科学基金项目
2

基于多任务稀疏特征学习的海量图像理解方法研究

批准号:61402431
批准年份:2014
负责人:李亮
学科分类:F0210
资助金额:27.00
项目类别:青年科学基金项目
3

面向复杂环境的RGB-D多视觉模态场景识别与理解技术研究

批准号:61902378
批准年份:2019
负责人:宋新航
学科分类:F0210
资助金额:25.00
项目类别:青年科学基金项目
4

基于视觉的智能机器人场景理解方法研究

批准号:61305114
批准年份:2013
负责人:何洪生
学科分类:F0309
资助金额:23.00
项目类别:青年科学基金项目