In recent years, as the development of the Internet and Mobile Internet, the video data grows exponentially. Video question answering(VideoQA), as an important research topic for video content understanding, is becoming a urgent subject of study. However, in this task, the video has the characteristics of high redundancy, temporal structure, and multiple channels, which make video question answering is challenging research topic. Against these characteristics, this project targets on the machine learning and reasoning algorithms towards the VideoQA task to establish a real-time, efficient and robust video question answering system. Specifically, we study three topics including temporal video localization combining textual question, multiple channels collectively understanding in video, and causality in video question answering. To achieve that, this project will built reinforcement learning-based temporal localization model for question guided temporal video localization and multimodal compositional module network for multiple channels collectively understanding. Also, we study the temporal additive noise model for causal inference in video question answering. The findings of this project will make important contributions to the research of video question answering, computer vision, and multimedia content analysis, and the industry of video understanding.
近年来,随着互联网以及移动互联网的发展,视频的数据量呈指数级增长。视频问答,作为视频内容理解的重要研究手段,已经成为一个迫切的研究课题。然而,该任务中视频内容具有的高度冗余性、时序结构化、多通道性特点,这使得视频问答成为一个极具挑战性的研究课题。本项目旨在针对这些特点,面向视频问答任务,研究其中关键的机器学习与推理算法, 以建立高效、鲁棒的视频问答系统。具体地,项目将重点研究结合询问语句的时序视频定位,视频多通道信息协同理解,视频问答中的因果推理机制。从方法上,项目将首先建立基于强化学习的时序视频定位模型,实现由询问语言引导的时序视频片段定位,然后构建基于多模态组合式模块网络的协同理解模型,用于视频多通道的协同学习。同时,项目还建立基于附加噪声模型的时序因果推断模型,实现视频时序因果检验。该项目的研究将会为视频问答、计算机视觉、多媒体内容分析的研究以及视频理解的产业发展作出贡献。
随着在线视频服务与自媒体的发展,视频的数据呈爆炸式增长。如何有效地从海量视频中获取信息以及进行语义理解已经成为一个迫切的研究课题。本项目研究视频问答系统中的机器学习与推理方法,取得了如下成果:(1)针对视频问答系统中的多模态交互问题,提出了基于多模态对抗网络的视频-语言跨模态表征融合模型,解决视觉特征与语言文本特征异构特征空间的难题,能有效地学习到多模态特征。(2)针对长视频中询问语句的定位问题,提出了基于多层级关联哈希对抗的跨模态匹配方法,利用全局和局部语义对齐机制,进行多级相关哈希编码,可有效地用于视频问答的视频片段定位。(3)针对结构化特性较强的视觉问答任务,提出了融合视觉结构化信息的多任务问答架构,同时进行视觉信息的结构化解析与问答系统。(4)针对视觉预测不稳定、泛化性差的难题,提出了基于元学习的视觉因果表征学习架构,以及频域对比学习方法,用于非独立同分布下视觉稳健识别,可提升视频问答的泛化性。项目成果能够为视觉-语言多模态的特征融合、联合推理、稳健预测等提供基础理论和关键技术支持,在多模态信息获取、问答对话等信息服务等方面发挥作用。项目组发表学术论文5篇,其中IEEE Transactions on Multimedia期刊2篇,多媒体领域顶级会议ACM Multimedia论文1 篇。另外1篇论文获得第27届国际多媒体建模学术会议MMM 2021最佳论文奖。项目实施过程中,成员获得2021年国家奖学金、企业奖学金等奖项。
{{i.achievement_title}}
数据更新时间:2023-05-31
玉米叶向值的全基因组关联分析
正交异性钢桥面板纵肋-面板疲劳开裂的CFRP加固研究
硬件木马:关键问题研究进展及新动向
基于SSVEP 直接脑控机器人方向和速度研究
小跨高比钢板- 混凝土组合连梁抗剪承载力计算方法研究
机器问答中的探索、推理和归纳机制研究
面向专利大数据的机器学习与推理研究
基于机器学习和多目标推理的设计方法和系统的研究
视频中场景理解的因果模型与推理方法