有限语义标注的视频场景自动理解技术研究

基本信息
批准号:61602049
项目类别:青年科学基金项目
资助金额:22.00
负责人:刘武
学科分类:
依托单位:北京邮电大学
批准年份:2016
结题年份:2019
起止时间:2017-01-01 - 2019-12-31
项目状态: 已结题
项目参与者:刘鑫辰,高一鸿,刘鲲,刘培业,齐恒,张逸凡,李树林
关键词:
语义标注视觉语义嵌入视频场景理解深度学习自然语言表述
结项摘要

With the proliferation of videos, the applications of video scene automatic understanding in internet video search and urban video surveillance are becoming emerging and pervasive. However, as heavily depending on existing video semantic annotations, traditional video scene automatic understanding methods cannot effectively detect the diverse unannotated video semantic information in the real-world applications. Therefore, in our research project, we attempt to combine the deep visual-semantic embedding and recurrent neural network to explore the problem of video scene automatic understanding with limited semantic annotations. Firstly, to solve the challenges of insufficient video semantic annotations, we will investigate the multi-task based deep visual-semantic embedding neural network for video semantics detection, which can break through the semantic category limitation of traditional methods. Furthermore, we will employ the temporal sequence modeling ability of recurrent neural network to design a spatial-temporal relevance mining algorithm, which can extract the logic relationships among video semantic concepts. Next, to accurately describe the visual content of video scenes in idiomatic natural language, we will propose a multiple analytical results combination based sentence level video captioning method. Finally, a video scene automatic understanding system will be built to comprehensively evaluate the proposed methods in the applications of internet video search and urban video surveillance.

随着视频规模的快速增长,视频场景自动理解在互联网视频搜索与城市视频监控等视频大数据应用领域的重要价值日渐凸显。但是,由于过度依赖视频语义标注信息,传统视频场景理解方法无法有效识别真实应用环境中大量未经标注的视频语义信息。因此,本项目拟采用深度视觉-语义嵌入与递归神经网络结合的方法,探索有限语义标注的视频场景自动理解问题。首先,针对视频语义标注数量的限制,研究基于多任务深度并行嵌入神经网络的视频语义识别技术,突破传统方法对可识别语义类别的限制;其次,通过研究递归神经网络对视频时间序列建模的能力,设计一种视频场景中多个孤立语义间的时空关联挖掘算法,获取语义之间的逻辑关系;进一步针对视频场景中视觉内容的准确自然语言表述的问题,提出一种基于多路解析结果融合的语句级别自然语言表述生成方法。最后,开发一套视频场景自动识别原型系统,在互联网视频搜索和城市视频监控等真实应用中对本项目研究成果进行充分验证。

项目摘要

本项目面向大数据环境下视频复杂场景的自动分析与理解需求,针对有限语义标注的特定限制,对视频目标间的时空关联挖掘、有限语义标注下的视频语义识别、视频内容的自然语言表述三个关键科学问题进行了深入研究,项目取得了多项创新成果,包括:基于时序编码三维卷积神经网络的视频语义实时识别算法;基于多尺度时空推理的视频中人物关系识别方法;视频中的渐进式搜索方法;面向广义零样本条件下的视频动作识别方法;基于混合池化的视频场景自动理解方法;基于能量图深度学习的体育视频自动理解方法;基于时序注意力编码分层递归神经网络的视频自然语言描述生成方法;以及一种面向视频问答的多样性学习聚合网络。最后,开发了基于结构化双流注意力机制的视频语义问答系统和基于时空渐进式搜索的监控视频中的关键目标搜索系统。成果可以有效突破数据瓶颈的限制,提高了视频复杂语义识别的广度和准确度,最终为互联网视频搜索与城市视频监控等视频大数据应用提供理论支持和技术支撑。..项目已在相关领域期刊和会议上发表和录用学术论文共计29篇,其中SCI检索论文8篇,包括IEEE Trans. on Multimedia (SCI 1区) 论文2篇,ACM MM, IJCAI, AAAI, ICCV等CCF A 类论文9篇,EI检索论文21篇。申请专利9项,授权国际专利2项,国内专利1项。研发的监控视频中的渐进式搜索技术获得了多媒体领域旗舰杂志IEEE Multimedia Magazine 2018最佳论文奖,所研发的城市视频监控网络中的车辆搜索系统,获得了多媒体顶级期刊IEEE Trans. on Multimedia 2019最佳论文奖, 并为城市视频监控等视频大数据应用提供关键技术支持。培养硕士毕业生3人,博士毕业生2人,其中1人获得中国图形图像学会优秀博士学位论文奖。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

基于SSVEP 直接脑控机器人方向和速度研究

基于SSVEP 直接脑控机器人方向和速度研究

DOI:10.16383/j.aas.2016.c150880
发表时间:2016
2

基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例

基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例

DOI:
发表时间:2022
3

基于协同表示的图嵌入鉴别分析在人脸识别中的应用

基于协同表示的图嵌入鉴别分析在人脸识别中的应用

DOI:10.3724/sp.j.1089.2022.19009
发表时间:2022
4

一种改进的多目标正余弦优化算法

一种改进的多目标正余弦优化算法

DOI:
发表时间:2019
5

面向工件表面缺陷的无监督域适应方法

面向工件表面缺陷的无监督域适应方法

DOI:
发表时间:2021

刘武的其他基金

批准号:28770152
批准年份:1987
资助金额:4.00
项目类别:面上项目
批准号:40772016
批准年份:2007
资助金额:42.00
项目类别:面上项目
批准号:29170117
批准年份:1991
资助金额:4.00
项目类别:面上项目
批准号:41630102
批准年份:2016
资助金额:300.00
项目类别:重点项目
批准号:49972011
批准年份:1999
资助金额:17.00
项目类别:面上项目
批准号:61871266
批准年份:2018
资助金额:63.00
项目类别:面上项目
批准号:51709072
批准年份:2017
资助金额:24.00
项目类别:青年科学基金项目
批准号:81070735
批准年份:2010
资助金额:31.00
项目类别:面上项目
批准号:30571989
批准年份:2005
资助金额:27.00
项目类别:面上项目

相似国自然基金

1

针对弹幕视频的语义标注和自动推荐关键算法研究

批准号:61602051
批准年份:2016
负责人:田野
学科分类:F0207
资助金额:19.00
项目类别:青年科学基金项目
2

利用中层语义对视频场景进行地理位置标注与分割

批准号:61602314
批准年份:2016
负责人:朱映映
学科分类:F0210
资助金额:20.00
项目类别:青年科学基金项目
3

汉语框架语义角色自动标注技术研究

批准号:60873128
批准年份:2008
负责人:李济洪
学科分类:F0211
资助金额:35.00
项目类别:面上项目
4

维吾尔语框架语义角色自动标注技术研究

批准号:61163029
批准年份:2011
负责人:阿里甫·库尔班
学科分类:F0211
资助金额:49.00
项目类别:地区科学基金项目