基于视-听觉认知的对话类视频压缩编码

基本信息
批准号:61902401
项目类别:青年科学基金项目
资助金额:28.00
负责人:刘雨帆
学科分类:
依托单位:中国科学院自动化研究所
批准年份:2019
结题年份:2022
起止时间:2020-01-01 - 2022-12-31
项目状态: 已结题
项目参与者:
关键词:
视频感知编码感知模型听觉认知模型压缩视频服务
结项摘要

Recent years, along with the rapid development of multimedia communication technology, various video service and application appeared constantly. Dialogic video, as a main class of online videos, has ever-increasing video traffic. However, the computing resource and bandwidth resource are hard to meet the demand. In order to enhance the video communication efficiency and user experience, and solve the problems of the resource limitation, this project will research visual-audio cognition based dialogic video compression. Namely, this project will utilize the theory of human visual-audio cognition to build a perceptual model. And based on the perceptual model, a perceptual video coding method will be proposed to reduce the perceptual redundancy and improve video coding efficiency. Concretely, this project will conduct the interdisciplinary research of cognition, computer vision and signal processing. The main content of this project includes: (1) Perception database and human perceptual behavior analysis for dialogic video; (2) Visual-audio multimodal based perceptual model; (3) Knowledge distillation via instance relationship graph; (4) Perceptual model based rate-perceptual distortion coding optimization method. This project aims to not only the research of key technology but also the practical application and it devotes to facilitating the development of multimedia communication and video service technology.

近年来,随着多媒体通信技术飞速发展,各类视频服务和应用不断涌现。对话类视频作为在线视频的主要类别,视频流量不断增长,而计算资源与网络带宽资源难以完全满足此现状。为了提升对话类视频通信的效率和用户体验,解决资源受限问题,本项目研究基于视-听觉认知的对话类视频压缩编码,即充分挖掘人类视-听觉认知机理,构建视频感知模型来预测人类观看对话类视频的关注区域,并基于此建立感知视频压缩编码方法,降低视频的感知冗余、提升编码效率。具体地,本项目拟重点开展认知学、计算机视觉与信号处理交叉理论的研究,研究内容包括:(1)对话类视频感知数据库与人类观看视频的感知行为分析;(2)面向视-听觉多模态的感知模型;(3)基于样本关系图的模型蒸馏方法;(4)基于感知模型的对话类视频率-感知失真编码优化方法。本项目不仅致力于关键技术的理论研究,也向实际应用推进,促进多媒体通信和视频服务技术的发展。

项目摘要

近年来,随着多媒体通信技术飞速发展,各类视频服务和应用不断涌现。对话类视频作为在线视频的主要类别,视频流量不断增长,而计算资源与网络带宽资源难以完全满足此现状。为了提升对话类视频通信的效率和用户体验,解决资源受限问题,本项目研究基于视-听觉认知的对话类视频压缩编码,即充分挖掘人类视-听觉认知机理,构建视频感知模型来预测人类观看对话类视频的关注区域,并基于此建立感知视频压缩编码方法,降低视频的感知冗余、提升编码效率。具体地,本项目重点开展认知学、计算机视觉与信号处理交叉理论的研究,并按照项目研究计划按时完成了相应的研究工作,包括:(1)对话类视频感知数据库与人类观看视频的感知行为分析;(2)面向视-听觉多模态的感知模型(3)基于样本关系图的模型蒸馏方法(4)基于感知模型的对话类视频率-感知失真编码优化方法。..该项目完成所有研究内容,并达到预期指标和论文、专利的发表,具体研究成果如下:.(1) 构建对话类视频感知数据库,包含300个视频,146,529帧,5,013,980个关注点,便于相关学者进行研究和测试。对数据进行人类感知行为分析,获得了多个发现用于启发后续算法的设计;.(2)提出了一种面向视-听觉多模态的感知模型AVM-Net,预测人类观看对话类视频时的关注区域和声源定位。在测试实例上预测的显著性图与人类观看视频的真实注意力热图之间的相关系数(Correlation Coefficient, CC)已达到0.75,标准化扫描路径显著性(Normalized Scanpath Saliency, NSS)达到4.14;.(3) 提出了模型压缩与蒸馏学习方法,提出样本关系图能从高性能教师网络蒸馏出更充分的知识,并提出跨架构知识蒸馏技术,使蒸馏学习不再受限于教师与学生网络的架构差异,从而便于深度模型嵌入到计算资源受限的设备中。在模型大小减少到四分之一的情况下,精度下降未超过两个百分点; .(4) 提出一种基于感知模型的对话类视频率-失真编码优化方法,大幅减少视频感知冗余,提升编码效率。在码率一定的情况下,压缩视频的感知质量较传统方法提升了2-3dB; .(5) 在国内外重要学术期刊(如PAMI、IJCV等)与顶级会议论文(如CVPR、ICCV、ECCV等)中发表论文16篇,申请发明专利5项。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

粗颗粒土的静止土压力系数非线性分析与计算方法

粗颗粒土的静止土压力系数非线性分析与计算方法

DOI:10.16285/j.rsm.2019.1280
发表时间:2019
2

基于 Kronecker 压缩感知的宽带 MIMO 雷达高分辨三维成像

基于 Kronecker 压缩感知的宽带 MIMO 雷达高分辨三维成像

DOI:10.11999/JEIT150995
发表时间:2016
3

伴有轻度认知障碍的帕金森病~(18)F-FDG PET的统计参数图分析

伴有轻度认知障碍的帕金森病~(18)F-FDG PET的统计参数图分析

DOI:10.3760/cma.j.issn.0376-2491.2018.33.004
发表时间:2018
4

中国参与全球价值链的环境效应分析

中国参与全球价值链的环境效应分析

DOI:10.12062/cpre.20181019
发表时间:2019
5

基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例

基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例

DOI:
发表时间:2022

刘雨帆的其他基金

相似国自然基金

1

基于Ridgelet变换的运动补偿视频压缩编码

批准号:60462003
批准年份:2004
负责人:汪胜前
学科分类:F0108
资助金额:18.00
项目类别:地区科学基金项目
2

儿童基于视、听觉线索情绪理解的发展特点

批准号:30900407
批准年份:2009
负责人:王异芳
学科分类:C0908
资助金额:19.00
项目类别:青年科学基金项目
3

基于脑电分析与稀疏编码的ADHD听觉选择性注意的认知神经机制研究

批准号:61463035
批准年份:2014
负责人:朱莉
学科分类:F0609
资助金额:46.00
项目类别:地区科学基金项目
4

误码信道下基于率失真优化的视频压缩编码参数选择研究

批准号:60802027
批准年份:2008
负责人:杨静
学科分类:F0101
资助金额:12.00
项目类别:青年科学基金项目