基于视-听觉认知的对话类视频压缩编码

基本信息

批准号：61902401

项目类别：青年科学基金项目

资助金额：28.00

负责人：刘雨帆

学科分类：

依托单位：中国科学院自动化研究所

批准年份：2019

结题年份：2022

起止时间：2020-01-01 - 2022-12-31

项目状态：已结题

项目参与者：

关键词：

视频感知编码感知模型视听觉认知模型压缩视频服务

结项摘要

Recent years, along with the rapid development of multimedia communication technology, various video service and application appeared constantly. Dialogic video, as a main class of online videos, has ever-increasing video traffic. However, the computing resource and bandwidth resource are hard to meet the demand. In order to enhance the video communication efficiency and user experience, and solve the problems of the resource limitation, this project will research visual-audio cognition based dialogic video compression. Namely, this project will utilize the theory of human visual-audio cognition to build a perceptual model. And based on the perceptual model, a perceptual video coding method will be proposed to reduce the perceptual redundancy and improve video coding efficiency. Concretely, this project will conduct the interdisciplinary research of cognition, computer vision and signal processing. The main content of this project includes: (1) Perception database and human perceptual behavior analysis for dialogic video; (2) Visual-audio multimodal based perceptual model; (3) Knowledge distillation via instance relationship graph; (4) Perceptual model based rate-perceptual distortion coding optimization method. This project aims to not only the research of key technology but also the practical application and it devotes to facilitating the development of multimedia communication and video service technology.

项目摘要

近年来，随着多媒体通信技术飞速发展，各类视频服务和应用不断涌现。对话类视频作为在线视频的主要类别，视频流量不断增长，而计算资源与网络带宽资源难以完全满足此现状。为了提升对话类视频通信的效率和用户体验，解决资源受限问题，本项目研究基于视-听觉认知的对话类视频压缩编码，即充分挖掘人类视-听觉认知机理，构建视频感知模型来预测人类观看对话类视频的关注区域，并基于此建立感知视频压缩编码方法，降低视频的感知冗余、提升编码效率。具体地，本项目重点开展认知学、计算机视觉与信号处理交叉理论的研究，并按照项目研究计划按时完成了相应的研究工作，包括：（1）对话类视频感知数据库与人类观看视频的感知行为分析；（2）面向视-听觉多模态的感知模型（3）基于样本关系图的模型蒸馏方法（4）基于感知模型的对话类视频率-感知失真编码优化方法。..该项目完成所有研究内容，并达到预期指标和论文、专利的发表，具体研究成果如下：.(1) 构建对话类视频感知数据库，包含300个视频，146,529帧，5,013,980个关注点，便于相关学者进行研究和测试。对数据进行人类感知行为分析，获得了多个发现用于启发后续算法的设计；.(2)提出了一种面向视-听觉多模态的感知模型AVM-Net，预测人类观看对话类视频时的关注区域和声源定位。在测试实例上预测的显著性图与人类观看视频的真实注意力热图之间的相关系数(Correlation Coefficient, CC)已达到0.75，标准化扫描路径显著性(Normalized Scanpath Saliency, NSS)达到4.14；.(3) 提出了模型压缩与蒸馏学习方法，提出样本关系图能从高性能教师网络蒸馏出更充分的知识，并提出跨架构知识蒸馏技术，使蒸馏学习不再受限于教师与学生网络的架构差异，从而便于深度模型嵌入到计算资源受限的设备中。在模型大小减少到四分之一的情况下，精度下降未超过两个百分点； .(4) 提出一种基于感知模型的对话类视频率-失真编码优化方法，大幅减少视频感知冗余，提升编码效率。在码率一定的情况下，压缩视频的感知质量较传统方法提升了2-3dB； .(5) 在国内外重要学术期刊（如PAMI、IJCV等）与顶级会议论文（如CVPR、ICCV、ECCV等）中发表论文16篇，申请发明专利5项。

项目成果

DOI：{{i.doi}}

发表时间：{{i.publish_year}}

暂无此项成果

数据更新时间：2023-05-31

其他相关文献

DOI：10.1051/jnwpu/20213920292

发表时间：2021

DOI：

发表时间：2019

DOI：

发表时间：2021

DOI：10.16383/j.aas.c180673

发表时间：2021

DOI：

发表时间：2020

刘雨帆的其他基金

相似国自然基金

基于Ridgelet变换的运动补偿视频压缩编码

批准号：60462003

批准年份：2004

负责人：汪胜前

学科分类：F0108

资助金额：18.00

项目类别：地区科学基金项目

儿童基于视、听觉线索情绪理解的发展特点

批准号：30900407

批准年份：2009

负责人：王异芳

学科分类：C0908

资助金额：19.00

项目类别：青年科学基金项目

基于脑电分析与稀疏编码的ADHD听觉选择性注意的认知神经机制研究

批准号：61463035

批准年份：2014

负责人：朱莉

学科分类：F0609

资助金额：46.00

项目类别：地区科学基金项目

误码信道下基于率失真优化的视频压缩编码参数选择研究

批准号：60802027

批准年份：2008

负责人：杨静

学科分类：F0101

资助金额：12.00

项目类别：青年科学基金项目

基于视-听觉认知的对话类视频压缩编码

{{i.achievement_title}}

暂无此项成果

其他相关文献

一种基于多层设计空间缩减策略的近似高维优化方法

基于主体视角的历史街区地方感差异研究———以北京南锣鼓巷为例

长链基因间非编码RNA 00681竞争性结合miR-16促进黑素瘤细胞侵袭和迁移

二维FM系统的同时故障检测与控制

扶贫资源输入对贫困地区分配公平的影响

刘雨帆的其他基金

相似国自然基金