The popularization of multimedia applications makes the explosive increase of video data, which significantly puts a considerable burden on video transmission and storage. Therefore, it has become a key and difficult problem to be urgently solved to explore more efficient coding strategies for big video data. Traditional coding methods usually neglect the measurement and optimization of subjective quality of visual experience, and thus the visual redundancy has not been fully exploited. Moreover, existing perceptual models are not devised for video coding applications, hence the change of perceived quality cannot be accurately evaluated due to compression. In addition, the parameters in traditional optimization models cannot be accurately obtained, which degrade the optimization results. This project will focus on using visual perception, optimization model and machine learning to improve the video coding efficiency. Firstly, by building the database for perceptual quality evaluation with consideration of the video coding applications, we propose to devise the models of various perceptual factors, then the models for rate-distortion optimization with the joint perceptual effects. Afterwards, we propose to use game theory to model the bandwidth resource allocation problem to optimize the visual comfort. Finally, we will also investigate how to use extreme learning machine (ELM) to improve the modeling for perceptual factors and joint rate-distortion optimization, and how to use doubly sparse relevance vector machine (DSRVM) to improve the model prediction accuracy problem in video coding, etc. This project will achieve the theoretical innovations and technical breakthroughs on perceptual coding of big video data, which will essentially promote the developments of video applications.
多媒体应用的普及使得视频数据呈现爆发式的增长,增加了视频传输与存储的负担,因此探索更有效的视频大数据编码方法成为急需解决的关键和难点问题。传统编码方法忽略了主观视觉体验质量的度量和优化,导致视觉冗余信息尚未被充分利用,而已有的感知模型并未面向视频编码应用而设计,无法准确度量压缩造成的感知质量变化。此外,传统编码优化模型中无法准确获取的参数,降低了优化效果。本项目拟从视觉感知、优化模型和机器学习角度来提升编码效率。首先,搭建面向视频编码应用的感知质量数据库,再对诸多视觉感知因素建模,搭建联合感知效应的率失真优化模型;然后,基于博弈理论来优化带宽资源分配以改善视觉体验;此外,本项目还将讨论探索基于极限学习机改善视觉感知因素分析与联合率失真优化模型,以及基于双稀疏相关向量机改善视频编码中模型预测问题等。本项目可实现视频大数据感知编码与优化的理论创新和技术突破,促进大数据时代下的视频应用的发展。
项目背景:视频大数据的发展给存储和传输带来了极大的挑战,因此数据驱动的感知视频编码优化算法的研究具有重要的意义,可以有效提升率失真性能,改善人眼感知体验质量。大数据时代让数据的采集更加容易,有助于视频主观质量标注,另外机器学习和深度学习的发展使得模型准确度有了更好的保证,有助于率失真优化模型的搭建和调优。..主要研究内容、重要结果、关键数据:(1)研究了基于机器学习的编码参数判定方法,改善视频编码码率控制算法的率失真性能和帧级别质量平滑度性能,可以节省15.48%的码率或者降低37.2%的帧级PSNR质量波动方差;(2)面向最新一代AVS3视频编码标准,研究了硬件友好的低复杂度帧内预测和变换算法,可以有效支持在较低FPGA资源开销下的8K/60fps实时处理;(3)研究了一种可以应用于RGB-D和RGB-T视觉显著性图像检测的统一的跨模态信息融合网络,采用类似色彩信号在人脑视觉中的生成机理,取得了最佳的准确度;(4)研究了一种面向光场合成加速的算法,有效采用了分辨率缩放和网络轻量化技术,实现在较低质量损失下的视点合成加速;(5)研究了一种基于深度字典编码网络的利用高阶统计特性的盲图像评价方法以及两种面向双目图像对质量评价的算法,均获得了较好的预测性能;(6)提出了一种利用会议视频特点的帧间编码快速算法,实现对于不同编码复杂度的编码块区域使用不同计算量的分配,以在取得最多的编码时间节省的条件下获得良好的率失真性能的保持;此外,我们还围绕视频编码、图像复原、质量评价、视觉显著性检测等方面展开了一系列工作。..科学意义:本项目围绕基于视觉感知的视频编码技术展开了相关研究工作,特别是在视频编码优化中的感知质量评价、感知编码优化技术和编码实时加速等方面取得了丰硕的研究成果,促进了该领域的技术发展。
{{i.achievement_title}}
数据更新时间:2023-05-31
基于分形L系统的水稻根系建模方法研究
农超对接模式中利益分配问题研究
粗颗粒土的静止土压力系数非线性分析与计算方法
黄河流域水资源利用时空演变特征及驱动要素
硬件木马:关键问题研究进展及新动向
Hsa-miR-486-5p调控CXCL13在PI3K/Akt介导喉鳞癌EMT及侵袭转移中的机制研究
基于视觉特性的视觉感知分析与视频编码优化
面向视觉感知和移动终端的高效视频编码优化研究
基于感知质量优化的多视点视频无线传输失真建模和资源分配
基于感知失真度量的高效视频编码率失真优化研究