Audio coding is one of the supporting technologies for Digital audio and video industry. Audio non-blind bandwidth extension is a standard technique of contemporary codec for efficiently coding the high frequency signals at low bitrates. In existing bandwidth extension, the basic signal of high frequency is generated by replicating the low frequency signal at the same frame. However, the replication method ignored the context-dependency correlation and non-linear relationship between high and low frequency. Which results in the perception coding quality degrade if the correlation becomes weak. For the problems, we will propose a new audio bandwidth extension technique for improving the coding quality. In this project, we will obtain the real distribution of correlation between high low frequency by researching the context-dependency correlation. Then we also will research the non-linear relationship between high and low frequency, and further build the mapping model from low and high frequency by the deep recurrent neural network. In final, we will give a new audio bandwidth extension coding scheme for improving coding quality at low bitrates. In our project, the context-dependency correlation and non-linear relationship is the key scientific problems to explore. This project will propose a new concept for audio bandwidth extension. Which will reveal the context-dependency distribution of correlation, build the mapping model from low to high frequency, explore the technical route of audio bandwidth extension using deep learning, and propose a novel solution of audio coding.
音频编码是数字化产业的共性基础技术之一,非盲带宽扩展用于高频信号的编码,是音频编码的重要组成部分,它可以极大地降低编码码率,对于提升音频编码质量具有重要意义。现有带宽扩展方法仅利用单帧间的低频信号重建高频,该方法忽略了高低频间的上下文相关性和非线性关系,导致单帧间高低频相关性变弱时编码质量急剧下降。针对该问题,本项目拟通过对高低频上下文相关性的研究,获取高低频的相关性真实分布;根据高低频上下文相关性的分布,研究高低频的非线性关系,采用深度循环神经网络建立低频到高频的映射模型;根据非线性映射模型,研究音频非盲带宽扩展编码框架,在低码率下提高音频编码音质。高低频上下文相关性和非线性关系是本项目探索的关键科学问题。本项目拟以一种全新的观点提出音频带宽扩展编码算法,揭示高低频上下文相关性分布,建立高低频非线性映射模型,探索深度学习用于带宽扩展的技术路线,为音频编码提出创新性的解决方案。
语音频编码是数字信息技术的基础共性技术之一,音频带宽扩展是语音频编码的重要组成部分。针对音频信号中高低频相关性变弱时编码质量下降的问题,本项目利用音频信号具有上下文相关性的特点,开展了高低频相关性度量、高低频非线性映射模型、多模式带宽扩展框架的研究,最后,针对智能语音的应用,对鲁棒语音特征提取方法也展开了研究。.高低频相关性研究中,着眼信号生成场景角度,从单通道高低频互相关、单通道时域互相关、多通道空域互相关、多通道混合互相关四个方面入手研究了高低频的相关性,提出了基于互信息的相关性定量计算方法和模型,通过统计学习发现了高低频相关性分布呈现指数分布。.高低频非线性映射模型研究中,本项目针对高频频谱精细结构生成时采用低频拷贝带来的谐波丢失的问题,研究发现高低频呈现上下文相关性。为了充分利用这些相关性,本课题利用前面多帧通过深度神经网络进行高频预测。先后提出了RNNs模型非线性映射、GANs模型非线性映射、RNNs-GANs模型,生成了高质量高频频谱精细结构。.音频带宽扩展框架中,针对不同信号类型特征相关性不同的特点,提出多模式带宽扩展框架,对于语音信号采用源滤波器模型编码方法,解码端采用深度神经网络框架生成高频信号;对于音频信号采用频率域编码方法,解码端采用RNNs-GANs模型生成高频信号。实验结果表明,本项目所提方法均优于传统主流编码器方法。.高低频相关性研究中发现,利用上下文特点,对于提高语音鲁棒特征具有好的效果。本项目先后提出了基于听觉感知的婴儿噪声特征提取方法,基于情感感知谱的特征提取方法,基于多尺度混沌特征的说话人识别特征提取方法,均在其相关应用上获得优越的性能。
{{i.achievement_title}}
数据更新时间:2023-05-31
正交异性钢桥面板纵肋-面板疲劳开裂的CFRP加固研究
基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例
基于协同表示的图嵌入鉴别分析在人脸识别中的应用
一种改进的多目标正余弦优化算法
面向工件表面缺陷的无监督域适应方法
基于非线性动力学的音频频带扩展算法研究
基于关注度的可分级音频编码方法研究
基于冗余字典和感知压缩的空间音频对象编码
基于空间挤压的可升级环绕音频编码技术研究