基于上下文相关的音频非盲带宽扩展编码研究

基本信息
批准号:61762005
项目类别:地区科学基金项目
资助金额:38.00
负责人:姜林
学科分类:
依托单位:东华理工大学
批准年份:2017
结题年份:2021
起止时间:2018-01-01 - 2021-12-31
项目状态: 已结题
项目参与者:王同罕,李罡,王晓晨,强俊超,李文华
关键词:
带宽扩展深度学习音频编码
结项摘要

Audio coding is one of the supporting technologies for Digital audio and video industry. Audio non-blind bandwidth extension is a standard technique of contemporary codec for efficiently coding the high frequency signals at low bitrates. In existing bandwidth extension, the basic signal of high frequency is generated by replicating the low frequency signal at the same frame. However, the replication method ignored the context-dependency correlation and non-linear relationship between high and low frequency. Which results in the perception coding quality degrade if the correlation becomes weak. For the problems, we will propose a new audio bandwidth extension technique for improving the coding quality. In this project, we will obtain the real distribution of correlation between high low frequency by researching the context-dependency correlation. Then we also will research the non-linear relationship between high and low frequency, and further build the mapping model from low and high frequency by the deep recurrent neural network. In final, we will give a new audio bandwidth extension coding scheme for improving coding quality at low bitrates. In our project, the context-dependency correlation and non-linear relationship is the key scientific problems to explore. This project will propose a new concept for audio bandwidth extension. Which will reveal the context-dependency distribution of correlation, build the mapping model from low to high frequency, explore the technical route of audio bandwidth extension using deep learning, and propose a novel solution of audio coding.

音频编码是数字化产业的共性基础技术之一,非盲带宽扩展用于高频信号的编码,是音频编码的重要组成部分,它可以极大地降低编码码率,对于提升音频编码质量具有重要意义。现有带宽扩展方法仅利用单帧间的低频信号重建高频,该方法忽略了高低频间的上下文相关性和非线性关系,导致单帧间高低频相关性变弱时编码质量急剧下降。针对该问题,本项目拟通过对高低频上下文相关性的研究,获取高低频的相关性真实分布;根据高低频上下文相关性的分布,研究高低频的非线性关系,采用深度循环神经网络建立低频到高频的映射模型;根据非线性映射模型,研究音频非盲带宽扩展编码框架,在低码率下提高音频编码音质。高低频上下文相关性和非线性关系是本项目探索的关键科学问题。本项目拟以一种全新的观点提出音频带宽扩展编码算法,揭示高低频上下文相关性分布,建立高低频非线性映射模型,探索深度学习用于带宽扩展的技术路线,为音频编码提出创新性的解决方案。

项目摘要

语音频编码是数字信息技术的基础共性技术之一,音频带宽扩展是语音频编码的重要组成部分。针对音频信号中高低频相关性变弱时编码质量下降的问题,本项目利用音频信号具有上下文相关性的特点,开展了高低频相关性度量、高低频非线性映射模型、多模式带宽扩展框架的研究,最后,针对智能语音的应用,对鲁棒语音特征提取方法也展开了研究。.高低频相关性研究中,着眼信号生成场景角度,从单通道高低频互相关、单通道时域互相关、多通道空域互相关、多通道混合互相关四个方面入手研究了高低频的相关性,提出了基于互信息的相关性定量计算方法和模型,通过统计学习发现了高低频相关性分布呈现指数分布。.高低频非线性映射模型研究中,本项目针对高频频谱精细结构生成时采用低频拷贝带来的谐波丢失的问题,研究发现高低频呈现上下文相关性。为了充分利用这些相关性,本课题利用前面多帧通过深度神经网络进行高频预测。先后提出了RNNs模型非线性映射、GANs模型非线性映射、RNNs-GANs模型,生成了高质量高频频谱精细结构。.音频带宽扩展框架中,针对不同信号类型特征相关性不同的特点,提出多模式带宽扩展框架,对于语音信号采用源滤波器模型编码方法,解码端采用深度神经网络框架生成高频信号;对于音频信号采用频率域编码方法,解码端采用RNNs-GANs模型生成高频信号。实验结果表明,本项目所提方法均优于传统主流编码器方法。.高低频相关性研究中发现,利用上下文特点,对于提高语音鲁棒特征具有好的效果。本项目先后提出了基于听觉感知的婴儿噪声特征提取方法,基于情感感知谱的特征提取方法,基于多尺度混沌特征的说话人识别特征提取方法,均在其相关应用上获得优越的性能。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

正交异性钢桥面板纵肋-面板疲劳开裂的CFRP加固研究

正交异性钢桥面板纵肋-面板疲劳开裂的CFRP加固研究

DOI:10.19713/j.cnki.43-1423/u.t20201185
发表时间:2021
2

基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例

基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例

DOI:
发表时间:2022
3

基于协同表示的图嵌入鉴别分析在人脸识别中的应用

基于协同表示的图嵌入鉴别分析在人脸识别中的应用

DOI:10.3724/sp.j.1089.2022.19009
发表时间:2022
4

一种改进的多目标正余弦优化算法

一种改进的多目标正余弦优化算法

DOI:
发表时间:2019
5

面向工件表面缺陷的无监督域适应方法

面向工件表面缺陷的无监督域适应方法

DOI:
发表时间:2021

姜林的其他基金

相似国自然基金

1

基于非线性动力学的音频频带扩展算法研究

批准号:61072089
批准年份:2010
负责人:鲍长春
学科分类:F0111
资助金额:35.00
项目类别:面上项目
2

基于关注度的可分级音频编码方法研究

批准号:61201247
批准年份:2012
负责人:杭波
学科分类:F0108
资助金额:25.00
项目类别:青年科学基金项目
3

基于冗余字典和感知压缩的空间音频对象编码

批准号:61171171
批准年份:2011
负责人:应忍冬
学科分类:F0117
资助金额:56.00
项目类别:面上项目
4

基于空间挤压的可升级环绕音频编码技术研究

批准号:61201197
批准年份:2012
负责人:贾懋珅
学科分类:F0101
资助金额:25.00
项目类别:青年科学基金项目