应用于语音增强的生成对抗网络模型研究

基本信息
批准号:61861033
项目类别:地区科学基金项目
资助金额:39.00
负责人:孙成立
学科分类:
依托单位:南昌航空大学
批准年份:2018
结题年份:2022
起止时间:2019-01-01 - 2022-12-31
项目状态: 已结题
项目参与者:余磊,吴开志,涂继亮,张向阳,邹强,袁丛琳,樊云云,杨志勇
关键词:
语音增强深度学习人工智能生成对抗网络
结项摘要

Speech enhancement in complex acoustic environments is a challenge in the field of speech technology. Generative adversarial network (GAN) is a new machine learning model, which is a research hotspot in the field of artificial intelligence. GAN is able to estimate the potential distribution of training samples and generate new data samples by adversarial learning, which provides a new idea for the solution of speech enhancement problems. The research of GAN for speech enhancement is in the start-up and trial stage, and it is urgent to establish related theories and methods. This project will propose a new speech enhancement generation adversarial network model. The proposed model uses a constrained naive GAN framework, and it has a smaller computational complexity and expects perform better at low SNR conditions in comparison with the existing conditional GAN framework based speech enhancement GAN model. The research group will study the proposed model and its extended models and optimization algorithms, and study the method of how to generate simulated noise samples using GAN, to further promote the research and application of GAN in the field of speech enhancement. The GAN-based speech enhancement method adopts a adversarial learning mechanism and has no restrictions on the distribution of speech and noise. It has strong extensibility and is expected to surpass the current state-of-the-art single deep neural network based speech enhancement method.

复杂声学环境下的语音增强是语音技术领域的挑战问题。生成对抗网络(GAN)是一种新的机器学习模型,是当前人工智能领域的研究热点。GAN能够通过对抗学习估测出训练样本的潜在分布并生成新的数据样本,为语音增强问题的解决提供了一种新的思路。GAN在语音增强的研究处于启动和尝试阶段,迫切需要建立相关的理论和方法。本项目拟提出一种新型的语音增强生成对抗网络模型,该模型采用约束朴素GAN框架,相比现有条件GAN架构的语音增强生成对抗网络,计算复杂度小,有望获得更好的低信噪比性能。课题组将研究该模型以及其拓展模型和优化算法,研究基于GAN的仿真噪声样本生成方法,进一步推进GAN在语音增强领域的研究与应用。基于GAN的语音增强方法采用对抗学习机制,对语音和噪音的分布没有任何限定,具有极强的可扩展性,有望超越目前最先进的基于单深度神经网络的语音增强方法。

项目摘要

语音增强技术是解决噪声污染的有效途径,但是由于真实环境的复杂性,强噪声环境的语音增强仍然没有得到有效解决。生成对抗网络(GAN)是一种新的机器学习模型,是当前人工智能领域的研究热点。GAN能够通过对抗学习估测出训练样本的潜在分布并生成新的数据样本,为语音增强问题的解决提供了一种新的思路。课题的研究拓展了生成对抗网络的模型方法,丰富了深度学习在语音领域的应用,提出了以下语音增强新方法:(1)基于稀疏生成表示的生成对抗网络模型,通过结合语音频谱的稀疏特性构建生成器,指导GAN生成符合语音频谱分布的语音。研究表明基于稀疏生成表示的生成对抗网络模型不仅有效提高训练和推理速度,且具有较好的泛化性能。(2)基于深度复值生成对抗网络的语音增强方法,将GAN改进为支持复频谱运算,采用相对鉴别器来避免鉴别器训练不稳定问题。实验表明语音可懂度有较大提升,低噪比环境尤其显著。(3)针对经典语音增强模型UNet模型无法有效获得多尺度特征问题,提出基于SE-U2Net的语音增强方法。能有效提高融合尺度特征和通道特征进行语音增强,提高了降噪效果。(4)提出基于信道交叉注意力跳跃连接机制的语音增强方法,通过多尺度信道交叉融合和信道交叉注意,融合来自编码器不同级别的多尺度语音特征有效重建特征,研究表明在各种客观语音质量指标方优于2020年国际语音技术挑战赛冠军DCCRN方法,且具有更少的模型参数。(5)提出一种基于帧级Swin-Transformer的低复杂度语音增强网络(FLSTN),FLSTN将若干连续帧作为一个局部窗口,将自注意操作限制在窗口之内。同时采用移位窗口机制,加强相邻窗口之间的信息交换。FLSTN能够自动捕获不同尺度和不同层次的语音特征,不仅在计算复杂度上具有显著的优势,而且在客观语音质量指标方面与当前SOTA模型相当。项目研究成果促进了深度学习理论和应用语音技术的发展,具有重要的学术意义和实用价值。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

跨社交网络用户对齐技术综述

跨社交网络用户对齐技术综述

DOI:10.12198/j.issn.1673 − 159X.3895
发表时间:2021
2

低轨卫星通信信道分配策略

低轨卫星通信信道分配策略

DOI:10.12068/j.issn.1005-3026.2019.06.009
发表时间:2019
3

基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例

基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例

DOI:
发表时间:2022
4

城市轨道交通车站火灾情况下客流疏散能力评价

城市轨道交通车站火灾情况下客流疏散能力评价

DOI:
发表时间:2015
5

基于FTA-BN模型的页岩气井口装置失效概率分析

基于FTA-BN模型的页岩气井口装置失效概率分析

DOI:10.16265/j.cnki.issn1003-3033.2019.04.015
发表时间:2019

孙成立的其他基金

批准号:61362031
批准年份:2013
资助金额:43.00
项目类别:地区科学基金项目

相似国自然基金

1

应用于语音增强的低秩和稀疏矩阵分解模型及算法设计

批准号:61362031
批准年份:2013
负责人:孙成立
学科分类:F0111
资助金额:43.00
项目类别:地区科学基金项目
2

基于噪声分组和对抗训练的语音增强方法研究

批准号:61701286
批准年份:2017
负责人:袁文浩
学科分类:F0117
资助金额:25.00
项目类别:青年科学基金项目
3

基于生成式对抗网络的旋翼高速运动图像增强方法研究

批准号:61866027
批准年份:2018
负责人:熊邦书
学科分类:F0604
资助金额:40.00
项目类别:地区科学基金项目
4

基于数据驱动的量子生成模型及量子生成对抗网络的研究

批准号:61802061
批准年份:2018
负责人:何志敏
学科分类:F0214
资助金额:24.00
项目类别:青年科学基金项目