说话人噪声对抗机理研究与窄带语音噪声自适应可懂度增强技术

基本信息
批准号:61801334
项目类别:青年科学基金项目
资助金额:26.00
负责人:高丽
学科分类:
依托单位:武汉大学
批准年份:2018
结题年份:2021
起止时间:2019-01-01 - 2021-12-31
项目状态: 已结题
项目参与者:李罡,张韦韪,宋麟,张锐,程枫,孟恋
关键词:
Lombard效应窄带语音信号频谱倾斜度语音可懂度增强环境噪声
结项摘要

The research on anti-noise techniques during listening has been going on for many years. The handset and the earphone are the most common listening modes. The adaptive noise cancellation scheme for earphones has achieved good anti-noise effect. However, in the handset mode, the feedback microphone of the adaptive filter is in a complex environment. So the feedback loop is destroyed and the performance of the noise reduction is reduced dramatically. This project studies on acoustical model-based speech intelligibility enhancement (IENH) technology, which is unconstrained from the listening mode, especially suitable for the handset mode. Existing enhanced system are based on environmental non-adaptive model or masking model. The anti-noise effect of the system is unstable under different scenes. Our acoustic model is constructed by the natural mechanism of speaker's adaptive anti-noise vocalization to improve the anti-noise stability in the diversified scenes. To solve the problem of the low precision of all pole parameter conversion in IENH process, the radial basis function neural networks are introduced to improve the conversion accuracy. Aiming at the distortion of the key parameters of the narrowband speech signal in the actual communication, the auditory perception weighted deep neural networks are used to reconstruct perceptual distortion free spectral tilt for reducing the calculation error of parameters. Compared with existing algorithms, this project is expected to improve speech intelligibility by 10%, improve listening comfort by 10%, and reduce the narrowband signal perception error by 10%.

针对电话接听中环境噪声干扰的抗噪技术研究已有多年历史。听筒、耳机作为最常见的接听模式;适用于耳机的噪声自适应抵消方案已获得了良好的抗噪效果;但听筒模式下,自适应滤波器的反馈麦克风暴露于复杂环境中,反馈回路遭到破坏,抗噪性能急剧下降。本课题研究基于语音声学特性修正的语音可懂度增强技术,不受接听模式约束,尤其适用听筒模式。针对基于环境非适应模型和掩蔽模型的增强系统在不同场景下抗噪效果稳定性欠佳的问题,引入说话人的环境自适应噪声对抗自然机理构建声学模型,改善多样化场景下的抗噪稳定性;针对抗噪语音生成算法中全极点参数转换精度不足的问题,引入径向基转换网络,提升转换准确度;针对实际通信中窄带语音信号频谱倾斜度这一关键参数的失真问题,引入听觉感知加权的深度网络进行频谱倾斜度感知无失真重建,降低参数计算误差。较现有算法,本研究预期提升语音可懂度10%,提升听音舒适度10%,降低窄带信号感知误差10%。

项目摘要

在复杂多变的环境之中进行语音通信,随之带来一个困扰通信质量的棘手问题——环境噪声。在环境噪声的干扰下,虽然拥有高效移动通信网络保证传输质量,但糟糕的终端通话体验使通信质量仍旧难以保证,环境噪声成为了困扰移动语音通信质量的罪魁祸首。如何提高环境噪声干扰下的语音质量,成为提高移动语音通信质量的新关键。.本项目首先针对现有语音可懂度增强系统的声学模型场景适应性不足的问题,使用无监督机器学习算法根据不同场景数据集的人体噪声对抗发声模型,构建多样化环境下的噪声对抗发声模型集合。为了适用于手机等低性能设备,将深度学习方法与数字信号处理方法相结合,首先适用深度神经网络将普通语音信号特征参数映射为Lombard语音信号特征参数,再使用数字信号处理方法进行特定共振峰和频谱谐波的增强,测试结果表明本方法在较项目申请书中的对比算法获得了明显的性能提升。.其次,进行较为全面的基于全极点参数转换模型的语音可懂度增强方法合理性验证,证明了利用频谱倾斜度调整语音频谱包络的方式可以使语音具备较显著的Lombard特性,并较大幅度的提升语音可懂度。此外,现有频谱倾斜度重建方法未考虑语音信号的短时相关性,重建过程仅根据当前帧的信息,针对当前帧的信息不够全面导致重建的频谱倾斜度不够准确的缺陷,设计了考虑语音短时相关性的频谱倾斜度重建方法,并利用循环神经网络来捕获一段时间内的语音关联信息,测试结果表明本方法较主流方法重建误差降低了20%左右。.在已有全极点参数转换模型的成果基础上,本项目进一步研究Lombard效应的表达机理,结合人耳的感知敏感特性,探求声学特征表达更完备的语音特征转换方法。根据声音转换任务的相关研究和语音可懂度增强任务的自身特性,本课题提出了基于声码器的频谱倾斜度、基频、非周期成分三种特性同时调整的可懂度增强方法。实验结果表明,8 kHz语音条件下,频谱倾斜度映射误差较代表性方法降低11%以上,16kHz语音条件下,频谱倾斜度映射误差较代表性方法降低12%以上。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

基于一维TiO2纳米管阵列薄膜的β伏特效应研究

基于一维TiO2纳米管阵列薄膜的β伏特效应研究

DOI:10.7498/aps.67.20171903
发表时间:2018
2

涡度相关技术及其在陆地生态系统通量研究中的应用

涡度相关技术及其在陆地生态系统通量研究中的应用

DOI:10.17521/cjpe.2019.0351
发表时间:2020
3

特斯拉涡轮机运行性能研究综述

特斯拉涡轮机运行性能研究综述

DOI:10.16507/j.issn.1006-6055.2021.09.006
发表时间:2021
4

低轨卫星通信信道分配策略

低轨卫星通信信道分配策略

DOI:10.12068/j.issn.1005-3026.2019.06.009
发表时间:2019
5

自然灾难地居民风险知觉与旅游支持度的关系研究——以汶川大地震重灾区北川和都江堰为例

自然灾难地居民风险知觉与旅游支持度的关系研究——以汶川大地震重灾区北川和都江堰为例

DOI:10.12054/lydk.bisu.148
发表时间:2020

高丽的其他基金

批准号:41273130
批准年份:2012
资助金额:65.00
项目类别:面上项目
批准号:11575067
批准年份:2015
资助金额:64.00
项目类别:面上项目
批准号:71301106
批准年份:2013
资助金额:21.70
项目类别:青年科学基金项目
批准号:81000440
批准年份:2010
资助金额:20.00
项目类别:青年科学基金项目
批准号:11105056
批准年份:2011
资助金额:26.00
项目类别:青年科学基金项目
批准号:81260006
批准年份:2012
资助金额:48.00
项目类别:地区科学基金项目
批准号:30560144
批准年份:2005
资助金额:23.00
项目类别:地区科学基金项目
批准号:11404140
批准年份:2014
资助金额:26.00
项目类别:青年科学基金项目
批准号:81403165
批准年份:2014
资助金额:23.00
项目类别:青年科学基金项目
批准号:81300425
批准年份:2013
资助金额:23.00
项目类别:青年科学基金项目
批准号:11604151
批准年份:2016
资助金额:21.00
项目类别:青年科学基金项目
批准号:30960415
批准年份:2009
资助金额:24.00
项目类别:地区科学基金项目
批准号:51401122
批准年份:2014
资助金额:26.00
项目类别:青年科学基金项目
批准号:81801298
批准年份:2018
资助金额:21.00
项目类别:青年科学基金项目
批准号:40705021
批准年份:2007
资助金额:19.00
项目类别:青年科学基金项目
批准号:60802073
批准年份:2008
资助金额:24.00
项目类别:青年科学基金项目
批准号:41875138
批准年份:2018
资助金额:66.00
项目类别:面上项目
批准号:40801084
批准年份:2008
资助金额:20.00
项目类别:青年科学基金项目
批准号:81603319
批准年份:2016
资助金额:18.00
项目类别:青年科学基金项目
批准号:71764028
批准年份:2017
资助金额:29.00
项目类别:地区科学基金项目

相似国自然基金

1

基于汉语语音可懂度的噪声品质评价研究

批准号:10674150
批准年份:2006
负责人:焦风雷
学科分类:A2304
资助金额:33.00
项目类别:面上项目
2

双耳语音可懂度增强技术的研究

批准号:11074275
批准年份:2010
负责人:李军锋
学科分类:A2305
资助金额:46.00
项目类别:面上项目
3

噪声和短语音条件下的说话人识别

批准号:61370034
批准年份:2013
负责人:张卫强
学科分类:F0605
资助金额:82.00
项目类别:面上项目
4

基于噪声分组和对抗训练的语音增强方法研究

批准号:61701286
批准年份:2017
负责人:袁文浩
学科分类:F0117
资助金额:25.00
项目类别:青年科学基金项目