说话人噪声对抗机理研究与窄带语音噪声自适应可懂度增强技术

基本信息

批准号：61801334

项目类别：青年科学基金项目

资助金额：26.00

负责人：高丽

学科分类：

依托单位：武汉大学

批准年份：2018

结题年份：2021

起止时间：2019-01-01 - 2021-12-31

项目状态：已结题

项目参与者：李罡,张韦韪,宋麟,张锐,程枫,孟恋

关键词：

Lombard效应窄带语音信号频谱倾斜度语音可懂度增强环境噪声

结项摘要

The research on anti-noise techniques during listening has been going on for many years. The handset and the earphone are the most common listening modes. The adaptive noise cancellation scheme for earphones has achieved good anti-noise effect. However, in the handset mode, the feedback microphone of the adaptive filter is in a complex environment. So the feedback loop is destroyed and the performance of the noise reduction is reduced dramatically. This project studies on acoustical model-based speech intelligibility enhancement (IENH) technology, which is unconstrained from the listening mode, especially suitable for the handset mode. Existing enhanced system are based on environmental non-adaptive model or masking model. The anti-noise effect of the system is unstable under different scenes. Our acoustic model is constructed by the natural mechanism of speaker's adaptive anti-noise vocalization to improve the anti-noise stability in the diversified scenes. To solve the problem of the low precision of all pole parameter conversion in IENH process, the radial basis function neural networks are introduced to improve the conversion accuracy. Aiming at the distortion of the key parameters of the narrowband speech signal in the actual communication, the auditory perception weighted deep neural networks are used to reconstruct perceptual distortion free spectral tilt for reducing the calculation error of parameters. Compared with existing algorithms, this project is expected to improve speech intelligibility by 10%, improve listening comfort by 10%, and reduce the narrowband signal perception error by 10%.

针对电话接听中环境噪声干扰的抗噪技术研究已有多年历史。听筒、耳机作为最常见的接听模式；适用于耳机的噪声自适应抵消方案已获得了良好的抗噪效果；但听筒模式下，自适应滤波器的反馈麦克风暴露于复杂环境中，反馈回路遭到破坏，抗噪性能急剧下降。本课题研究基于语音声学特性修正的语音可懂度增强技术，不受接听模式约束，尤其适用听筒模式。针对基于环境非适应模型和掩蔽模型的增强系统在不同场景下抗噪效果稳定性欠佳的问题，引入说话人的环境自适应噪声对抗自然机理构建声学模型，改善多样化场景下的抗噪稳定性；针对抗噪语音生成算法中全极点参数转换精度不足的问题，引入径向基转换网络，提升转换准确度；针对实际通信中窄带语音信号频谱倾斜度这一关键参数的失真问题，引入听觉感知加权的深度网络进行频谱倾斜度感知无失真重建，降低参数计算误差。较现有算法，本研究预期提升语音可懂度10%，提升听音舒适度10%，降低窄带信号感知误差10%。

项目摘要

在复杂多变的环境之中进行语音通信，随之带来一个困扰通信质量的棘手问题——环境噪声。在环境噪声的干扰下，虽然拥有高效移动通信网络保证传输质量，但糟糕的终端通话体验使通信质量仍旧难以保证，环境噪声成为了困扰移动语音通信质量的罪魁祸首。如何提高环境噪声干扰下的语音质量，成为提高移动语音通信质量的新关键。.本项目首先针对现有语音可懂度增强系统的声学模型场景适应性不足的问题，使用无监督机器学习算法根据不同场景数据集的人体噪声对抗发声模型，构建多样化环境下的噪声对抗发声模型集合。为了适用于手机等低性能设备，将深度学习方法与数字信号处理方法相结合，首先适用深度神经网络将普通语音信号特征参数映射为Lombard语音信号特征参数，再使用数字信号处理方法进行特定共振峰和频谱谐波的增强，测试结果表明本方法在较项目申请书中的对比算法获得了明显的性能提升。.其次，进行较为全面的基于全极点参数转换模型的语音可懂度增强方法合理性验证，证明了利用频谱倾斜度调整语音频谱包络的方式可以使语音具备较显著的Lombard特性，并较大幅度的提升语音可懂度。此外，现有频谱倾斜度重建方法未考虑语音信号的短时相关性，重建过程仅根据当前帧的信息，针对当前帧的信息不够全面导致重建的频谱倾斜度不够准确的缺陷，设计了考虑语音短时相关性的频谱倾斜度重建方法，并利用循环神经网络来捕获一段时间内的语音关联信息，测试结果表明本方法较主流方法重建误差降低了20%左右。.在已有全极点参数转换模型的成果基础上，本项目进一步研究Lombard效应的表达机理，结合人耳的感知敏感特性，探求声学特征表达更完备的语音特征转换方法。根据声音转换任务的相关研究和语音可懂度增强任务的自身特性，本课题提出了基于声码器的频谱倾斜度、基频、非周期成分三种特性同时调整的可懂度增强方法。实验结果表明，8 kHz语音条件下，频谱倾斜度映射误差较代表性方法降低11%以上，16kHz语音条件下，频谱倾斜度映射误差较代表性方法降低12%以上。

项目成果

DOI：{{i.doi}}

发表时间：{{i.publish_year}}

暂无此项成果

数据更新时间：2023-05-31

其他相关文献

DOI：

发表时间：2016

DOI：10.7538/hhx.2022.yx.2021092

发表时间：2022

DOI：10.3724/SP.J.1089.2019.17435

发表时间：2019

DOI：10.7536/pc200335

发表时间：2020

DOI：10.7510/jgjs.issn.1001-3806.2020.06.018

发表时间：2020

高丽的其他基金

批准号：11404140

批准年份：2014

资助金额：26.00

项目类别：青年科学基金项目

批准号：41273130

批准年份：2012

资助金额：65.00

项目类别：面上项目

批准号：11575067

批准年份：2015

资助金额：64.00

项目类别：面上项目

批准号：71301106

批准年份：2013

资助金额：21.70

项目类别：青年科学基金项目

批准号：81000440

批准年份：2010

资助金额：20.00

项目类别：青年科学基金项目

批准号：11105056

批准年份：2011

资助金额：26.00

项目类别：青年科学基金项目

批准号：81260006

批准年份：2012

资助金额：48.00

项目类别：地区科学基金项目

批准号：30560144

批准年份：2005

资助金额：23.00

项目类别：地区科学基金项目

批准号：81403165

批准年份：2014

资助金额：23.00

项目类别：青年科学基金项目

批准号：81300425

批准年份：2013

资助金额：23.00

项目类别：青年科学基金项目

批准号：11604151

批准年份：2016

资助金额：21.00

项目类别：青年科学基金项目

批准号：30960415

批准年份：2009

资助金额：24.00

项目类别：地区科学基金项目

批准号：51401122

批准年份：2014

资助金额：26.00

项目类别：青年科学基金项目

批准号：81801298

批准年份：2018

资助金额：21.00

项目类别：青年科学基金项目

批准号：40705021

批准年份：2007

资助金额：19.00

项目类别：青年科学基金项目

批准号：60802073

批准年份：2008

资助金额：24.00

项目类别：青年科学基金项目

批准号：41875138

批准年份：2018

资助金额：66.00

项目类别：面上项目

批准号：40801084

批准年份：2008

资助金额：20.00

项目类别：青年科学基金项目

批准号：81603319

批准年份：2016

资助金额：18.00

项目类别：青年科学基金项目

批准号：71764028

批准年份：2017

资助金额：29.00

项目类别：地区科学基金项目

相似国自然基金

基于汉语语音可懂度的噪声品质评价研究

批准号：10674150

批准年份：2006

负责人：焦风雷

学科分类：A2304

资助金额：33.00

项目类别：面上项目

双耳语音可懂度增强技术的研究

批准号：11074275

批准年份：2010

负责人：李军锋

学科分类：A2305

资助金额：46.00

项目类别：面上项目

噪声和短语音条件下的说话人识别

批准号：61370034

批准年份：2013

负责人：张卫强

学科分类：F0605

资助金额：82.00

项目类别：面上项目

基于噪声分组和对抗训练的语音增强方法研究

批准号：61701286

批准年份：2017

负责人：袁文浩

学科分类：F0117

资助金额：25.00

项目类别：青年科学基金项目

说话人噪声对抗机理研究与窄带语音噪声自适应可懂度增强技术

{{i.achievement_title}}

暂无此项成果

其他相关文献

基于MCPF算法的列车组合定位应用研究

萃取过程中微观到宏观的多尺度超分子组装 --离子液体的特异性功能

信息熵-保真度联合度量函数的单幅图像去雾方法

近红外光响应液晶弹性体

基于粒子群优化算法的级联喇曼光纤放大器

高丽的其他基金

蝙蝠声学系统和辅助系统行为模式影响回声定位功能的物理机制研究

绿潮暴发对滨海湿地沉积物磷释放的影响

基于J-TEXT远红外偏振干涉仪的相干散射与密度扰动的实验研究

文化价值观驱动下的中国消费者新信息技术产品采纳研究

脂氧素A4促进牙周组织炎症消退的作用机制

J-TEXT托卡马克等离子体粒子输运的密度调制实验研究

新疆维、汉哮喘患者IL-2基因表观遗传现象对Treg细胞影响的比较研究

辛芷鼻敏胶囊对豚鼠变应性鼻炎药效机制的研究

绵马贯众间苯三酚类化合物黄绵马酸AB抑制A型流感病毒复制的分子机制研究

MicroRNA-23b表观遗传学沉默在t(8;21)急性髓系白血病发病机制的研究

柔性等离激元对二维层状半导体光电性能的调控研究

新疆维、汉人群变应性鼻炎患者表观遗传现象IL-4、IFN-γ基因甲基化比较研究

低磁滞NiCoMnInGd记忆合金的磁驱动马氏体相变和磁热效应研究

大气细颗粒物PM2.5通过NLRP3炎症小体激活及细胞焦亡加重脑缺血损伤的机制

局地大气能量学中扰动位能的理论和应用研究

移动便携终端小屏幕视觉体验增强方法研究

我国极端温度事件的中期天气可预报性和集合概率预报方法研究

滨海湿地沉积物中磷营养负荷的研究—以荣成天鹅湖为例

基于基因网络调控的黄芩素改善衰老性学习记忆障碍作用机制研究

能源商品金融化、价格冲击与中国-中亚经济合作研究

相似国自然基金