Whisper is a special voicing style with very low energy, and the conveyed information is easily concealed by noise in an adverse environment. The conventional speech enhancement algorithms, however, do not improve the intelligibility of the enhanced speech, the supervised machine learning based binary mask estimation methods also have some disadvantages. This project studies single channel speech enhancement method which aims to improve the intelligibility of the whisper in noise environment. Based on the previous work in which we find that sparse time-frequency spectrum is beneficial to whisper intelligibility improvement, this project explores theories and technologies of extracting speech energy dominated time-frequency unit through estimating the binary mask of each time-frequency unit and then reconstructing the enhanced whisper from these sparse time-frequency units in the joint sparse time-frequency domain. Major research contents include: based on oversample real-valued discrete Gabor time-frequency analysis, studying the under sample real-valued discrete Gabor transform and expansion theories to solve the stable signal reconstruction problem, and thereafter build the sparse time-frequency spectrum representation model of whisper; in order to overcome the defect of the binary mask estimation method which is based on supervised machine learning, this project will study an unsupervised binary mask estimation method using the convolution non-negative matrix factorization theory,to this end, an enhanced whisper which has large gains of intelligibility is obtained.
耳语是一种能量极低的特殊发音方式,其传递的信息易受噪声干扰而被掩蔽。传统语音增强方法无法提高耳语音可懂度,而现有的基于机器学习的二元掩蔽方法仍有不足。本项目研究噪声环境下通过去噪提高耳语音可懂度的单通道语音增强方法。该项目在我们前期工作观察到稀疏时频谱有助于提高耳语音可懂度基础上,拟于稀疏联合时频域,探索通过估计时频块的二元掩蔽值提取语音能量为主的时频块,进而利用这些稀疏时频块稳定重建增强后的耳语音的相关理论和技术。主要研究内容包括: 以过抽样实值离散Gabor时频分析为基础,研究欠抽样实值离散Gabor变换及展开理论,解决欠抽样时信号稳定重建难题,从而建立耳语音稀疏时频谱表示模型;为了克服基于有监督机器学习的二元掩蔽值估计方法的缺点,本项目还将利用卷积非负矩阵分解理论研究基于稀疏时频谱表示的无监督二元掩蔽值学习方法,最终获得可懂度得到大幅度提高的干净耳语音。
耳语音是一种重要信息交流方式,其发音时声带不振动,基频缺失,能量较正常音低,在噪声环境更容易受噪声干扰,因而如何提高噪声环境耳语音可懂度吸引了众多研究人员关注。本项目针对耳语音去噪进行理论分析,技术创新和系统实现。主要研究了噪声环境下时频谱密度和不同信噪比的频谱区域对耳语音可懂度的影响;为了利用实值离散Gabor变换进行耳语音频谱的更精确表示,研究了实值离散Gabor变换中稀疏分析窗的上下界,并设计和实现了一种寻找稀疏分析窗的算法。为了利用帧间相关性和噪声特性,研究出一种基于稀疏卷积非负矩阵分解的无监督耳语音去噪方法,该方法利用预先训练的噪声信息,从含噪耳语音中学习耳语音时频基,并重建耳语音,结果表明该方法可有效提高耳语音可懂度。为了更加精确估计语音能量为主的时频块,提出一种基于噪声谱约束的二值掩码估计语音增强算法,分别对先验信噪比和噪声谱估计函数进行修正;最后,根据修正后的噪声谱估计函数和先验信噪比判断出噪声谱被欠估的时频单元,估计出二值掩码值,并对相应的增强后语音时频单元进行幅度谱约束。在几种常见背景噪声的低信噪比情况下,所提算法能有效的提高耳语音可懂度。针对传统语音增强方法对压缩失真和放大失真同等对待的缺点,我们研究了一类基于非对称代价函数的单通道语音增强方法,非对称代价函数对压缩失真和放大失真区分对待,从而更有利于抑制增强后耳语音的放大失真,提高增强后语音可懂度。为了进一步提高听觉舒适性和可懂度,本项目对将增强后耳语音重建为正常音进行了初步研究,通过建立平行的正常音和耳语音的时频字典,利用卷积非负矩阵分解将增强后耳语音在耳语音时频基上进行线性表示,然后利用表示系数和正常音的时频字典重建正常音,研究结果表明,耳语音转换为正常音后,其主观听觉特性和可懂度有了一定程度改善。
{{i.achievement_title}}
数据更新时间:2023-05-31
玉米叶向值的全基因组关联分析
涡度相关技术及其在陆地生态系统通量研究中的应用
正交异性钢桥面板纵肋-面板疲劳开裂的CFRP加固研究
硬件木马:关键问题研究进展及新动向
基于SSVEP 直接脑控机器人方向和速度研究
双耳语音可懂度增强技术的研究
基于汉语语音可懂度的噪声品质评价研究
说话人噪声对抗机理研究与窄带语音噪声自适应可懂度增强技术
基于语音信号时频分布稀疏性的非平稳噪声抑制