基于稀疏时频分析与二元掩蔽估计的耳语音可懂度增强研究

基本信息
批准号:61301295
项目类别:青年科学基金项目
资助金额:24.00
负责人:周健
学科分类:
依托单位:安徽大学
批准年份:2013
结题年份:2016
起止时间:2014-01-01 - 2016-12-31
项目状态: 已结题
项目参与者:方贤勇,王华彬,汪琦,陶星月,黄程
关键词:
耳语音欠抽样实值离散Gabor变换时频分析二元掩蔽估计可懂度增强
结项摘要

Whisper is a special voicing style with very low energy, and the conveyed information is easily concealed by noise in an adverse environment. The conventional speech enhancement algorithms, however, do not improve the intelligibility of the enhanced speech, the supervised machine learning based binary mask estimation methods also have some disadvantages. This project studies single channel speech enhancement method which aims to improve the intelligibility of the whisper in noise environment. Based on the previous work in which we find that sparse time-frequency spectrum is beneficial to whisper intelligibility improvement, this project explores theories and technologies of extracting speech energy dominated time-frequency unit through estimating the binary mask of each time-frequency unit and then reconstructing the enhanced whisper from these sparse time-frequency units in the joint sparse time-frequency domain. Major research contents include: based on oversample real-valued discrete Gabor time-frequency analysis, studying the under sample real-valued discrete Gabor transform and expansion theories to solve the stable signal reconstruction problem, and thereafter build the sparse time-frequency spectrum representation model of whisper; in order to overcome the defect of the binary mask estimation method which is based on supervised machine learning, this project will study an unsupervised binary mask estimation method using the convolution non-negative matrix factorization theory,to this end, an enhanced whisper which has large gains of intelligibility is obtained.

耳语是一种能量极低的特殊发音方式,其传递的信息易受噪声干扰而被掩蔽。传统语音增强方法无法提高耳语音可懂度,而现有的基于机器学习的二元掩蔽方法仍有不足。本项目研究噪声环境下通过去噪提高耳语音可懂度的单通道语音增强方法。该项目在我们前期工作观察到稀疏时频谱有助于提高耳语音可懂度基础上,拟于稀疏联合时频域,探索通过估计时频块的二元掩蔽值提取语音能量为主的时频块,进而利用这些稀疏时频块稳定重建增强后的耳语音的相关理论和技术。主要研究内容包括: 以过抽样实值离散Gabor时频分析为基础,研究欠抽样实值离散Gabor变换及展开理论,解决欠抽样时信号稳定重建难题,从而建立耳语音稀疏时频谱表示模型;为了克服基于有监督机器学习的二元掩蔽值估计方法的缺点,本项目还将利用卷积非负矩阵分解理论研究基于稀疏时频谱表示的无监督二元掩蔽值学习方法,最终获得可懂度得到大幅度提高的干净耳语音。

项目摘要

耳语音是一种重要信息交流方式,其发音时声带不振动,基频缺失,能量较正常音低,在噪声环境更容易受噪声干扰,因而如何提高噪声环境耳语音可懂度吸引了众多研究人员关注。本项目针对耳语音去噪进行理论分析,技术创新和系统实现。主要研究了噪声环境下时频谱密度和不同信噪比的频谱区域对耳语音可懂度的影响;为了利用实值离散Gabor变换进行耳语音频谱的更精确表示,研究了实值离散Gabor变换中稀疏分析窗的上下界,并设计和实现了一种寻找稀疏分析窗的算法。为了利用帧间相关性和噪声特性,研究出一种基于稀疏卷积非负矩阵分解的无监督耳语音去噪方法,该方法利用预先训练的噪声信息,从含噪耳语音中学习耳语音时频基,并重建耳语音,结果表明该方法可有效提高耳语音可懂度。为了更加精确估计语音能量为主的时频块,提出一种基于噪声谱约束的二值掩码估计语音增强算法,分别对先验信噪比和噪声谱估计函数进行修正;最后,根据修正后的噪声谱估计函数和先验信噪比判断出噪声谱被欠估的时频单元,估计出二值掩码值,并对相应的增强后语音时频单元进行幅度谱约束。在几种常见背景噪声的低信噪比情况下,所提算法能有效的提高耳语音可懂度。针对传统语音增强方法对压缩失真和放大失真同等对待的缺点,我们研究了一类基于非对称代价函数的单通道语音增强方法,非对称代价函数对压缩失真和放大失真区分对待,从而更有利于抑制增强后耳语音的放大失真,提高增强后语音可懂度。为了进一步提高听觉舒适性和可懂度,本项目对将增强后耳语音重建为正常音进行了初步研究,通过建立平行的正常音和耳语音的时频字典,利用卷积非负矩阵分解将增强后耳语音在耳语音时频基上进行线性表示,然后利用表示系数和正常音的时频字典重建正常音,研究结果表明,耳语音转换为正常音后,其主观听觉特性和可懂度有了一定程度改善。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

玉米叶向值的全基因组关联分析

玉米叶向值的全基因组关联分析

DOI:
发表时间:
2

涡度相关技术及其在陆地生态系统通量研究中的应用

涡度相关技术及其在陆地生态系统通量研究中的应用

DOI:10.17521/cjpe.2019.0351
发表时间:2020
3

正交异性钢桥面板纵肋-面板疲劳开裂的CFRP加固研究

正交异性钢桥面板纵肋-面板疲劳开裂的CFRP加固研究

DOI:10.19713/j.cnki.43-1423/u.t20201185
发表时间:2021
4

硬件木马:关键问题研究进展及新动向

硬件木马:关键问题研究进展及新动向

DOI:
发表时间:2018
5

基于SSVEP 直接脑控机器人方向和速度研究

基于SSVEP 直接脑控机器人方向和速度研究

DOI:10.16383/j.aas.2016.c150880
发表时间:2016

周健的其他基金

批准号:81100590
批准年份:2011
资助金额:22.00
项目类别:青年科学基金项目
批准号:41701098
批准年份:2017
资助金额:25.00
项目类别:青年科学基金项目
批准号:31570826
批准年份:2015
资助金额:62.00
项目类别:面上项目
批准号:51871009
批准年份:2018
资助金额:60.00
项目类别:面上项目
批准号:30440006
批准年份:2004
资助金额:8.00
项目类别:专项基金项目
批准号:61402001
批准年份:2014
资助金额:25.00
项目类别:青年科学基金项目
批准号:81873646
批准年份:2018
资助金额:57.00
项目类别:面上项目
批准号:30000185
批准年份:2000
资助金额:19.00
项目类别:青年科学基金项目
批准号:61308060
批准年份:2013
资助金额:25.00
项目类别:青年科学基金项目
批准号:21903063
批准年份:2019
资助金额:26.00
项目类别:青年科学基金项目
批准号:21376089
批准年份:2013
资助金额:80.00
项目类别:面上项目
批准号:81370998
批准年份:2013
资助金额:69.00
项目类别:面上项目
批准号:30672292
批准年份:2006
资助金额:28.00
项目类别:面上项目
批准号:50379037
批准年份:2003
资助金额:22.00
项目类别:面上项目
批准号:21403303
批准年份:2014
资助金额:25.00
项目类别:青年科学基金项目
批准号:21671029
批准年份:2016
资助金额:65.00
项目类别:面上项目
批准号:51004039
批准年份:2010
资助金额:20.00
项目类别:青年科学基金项目
批准号:21163022
批准年份:2011
资助金额:54.00
项目类别:地区科学基金项目
批准号:51878238
批准年份:2018
资助金额:60.00
项目类别:面上项目
批准号:20876052
批准年份:2008
资助金额:30.00
项目类别:面上项目
批准号:81560632
批准年份:2015
资助金额:39.00
项目类别:地区科学基金项目
批准号:81070864
批准年份:2010
资助金额:28.00
项目类别:面上项目
批准号:50879059
批准年份:2008
资助金额:35.00
项目类别:面上项目
批准号:51702082
批准年份:2017
资助金额:23.00
项目类别:青年科学基金项目
批准号:31770890
批准年份:2017
资助金额:60.00
项目类别:面上项目
批准号:60873194
批准年份:2008
资助金额:30.00
项目类别:面上项目
批准号:51571008
批准年份:2015
资助金额:62.00
项目类别:面上项目
批准号:81301577
批准年份:2013
资助金额:23.00
项目类别:青年科学基金项目
批准号:59738160
批准年份:1997
资助金额:110.00
项目类别:重点项目
批准号:51479138
批准年份:2014
资助金额:81.00
项目类别:面上项目
批准号:41807259
批准年份:2018
资助金额:24.00
项目类别:青年科学基金项目
批准号:50578122
批准年份:2005
资助金额:28.00
项目类别:面上项目
批准号:50178054
批准年份:2001
资助金额:20.00
项目类别:面上项目
批准号:30772440
批准年份:2007
资助金额:29.00
项目类别:面上项目
批准号:51874204
批准年份:2018
资助金额:62.00
项目类别:面上项目
批准号:21776093
批准年份:2017
资助金额:64.00
项目类别:面上项目
批准号:11004094
批准年份:2010
资助金额:19.00
项目类别:青年科学基金项目
批准号:20961011
批准年份:2009
资助金额:26.00
项目类别:地区科学基金项目
批准号:41272296
批准年份:2012
资助金额:75.00
项目类别:面上项目
批准号:20706019
批准年份:2007
资助金额:18.00
项目类别:青年科学基金项目
批准号:81101009
批准年份:2011
资助金额:21.00
项目类别:青年科学基金项目

相似国自然基金

1

双耳语音可懂度增强技术的研究

批准号:11074275
批准年份:2010
负责人:李军锋
学科分类:A2305
资助金额:46.00
项目类别:面上项目
2

基于汉语语音可懂度的噪声品质评价研究

批准号:10674150
批准年份:2006
负责人:焦风雷
学科分类:A2304
资助金额:33.00
项目类别:面上项目
3

说话人噪声对抗机理研究与窄带语音噪声自适应可懂度增强技术

批准号:61801334
批准年份:2018
负责人:高丽
学科分类:F0117
资助金额:26.00
项目类别:青年科学基金项目
4

基于语音信号时频分布稀疏性的非平稳噪声抑制

批准号:60901077
批准年份:2009
负责人:付中华
学科分类:F0111
资助金额:22.00
项目类别:青年科学基金项目