基于稀疏时频分析与二元掩蔽估计的耳语音可懂度增强研究

基本信息

批准号：61301295

项目类别：青年科学基金项目

资助金额：24.00

负责人：周健

学科分类：

依托单位：安徽大学

批准年份：2013

结题年份：2016

起止时间：2014-01-01 - 2016-12-31

项目状态：已结题

项目参与者：方贤勇,王华彬,汪琦,陶星月,黄程

关键词：

耳语音欠抽样实值离散Gabor变换时频分析二元掩蔽估计可懂度增强

结项摘要

Whisper is a special voicing style with very low energy, and the conveyed information is easily concealed by noise in an adverse environment. The conventional speech enhancement algorithms, however, do not improve the intelligibility of the enhanced speech, the supervised machine learning based binary mask estimation methods also have some disadvantages. This project studies single channel speech enhancement method which aims to improve the intelligibility of the whisper in noise environment. Based on the previous work in which we find that sparse time-frequency spectrum is beneficial to whisper intelligibility improvement, this project explores theories and technologies of extracting speech energy dominated time-frequency unit through estimating the binary mask of each time-frequency unit and then reconstructing the enhanced whisper from these sparse time-frequency units in the joint sparse time-frequency domain. Major research contents include: based on oversample real-valued discrete Gabor time-frequency analysis, studying the under sample real-valued discrete Gabor transform and expansion theories to solve the stable signal reconstruction problem, and thereafter build the sparse time-frequency spectrum representation model of whisper; in order to overcome the defect of the binary mask estimation method which is based on supervised machine learning, this project will study an unsupervised binary mask estimation method using the convolution non-negative matrix factorization theory，to this end, an enhanced whisper which has large gains of intelligibility is obtained.

耳语是一种能量极低的特殊发音方式，其传递的信息易受噪声干扰而被掩蔽。传统语音增强方法无法提高耳语音可懂度，而现有的基于机器学习的二元掩蔽方法仍有不足。本项目研究噪声环境下通过去噪提高耳语音可懂度的单通道语音增强方法。该项目在我们前期工作观察到稀疏时频谱有助于提高耳语音可懂度基础上，拟于稀疏联合时频域，探索通过估计时频块的二元掩蔽值提取语音能量为主的时频块，进而利用这些稀疏时频块稳定重建增强后的耳语音的相关理论和技术。主要研究内容包括: 以过抽样实值离散Gabor时频分析为基础，研究欠抽样实值离散Gabor变换及展开理论，解决欠抽样时信号稳定重建难题，从而建立耳语音稀疏时频谱表示模型；为了克服基于有监督机器学习的二元掩蔽值估计方法的缺点，本项目还将利用卷积非负矩阵分解理论研究基于稀疏时频谱表示的无监督二元掩蔽值学习方法，最终获得可懂度得到大幅度提高的干净耳语音。

项目摘要

耳语音是一种重要信息交流方式，其发音时声带不振动，基频缺失，能量较正常音低，在噪声环境更容易受噪声干扰，因而如何提高噪声环境耳语音可懂度吸引了众多研究人员关注。本项目针对耳语音去噪进行理论分析，技术创新和系统实现。主要研究了噪声环境下时频谱密度和不同信噪比的频谱区域对耳语音可懂度的影响；为了利用实值离散Gabor变换进行耳语音频谱的更精确表示，研究了实值离散Gabor变换中稀疏分析窗的上下界，并设计和实现了一种寻找稀疏分析窗的算法。为了利用帧间相关性和噪声特性，研究出一种基于稀疏卷积非负矩阵分解的无监督耳语音去噪方法，该方法利用预先训练的噪声信息，从含噪耳语音中学习耳语音时频基，并重建耳语音，结果表明该方法可有效提高耳语音可懂度。为了更加精确估计语音能量为主的时频块，提出一种基于噪声谱约束的二值掩码估计语音增强算法，分别对先验信噪比和噪声谱估计函数进行修正；最后，根据修正后的噪声谱估计函数和先验信噪比判断出噪声谱被欠估的时频单元，估计出二值掩码值，并对相应的增强后语音时频单元进行幅度谱约束。在几种常见背景噪声的低信噪比情况下，所提算法能有效的提高耳语音可懂度。针对传统语音增强方法对压缩失真和放大失真同等对待的缺点，我们研究了一类基于非对称代价函数的单通道语音增强方法，非对称代价函数对压缩失真和放大失真区分对待，从而更有利于抑制增强后耳语音的放大失真，提高增强后语音可懂度。为了进一步提高听觉舒适性和可懂度，本项目对将增强后耳语音重建为正常音进行了初步研究，通过建立平行的正常音和耳语音的时频字典，利用卷积非负矩阵分解将增强后耳语音在耳语音时频基上进行线性表示，然后利用表示系数和正常音的时频字典重建正常音，研究结果表明，耳语音转换为正常音后，其主观听觉特性和可懂度有了一定程度改善。

项目成果

DOI：{{i.doi}}

发表时间：{{i.publish_year}}

暂无此项成果

数据更新时间：2023-05-31

其他相关文献

DOI：

发表时间：

DOI：

发表时间：2016

DOI：10.11842/wst.20190724002

发表时间：2020

DOI：10.3788/CJL201946.0801003

发表时间：2019

DOI：10.3724/SP.J.1089.2019.17435

发表时间：2019

周健的其他基金

批准号：81100590

批准年份：2011

资助金额：22.00

项目类别：青年科学基金项目

批准号：41701098

批准年份：2017

资助金额：25.00

项目类别：青年科学基金项目

批准号：31570826

批准年份：2015

资助金额：62.00

项目类别：面上项目

批准号：51871009

批准年份：2018

资助金额：60.00

项目类别：面上项目

批准号：30440006

批准年份：2004

资助金额：8.00

项目类别：专项基金项目

批准号：61402001

批准年份：2014

资助金额：25.00

项目类别：青年科学基金项目

批准号：81873646

批准年份：2018

资助金额：57.00

项目类别：面上项目

批准号：30000185

批准年份：2000

资助金额：19.00

项目类别：青年科学基金项目

批准号：61308060

批准年份：2013

资助金额：25.00

项目类别：青年科学基金项目

批准号：21903063

批准年份：2019

资助金额：26.00

项目类别：青年科学基金项目

批准号：21376089

批准年份：2013

资助金额：80.00

项目类别：面上项目

批准号：81370998

批准年份：2013

资助金额：69.00

项目类别：面上项目

批准号：30672292

批准年份：2006

资助金额：28.00

项目类别：面上项目

批准号：50379037

批准年份：2003

资助金额：22.00

项目类别：面上项目

批准号：21403303

批准年份：2014

资助金额：25.00

项目类别：青年科学基金项目

批准号：21671029

批准年份：2016

资助金额：65.00

项目类别：面上项目

批准号：51004039

批准年份：2010

资助金额：20.00

项目类别：青年科学基金项目

批准号：21163022

批准年份：2011

资助金额：54.00

项目类别：地区科学基金项目

批准号：51878238

批准年份：2018

资助金额：60.00

项目类别：面上项目

批准号：20876052

批准年份：2008

资助金额：30.00

项目类别：面上项目

批准号：81560632

批准年份：2015

资助金额：39.00

项目类别：地区科学基金项目

批准号：81070864

批准年份：2010

资助金额：28.00

项目类别：面上项目

批准号：50879059

批准年份：2008

资助金额：35.00

项目类别：面上项目

批准号：51702082

批准年份：2017

资助金额：23.00

项目类别：青年科学基金项目

批准号：31770890

批准年份：2017

资助金额：60.00

项目类别：面上项目

批准号：60873194

批准年份：2008

资助金额：30.00

项目类别：面上项目

批准号：51571008

批准年份：2015

资助金额：62.00

项目类别：面上项目

批准号：81301577

批准年份：2013

资助金额：23.00

项目类别：青年科学基金项目

批准号：59738160

批准年份：1997

资助金额：110.00

项目类别：重点项目

批准号：51479138

批准年份：2014

资助金额：81.00

项目类别：面上项目

批准号：41807259

批准年份：2018

资助金额：24.00

项目类别：青年科学基金项目

批准号：50578122

批准年份：2005

资助金额：28.00

项目类别：面上项目

批准号：50178054

批准年份：2001

资助金额：20.00

项目类别：面上项目

批准号：30772440

批准年份：2007

资助金额：29.00

项目类别：面上项目

批准号：51874204

批准年份：2018

资助金额：62.00

项目类别：面上项目

批准号：21776093

批准年份：2017

资助金额：64.00

项目类别：面上项目

批准号：11004094

批准年份：2010

资助金额：19.00

项目类别：青年科学基金项目

批准号：20961011

批准年份：2009

资助金额：26.00

项目类别：地区科学基金项目

批准号：41272296

批准年份：2012

资助金额：75.00

项目类别：面上项目

批准号：20706019

批准年份：2007

资助金额：18.00

项目类别：青年科学基金项目

批准号：81101009

批准年份：2011

资助金额：21.00

项目类别：青年科学基金项目

相似国自然基金

双耳语音可懂度增强技术的研究

批准号：11074275

批准年份：2010

负责人：李军锋

学科分类：A2305

资助金额：46.00

项目类别：面上项目

基于汉语语音可懂度的噪声品质评价研究

批准号：10674150

批准年份：2006

负责人：焦风雷

学科分类：A2304

资助金额：33.00

项目类别：面上项目

说话人噪声对抗机理研究与窄带语音噪声自适应可懂度增强技术

批准号：61801334

批准年份：2018

负责人：高丽

学科分类：F0117

资助金额：26.00

项目类别：青年科学基金项目

基于语音信号时频分布稀疏性的非平稳噪声抑制

批准号：60901077

批准年份：2009

负责人：付中华

学科分类：F0111

资助金额：22.00

项目类别：青年科学基金项目

基于稀疏时频分析与二元掩蔽估计的耳语音可懂度增强研究

{{i.achievement_title}}

暂无此项成果

其他相关文献

基于LS-SVM香梨可溶性糖的近红外光谱快速检测

基于MCPF算法的列车组合定位应用研究

基于文献计量学和社会网络分析的国内高血压病中医学术团队研究

基于腔内级联变频的0.63μm波段多波长激光器

信息熵-保真度联合度量函数的单幅图像去雾方法

周健的其他基金

游离脂肪酸介导的成纤维细胞生长因子21昼夜节律对糖脂代谢稳态调控的研究

风浪条件下太湖蓝藻水华的动力学特征研究

神经突触传递稳态的Rab3GAP调控机制及其在抗抑郁研究中的作用

过渡金属d电子和表面官能团调控二维碳化物MXene性能的机制研究

白内障发生中Src-MAP激酶的信号传递导途径研究

长延时非可靠端到端深空网络自主密钥管理研究

PDIA5通过缓解内质网应激调节肝脏糖异生的机制研究

老年性白内障相关基因的筛选及功能研究

用于车载自主导航系统激光多普勒测速仪关键技术研究

二维铁电材料光致相变的机制研究

智能响应性蛋白质冠的计算机模拟研究

c-Src介导的二型上皮间质转分化在后囊膜下白内障中的作用和分子机制研究

Src家族酪氨酸激酶激活在皮质性白内障发生中作用的分子机制研究

堤坝管涌形成与发展的细观机理研究

多级孔结构ZSM-5分子筛的表面酸性质与烷基化催化性能

新型稀土-主族金属硫属簇合物的溶剂热合成及性能研究

无铅焊料波峰焊氧化机制研究

非心结构杂多钒酸盐晶态材料的设计合成和性能研究

热力耦合作用下耐高温高延性水泥基复合材料的多尺度力学行为研究

表面阻抗蛋白质吸附机理的计算机分子模拟研究

截叶铁扫帚抗溃疡性结肠炎活性成分及其作用机制研究

骨髓基质干细胞募集性口腔颌面骨仿生修复材料的研究

土与土工合成材料共同作用的宏细观机理研究

钙矾石对水泥石膨胀和力学性能的作用机理与本构模型

杏仁核突触功能可塑性的CaMKIIβ调控及其抗抑郁作用研究

基于复杂网络理论的网络安全量化评估模型研究

Ni3Al基单晶合金界面位错网对蠕变性能的影响

β磷酸三钙-明胶复合人工骨材料缓释抗生素治疗复杂感染性骨缺损的实验研究

受施工扰动影响的土体环境稳定理论和控制方法

高应力作用下粗粒土细观力学及坝工特性研究

诱发型岩爆的内外因参量贡献机制及预警模型

砂土中桩端刺入变形产生与发展的细观机理研究

砂土剪切软化带形成的宏细观仿真模拟研究

自组装仿生构建可降解缓释活性复合骨组织修复材料的研究

结晶器导热铜合金表面梯度纳米层的形成机制及高温耐磨性能研究

智能调控嵌段共聚物微相分离的计算机模拟

多铁材料光学性质的第一性原理数值计算研究

新型多元铟硫属化合物的溶剂热合成及性能研究

降雨诱发滑坡型泥石流宏细观机理研究

蛋白质在自组装膜表面上吸附取向与构象的分子模拟研究

抑郁模型大鼠海马突触蛋白质分析及相关药物的干预机制研究

相似国自然基金