There are two main drawbacks of conventional speech enhancement (SE) algorithms. First, their performance significantly reduces in complicated noise scenarios and highly reverberant environments. Second, the signal-to-noise-ratio (SNR) is improved at the price of the sensation of spatial hearing. Some algorithms have been proposed to preserve binarual cues in recent years. Although these algorithms could preserve some binarual cues, they could only be applied to hearing aids. This project proposes multiple sensor information fusion (MSIF)-based speech separation and virtual sound synthesis to solve the drawbacks of microphone array (MA)-based SE algorithms. Compared with the MA-based SE algorithms, the proposed method has at least two advantages. First, speaker location and voice activity detector can be more accurately estimated by using both active and passive sensors, which can improve the performance of the speech separation. Second, the spatial sound image is restored by the virtual sound synthesis (VSS), where the separated speech signals are filtered by the measured head related transfer function (HRTF) database. This project will study on both the theory and the method of three aspects, including the MSIF-based voice activity detector, the MSIF-based speech separation and the HRTF-based VSS. By this study, we intend to improve the performance of conventional SE algorithms in adverse environments and improve immersive experience in telecommunication.
基于传声器阵列的传统语音增强面临的主要问题是在复杂噪声和强混响环境下性能大幅下降,而且语音信噪比提高往往以丢失空间感为代价。现有的一些基于双耳特性的降噪算法,虽然可以在一定程度上保留语音空间感,但是仅适用于双耳助听器。本项目研究基于多传感信息融合的语音分离和虚拟声合成,相比于传统方法具有两方面的优势:一方面结合主动式和被动式传感器进行说话人定位和话音活动检测,可以提高复杂环境下的语音提取和分离性能;另一方面利用远场和近场头相关传输函数已有的测量数据库合成虚拟声,可以实现具有空间感和临场感的语音效果。本项目拟对多传感信息融合的话音活动检测、多传感信息融合的语音分离以及基于头相关传输函数的虚拟声合成三方面的理论和技术进行深入的研究。该研究的理论突破将极大的提高语音增强在复杂环境下的降噪和去混响性能,并为用户提供更好的浸入式远程呈现方式。
在实际环境中,语音信号不可避免的受到周围环境噪声、通信设备内部电噪声、其他说话人的声音以及混响等因素影响,这些噪声和混响都严重降低了语音质量、语音可懂度和语音识别率。因此,对被噪声和混响影响的语音信号进行语音增强就显得十分必要。当前基于双耳特性的传声器阵列语音增强技术可以在一定程度上实现降低噪声和混响,从而实现可懂度增强,但是依然存在以下三个问题:首先是它们都只适用于双耳助听器;其次是它们都只针对单一说话人情况;最后是没有解决传声器阵列复杂环境下性能大幅下降的固有问题。而要从根本上解决目前传声器阵列语音增强技术的技术瓶颈,应采用多传感信息融合方式:利用不同类型传感器进行信息采集融合以提高语音增强在复杂环境下的性能,同时把分离出来的语音信号通过虚拟声合成系统。. 本项目主要在以下三个方面进行了为期三年的项目研究:首先是基于多传感信息融合的话音活动检测研究;其次是基于多传感信息融合空时频模糊决策的语音分离;最后是基于远场、近场HRTF数据库的虚拟声合成研究。在Microsoft的KINECT等多传感信息采集平台上开展了话音活动检测、语音分离、后处理技术以及语音立体声重放等方面的理论研究和实验研究。主要成果包括:1)在后处理方面,提出了基于倒谱预处理和后处理的语音增强新方法,解决了噪声过估计问题以及音乐噪声问题;2)在后处理方面,提出了基于统计分析的后处理算法分析方法,为改进算法提供了理论依据;3)在猝发声检测以及啸叫检测方面,首次提出了一般化自谱相干函数,实现了高检测率低虚警率的目标;4)在立体声回声抵消方面,提出了基于谱优势效应的去相关方法,在保证空间感和语音质量的前提下实现了立体声去相干的目标;5)在去混响方面,首次提出了基于双耳时间差的直达混响比估计算法,扩展了自由场去混响的理论和方法。理论研究和算法研究都在实验平台上获得了实验验证,同时发表了13篇杂志论文和8篇会议论文,其中SCI论文9篇,EI论文18篇;算法研究成果应用于深圳华为技术有限公司,取得了良好的经济效益和社会效益。
{{i.achievement_title}}
数据更新时间:2023-05-31
基于多模态信息特征融合的犯罪预测算法研究
混采地震数据高效高精度分离处理方法研究进展
环境信息披露会影响分析师盈余预测吗?
氰化法综合回收含碲金精矿中金和碲的工艺研究
国际比较视野下我国开放政府数据的现状、问题与对策
电-热传感信息融合成像的火焰检测方法
多传感器信息融合最优和自校正滤波新理论和新方法
多传感器时滞信息融合的研究及其应用
基于时频分析和多传感器信息融合技术的水质事件检测方法研究