It is an important research topic in the field of speech signal processing and artificial intelligence to achieve high quality speech communication and high efficient human-machine speech interaction under complex noise and reverberant environments. Our previous experimental study reveals that most of speech dereverberation methods using microphone array reduce their performance dramatically when the target speaker is moving continuously. To solve this problem, we need to study the following three key points. First, to physically model the system, we introduce a geometrical acoustic method and the statistical acoustic model to study the acoustic transfer function (ATF), and thus to model the time-varying all-pole model and static model of the ATF. Second, we study the stability of speech dereverberation methods using microphone array in noisy environments using the matrix perturbation theory. Third, to further improve speech quality, speech intelligibility and speech recognition rate in noise and reverberant environments, we further study the joint optimization of speech denoising and speech dereverberation, feedback control methods and two-weight adaptive filter schemes, which will be used to improve the system performance when the target speaker is moving continuously. This study can improve both the theory and the methods of speech denoising and speech dereverberation using microphone array, and we expect to make them become more applicable in our daily lives.
在复杂噪声和混响环境中实现高质量的语音通信以及高效率的人机智能语音交互是语音信号处理领域和人工智能领域重要研究课题。本项目先期研究表明,当前的传声器阵列去混响方法在连续移动声源应用场景中性能严重退化,因此需要重点解决三个问题:首先,针对连续移动声源物理建模这一首要问题,引入室内几何声学和统计声学方法研究声学传递函数,研究全极点时变模型特性并建立相应的静态模型;其次,针对传声器阵列去混响算法优化这一核心问题,通过扰动矩阵分析方法研究噪声对连续移动声源传声器阵列去混响算法稳定性的影响,为优化去混响算法提供理论依据;最后,针对实际应用中同时存在干扰噪声及混响这一关键应用问题,研究去噪去混响联合优化,通过反馈控制和双因子自适应滤波方法提高连续移动声源应用场景算法性能。本项目的开展将极大地完善连续移动声源去噪去混响的理论和方法,推动其逐步走向实用化。
复杂噪声和混响环境是实现高质量语音通信以及高效率人机智能语音交互的障碍,传统的基于传声器阵列的信号增强算法在声源移动应用场景中算法性能退化严重。本项目主要研究内容以及成果如下:1) 开展了室内移动声源声学传递函数建模研究。针对晚期混响声建模困难,计算复杂度高问题,简化了房间传递函数晚期反射声模型,大大提高了镜像虚源方法生成房间传递函数效率,建立了大规模真实房间传递函数数据库;2) 开展了双耳传声器阵列的声源距离估计研究,提出了一种基于深度神经网络的两步距离估计方案,并提取了若干与声源距离相关的特征作为网络输入特征用于训练,在仿真以及实际应用场景中实现了移动声源距离的准确估计;3) 开展了阵列去噪去混响后处理算法研究,提出了一种利用压缩复数谱作为网络输入特征的深度学习语音增强算法,相比较与传统的幅度谱或者不带压缩的复数谱输入特征,本项目提出的特征在低信噪比场景能够显著改善语音信号质量。项目研究成果应用于国家重点研发计划子课题,取得了良好的经济效益;同时有力支撑了项目组成员参加AEC国际挑战赛并取得第一名比赛成绩。
{{i.achievement_title}}
数据更新时间:2023-05-31
新型树启发式搜索算法的机器人路径规划
信息熵-保真度联合度量函数的单幅图像去雾方法
考虑台风时空演变的配电网移动储能优化配置与运行策略
气体介质对气动声源发声特性的影响
巴戟天抗去卵巢骨质疏松大鼠的血清代谢组分析
基于边缘去噪字典学习方法的地震数据去噪研究
阵列式观测大地电磁数据高精度去噪方法研究
基于集成学习的联合去噪去马赛克方法研究
基于连续循环平移理论的Shearlet域稀疏表示SAR图像去噪算法研究