面向远场并发声学事件的深度实时分离研究

基本信息

批准号：U1936102

项目类别：联合基金项目

资助金额：71.00

负责人：魏建国

学科分类：

依托单位：天津大学

批准年份：2019

结题年份：2022

起止时间：2020-01-01 - 2022-12-31

项目状态：已结题

项目参与者：曹占中,蔡岳晋,胡洋霞,胡宏周,靳嘉宇,罗小杰,罗京玲,陈敏,张兵

关键词：

解混响深度学习声阵列信号实时分离

结项摘要

It is almost impossible to predict the spatial locations of acoustic events. The microphones recording the acoustic signal are often far away from the acoustic events, enabling the direct-path signal to be very weak. Especially, the long-term reverberation is unknown for most scenarios, and therefore, the acoustic signals of multiple acoustic events are deeply coupled with each other. It is a challenging issue to separate the reverberated mixture of the acoustic signal of multiple events. In the past several decades, some unsupervised methods have been presented to separate the acoustic mixture of special sound source signals with some given assumptions. However, those methods are generally designed for some special events with unacceptable latency and high computation complexity, which are difficult to satisfy the requirements. The real-time applications requires the separation to be realized with low latency and high computational efficiency。Neither the microphone array technique nor the deep learning is capable of well treating the mixture of acoustic events. This research combines the techniques of array and deep learning，which is described as follows: 1. Real-time multiple source localization, which provides the clue for separation; 2. Time-frequency bin classification based on the spatial information of acoustic events, which separate the direct-path signals of events; 3. Reverberation reduction based on generative adversarial network, which reduces the reverberation that is remained in the separated signals. This research eventually summarizes these three researches to construct an intelligent system of acoustic event perception.

声学事件发生的空间位置具有不可预知性，麦克风通常远离事件而形成一个远场，而且远场下的长时混响未知，使得多个并发事件的声信号形成深度耦合。远场并发声源分离是一个深度解耦合的挑战性难题。前人利用非监督方法能够在某些条件下实现一定程度的分离。然而，这些方法针对特定声信号，时间延迟较大，且计算复杂度较高，难以满足实时要求。声学事件的实时分离要求各环节的算法同时具备低延迟、高计算效率等要求，单纯依靠麦克风阵列或者深度学习，难以解决问题。本项目试图将二者有机结合，发展声学事件实时分离的理论和方法，具体从以下方面展开研究：1.多声源实时定位，在短时片段上实现定位，降低延迟，为分离提供线索；2. 基于空域信息的有监督掩模聚类，由掩模确定各声源的导向矢量，从而实现直达声信号的分离；3. 基于深度对抗的混响抑制方法，去除残留于直达声信号中的混响。项目整合成果，形成智能化的声学事件感知系统。

项目摘要

麦克风阵列由2个以及2个以上的声学传感器，按一种特定的拓扑结构组成，具有一定的空间滤波能力。麦克风阵列将人们从“麦克风近讲”模式的束缚中解放出来，实现更加自然的远场人机交互，通过相应的波束形成算法，达到语音增强，分离的效果。通过分析多通道信号，能够实现估计声源数目，发现声源方位，波束自适应跟随声源移动的功能，进而达到环境声学感知的功能。前人对声学感知进行了卓有成效的研究，但在两个方面受到瓶颈性的局限。其一，单通道的前端处理方法丢失声源空域信息，且没有长时依赖性。其二，基于阵列的方法没有给出去混响的解决方法。因此，需要全面考虑针对声学场景的前端阵列处理方法。本课题对这些问题进行了研究，设计出多种麦克风阵列电路板，且仿真和模拟生成上百小时的数据库，建立了一套实时定位与分离系统。基于该系统，本课题研究了单通道的语音分离和增强，利用单通道到多通道的矩阵转换算法，实现模型的长时依赖能力，提高语音分离后的人的感知效果。本课题针对多说话人的场景利用声纹识别技术增强模型的环境感知能力，实现分离识别一体化功能，提高系统的实用性。针对多通道的场景，充分利用麦克风的空间信息，本课题还结合传统的差分麦克风阵列原理，构建了基于差分计算的深度神经网络 (DMANet)，不仅语音分离和增强效果达到当时最优，模型小型化得到更进一步优化提升。语音发自人的声道，对人的发音机理研究可以提供更好的语音信号特征，所以本课题还从嗓音学入手，分析人在发元音基频，提出一种RS-CEPS方法，计算更加准确的频谱包络特征，并设计声纹识别模型进行个性特征验证。

项目成果

DOI：{{i.doi}}

发表时间：{{i.publish_year}}

暂无此项成果

数据更新时间：2023-05-31

其他相关文献

DOI：

发表时间：2019

DOI：10.1360/SSM-2020-0035

发表时间：2020

DOI：10.11936/bjutxb2021010011

发表时间：2021

DOI：10.13334/j.0258-8013.pcsee.201930

发表时间：2021

DOI：10.3969/j.issn.1006-1355.2021.03.039

发表时间：2021

魏建国的其他基金

批准号：61175016

批准年份：2011

资助金额：59.00

项目类别：面上项目

批准号：61471259

批准年份：2014

资助金额：85.00

项目类别：面上项目

相似国自然基金

面向微博的实时事件深度挖掘研究

批准号：61472335

批准年份：2014

负责人：林琛

学科分类：F0607

资助金额：80.00

项目类别：面上项目

声学远场超衍射聚焦技术及声场检测方法

批准号：11774081

批准年份：2017

负责人：刘盛春

学科分类：A2301

资助金额：62.00

项目类别：面上项目

并发实时系统的自动验证

批准号：69873045

批准年份：1998

负责人：陈火旺

学科分类：F0203

资助金额：14.00

项目类别：面上项目

基于声学场景先验的远讲语音识别前端研究

批准号：61601453

批准年份：2016

负责人：王晓飞

学科分类：F0117

资助金额：22.00

项目类别：青年科学基金项目

面向远场并发声学事件的深度实时分离研究

{{i.achievement_title}}

暂无此项成果

其他相关文献

基于旋量理论的数控机床几何误差分离与补偿方法研究

现代优化理论与应用

城市生活垃圾热值的特征变量选择方法及预测建模

气体介质对气动声源发声特性的影响

多孔夹芯层组合方式对夹层板隔声特性影响研究

魏建国的其他基金

基于观测图像的发音器官运动合成研究

基于自适应频率尺度变换的骨导鼾声识别关键技术研究

相似国自然基金