Estimation of the direction-of-arrival (DOA) of the spatial speech sources is one of the key techniques in the audition system of the service robot, which is of significant application value. Since there are several adverse factors in the audition system of the service robot, such as the device noise, time-varying environment noise and multiple spatial speech sources, the traditional DOA estimation techniques failed to meet its requirements in terms of the estimation accuracy and the robustness to the noise. This project aims at studying and developing the new methodology and techniques of the high resolution and robust speech source DOA estimation based on the acoustic vector sensor (AVS) array under the sparse representation framework. The spatial sparsity of the speech source, the time-frequency sparsity of the speech signal, the sparse representation of the speech signal, AVS array coupling properties and its source information correlation will be fully investigated. The focus will be on the methods of modeling the AVS array steering vector for wideband sources, the overcomplete basis of the source, and the DOA sparse representation. The corresponding study of the reconstruction criterion of the sparse vector will be carried out, and the derivation of the fast algorithm for the optimal solution of the sparse vector will be deployed with the convex optimization theory, where the approach of the regulation parameter selection will be studied to improve the robustness of the DOA algorithm to the noise. The feasibility and validation of the proposed speech source DOA estimation will be carried out through the experiments under the real testing environment.
空间语音声源方位角(DOA)估计是服务机器人听觉系统的关键技术之一,具有重要的应用价值。由于服务机器人听觉系统面临自身设备噪声、时变环境噪声和多声源并存等不利因素,采用传统的声源DOA估计技术在估计精度和稳定性方面都不能满足其应用需求。本项目拟在稀疏表示理论框架下,创新开展基于声学矢量传感器(AVS)阵列的高精度、鲁棒、多语音声源DOA估计新理论和新方法研究。拟深入研究语音声源空域稀疏性、语音时频稀疏特性、语音信号的稀疏表示方法、AVS阵列耦合特性及子阵列声源信息关联性,重点研究基于AVS阵列的宽带导向矢量模型、声源过完备词典和DOA稀疏表示模型的有效构建方法。研究与之对应的稀疏矢量重构准则,采用凸优化理论推导最优求解快速算法,并注重研究正则参数的优化选取原则以提高算法在噪声中的鲁棒性。通过实际环境下的语音声源DOA估计实验来验证本项目所提出的语音声源DOA估计方法的可行性与有效性。
空间语音声源方位角(DOA)估计是服务机器人听觉系统的关键技术之一,具有巨大的应用价值和市场潜力。传统DOA估计方法在鲁棒性、精度、系统开销和体积等方面都存在无法逾越的障碍,限制了实际应用。本项目面向服务机器人应用,开展新的DOA估计方法研究,即基于稀疏表示和声学矢量传感器(AVS)的高精度、鲁棒、多语音声源DOA估计新理论和新方法研究。总结如下:.(1).开展基于AVS阵列和稀疏表示的DOA 估计方法研究,提出了两种新的基于AVS阵列/子阵列数据模型的DOA 估计算法(AVS-SS-LF 和AVS-SS-ST),仿真结果验证了所提出方法的有效性;.(2).开展基于单AVS、稀疏表示的语音声源DOA估计方法研究,推导了时频域AVS各传感器间数值比(ISDR)近似模型,获得DOA与ISDR的函数关系;推导出基于ISDR的DOA过完备字典稀疏表示模型,提出了一种新的DOA估计算法,即AVS-ISDR-SSR,大量仿真实验和实测实验验证了算法的有效性;.(3).开展基于语音时频稀疏性和单AVS的DOA估计算法研究,提出了一种新的多源DOA估计算法,即AVS-ISDR,实验表明,该算法可实现多达7个语音声源的DOA估计;以此,提出了四种高局部时频点提取算法,使得AVS-ISDR在较宽信噪比动态范围和混响条件下,获得稳定和高精度的多语音声源DOA估计;.(4).分析AVS多通道语音信号双频谱特性,利用双频谱域对高斯白噪声的抑制特性,提出了两种基于双频谱数据比的DOA估计方法(AVS-BISDR、AVS-MBISDR),能够有效地抑制加性高斯白噪声以及方向性高斯噪声干扰的影响;.(5).基于语音时频稀疏特性和机器学习策略,提出了两种基于深度学习的鲁棒DOA估计方法(AVS-DNN-ISDR、AVS-WISDR-DNN),获得在低信噪比和强混响环境中的准确DOA估计;.(6).自主创新研制了传感器AVS和DOA估计实验原型系统,对提出的DOA估计算法进行了实测验证,并围绕机器人听觉关键技术开展了语音增强、声纹识别、音频事件检测等研究。.综上,课题组按照研究计划顺利完成了研究任务,研究成果获得包括华为、海尔、广州视源股份有限公司、优必选、深圳市海岸技术有限公司等的关注,并在积极进行成果转化。
{{i.achievement_title}}
数据更新时间:2023-05-31
基于一维TiO2纳米管阵列薄膜的β伏特效应研究
路基土水分传感器室内标定方法与影响因素分析
1例脊肌萎缩症伴脊柱侧凸患儿后路脊柱矫形术的麻醉护理配合
基于SSVEP 直接脑控机器人方向和速度研究
基于细粒度词表示的命名实体识别研究
矢量传感器阵列信号波达方向估计方法研究
稀疏电磁矢量传感器阵列自适应波束形成方法研究
电磁矢量传感器阵列波达方向和极化联合估计
声矢量传感器阵列在非理想传输条件下的声源定位研究