本项目主要结合语音信号处理和模式识别技术对说话人分类标记系统的特征提取和分类决策进行创新性研究,提高说话人分类标记系统的稳健性,这也是目前国际上语音技术研究发展的重要方向之一。本项目的研究内容包括:(1)基于空间声源位置特征的参数提取方法。(2)基于融合空间特征和听觉感知特征的参数提取方法。(3)基于量子学习的优化分类决策方法。(4)基于行为知识空间的分类决策方法。空时域融合的说话人分类特征突破了传统方法基于人类发音及听觉感知特征的限制,优化量子学习及行为知识空间方法则克服了传统分类算法的非通用性,改善了多个说话人混叠及干扰场景下系统性能和精度。本项目结合以上研究成果,通过对空时域融合特征建立模型并利用优化量子学习和行为知识空间等算法,实现一套基于分布式声传感器网络的多个说话人分类标记系统,在多人会议场景下达到分类误差率低于9%,测试指标达到或超过历年NIST评测国际最优水平。
基于听感知理论和分布式声传感器的说话人分类标记技术是目前国际上语音技术研究发展的重要方向之一,本项目主要进行说话人分类标记中的特征提取及分类决策方面的研究,主要完成的研究内容包括:(1)针对传统方法局限于发音及听觉感知特征的问题,开展基于分布式声传感器网络的空间信息处理和听觉感知理论研究,提出并实现了基于分布式声传感器网络的空间声源位置特征提取及说话人空间定位的方法,已发表相关文章及获得专利授权;(2)采用新的时空域融合分类特征来提高系统在复杂声学环境下的性能和鲁棒性,提出并实现了融合空间特征和听觉感知的特征提取及说话人聚类的方法,已发表相关文章及获得专利授权;(3)针对传统GMM-SVM方法存在非通用性的问题,开展基于量子优化学习的多个说话人分类决策理论研究,提出并实现了基于量子学习的优化分类决策方法,进一步完善了多说话人混叠及噪声干扰环境下的说话人分类决策系统,已申请专利;(4)针对传统方法难以处理混合特征建模时非独立的问题,开展多种说话人分类器理论研究,提出并实现了多分量鉴别式保局投影、多模型局部概率线性判别等多分类器决策方法,进一步提高说话人分类决策系统的精度,已发表相关文章。本项目用64通道美国NI-PXI-4496设备构建了一套用于实验的远距离分布式声传感器网络,进行语音数据采集,排除无效数据后得到基于分布式声传感器网络的语音数据库,数据时长共计1600小时,并按照说话人身份、说话人空间位置、有声段/无声段进行了数据标注工作,在此语音数据库上利用上述研究内容,实现了一套基于分布式声传感器网络的说话人分类标记系统,在多人会议场景下分类误差率达到预期水平。实验结果表明,上述研究成果可以进一步提高多人话音混叠及环境噪声干扰条件下说话人分类标记系统的性能和稳健性。在本项目支持下共计出版专著2部,发表论文15篇,其中EI检索13篇,申请专利7个,授权4个,培养博士后1名,博士生3名。
{{i.achievement_title}}
数据更新时间:2023-05-31
路基土水分传感器室内标定方法与影响因素分析
跨社交网络用户对齐技术综述
基于SSVEP 直接脑控机器人方向和速度研究
温和条件下柱前标记-高效液相色谱-质谱法测定枸杞多糖中单糖组成
基于多模态信息特征融合的犯罪预测算法研究
基于信息几何的说话人标记算法研究
基于迁移学习的跨信道说话人识别研究
基于人工神经网络的说话人识别研究
基于深度神经网络的说话人分离和识别算法的研究