目前的稳健语音识别研究在处理人声差异性和环境变化两方面的随机因素上存在结构性缺陷。首先,人声差异性建模普遍依赖基于变换矩阵的方法,人声差异性和环境因素容易混为一谈;其次,基于模型的噪声补偿方法普遍缺乏对人声差异性的细致考虑。本项目提出在语音识别模型和算法中对两方面随机因素分别采取不同处理策略并联合考虑,具有前瞻性;符合语音随机性客观规律- - 语音信号以声波从嘴唇辐射开去为界,之前有人声差异引入的随机性,之后有外部环境引入的随机性,两者产生机理不同但又总是并存于实际语音中。本项目研究贝叶斯人声模型,以充分挖掘利用不同人声特性的变化规律。研究基于环境干扰模型在线估计噪声进行噪声自适应补偿,借助更准确的贝叶斯人声模型,增强噪声补偿的效果。研究基于序贯蒙特卡罗近似推理实现一遍识别,突破目前稳健语音识别中普遍采用的多遍识别策略,最终希望使机器能象人一样一边听音,一边跟踪及适应上不同的人声和环境的变化。
本项目旨在突破目前稳健语音识别研究的结构性缺陷,以进一步提高语音识别系统对各种说话人和变化的环境的稳健性。研究情况概述如下:1)提出联合本征音人声模型和基于矢量泰勒级数展开的噪声补偿,分别在Aurora2(小词汇量)、Aurora4(大词汇量)连续语音识别中,验证了联合模型的有效性。2)提出概率声管模型,实现了对语音的三个基本物理参量—声管激励,激励能量和声道响应的联合概率建模。3)声源分离作为有助于自适应噪声补偿的一种方案而加以研究,实现了一个完整的单声道人声伴奏分离系统,在公开数据库上的性能测试表明其性能达到了人声伴奏分离的前沿水平,并具有更快的处理速度。4)提出了一种利用条件随机场模型(CRF)计算词图上识别结果置信度的新方法,有助于提高无监督自适应的性能。5)实现了一个高性能的LVCSR基线系统—GrpDecoder。该项目培养了3名硕士生;获得清华大学本科毕业设计论文系优1篇,校优1篇;获得清华大学本科生研究训练(SRT)计划优秀指导教师一等奖;发表ICASSP论文3篇,AISTATS论文1篇,ISCSLP论文1篇。
{{i.achievement_title}}
数据更新时间:2023-05-31
玉米叶向值的全基因组关联分析
粗颗粒土的静止土压力系数非线性分析与计算方法
中国参与全球价值链的环境效应分析
转录组与代谢联合解析红花槭叶片中青素苷变化机制
基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例
基于对称识别方法的贝叶斯probit模型稳健性研究
基于稀疏贝叶斯学习的稳健空时自适应处理研究
基于贝叶斯模型平均的多响应稳健优化设计研究
基于贝叶斯网络的语音识别精细结构声学建模的研究