The performance of modern speech recognition system depends heavily on the availability of the training data. The recognition accuracy will reduce dramatically if training data is not enough. Collecting and transcribing a large amount of speech data for acoustic model training is difficult and expensive. It is the major cost in deploying a speech recognition system for any new language. Low resource speech recognition has becoming one of the main research topics recently in speech recognition society. We will focus on low resource acoustic modeling in this project. In particular, we propose to investigate the following technologies in the training of acoustic models when training data is limited: to use GMM-HMM models with sparse precision matrices (i.e. inverse covariance matrices) in a Tandem or Combining system to model the complex relation among the input features and prevent the models from overfitting; to use multi task learning (MTL) method during DNN training to effectively leverage all the information in the training data and use MTL with multi-lingual acoustic modelling; to use a proposed multi-lingual acoustic modeling method based on output node merging to utilize training data from other languages; to improve the model robustness based on data augmentation.
现代语音识别系统严重依赖于用来训练模型的训练数据的多少,当训练数据不足时,识别率将大大降低。收集大量精确标注的训练数据费时费力,是部署任何一个语音识别系统的主要开支。低数据资源语音识别已经成为近年来本领域的一个研究热点,本项目重点研究低数据资源情况下语音识别系统中的声学建模方法,我们建议通过综合利用下面我们提出的方法来提升声学模型在低数据资源下的性能:在串联或者联合系统中,采用基于稀疏精度矩阵的高斯混合-隐马尔科夫模型(GMM-HMM),一方面对输入特征之间的复杂关系精确建模,另一方面有效防止模型过拟合;采用多任务学习的方式,充分利用已有训练数据的信息,并与多语言联合建模方法一起使用;在深度神经网络(DNN)的训练过程中,采用基于输出节点融合的多语言联合建模方式,借用其他语言的训练数据;在DNN的训练过程中,通过增加噪声的多样性来提升模型的性能。
现代语音识别系统严重依赖于用来训练模型的训练数据的多少,当训练数据不足时,识别 率将大大降低。收集大量精确标注的训练数据费时费力,是部署任何一个语音识别系统的主要 开支。低数据资源语音识别已经成为近年来本领域的一个研究热点,本项目重点研究低数据资 源情况下语音识别系统中的声学建模方法,我们建议通过综合利用下面我们提出的方法来提升声学模型在低数据资源下的性能:采用多任务学习的方式,充分利用已有训练数据的信息,特别是使用K-L散度来定义一个新的目标函数,与原来的目标函数(如交叉熵或者判别式训练)联合训练和优化;在DNN的训练过程中,通过增加噪声的多样性来提升模 型的性能;通过改进神经网络的结构,进一步提升模型在有限数据情况下的性能。
{{i.achievement_title}}
数据更新时间:2023-05-31
基于改进LinkNet的寒旱区遥感图像河流识别方法
智能煤矿建设路线与工程实践
扶贫资源输入对贫困地区分配公平的影响
多元化企业IT协同的维度及测量
基于小波高阶统计量的数字图像来源取证方法
基于声学空间非线性流形结构的低资源语音识别
广播语音声学建模中的主动学习研究
融合语音产生机理与统计声学建模的层次化语音合成方法研究
中英文混合语音识别中声学建模关键技术研究