低数据资源下语音识别系统中声学建模方法研究

基本信息
批准号:61601187
项目类别:青年科学基金项目
资助金额:22.00
负责人:张伟彬
学科分类:
依托单位:华南理工大学
批准年份:2016
结题年份:2019
起止时间:2017-01-01 - 2019-12-31
项目状态: 已结题
项目参与者:陈东鹏,邱泉,王为凯,陈堆盛,陈祈宇,雷文康
关键词:
语音识别低数据资源声学建模
结项摘要

The performance of modern speech recognition system depends heavily on the availability of the training data. The recognition accuracy will reduce dramatically if training data is not enough. Collecting and transcribing a large amount of speech data for acoustic model training is difficult and expensive. It is the major cost in deploying a speech recognition system for any new language. Low resource speech recognition has becoming one of the main research topics recently in speech recognition society. We will focus on low resource acoustic modeling in this project. In particular, we propose to investigate the following technologies in the training of acoustic models when training data is limited: to use GMM-HMM models with sparse precision matrices (i.e. inverse covariance matrices) in a Tandem or Combining system to model the complex relation among the input features and prevent the models from overfitting; to use multi task learning (MTL) method during DNN training to effectively leverage all the information in the training data and use MTL with multi-lingual acoustic modelling; to use a proposed multi-lingual acoustic modeling method based on output node merging to utilize training data from other languages; to improve the model robustness based on data augmentation.

现代语音识别系统严重依赖于用来训练模型的训练数据的多少,当训练数据不足时,识别率将大大降低。收集大量精确标注的训练数据费时费力,是部署任何一个语音识别系统的主要开支。低数据资源语音识别已经成为近年来本领域的一个研究热点,本项目重点研究低数据资源情况下语音识别系统中的声学建模方法,我们建议通过综合利用下面我们提出的方法来提升声学模型在低数据资源下的性能:在串联或者联合系统中,采用基于稀疏精度矩阵的高斯混合-隐马尔科夫模型(GMM-HMM),一方面对输入特征之间的复杂关系精确建模,另一方面有效防止模型过拟合;采用多任务学习的方式,充分利用已有训练数据的信息,并与多语言联合建模方法一起使用;在深度神经网络(DNN)的训练过程中,采用基于输出节点融合的多语言联合建模方式,借用其他语言的训练数据;在DNN的训练过程中,通过增加噪声的多样性来提升模型的性能。

项目摘要

现代语音识别系统严重依赖于用来训练模型的训练数据的多少,当训练数据不足时,识别 率将大大降低。收集大量精确标注的训练数据费时费力,是部署任何一个语音识别系统的主要 开支。低数据资源语音识别已经成为近年来本领域的一个研究热点,本项目重点研究低数据资 源情况下语音识别系统中的声学建模方法,我们建议通过综合利用下面我们提出的方法来提升声学模型在低数据资源下的性能:采用多任务学习的方式,充分利用已有训练数据的信息,特别是使用K-L散度来定义一个新的目标函数,与原来的目标函数(如交叉熵或者判别式训练)联合训练和优化;在DNN的训练过程中,通过增加噪声的多样性来提升模 型的性能;通过改进神经网络的结构,进一步提升模型在有限数据情况下的性能。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

基于改进LinkNet的寒旱区遥感图像河流识别方法

基于改进LinkNet的寒旱区遥感图像河流识别方法

DOI:10.6041/j.issn.1000-1298.2022.07.022
发表时间:2022
2

智能煤矿建设路线与工程实践

智能煤矿建设路线与工程实践

DOI:10.13199/j.cnki.cst.2020.07.010
发表时间:2020
3

扶贫资源输入对贫困地区分配公平的影响

扶贫资源输入对贫困地区分配公平的影响

DOI:
发表时间:2020
4

多元化企业IT协同的维度及测量

多元化企业IT协同的维度及测量

DOI:
发表时间:2017
5

基于小波高阶统计量的数字图像来源取证方法

基于小波高阶统计量的数字图像来源取证方法

DOI:
发表时间:2017

张伟彬的其他基金

相似国自然基金

1

基于声学空间非线性流形结构的低资源语音识别

批准号:61403415
批准年份:2014
负责人:张文林
学科分类:F0605
资助金额:25.00
项目类别:青年科学基金项目
2

广播语音声学建模中的主动学习研究

批准号:60705019
批准年份:2007
负责人:刘刚
学科分类:F0605
资助金额:20.00
项目类别:青年科学基金项目
3

融合语音产生机理与统计声学建模的层次化语音合成方法研究

批准号:61273032
批准年份:2012
负责人:凌震华
学科分类:F0605
资助金额:80.00
项目类别:面上项目
4

中英文混合语音识别中声学建模关键技术研究

批准号:61701306
批准年份:2017
负责人:龙艳花
学科分类:F0117
资助金额:25.00
项目类别:青年科学基金项目