The deep Bayesian network (DBN) approach has demonstrated significant performance improvement for speech recognition, and has been regarded as a new tehcnical revolution in speech research. Nevertheless, the present DBN approach heavily relies on large amounts of training data, and is susceptible to noise and channel variation. These difficulties can be largely attributed to the weak prior constraint caused by the full-connected network topology. This project proposes a sparse deep learning approach, which employes the sparse coding theory to learn more terse and represenative deep networks by imposing sparse constrains on features and/or the DBN structure. This will largely releax the large-data dependency, and improve robustness against noise and channel change. In addition, the deep strucutre will provide us an opportunity to study the sparsely learned hierarchical patterns in a systematical way.
基于深度学习(Deep Learning)的深层贝叶斯网络技术(Deep Bayesian Network, DBN)为语音识别带来极为显著的性能提高,被认为是语音领域的又一次革命。然而,当前的DBN方法只有在大数据集上才能发挥其效能,并容易受到噪声和信道变化的干扰。DBN的这些困难很大程度上可以归因于其全结点连接结构带来的弱先验约束。本项目提出稀疏性深度学习方法,利用稀疏编码(Sparse Coding)理论,通过在DBN的特征或结构中加入稀疏性约束,使学习得到的网络更简洁,更具有对语音信号模式的代表性,因而降低对大规模训练数据的依赖,并增加对噪声和信道变化的鲁棒性。同时,DBN的深层结构可以使我们得以系统研究稀疏性层次化语音模式。
归功于深度学习(Deep Learning)对原始信号的分层学习能力,深度神经网络(DNN)在语音识别领域获得巨大成功。然而,DNN网络包含极大息信冗余,不仅浪费计算资源,也容易产生过拟合现象,降低了可扩展性。为提高DNN模型在语音识别任务中的可扩展性,本课题进行了深入研究,在三个方面取得了一系列进展。(一)研究了将稀疏编码与深度学习相结合的方法,发现最有效的稀疏约束方法是对网络连接进行剪裁。实验发现即全名去掉90%的连接权重也不会显著降低语音识别模型的性能;(二)研究了各种特征鲁棒性和模型鲁棒性方法,包括基于加噪自编码器(DAE)的前端特征去噪方法、基于随机采样的模型加噪训练方法、迁移学习方法等。这些方法极大提高了模型的可扩展性,对构造资源稀缺语言(如少数民族语言)的识别系统具有特别重要的意义;(三)认识到DNN的可扩展性本质上来源于语音信息中多种因子的互相混杂。课题组提出了多任务协同建模方法来解决这一问题,将单任务中的噪声因子转化为协同学习中的信息因子,从而极大解决了DNN 模型的可扩展性问题。受此启发,我们进步一提出了语音信号深度分解方法,基于DNN将语号信号分解成任务相关的信息因子。这一深度分解方法为语音信号信息处理提供了新思路。
{{i.achievement_title}}
数据更新时间:2023-05-31
基于改进LinkNet的寒旱区遥感图像河流识别方法
基于小波高阶统计量的数字图像来源取证方法
基于注意力机制和多尺度残差网络的农作物病害识别
基于转置卷积神经网络的路面裂缝识别算法
基于数据手套和神经网络的数字手势识别方法
异质噪声场景语音识别中的结构化深度学习研究
基于稀疏表示和字典学习的深度图像序列人体行为识别
知识引导的深度学习语音降噪研究
基于端到端深度学习框架的文本无关副语言语音属性识别研究