基于发音特征的汉语语音识别分层解码方法研究

基本信息
批准号:61503382
项目类别:青年科学基金项目
资助金额:22.00
负责人:杨占磊
学科分类:
依托单位:中国科学院自动化研究所
批准年份:2015
结题年份:2018
起止时间:2016-01-01 - 2018-12-31
项目状态: 已结题
项目参与者:陈明明,郑昊,戴佳,聂帅,梁雅萌
关键词:
特征提取声学模型发音特征解码算法搜索空间
结项摘要

Traditional automatic speech recognition (ASR) decoding methods extend path candidates nondistinctively in the whole search space, ignoring a usage of assistant information for search space dividing, consequently incapable of enhancing or pruning the search according to promising level of subspaces, which courses lots of unnecessary calculation. Besides, traditional decoding methods lack an assessment of confidence of path candidates by using assistant information, thus unable to adjust direction of extension in the decoding process. On the basis of multiple acoustic and semantic cues, as well as articulatory feature (AF) framework of Mandarin speech, this study is going to explore automatic AF extraction method. As a kind of assistant information, AF provides a stable representation of speech from the point of speech production. Then, this study intends to explore AF modeling method, as well as two-level decoding method by integrating articulatory information. The first level decoding takes advantage of articulatory model to divide the search space into several subspaces, and the second level decoding takes advantage of acoustic model to extend path candidates in the resulting subspaces according to their degree of promising. Furthermore, this study is going to explore articulatory information based assessment method of path candidates. After assessing path candidates, the result of assessment is integrated into decoding process to induce the extension direction of path candidates, which gives rise to a novel ASR method that conforms to the cognitive process of human brain that assess candidate hypothesis by using heuristic cues.

传统语音识别解码方法对候选路径在整个搜索空间无区别地进行扩展,缺乏利用辅助信息对搜索空间进行划分,无法根据子空间的有希望程度加强或裁剪搜索,导致解码中存在大量不必要的计算。此外,传统解码方法也缺乏利用辅助信息对候选路径的正确性进行评估,导致无法在解码过程中调整路径扩展的方向。本研究拟在多层次的声学线索及语义线索的基础上,结合汉语普通话发音特征体系,探索发音特征这一辅助信息的自动提取方法,从语音产生的角度为语音提供更稳定的表征。在此基础上,建立发音模型,探索基于发音信息的双层解码方法。第一层解码利用发音模型划分搜索空间,第二层解码利用声学模型在希望程度不同的搜索子空间中对候选路径进行扩展。此外,本研究拟探索基于发音信息的候选路径评估方法。对候选路径进行评估的基础上,利用评估结果及时调整解码时候选路径的扩展方向,研究与人脑利用启发式线索对候选假设进行评估这一认知过程相符合的语音识别方法。

项目摘要

提出了一种基于深度学习的发音知识提取框架。该框架结合神经网络隐层特征表示、隐层统计量建模等技术,分别从发音属性及声学建模单元分类、基于深度学习的发音属性特征表示、基于统计量建模的角度提取发音特征。本项工作利用深度学习对数据的表征能力,利用发音属性信息通过深度神经网络多层次的非线性变换,将其中有利于识别的区分性信息抽取出来并降维得到深度变换特征。另一方面,该框架还提取了基于统计量建模的发音知识特征。该特征包含整句中发音知识的伪Baum-Welch统计量信息,通过全变化空间矩阵进行建模得到,解决了帧级别发音特征与目标senones相关度过高,以及帧级别发音特征无法响应句级统计量的问题。. 提出了一种基于多目标学习的发音知识建模及模型域提取算法。该框架通过多目标学习同时为发音属性和发音建模单元进行建模。针对每个音素可能同时包含于多个发音属性的问题,提出采用分块Softmax输出结构,使得主副任务梯度数量级的一致,方便参数的调节及模型收敛。该框架不仅能够提供模型域的发音特征,也能够作为一种正则手段抑制模型参数的过拟合。另外其副任务也提供了有利于隐层节点增强区分性的信息,有利于模型的收敛。该框架在训练数据量不足和训练测试数据不匹配的情况尤其有效。. 提出了一种融合发音模型的搜索空间构建方法,以及融合语法格式与有限状态转移器的解码方法。该方法构建了基于深度神经网络的发音模型,通过上述多目标学习策略同时将发音属性分类与声学建模单元分类作为目标,并利用有限状态转移器的序列转换能力,将发音属性分类任务的结果序列转换为声学建模单元序列,构建融合了发音模型的搜索空间。在此基础上,融合语法格式与有限状态转移器,在搜索时利用语法约束对候选路径进行筛选和扩展。本研究利用发音模型隐式地划分搜索空间,实现基于发音信息的第一层解码方法,并在发音模型划分的多个搜索子空间中,利用语法格式对候选路径的约束,实现基于有限状态转移器的第二层解码。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

涡度相关技术及其在陆地生态系统通量研究中的应用

涡度相关技术及其在陆地生态系统通量研究中的应用

DOI:10.17521/cjpe.2019.0351
发表时间:2020
2

粗颗粒土的静止土压力系数非线性分析与计算方法

粗颗粒土的静止土压力系数非线性分析与计算方法

DOI:10.16285/j.rsm.2019.1280
发表时间:2019
3

环境类邻避设施对北京市住宅价格影响研究--以大型垃圾处理设施为例

环境类邻避设施对北京市住宅价格影响研究--以大型垃圾处理设施为例

DOI:10.11821/dlyj020190689
发表时间:2020
4

中国参与全球价值链的环境效应分析

中国参与全球价值链的环境效应分析

DOI:10.12062/cpre.20181019
发表时间:2019
5

基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例

基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例

DOI:
发表时间:2022

杨占磊的其他基金

相似国自然基金

1

成年聋人发音错误检测中的语音学特征方法研究

批准号:61005020
批准年份:2010
负责人:刘明辉
学科分类:F0605
资助金额:19.00
项目类别:青年科学基金项目
2

基于特征组对策略的分层匹配方法研究

批准号:61272394
批准年份:2012
负责人:王志衡
学科分类:F0210
资助金额:81.00
项目类别:面上项目
3

腭裂代偿性发音的声学特征分析、建模和客观评估方法的研究

批准号:60875014
批准年份:2008
负责人:赵庆卫
学科分类:F0605
资助金额:33.00
项目类别:面上项目
4

混合口音语音识别中自适应分层发音变异模型研究

批准号:60975018
批准年份:2009
负责人:刘轶
学科分类:F0605
资助金额:27.00
项目类别:面上项目