基于言语感知机理的深度学习方法的研究

基本信息
批准号:61403276
项目类别:青年科学基金项目
资助金额:24.00
负责人:党鑫
学科分类:
依托单位:天津工业大学
批准年份:2014
结题年份:2017
起止时间:2015-01-01 - 2017-12-31
项目状态: 已结题
项目参与者:柯登峰,党建武,宋庆增,王作为,史雯隽,高任飞,祝龙婷
关键词:
语音生成多模态语音识别言语感知深度学习
结项摘要

While building a deep neural network with the traditional acoustic features and the multimodal speech production features are used, which makes the feature maps of the deep architecture have a physical meaning, is an interesting topic both in theory and application, which could widely utilized speech recognition, artificial intelligence, and so on. With a perspective of speech chain, on the base of brain mechanisms of speech perception, using the map relationship between articulation and acoustic space, this project try to fusion of the acoustic and multi-modal articulation features in the deep architecture. Compare with traditional acoustic features in deep neural network, those new features will correspond to more specific physical quantity, such as manner of articulation or place of articulation. This research utilize multimodal speech production database to build a map between acoustic and speech production features firstly, then build a multi-modal deep neural network model, at the end a multi-modal convolutional deep neural network is built, in which the convolutional kernels are trained by the using of acoustic or multi-modal articulation features. In the application, the deep neural network model is more robustness and is easier to be used in a multi-tasking system. In theory, this research will also further promote the theory and application of deep Learning in the field of speech recognition.

在利用传统的声学特征进行深度神经网络建模的同时融入语音发音等多模态特征,使深度结构中各层特征对应实际物理意义,是颇具理论和实际意义的一项科研课题,并且在语音识别,人工智能等领域有极其重大的应用价值。本课题从言语链的角度出发,结合人脑的言语感知机理,利用语音发音和声学空间的映射关系,试图在深度结构中进行多模态发音特征和声学特征的融合。与传统深度神经网络的语音声学特征相比,这些发音特征将对应更确切的物理意义,例如: 发音部位,发音方法等。本项目首先利用多模态数据库建立声学和语音生成特征映射关系,然后建立多模态深度神经网络模型,最后利用声学、多模态发音数据训练卷积核,构建多模态深度卷积神经网络。在应用方面,由于该深度神经网络模型有效地融入了人的语音处理功能,有望更好地解决鲁棒性问题。在理论方面,这项研究也将进一步为推动深度学习技术在语音识别领域的应用提供理论支撑。

项目摘要

本项目开展了利用传统的声学经验在深度神经网络建模的同时进行发音等传统特征学习方法的研究,旨在使深度结构中各层特征对应实际物理意义。项目组从言语链的角度出发,结合人脑的言语感知机理,利用语音发音和声学空间的映射关系,在深度结构中进行多模态发音特征和声学特征的融合。与传统深度神经网络的语音声学特征相比,这些发音特征将对应更确切的物理意义,例如: 发音部位,发音方法等。利用睡眠鼾声等数据库建立声学和语音生成特征映射关系,建立了声学睡眠监测深度神经网络模型,在语音传统经验和深度网络建模结合提出了一种思路。在应用方面,由于该深度神经网络模型有效结合人机交互、医疗康复等应用,更好地解决智能识别系统鲁棒性问题。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

基于 Kronecker 压缩感知的宽带 MIMO 雷达高分辨三维成像

基于 Kronecker 压缩感知的宽带 MIMO 雷达高分辨三维成像

DOI:10.11999/JEIT150995
发表时间:2016
2

基于多模态信息特征融合的犯罪预测算法研究

基于多模态信息特征融合的犯罪预测算法研究

DOI:
发表时间:2018
3

基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例

基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例

DOI:
发表时间:2022
4

居住环境多维剥夺的地理识别及类型划分——以郑州主城区为例

居住环境多维剥夺的地理识别及类型划分——以郑州主城区为例

DOI:10.11821/dlyj201810008
发表时间:2018
5

基于细粒度词表示的命名实体识别研究

基于细粒度词表示的命名实体识别研究

DOI:10.3969/j.issn.1003-0077.2018.11.009
发表时间:2018

党鑫的其他基金

相似国自然基金

1

基于层级多模态的深度相似度学习方法研究

批准号:61806066
批准年份:2018
负责人:高欣健
学科分类:F0604
资助金额:24.00
项目类别:青年科学基金项目
2

基于图结构的数据表示和深度学习方法

批准号:61876152
批准年份:2018
负责人:王鹏
学科分类:F0604
资助金额:62.00
项目类别:面上项目
3

面向领域本体的深度学习方法研究

批准号:61003204
批准年份:2010
负责人:刘桃
学科分类:F0211
资助金额:20.00
项目类别:青年科学基金项目
4

时空深度学习方法与应用

批准号:61772299
批准年份:2017
负责人:龙明盛
学科分类:F0605
资助金额:66.00
项目类别:面上项目