Speech signal not only contains lexicon information, but also deliver various kinds of paralinguistic speech attribute information, such as speaker, language, gender, age, emotion, channel, voicing, psychological states, etc. The core technique question behind it is utterance level supervised learning based on text independent speech signal with flexible duration. End-to-end deep learning can automatically learn the discriminative feature and representation from a large set of labeled data using standard deep learning methods, therefore reduces the need of domain prior knowledge. In this project, we propose to combine these paralinguistic speech attributes recognition tasks together into one problem, and use end-to-end deep learning methods to solve. We propose a encoding layer design with dictionary learning and statistics calculation function, which makes the end-to-end system capable to deal with text dependent flexible duration speech attribute recognition task; we plan to design better network structure and objective function to fit different paralinguistics tasks; we will use many speech transformation, speech conversion and speech manipulation methods to perform training data augmentation in order to increase the size of labeled training data; we will also better utilize many different databases with different paralinguistic speech attributes together to perform transfer learning, multitask learning and joint learning to assist the tasks with small scale training data. This project will bring new concepts to many paralinguistic speech attribute recognition tasks with important theoretical impact and application value.
语音不仅包含语言语义信息,同时也传达了说话人,语种,性别,年龄,情感,信道,嗓音,心理等多种丰富的副语言语音属性信息。这一类语音属性识别的共同核心问题是针对不定时长文本无关的句子层面语音信号的有监督学习。端到端深度学习框架可通过通用深度神经网络架构和大量有标注数据来自动地学习对分类有意义的底层特征和中层表示,减少了对特定属性先验知识的依赖。我们首次提出把这一类识别问题合并,在一个相对统一的端到端深度学习框架内开展文本无关副语言语音属性识别研究。我们提出带字典学习和统计量计算功能的编码层,使得端到端系统可以处理文本无关不定时长语音属性识别问题;设计更合适的模型结构和目标函数来适应不同的语音属性识别任务; 通过多种语音变换来扩充训练数据的规模;综合利用多种不同属性的数据库展开迁移学习,多任务学习和多数据库联合学习研究。本项目为副语言语音属性识别这类问题带来新思路,具有重要的理论意义与实际价值。
语音不仅包含语言语义信息,同时也传达了说话人,语种,性别,年龄,情感,信道,嗓音,心理等多种丰富的副语言语音属性信息。这一类语音属性识别的共同核心问题是针对不定时长文本无关的句子层面语音信号的有监督学习。端到端深度学习框架可通过通用深度神经网络架构和大量有标注数据来自动地学习对分类有意义的底层特征和中层表示,减少了对特定属性先验知识的依赖。我们提出把这一类识别问题合并,在一个相对统一的端到端深度学习框架内开展文本无关副语言语音属性识别研究。主要研究内容是面向文本无关的多种副语言语音属性识别任务,在端到端深度学习的框架内,从模型结构,目标函数,迁移学习和多属性多数据库联合识别这几个方向展开研究。我们提出带字典学习和统计量计算功能的编码层以及基于多种注意力机制的编码层设计,使得端到端系统可以处理文本无关不定时长语音属性识别问题;设计更合适的模型结构和目标函数来适应不同的语音属性识别任务,把相关联的任务集成在一个模型里,开展前后端联合建模; 面对远场短时高噪声跨信道跨语言等复杂场景,通过多种语音变换和数据增强策略来扩充训练数据的规模;综合利用多种不同属性的数据库展开迁移学习,多任务学习和多数据库联合学习研究,使得系统在低资源场景提高性能。我们围绕声纹识别,语种识别,情感识别,关键词识别,说话人日志,声学事件分类,防攻击检测等一系列核心副语言语音属性识别任务,取得了多项研究成果。带领团队获得了Interspeech19 Computational Paralinguistics Challenge第一,ASRU19 阿拉伯语语种识别第一, Interspeech20 fearless steps challenge说话人识别第一, Interspeech21 fearless steps challenge 说话人识别第一和说话人日志第一, ASVspoof21 回放攻击检测第一名,VoxSRC21 自监督声纹第一和说话人日志第一,算法性能名列国际前沿。我们同时还开展了针对特定人的语音分离,语音合成、语音变声等一些列关联任务的研究,为防攻击检测和识别任务扩展数据增强手段。共发表SCI期刊论文8篇,EI国际会议论文37篇,提交发明专利申请8项,开源数据库4个,举办国际评测2项。
{{i.achievement_title}}
数据更新时间:2023-05-31
端壁抽吸控制下攻角对压气机叶栅叶尖 泄漏流动的影响
基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例
居住环境多维剥夺的地理识别及类型划分——以郑州主城区为例
基于细粒度词表示的命名实体识别研究
滚动直线导轨副静刚度试验装置设计
基于端到端的多语言语音内容与语言种类联合识别技术的研究
面向自适应学习的端到端人脸识别
基于多任务一体化的端到端场景图像文本识别方法研究
联合视觉与自然语言的端到端行人再辨识研究