基于概率声管模型的单通道语音分离研究

基本信息
批准号:61473168
项目类别:面上项目
资助金额:83.00
负责人:欧智坚
学科分类:
依托单位:清华大学
批准年份:2014
结题年份:2018
起止时间:2015-01-01 - 2018-12-31
项目状态: 已结题
项目参与者:肖熙,王斌,肖彰宇,邓侃,许皓天,王竞千
关键词:
计算听觉场景分析语音分离语音处理
结项摘要

Single-channel speech separation is essentially an underdetermined problem. Model-based approach is an important research direction for single-channel speech separation. Although with some success, current speech models used in these methods are still seriously flawed due to their incomplete modeling of speech. The basic physical model of speech - acoustic tube model, tells us that there are three basic physical parameters - the excitation function, the excitation gain and vocal tract response, and how they are interacted to generate speech. But for a long time, we lack a unified probabilistic model to integrate the three fundamental speech parameters to describe the randomness of speech. In this project, the probabilistic acoustic tube (PAT) model is proposed and applied to model-based single-channel speech separation. The main idea is to explicitly encode the physical parameters and describe how they are interacted to generate speech in probabilistic terms. The new model will overcome the current shortcoming of incomplete modeling, and provide better constraints for solving the underdetermined single-channel speech separation problem. Moreover, as a generative model, the new model can naturally incorporate high-level knowledge and realize two-way flow of information (bottom-up and top-down) for speech separation, like schema-driven auditory scene analysis. These new ideas are expected to bring a new breakthrough to the single-channel speech separation research.

单通道语音分离本质上是一个欠定问题。基于模型的方法是单通道语音分离研究的重要方向。尽管取得了一定成功,目前这些方法中使用的语音模型仍存在严重缺陷-属于对语音的不完整建模。语音的基本物理模型-声管模型,告诉我们语音的三个基本物理量-声管激励、激励增益和声道响应,及它们之间关系。但语音界一直缺乏一个真正能联合这三个基本量的概率模型,来刻划语音随机性。本项目提出概率声管模型,并运用到基于模型的单通道语音分离。其主要思想是,通过显式表述语音产生过程中的诸物理量,并对诸量如何一起作用产生语音进行概率化描述,建立语音的产生式模型。新模型将克服目前语音模型的不完整性的缺陷,为求解欠定的单通道语音分离问题提供更好的约束;同时新模型作为产生式模型,可以很自然结合高层知识,从而支持在语音分离中象图式驱动的听觉场景分析一样,实现自下而上和自上而下的信息双向流动。这些新举措有望带来单通道语音分离研究的新突破。

项目摘要

本项目旨在发展新型语音概率模型,并运用到语音分离等任务中;研究高层知识(如语言模型)的利用,实现语音处理中低高层信息双向流动。研究情况概述如下:1)深入研究了概率声管模型,提出引入AM/FM效应、使用粒子滤波和MCMC算法进行推理、以及与生成对抗网络结合,成功在语音增强、基音跟踪等得到验证。2)提出跨维随机场理论以及有效的模型训练算法,首次将随机场(无向图模型)的应用从定维情形扩展到序列情形。这为语言模型乃至一般的序列建模打开一条新思路,有力支撑未来对语音的非线性序列建模的研究与应用。3)研究了端到端语音识别,说话人建模,结合神经网络的生成式建模与推理算法,并用于麦克风阵列语音增强、重复片段发现等多种任务,从多方面探索了语音概率建模的有效方式。.本项目发表了论文14篇(均为EI收录,其中SCI收录2篇,国际会议最佳学生论文奖1篇);培养博士生1名、硕士生5名、本科毕业设计2名,获得清华大学优秀博士论文1篇,本科毕业设计系优论文1篇;国际学术会议及交流13人次,国际会议tutorial报告1次,邀请海外学者短期讲学1人次;发布研究软件工具包2个,发布研究数据集1个;登记软件著作权3个。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

玉米叶向值的全基因组关联分析

玉米叶向值的全基因组关联分析

DOI:
发表时间:
2

正交异性钢桥面板纵肋-面板疲劳开裂的CFRP加固研究

正交异性钢桥面板纵肋-面板疲劳开裂的CFRP加固研究

DOI:10.19713/j.cnki.43-1423/u.t20201185
发表时间:2021
3

硬件木马:关键问题研究进展及新动向

硬件木马:关键问题研究进展及新动向

DOI:
发表时间:2018
4

环境类邻避设施对北京市住宅价格影响研究--以大型垃圾处理设施为例

环境类邻避设施对北京市住宅价格影响研究--以大型垃圾处理设施为例

DOI:10.11821/dlyj020190689
发表时间:2020
5

基于SSVEP 直接脑控机器人方向和速度研究

基于SSVEP 直接脑控机器人方向和速度研究

DOI:10.16383/j.aas.2016.c150880
发表时间:2016

欧智坚的其他基金

相似国自然基金

1

基于零空间追踪的单通道语音分离方法研究

批准号:61861005
批准年份:2018
负责人:胡维平
学科分类:F0111
资助金额:39.00
项目类别:地区科学基金项目
2

基于压缩感知的单通道混合语音分离理论及算法研究

批准号:61302152
批准年份:2013
负责人:郭海燕
学科分类:F0111
资助金额:24.00
项目类别:青年科学基金项目
3

基于非线性语音谱分析的单通道语音增强研究

批准号:61302126
批准年份:2013
负责人:王杰
学科分类:F0117
资助金额:23.00
项目类别:青年科学基金项目
4

基于深度学习的单通道语音混响消除技术研究

批准号:61671381
批准年份:2016
负责人:张晓雷
学科分类:F0111
资助金额:58.00
项目类别:面上项目