音频信号处理中基于模型的语音与音乐信号分离算法

基本信息

批准号：60901061

项目类别：青年科学基金项目

资助金额：18.00

负责人：郑能恒

学科分类：

依托单位：深圳大学

批准年份：2009

结题年份：2012

起止时间：2010-01-01 - 2012-12-31

项目状态：已结题

项目参与者：刘明辉,陈泯融,陈小红,张亚磊,肖海波,冯智杰,夏晓玲,孟凡阳

关键词：

特征提取与建模信号分离音频信号处理语音与音乐

结项摘要

基于内容的音频信息检索是网络多媒体信息服务的关键技术之一，具有广泛的应用前景。当前音频信息检索的主要技术瓶颈之一是语音与音乐混叠信号的分离。不同信号的混叠导致语音/音乐识别与归类准确率的下降，从而降低检索结果的可靠性。本项目拟研究一种可靠的信号分离算法，用于从混叠信号中分离出语音与音乐，从而提高语音识别的准确率，最终达到可靠、高效的音频检索的目标。针对本项目所处理的音频文件的特性，我们提出一种基于模型的分离算法。首先通过音频分割算法在一个音频文件中分割出纯语音、纯音乐、以及语音与音乐混叠信号。在此基础上，通过信号分析与建模技术，获得关于纯语音的和纯音乐的可区分、可分离的特征参数及其模型。根据同一段音频流内同类信号之间的相关性，这些模型提供了混叠信号对应成分的先验知识。利用这些先验知识，实现语音与音乐信号的有效分离。

项目摘要

以语音识别、音乐分类等为基础的音频内容的分析与识别是网络多媒体信息服务的关键技术之一。不同音频源信号的混叠与相互干扰是该技术广泛应用的主要瓶颈。本项目针对这一关键问题，从可靠的音频分割、噪声估计与分析建模、语音与音乐信号的特征空间矩阵分析、语音与干扰信号源分离等方面进行了深入的研究，针对不同的噪声源提出了若干个语音分离与增强算法。特别地，着眼于提高语音识别率这一最终目标，在基于非负矩阵分解的语音分离算法中，引入语音识别模型构造基于语音识别似然率成绩（Viterbi score）的代价函数，实现了有效的语音与音乐信号的分离。一般来说，语音分离算法在剔除干扰信号的同时往往带来一定程度的语音失真，这导致增强后的语音并不能直接带来语音识别率的提高。本项目所提算法实现了语音增强和语音识别的有机统一。进一步揭示了语音识别似然率成绩作为语音识别结果置信测度的科学性，对基于统计模型的现代模式识别具有普遍性的指导意义。.本项目具体研究成果包括出版语音处理专著1本，期刊论文3篇，会议论文9篇；论文检索方面：SCI 检索1篇，EI 检索7篇；培养青年学术骨干2人，硕士研究生6人（毕业3人、在读3人）。

项目成果

DOI：{{i.doi}}

发表时间：{{i.publish_year}}

暂无此项成果

数据更新时间：2023-05-31

其他相关文献

DOI：

发表时间：2019

DOI：10.3969/j.issn.1001-9731.2021.11.009

发表时间：2021

DOI：

发表时间：2017

DOI：10.15541/jim20190382

发表时间：2020

DOI：10.3969/j.issn.1004-132x.2022.04.001

发表时间：2022

郑能恒的其他基金

批准号：61771320

批准年份：2017

资助金额：60.00

项目类别：面上项目

相似国自然基金

按耳蜗模型处理语音信号的研究

批准号：68972021

批准年份：1989

负责人：樊昌信

学科分类：F0211

资助金额：4.00

项目类别：面上项目

语音信号非线性处理方法研究

批准号：69172009

批准年份：1991

负责人：欧阳景正

学科分类：F0211

资助金额：4.00

项目类别：面上项目

矢量量化方法在语音信号处理中的应用

批准号：68772033

批准年份：1987

负责人：王中

学科分类：F0111

资助金额：3.00

项目类别：面上项目

稀疏信号驱动的时间序列信号盲分离优化模型及算法研究

批准号：11501351

批准年份：2015

负责人：张红娟

学科分类：A0405

资助金额：18.00

项目类别：青年科学基金项目

音频信号处理中基于模型的语音与音乐信号分离算法

{{i.achievement_title}}

暂无此项成果

其他相关文献

基于旋量理论的数控机床几何误差分离与补偿方法研究

制冷与空调用纳米流体研究进展

基于小波高阶统计量的数字图像来源取证方法

碳纳米管改性海泡石多孔陶瓷及其高效油水分离性能研究

船用低速机关键摩擦副建模分析与摩擦力无线测量验证

郑能恒的其他基金

基于电刺激信号信噪比估计与电听觉机理的电子耳蜗降噪算法

相似国自然基金