复杂声学环境下声学事件检测与音频场景识别方法研究

基本信息

批准号：U1736210

项目类别：联合基金项目

资助金额：256.00

负责人：韩纪庆

学科分类：

依托单位：哈尔滨工业大学

批准年份：2017

结题年份：2021

起止时间：2018-01-01 - 2021-12-31

项目状态：已结题

项目参与者：郑铁然,闾海荣,金圣开,郑贵滨,陶焜,王伟,赵明

关键词：

音频场景识别声学事件检测复杂声学环境

结项摘要

The cognitive ability of the computer for understanding the environmental sounds is one of the most important research directions in the brain-inspired intelligence. As one of the main aspects of the computer cognition of environmental sounds, the acoustic events detection and audio scenes recognition have been attracted more and more attention. However, there are new challenges for the acoustic events detection and audio scenes recognition in complex acoustic environments. Meanwhile there is also a new opportunity for the acoustic events detection and audio scenes recognition as the fast developments in the theories and technologies of the signal processing and machine learning. Based on the above background, this project is proposed and focuses on the fundamental researches in the denosing of audio signal, the feature selection and dimensionality reduction, and the new machine learning based methods in the acoustic events detection and audio scenes recognition. The main purpose of the project is to propose some theories and technologies with independent intellectual property rights and provide the theoretical principles and useful methods for improving the computer cognition of environmental sounds, and therefore make the progress of the field of the brain-inspired auditory perception.

机器对环境声音的认知能力是类脑智能研究的重要方向之一。作为机器环境声音认知的一个重要方面，声学事件检测与音频场景识别受到了越来越多的重视。然而，现实中复杂的声学环境给声学事件检测与音频场景识别带来了新的挑战。与此同时，近年来信号处理与机器学习领域中理论与技术的长足发展，也为复杂声学环境下声学事件检测与音频场景识别的研究带来了新的机遇。本项目正是在这样的背景下提出的。项目拟从音频信号的降噪、特征选择与降维、基于机器学习的声学事件检测与音频场景识别方法等方面展开基础性研究。通过项目的研究提出若干具有自主知识产权的理论与技术，为提高机器对环境声音的认知能力提供理论基础和实用方法，促进类脑听觉认知学科的进步。

项目摘要

本项目重点开展复杂声学环境下声学事件检测与音频场景识别的研究。在项目的执行过程中，按照项目计划书要求开展工作，已完成了所有的研究计划内容，并对部分内容进行了拓展性研究。在如下几方面取得了重要研究进展：① 时域与变换域先验知识兼顾的降噪方法； ② 基于半监督学习的音频信号特征选择与降维；③ 基于联合语义挖掘的声学事件与音频场景特征表示方法；④ 基于前景和背景声音特征融合的音频场景一致性特征表示方法；⑤ 基于多层多核支持向量机的声学事件检测及音频场景识别；⑥ 复杂声学环境下声学事件检测与音频场景识别在特定行业的验证。.项目组共在刊物和会议上发表学术论文37篇，其中15篇进入SCI检索源，35篇进入EI检索源。论文中有3篇发表在本领域顶级刊物IEEE/ACM Trans. on Audio, Speech, and Language Processing上，17篇发表在本领域顶级国际会议ICASSP、Interspeech和NeurIPS上，另有2篇论文被ICASSP2022录用；申请国家发明专利13项，已授权7项；获软件著作权登记2项。共培养研究生46名，其中博士研究生16名，硕士研究生30名。由2019年清华出版社出书一部。.尤为重要的是，所研发的相关技术已开始在通用技术研究院下属的黑龙江省分支机构进行了成果的应用转化，促进了其业务的开展。

项目成果

DOI：{{i.doi}}

发表时间：{{i.publish_year}}

暂无此项成果

数据更新时间：2023-05-31

其他相关文献

DOI：10.11821/dlyj201810008

发表时间：2018

DOI：10.3969/j.issn.1003-0077.2018.11.009

发表时间：2018

DOI：10.11999/JEIT210095

发表时间：2021

DOI：10.19650/j.cnki.cjsi.J2007019

发表时间：2021

DOI：10.3724/sp.j.1089.2022.19009

发表时间：2022

韩纪庆的其他基金

批准号：60085001

批准年份：2000

资助金额：14.00

项目类别：专项基金项目

批准号：61471145

批准年份：2014

资助金额：86.00

项目类别：面上项目

批准号：60672163

批准年份：2006

资助金额：28.00

项目类别：联合基金项目

批准号：61071181

批准年份：2010

资助金额：32.00

项目类别：面上项目

批准号：91120303

批准年份：2011

资助金额：270.00

项目类别：重大研究计划

批准号：60575030

批准年份：2005

资助金额：22.00

项目类别：面上项目

批准号：60173044

批准年份：2001

资助金额：18.00

项目类别：面上项目

相似国自然基金

基于EMD的复杂声学环境下语音检测与增强

批准号：60803087

批准年份：2008

负责人：申丽然

学科分类：F0211

资助金额：19.00

项目类别：青年科学基金项目

会议音频中的声学事件检测及说话人分析方法研究

批准号：61101160

批准年份：2011

负责人：李艳雄

学科分类：F0111

资助金额：25.00

项目类别：青年科学基金项目

动态场景下视觉事件建模与识别方法研究

批准号：61272251

批准年份：2012

负责人：张丽清

学科分类：F0210

资助金额：80.00

项目类别：面上项目

复杂场景中运动目标检测与识别方法研究

批准号：61001170

批准年份：2010

负责人：李志华

学科分类：F0116

资助金额：18.00

项目类别：青年科学基金项目

复杂声学环境下声学事件检测与音频场景识别方法研究

{{i.achievement_title}}

暂无此项成果

其他相关文献

居住环境多维剥夺的地理识别及类型划分——以郑州主城区为例

基于细粒度词表示的命名实体识别研究

F_q上一类周期为2p~2的四元广义分圆序列的线性复杂度

基于全模式全聚焦方法的裂纹超声成像定量检测

基于协同表示的图嵌入鉴别分析在人脸识别中的应用

韩纪庆的其他基金

心理紧张和应力影响下Robust语音识别方法研究

基于内在与潜在语义特征的声音段落级语义识别方法研究

基于内容的音频信息检索关键技术研究

鲁棒的非特定环境声学事件检测关键技术研究

行车环境听觉模型及声音处理关键技术

基于子词网格的汉语语音检索关键技术研究

数字音频水印系统的基本模型和算法研究

相似国自然基金