复杂声学环境下声学事件检测与音频场景识别方法研究

基本信息
批准号:U1736210
项目类别:联合基金项目
资助金额:256.00
负责人:韩纪庆
学科分类:
依托单位:哈尔滨工业大学
批准年份:2017
结题年份:2021
起止时间:2018-01-01 - 2021-12-31
项目状态: 已结题
项目参与者:郑铁然,闾海荣,金圣开,郑贵滨,陶焜,王伟,赵明
关键词:
音频场景识别声学事件检测复杂声学环境
结项摘要

The cognitive ability of the computer for understanding the environmental sounds is one of the most important research directions in the brain-inspired intelligence. As one of the main aspects of the computer cognition of environmental sounds, the acoustic events detection and audio scenes recognition have been attracted more and more attention. However, there are new challenges for the acoustic events detection and audio scenes recognition in complex acoustic environments. Meanwhile there is also a new opportunity for the acoustic events detection and audio scenes recognition as the fast developments in the theories and technologies of the signal processing and machine learning. Based on the above background, this project is proposed and focuses on the fundamental researches in the denosing of audio signal, the feature selection and dimensionality reduction, and the new machine learning based methods in the acoustic events detection and audio scenes recognition. The main purpose of the project is to propose some theories and technologies with independent intellectual property rights and provide the theoretical principles and useful methods for improving the computer cognition of environmental sounds, and therefore make the progress of the field of the brain-inspired auditory perception.

机器对环境声音的认知能力是类脑智能研究的重要方向之一。作为机器环境声音认知的一个重要方面,声学事件检测与音频场景识别受到了越来越多的重视。然而,现实中复杂的声学环境给声学事件检测与音频场景识别带来了新的挑战。与此同时,近年来信号处理与机器学习领域中理论与技术的长足发展,也为复杂声学环境下声学事件检测与音频场景识别的研究带来了新的机遇。本项目正是在这样的背景下提出的。项目拟从音频信号的降噪、特征选择与降维、基于机器学习的声学事件检测与音频场景识别方法等方面展开基础性研究。通过项目的研究提出若干具有自主知识产权的理论与技术,为提高机器对环境声音的认知能力提供理论基础和实用方法,促进类脑听觉认知学科的进步。

项目摘要

本项目重点开展复杂声学环境下声学事件检测与音频场景识别的研究。在项目的执行过程中,按照项目计划书要求开展工作,已完成了所有的研究计划内容,并对部分内容进行了拓展性研究。在如下几方面取得了重要研究进展:① 时域与变换域先验知识兼顾的降噪方法; ② 基于半监督学习的音频信号特征选择与降维;③ 基于联合语义挖掘的声学事件与音频场景特征表示方法;④ 基于前景和背景声音特征融合的音频场景一致性特征表示方法;⑤ 基于多层多核支持向量机的声学事件检测及音频场景识别;⑥ 复杂声学环境下声学事件检测与音频场景识别在特定行业的验证。.项目组共在刊物和会议上发表学术论文37篇,其中15篇进入SCI检索源,35篇进入EI检索源。论文中有3篇发表在本领域顶级刊物IEEE/ACM Trans. on Audio, Speech, and Language Processing上,17篇发表在本领域顶级国际会议ICASSP、Interspeech和NeurIPS上,另有2篇论文被ICASSP2022录用;申请国家发明专利13项,已授权7项;获软件著作权登记2项。共培养研究生46名,其中博士研究生16名,硕士研究生30名。由2019年清华出版社出书一部。.尤为重要的是,所研发的相关技术已开始在通用技术研究院下属的黑龙江省分支机构进行了成果的应用转化,促进了其业务的开展。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

居住环境多维剥夺的地理识别及类型划分——以郑州主城区为例

居住环境多维剥夺的地理识别及类型划分——以郑州主城区为例

DOI:10.11821/dlyj201810008
发表时间:2018
2

基于细粒度词表示的命名实体识别研究

基于细粒度词表示的命名实体识别研究

DOI:10.3969/j.issn.1003-0077.2018.11.009
发表时间:2018
3

F_q上一类周期为2p~2的四元广义分圆序列的线性复杂度

F_q上一类周期为2p~2的四元广义分圆序列的线性复杂度

DOI:10.11999/JEIT210095
发表时间:2021
4

基于全模式全聚焦方法的裂纹超声成像定量检测

基于全模式全聚焦方法的裂纹超声成像定量检测

DOI:10.19650/j.cnki.cjsi.J2007019
发表时间:2021
5

基于协同表示的图嵌入鉴别分析在人脸识别中的应用

基于协同表示的图嵌入鉴别分析在人脸识别中的应用

DOI:10.3724/sp.j.1089.2022.19009
发表时间:2022

韩纪庆的其他基金

批准号:60085001
批准年份:2000
资助金额:14.00
项目类别:专项基金项目
批准号:61471145
批准年份:2014
资助金额:86.00
项目类别:面上项目
批准号:60672163
批准年份:2006
资助金额:28.00
项目类别:联合基金项目
批准号:61071181
批准年份:2010
资助金额:32.00
项目类别:面上项目
批准号:91120303
批准年份:2011
资助金额:270.00
项目类别:重大研究计划
批准号:60575030
批准年份:2005
资助金额:22.00
项目类别:面上项目
批准号:60173044
批准年份:2001
资助金额:18.00
项目类别:面上项目

相似国自然基金

1

基于EMD的复杂声学环境下语音检测与增强

批准号:60803087
批准年份:2008
负责人:申丽然
学科分类:F0211
资助金额:19.00
项目类别:青年科学基金项目
2

会议音频中的声学事件检测及说话人分析方法研究

批准号:61101160
批准年份:2011
负责人:李艳雄
学科分类:F0111
资助金额:25.00
项目类别:青年科学基金项目
3

动态场景下视觉事件建模与识别方法研究

批准号:61272251
批准年份:2012
负责人:张丽清
学科分类:F0210
资助金额:80.00
项目类别:面上项目
4

复杂场景中运动目标检测与识别方法研究

批准号:61001170
批准年份:2010
负责人:李志华
学科分类:F0116
资助金额:18.00
项目类别:青年科学基金项目