基于声源特征融合的室内多声源信息同步感知方法研究

基本信息
批准号:61801255
项目类别:青年科学基金项目
资助金额:25.00
负责人:陆志华
学科分类:
依托单位:宁波大学
批准年份:2018
结题年份:2021
起止时间:2019-01-01 - 2021-12-31
项目状态: 已结题
项目参与者:叶庆卫,周宇,章联军,陈斌杰,兰琼琼,宋鹏峰
关键词:
贝叶斯估计最大似然估计参数估计
结项摘要

It is an urgent task for intelligent products to enhance their auditory capability and human-machine interaction ability. The key to the task is to enhance the ability of intelligent products to sense multiple indoor acoustic sources. The current research lacks the unified fusion mechanism of source features and the synchronous sensing method of multiple sources. The research attempts to explore the human auditory mechanism, use a pair of microphones, fuse different kinds of source features, and sense the number, components as well as positions of the acoustic sources. First, the joint probability density function of source features is obtained by deep neural network training, by which a unified fusion mechanism of source features is established. It underlies the sensing method of multiple sources. Second, after analysis of the source model, the pre-estimation method of three kinds of source information is proposed. Third, imitating the human auditory perception process, two approaches for synchronous sensing three kinds of source information are proposed, for static and dynamic indoor scenes, respectively. The research will bring new achievements in source feature fusion and synchronous sensing multiple sources, and lay a theoretical foundation for improving the human-machine interaction ability of intelligent products.

增强智能产品的听觉功能和人机交互能力是产品智能化过程中的一项紧迫任务,增强智能产品感知室内多声源信息的能力是任务实现的关键。当前研究缺乏统一的各类声源特征融合机制和多声源信息的同步感知方法。本项目尝试探索人类听觉感知机理,使用一对麦克风,统一融合各类声源特征,同步感知声源数量、成分和位置三种信息。首先,通过深度神经网络训练学习获得声源特征的联合概率密度,从而建立统一的各类声源特征融合机制,为声源三种信息感知提供依据。其次,分析声源信号模型,提出声源三种信息的预估计方法。最后,模仿人类听觉感知过程,提出分别针对静态和动态两种室内场景的声源三种信息的同步感知方法。本项目将在声源特征的融合和多声源信息的同步感知等方面取得创新成果,为完善智能产品的人机交互能力奠定理论基础。

项目摘要

本项目以增强智能产品的听觉功能和人机交互能力为出发点,以不同声源特征的特性和影响为切入点,研究了室内多声源信息同步感知方法。具体来说:首先,考虑语音信号的稀疏性,研究了复杂声环境中的语音端点检测,以此提高声源特征提取的准确性和降低计算复杂度,并且为了分析各类声源特征之间的信息冗余性和互补性,研究了基于Group Lasso方法的声源特征的选择和融合机制。其次,为了弥补大多数声源特征无法包含相位信息的缺陷和不能很好地利用语音信号的时间序列信息,我们采用原始的混合语音信号作为输入特征,使用门控循环单元网络和卷积编解码器网络相结合的网络模型,以实现多个语音信号的更高效地分离;在信号模型中引入语音存在概率,提出基于最大期望算法的语音存在概率和信号达到时间差的实时联合估计方法,揭示了语音信号的稀疏性对声源位置估计的影响。最后,为了解决多径效益造成的测量值偏差,使用局部稳态高斯分布模型来对测量值偏差进行建模,提出不同高斯模态之间跳转的检测判别和模态参数估计的方法,设计融合偏差稳态区间检测、最大期望算法和扩展卡尔曼滤波的方法,同时实现声源位置跟踪和偏差估计。相关研究成果主要包括:发表7篇论文和申请1项专利。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

玉米叶向值的全基因组关联分析

玉米叶向值的全基因组关联分析

DOI:
发表时间:
2

转录组与代谢联合解析红花槭叶片中青素苷变化机制

转录组与代谢联合解析红花槭叶片中青素苷变化机制

DOI:
发表时间:
3

青藏高原狮泉河-拉果错-永珠-嘉黎蛇绿混杂岩带时空结构与构造演化

青藏高原狮泉河-拉果错-永珠-嘉黎蛇绿混杂岩带时空结构与构造演化

DOI:10.3799/dqkx.2020.083
发表时间:2020
4

基于FTA-BN模型的页岩气井口装置失效概率分析

基于FTA-BN模型的页岩气井口装置失效概率分析

DOI:10.16265/j.cnki.issn1003-3033.2019.04.015
发表时间:2019
5

Himawari-8/AHI红外光谱资料降水信号识别与反演初步应用研究

Himawari-8/AHI红外光谱资料降水信号识别与反演初步应用研究

DOI:
发表时间:2020

陆志华的其他基金

批准号:38880029
批准年份:1988
资助金额:3.00
项目类别:专项基金项目

相似国自然基金

1

基于压缩感知和等效源法的内空间噪声源识别方法研究

批准号:51605274
批准年份:2016
负责人:胡定玉
学科分类:E0503
资助金额:20.00
项目类别:青年科学基金项目
2

基于双向多途散射模型的舱室空间噪声源定位方法

批准号:11374241
批准年份:2013
负责人:曾向阳
学科分类:A2304
资助金额:76.00
项目类别:面上项目
3

混响声场中多声源的分离检测方法探索

批准号:10674151
批准年份:2006
负责人:杨亦春
学科分类:A2305
资助金额:30.00
项目类别:面上项目
4

参量声源非线性声场分形特征及形态控制方法研究

批准号:61301261
批准年份:2013
负责人:李学生
学科分类:F0111
资助金额:24.00
项目类别:青年科学基金项目