基于激活力的音频场景表征及其在公共场合音频场景识别中的应用研究

基本信息

批准号：61401259

项目类别：青年科学基金项目

资助金额：26.00

负责人：冷严

学科分类：

依托单位：山东师范大学

批准年份：2014

结题年份：2017

起止时间：2015-01-01 - 2017-12-31

项目状态：已结题

项目参与者：万洪林,王晶晶,魏洁,张彦清,刘鑫,孙娜娜

关键词：

音频场景识别音频事件分类音频分类

结项摘要

Audio scene recognition technology has important research value for intelligent society.In this application we will study the public-place audio scene recognition based on activation force.The activation force is a new technology for analyzing complex network. It can well describe the network structure of the network nodes. The affinity measure based on activation force can well mine the potential function network in the complex network. The activation force technology has been successfully applied in text analysis. It can precisely find the different words with the same semantic. There are many similarities between the audio scene recognition technology and the text analysis technology: the audio scene is equivalent to a piece of text, and the audio events in the audio scene is equivalent to the words in the text. So it is feasible to identify the audio scenes by learning from the text analysis technology. Based on this, in this application we introduce the activation force into audio scene recognition where we use the activation force between the audio scene and the audio events to characterize the audio scene. The introduction of the activation force is essentially an effective combination of the audio scene direct recognition technology and the audio scene recognition technology based on audio events. This combination can make the activation force between the audio scene and the audio events to be more accurate, thus is able to make full use of the activation force to realize precise audio scene recognition.

音频场景识别技术对实现智能化社会具有重要的研究价值。本申请拟基于激活力技术研究公共场合音频场景的识别。激活力技术是一种新的复杂网络分析技术。激活力可以很好地描述网络节点的网络结构，而基于激活力的相似性度量能很好地挖掘复杂网络中潜在的功能网络。激活力技术在文本分析领域得到了成功应用，可以准确得到表达同一语义的不同的词。音频场景识别技术和文本分析技术具有许多相似之处:音频场景相当于一段文本，音频场景中的音频事件相当于文本中的词，因此，可以借鉴文本分析技术来识别音频场景。基于此，本申请将激活力引入音频场景识别，用音频场景和音频事件之间的激活力来表征音频场景，进而实现识别。本申请引入激活力实质上是在激活力框架下将音频场景直接识别技术和基于音频事件的音频场景识别技术进行了有效结合。这种结合能更准确地表达音频场景和音频事件之间的激活力，进而能充分发挥激活力技术的优势，实现精确的音频场景识别。

项目摘要

音频场景识别与音频事件分类相比是更高层语义上的音频内容识别。越是高层次的语义表达越接近人的思维习惯，越容易被人们所接受，而其识别也越具有挑战性。本项目围绕基于激活力的音频场景识别展开研究，研究内容主要包括： 1) 样本标注，2) 半监督学习算法，3) 基于主动学习的样本标注研究，4) 混叠音频事件分类，5) 音频场景表征与识别。. (1)为了提高样本标注效率，项目组设计了一种基于置信度、K最近邻和多样性的主动学习标注算法。该算法与SVMCA相比，在分类小样本“脚步声”时，其F1测量值由4.1%上升至21.7%，而其人工标注工作量下降了约50%。. (2) 设计了一种基于类边界特性的音频样本主动学习标注算法SVMLeng。在Friends数据库上，SVMTuia 算法的F1值为88.96%，本文提出的SVMLeng的F1值为92.08%，而其人工标注工作量下降了18.2%。. (3) 为进一步减少人工标注工作量，项目组考虑在主动学习结束后，用半监督学习算法进行自动标注，进而提出了SSL_3C。在Digit1数据库上，与SSL_Bovolo 73.21%的标注准确率相比，SSL_3C的标注准确率高达100%。. (4) 项目组针对混叠音频事件设计了基于AT，PLSA，以及结合AT和PLSA的音频事件分类方法。在BOB和Friends数据库上，基线系统的整体分类F1值分别为40.1%、68.4%，而项目组提出的音频事件分类系统的最高F1值分别为48.5%、77.3%。. (5) 与传统的采用“音频文档—音频字”共现矩阵进行主题分析的音频场景识别研究不同，本项目提出采用“音频文档—音频事件”共现矩阵进行主题分析，进而通过构造类似于文本领域中的音频场景和音频事件激活力表示进行识别。当采用PLSA作为主题模型时，在AASP和DEMAND数据库上，本项目提出的方法与传统方法相比，识别准确率分别由46%提升至61%，由63.3%提升至83.3%；当采用LDA作为主题模型时，在两个数据库上，识别准确率分别由48%提升至54%，由66.7%提升至78.9%。. 音频场景识别在多媒体文档的快速检索、智能家居工程、安全监控等领域具有广阔的应用前景，目前在国内外企业界已引起广泛关注，产业化之后将会带来巨大的经济和社会效益。

项目成果

DOI：{{i.doi}}

发表时间：{{i.publish_year}}

暂无此项成果

数据更新时间：2023-05-31

其他相关文献

DOI：10.11821/dlyj201810008

发表时间：2018

DOI：10.3969/j.issn.1003-0077.2018.11.009

发表时间：2018

DOI：10.3724/sp.j.1089.2022.19009

发表时间：2022

DOI：10.19783/j.cnki.pspc.200521

发表时间：2021

DOI：10.3785/j.issn.1008-973x.2022.05.013

发表时间：2022

冷严的其他基金

相似国自然基金

基于ＭＰ时频特征的电影音频场景语义推理研究

批准号：61301300

批准年份：2013

负责人：杨继臣

学科分类：F0117

资助金额：24.00

项目类别：青年科学基金项目

复杂声学环境下声学事件检测与音频场景识别方法研究

批准号：U1736210

批准年份：2017

负责人：韩纪庆

学科分类：F0111

资助金额：256.00

项目类别：联合基金项目

基于客观质量评估和音频场景分析语音分离新方法研究

批准号：90820011

批准年份：2008

负责人：刘文举

学科分类：F0605

资助金额：50.00

项目类别：重大研究计划

基于Web的音频识别与检索关键技术研究

批准号：60673100

批准年份：2006

负责人：周明全

学科分类：F0605

资助金额：25.00

项目类别：面上项目

基于激活力的音频场景表征及其在公共场合音频场景识别中的应用研究

{{i.achievement_title}}

暂无此项成果

其他相关文献

居住环境多维剥夺的地理识别及类型划分——以郑州主城区为例

基于细粒度词表示的命名实体识别研究

基于协同表示的图嵌入鉴别分析在人脸识别中的应用

适用于带中段并联电抗器的电缆线路的参数识别纵联保护新原理

基于图卷积网络的归纳式微博谣言检测新方法

冷严的其他基金

相似国自然基金