随着互联网及多媒体技术的发展,音频数据量呈爆炸式增长,如何快速、准确地对音频信息进行分类检索,已成为急待解决的重要问题。目前互联网及各种数据库中的海量录音音频数据都以压缩格式存储,这些音频大多并非在专业录音棚中录制,故在压缩前混入了环境噪声,压缩过程同时引入了一定噪声,噪声的存在直接影响原有压缩域提取特征方法的表征准确度;压缩音频数据若解压后再抗噪处理,不仅增加计算量,抗噪效果也不理想。针对这些问题,本项目申请提出,直接在压缩域中模仿人耳对传统频谱的预处理操作来抑制噪声,建立压缩域听觉谱数学模型,基于压缩域直接提取高鲁棒性能的听觉谱音频特征,利用近似熵约简算法对所提取的压缩域听觉谱特征进行筛选和优化组合,研究基于熵的相似度度量方法及基于粒度的音频分类检索算法,为在压缩域中准确、快速地对音频信息进行分类和检索提供一种新的有效方法。
{{i.achievement_title}}
数据更新时间:2023-05-31
岩石/结构面劣化导致巴东组软硬互层岩体强度劣化的作用机制
基于颗粒阻尼的变频空调压缩机管路减振设计
TVBN-ResNeXt:解决动作视频分类的端到端时空双流融合网络
基于小波高阶统计量的数字图像来源取证方法
少模光纤受激布里渊散射效应理论研究
基于机器听觉及稀疏表示分类的音乐音频与语义符号比对研究
基于知识域与数据域协同的图像压缩算法研究
基于Bandelet变换的压缩域图像检索技术研究
基于微词汇语义与时空、音频特征融合的视频内容分类算法研究