近年来,基于音频指纹技术的信号级音乐识别已经达到了很高的准确度,但是机器仍然无法像人类听觉那样准确地识别同一音乐的多个版本。本课题结合歌声检测和歌声分离技术来研究多版本音乐识别问题。研究内容分为以下五个方面:(1)采用与现有算法从细到粗检测歌声相反的思路,基于音乐结构分析并结合音乐领域知识从粗到细地进行乐句级歌声检测;(2)结合音乐领域知识,首次研究打击乐器对歌声检测性能的影响;(3)基于计算听觉场景分析CASA框架设计歌声分离算法,利用模糊分类与匹配在一定程度上解决音乐信号和声重叠这一挑战性的难题;(4)围绕歌声主旋律这一多版本音乐中最本质的不变因素,集成上边歌声检测和歌声分离算法,设计一种翻唱歌曲检索算法,为解决在歌曲结构发生变化时仍能正确识别这一研究难题提供一条新的思路。(5)建立公开的歌声检测和翻唱检索测试数据库,并通过集成以上研究成果实现演示系统。
基于音频指纹技术的信号级音乐识别已经达到了很高的准确度,但是机器仍然无法像人类听觉那样准确地识别同一音乐的多个版本。本课题结合歌声检测和歌声分离技术研究多版本音乐识别问题。主要贡献是:使用主动学习方法减少歌声检测中的人工标注;使用非负矩阵分解改进基于音调的歌声分离;基于多层频谱图分解进行单声道歌声分离;进行音乐引用、串烧歌曲中重复片段的检测;验证Chroma特征的鲁棒性;基于Chroma-based BOW特征进行多版本音乐识别。另外还资助了数个同领域的相关工作:如基于低阶Zernike矩的MP3压缩域音乐识别;基于频谱图SIFT描述子的鲁棒音乐识别;用递归图和状态空间嵌入改进的歌曲摘要检测;基于模糊逻辑的音乐内容认证等。四年时间中本研究完全达到了预期目标。在歌声检测、歌声分离、翻唱歌曲检索、鲁棒音乐识别、音频认证等方面取得了突出成绩。共获得授权专利1项,申请2项,发表论文15篇,其中在多媒体领域顶级会议ACM MM、音频领域顶级会议ICASSP、音频领域顶级期刊IEEE TASLP、音频领域权威期刊EURASIP JASMP、EURASIP JASP等上面在国内率先取得突破。创办全国声音与音乐计算研讨会,推荐MIR领域在国内的发展。毕业博士研究生1名,硕士研究生5人,获得教育部及上海市自然科学二等奖各一项,均排名第三。
{{i.achievement_title}}
数据更新时间:2023-05-31
基于多模态信息特征融合的犯罪预测算法研究
居住环境多维剥夺的地理识别及类型划分——以郑州主城区为例
基于细粒度词表示的命名实体识别研究
基于全模式全聚焦方法的裂纹超声成像定量检测
惯性约束聚变内爆中基于多块结构网格的高效辐射扩散并行算法
巨噬细胞通过外泌体/XRN1通路降解胰腺导管上皮细胞BRCA1/2 mRNA引发基因组不稳定的机制
基于软件多版本演化的克隆家系提取研究
基于多版本技术的自适应编译优化方法研究
基于分片复用的多版本容器镜像加载方法研究
面向大规模多模态媒体信息检索关键技术研究