Melody is one of the most important elements of music, with many direct and indirect applications in music content analysis, music creation, music education, and protection of music intellectual properties. In this proposal, the research is focused on automatic melody extraction technique and its application in music borrowing identification. The main content is divided into five aspects: (1). Design a pitch salience-based melody extraction algorithm, combining perceptual time-frequency transform, melodic pitch contour characterization, post-processing using high-level musical knowledge, and melody locating; (2). Design an audio separation based melody extraction algorithm. The problem of partial overlap and melodic contour breaking can be solved, to some extent, by combing fuzzy classification and musical knowledge; (3). From the data-driven perspective, we design a classification-based melody extraction algorithm. With comprehensive well trained note templates of common instruments, deep neural network (DNN) and convertional GMM classifier are fused together to obtain more reliable melody note sequence; (4). Among the three algorithms above, the best melody extraction method is incorporated into the task of music borrowing identification. Because both the position and length of similar fragments located in two different songs are unknown, conventional similarity matrix and recursive plot have to be accordingly modified to solve this problem; (5). Develop two demonstration systems of automatic melody extraction and music borrowing identification, respectively. To facilitate the algorithm testing and performance comparison, a new large-scale open dataset needs to be established.
旋律是最重要的音乐要素之一,在音乐内容分析、音乐创作、音乐教育、抄袭检测等方面具有很多应用。本课题研究音乐旋律提取技术及其在音乐引用识别中的应用。研究内容分为五个方面:(1). 结合感知时频变换、音高包络线、利用音乐知识的后处理、以及旋律定位等技术,在音高显著性计算框架下进行旋律提取算法研究;(2). 进行基于音频分离技术的旋律提取算法研究,运用模糊分类及音乐知识在一定程度上解决泛音重叠及旋律包络线断续的问题;(3). 从数据驱动的角度出发研究自动旋律提取。在充分训练的基础上,对音乐信号的时频表示基于常规分类器和深度学习分别加以分类,然后进行分类器融合以得到更可靠的旋律音符序列;(4). 基于以上最佳的旋律提取结果进行音乐借用识别算法研究。针对相似片段位置及长度不定的问题对递归图及相似片段挑选策略进行改进;(5). 开发自动旋律提取及音乐借用识别演示系统,建立公开的较大规模测试数据库。
旋律是音乐最基本的要素之一。从音乐信号中自动提取主旋律是音乐人工智能的核心技术之一。具有诸多应用场景,如哼唱检索、翻唱识别、歌唱评价、歌手识别等。. 在音乐信号主旋律提取方面,主要有如下工作:流行音乐主旋律提取技术综述;基于DNN音高估计和基于重要性的音高改进的歌声主旋律提取;用于主旋律提取的多任务学习;基于歌声分离和编码器-解码器音高估计的歌唱旋律提取;基于两阶段训练的HRNet-BLSTM模型的歌声旋律提取;基于音调和八度感知的旋律提取;基于时空注意力网络的旋律提取。. 在其它音乐人工智能及一般音频计算机听觉领域进行了大量扩展研究,主要有如下工作:基于相似性函数融合的翻唱检索;多维度自动高级歌唱评价;基于残差注意力网络的自动发声方式分类;基于GRU递归神经网络/卷积神经网络多维特征深度融合的歌声检测;消除伴奏对歌声检测的影响;基于KNN-Net深度神经网络模型的深度音色特征学习/时域波形堆叠扩张卷积神经网络的歌手识别;基于MIDI训练的DRN和CNN深度特征及BLSTM-CRF序列解码/随机森林/结构化和弦表示的大词汇量和弦识别;基于多尺度分组注意力网络的音乐速度估计;基于客观特征的民族乐器音色分析;基于迁移学习/带通道注意机制CNN的音乐情感识别;基于高分辨率网络/条纹信息的音源分离;基于音乐结构分析的副歌提取算法;基于卷积神经网络和数据增强的中医闻诊;基于分区预训练卷积神经网络的水声目标识别。. 以上研究成果基本都达到甚至超过了国际先进水平,发表20余篇研究论文,包括TASLP、ICASSP、ISMIR、ICME、CSMT等音频和多媒体领域国内外权威期刊和重要学术会议。另投稿8篇,申请6项国家发明专利(已授权1项),2项软件著作权。在MIREX 2017-2018和弦识别竞赛取得多项第一名。联合举办ISMIR 2017权威国际会议,CSMT 2017-2020权威国内会议。培养毕业13名硕士、博士研究生。撰写基于Music和Audio的两篇大型中文综述,主编该领域第一本中文教材,定义百度百科学科词条,主持拍摄在线MOOC,奠定音乐人工智能与计算机听觉这一新兴交叉学科的基础。
{{i.achievement_title}}
数据更新时间:2023-05-31
基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例
基于协同表示的图嵌入鉴别分析在人脸识别中的应用
响应面法优化藤茶总黄酮的提取工艺
一种改进的多目标正余弦优化算法
面向工件表面缺陷的无监督域适应方法
巨噬细胞通过外泌体/XRN1通路降解胰腺导管上皮细胞BRCA1/2 mRNA引发基因组不稳定的机制
基于感知分析的音乐旋律参数模型的研究
音频指纹在音乐检索中的关键技术研究
音乐的神经编码与神经音乐技术研究
音乐自动分析与识别研究