用于非对称语料的语音转换函数训练算法研究

基本信息
批准号:61201301
项目类别:青年科学基金项目
资助金额:24.00
负责人:简志华
学科分类:
依托单位:杭州电子科技大学
批准年份:2012
结题年份:2015
起止时间:2013-01-01 - 2015-12-31
项目状态: 已结题
项目参与者:应娜,汪云路,张军,孙磊
关键词:
韵律变换KL距离迭代训练语音信号处理语音转换
结项摘要

The goal of voice conversion is to modify the speech signal of source speaker to be perceived as if it had been uttered by a target speaker, but not altering semantic context. In this proposal, we aim to research on the training algorithm of voice conversion for non-parallel corpora. More specifically, our research mainly focus on four aspects. Firstly, Gaussian mixture model (GMM) is to be used for the phoneme classification of the source speech and the target one respectively. Secondly, in order to find the corresponding phoneme's category, we matches each individual Gaussian components of the GMM from source speaker to target speaker and vice versa according to Kullback-Leibler (KL) distance based on the results of phoneme classification. Thirdly, our proposal performs the frame alignment of phonetically equivalent acoustic vectors for source and target speaker in their mapped sub-spaces, not in the whole space. And then, the frame-aligned feature vectors are used to train the conversion function. Finally, according to auditory characteristics, prosody modification is conducted. In summary, our research's goal is to study the training algorithm on voice conversion with high quality converted speeches and good similarity between converted and target speeches. Voice conversion is a new technology which covers a wide area of research and has many potential applications. Addressing the issue of voice conversion is of momentous academic significance and important practical significance.

语音转换是要改变一个说话人语音中的个性特征信息,使之具有另外一个人的个性信息,转换后的语音听起来就像是目标说话人的声音一样,而语音中的其它信息保持不变。本项目以非对称语料情况下的语音转换函数训练算法为研究内容,具体来说,主要内容有:第一、利用高斯混合模型分别对源、目标语音的特征参数进行音素分类;第二、在音素分类的基础上,利用KL距离对源、目标语音相同或相近的音素类进行匹配;第三、在源、目标语音相对应的音素类内,根据声学距离最近原则将两者的特征参数序列进行对齐,并由此训练出语音转换函数;第四、根据人耳的听觉特性,研究语音信号韵律特性的转换。探索高质量、有效的语音转换算法和实现具有较强实用价值的转换系统是本项目的研究目标。由于语音转换是语音处理领域一项新兴的技术,它涉及的理论广,运用价值大,因此,本项目的研究具有重要的理论意义和实用价值。

项目摘要

语音转换的目的就是要改变语音信号中说话人的身份信息,使之具有另外一个人的个性特征,转换后语音听起来就像是目标说话人的声音一样,而语义保持不变。语音转换在多个方面具有潜在的应用价值,比如个性化的语音合成技术、电影原声配音、发声器官病变患者的语音修复等。. 源、目标语音的个性特征参数之间的转换函数是转换系统的关键,为了准确训练转换函数,一般都采用对称语料库,但很多应用场合,往往没有对称语料。本项目提出了一种用于非对称语料的语音转换函数训练方法ILNCA,先利用高斯混合模型(GMM)分别对源、目标语音特征参数空间进行分类,GMM的各分量与各音素会存在相关性。然后根据KL距离最小原则对源、目标GMM模型的子空间进行匹配,最后利用最近邻准则在相对应的子空间中进行源、目标语音特征参数矢量的对齐。实验表明由于本算法采用了更加精确的矢量对齐方法,能取得与传统的转换算法相当的性能。. 为了进一步提升转换系统性能,项目采用压缩感知提取语音帧间动态信息。根据连续多帧语音的线谱对参数所构成的矢量在离散余弦变换域具有稀疏性,利用压缩感知技术对该矢量压缩成短矢量,并将该压缩后的短矢量作为特征参数训练语音转换函数。实验测试结果表明,选择合适的语音帧数时,该算法的性能要比传统的采用加权频率卷绕的转换算法提高3.21%。这说明,充分有效地利用语音帧间的相关信息会使转换语音保持更稳定的帧间声学特性,有利于提高语音转换系统的性能。. 当GMM模型结构复杂,参数较多,而训练数据又较少时,会存在参数估计过拟合问题,导致转换函数不够准确。为此,我们采用高斯过程(GP)模型来实现语音转换函数的建模。GP模型的非参数化特性可以很好地解决过拟合问题,同时,GP模型采用复杂的核函数还可以实现源、目标语音特征参数的非线性映射,提高转换的准确性。为了进一步提高GP转换算法性能,我们将频谱特征参数和韵律特征构成联合矢量一同进行转换,以便充分利用激励信号和声道特性的相关信息。另外,我们采用不对称的训练策略来准确计算GP模型中核函数的参数,即输入矢量的维数可以适当地大于输出矢量的维数,并且这样的处理并不会增加额外的运算量。客观评测和主观听觉实验表明,基于GP模型的转换算法比传统的GMM算法有更好的性能表现。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

环境类邻避设施对北京市住宅价格影响研究--以大型垃圾处理设施为例

环境类邻避设施对北京市住宅价格影响研究--以大型垃圾处理设施为例

DOI:10.11821/dlyj020190689
发表时间:2020
2

基于分形维数和支持向量机的串联电弧故障诊断方法

基于分形维数和支持向量机的串联电弧故障诊断方法

DOI:
发表时间:2016
3

Himawari-8/AHI红外光谱资料降水信号识别与反演初步应用研究

Himawari-8/AHI红外光谱资料降水信号识别与反演初步应用研究

DOI:
发表时间:2020
4

TGF-β1-Smad2/3信号转导通路在百草枯中毒致肺纤维化中的作用

TGF-β1-Smad2/3信号转导通路在百草枯中毒致肺纤维化中的作用

DOI:10.13692/ j.cnki.gywsy z yb.2016.03.002
发表时间:2016
5

Wnt 信号通路在非小细胞肺癌中的研究进展

Wnt 信号通路在非小细胞肺癌中的研究进展

DOI:
发表时间:2016

简志华的其他基金

相似国自然基金

1

基于结构化统计声学模型的非平行语料非联合训练说话人语音转换研究

批准号:61271360
批准年份:2012
负责人:俞一彪
学科分类:F0111
资助金额:65.00
项目类别:面上项目
2

耳语讲话中的语音增强与耳语音-正常语音转换研究

批准号:60572076
批准年份:2005
负责人:赵鹤鸣
学科分类:F0111
资助金额:22.00
项目类别:面上项目
3

基于可训练语音基元选择的波形拼接式维吾尔语音合成技术研究

批准号:61062008
批准年份:2010
负责人:古丽娜尔·艾力
学科分类:F0111
资助金额:19.00
项目类别:地区科学基金项目
4

基于噪声分组和对抗训练的语音增强方法研究

批准号:61701286
批准年份:2017
负责人:袁文浩
学科分类:F0117
资助金额:25.00
项目类别:青年科学基金项目