对语音合成系统音色特征的灵活控制是语音合成技术发展的一个重要方向。传统的大语料库拼接合成方法和基于声学统计模型的参数语音合成方法已经能够较好的解决语音合成的自然度与可懂度问题;但在语音合成的灵活性上,这两种方法会受到对训练数据的依赖性强、难以融合语音学知识等问题的制约。发音动作参数作为声学参数之外的一种语音表征方式,描述的是说话人发音过程中舌、唇等发音器官的位置与运动情况,它相比声学参数具有更加明确的生理意义,可以通过语音学发音规则直接控制,这为实现灵活可控的语音合成提供了一条新的思路。本项目旨在将发音动作参数引入基于隐马尔科夫模型的参数语音合成方面进行探索性的研究,希望通过对声学参数与发音动作参数的联合建模,将语音生成机理融入合成系统中,实现由语音学知识驱动的可控制语音合成方法,这在丰富语音信号的建模方法、促进语音学研究与言语工程的结合方面也具有重要意义。
本项目围绕结合发音动作参数的统计参数语音合成方法开展研究工作,旨在通过语音学知识驱动的方式提高语音合成系统的灵活可控性。经过为期三年的研究工作,项目课题组顺利完成了计划的研究内容与目标,具体包括:在声学-发音动作参数数据库建设方面,利用电磁发音仪(electromagnetic articulography,EMA)进行发音动作参数的采集,完成了国际上首个中文连续语流多发音人的声学-EMA 同步语料库;在声学-发音动作参数联合建模方法研究方面,提出了基于双流隐马尔科夫模型的声学-发音动作参数联合建模方法以及特征域的转换矩阵绑定方法,为基于发音动作参数的可控声学参数预测奠定了基础;在灵活可控的高质量声学参数生成方法研究方面,设计实现了基于声学-发音动作参数联合模型的层次化参数生成方法,提出了结合对数能量谱全局方差模型的参数生成方法以及基于最小Kullback-Leibler 距离的参数生成方法,一方面实现了对生成声学参数特征的灵活控制,另一方面提高了合成语音的音质与自然度。此外,我们还开展了基于隐马尔科夫模型的发音动作参数预测和基于共振峰参数的可控语音合成方面的研究,并完成了项目相关数据处理、模型训练以及合成演示软件的开发。项目研究成果共完成论文发表13篇,计算机软件著作权申请1项;培养博士研究生2人和硕士研究生2人。在结合发音动作参数的语音合成方面的论文发表,获得2010 年IEEE 信号处理学会最佳青年作者论文奖;项目负责人参与并集成本项目研究成果的“智能语音交互关键技术及应用开发平台”项目获得2011 年国家科技进步奖二等奖。项目课题组依托本项目,与英国爱丁堡大学语音技术研究中心合作申请2011 年度国家自然科学基金委员会-英国爱丁堡皇家学会合作交流项目并获批准(项目名称“用于灵活可控语音合成的发音动作参数-声学参数联合建模方法研究”,批准号61111130120);共完成了4 人次的交流出访与和5 人次的外国专家来访,并完成了多篇合作论文的发表。为了在已取得研究成果基础上对本项目的研究内容进行进一步的延伸与拓展,项目负责人申请的2012年度国家自然科学基金青年-面上连续资助项目也已得到批准(项目名称“融合语音产生机理与统计声学建模的层次化语音合成方法研究”,批准号61273032)并开始项目实施。
{{i.achievement_title}}
数据更新时间:2023-05-31
粗颗粒土的静止土压力系数非线性分析与计算方法
正交异性钢桥面板纵肋-面板疲劳开裂的CFRP加固研究
中国参与全球价值链的环境效应分析
基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例
气载放射性碘采样测量方法研究进展
融合语音产生机理与统计声学建模的层次化语音合成方法研究
基于发音特征的汉语语音识别分层解码方法研究
成年聋人发音错误检测中的语音学特征方法研究
蒙古语语音合成中韵律建模方法的研究