面向语音合成的神经网络声码器研究

基本信息
批准号:61871358
项目类别:面上项目
资助金额:63.00
负责人:凌震华
学科分类:
依托单位:中国科学技术大学
批准年份:2018
结题年份:2022
起止时间:2019-01-01 - 2022-12-31
项目状态: 已结题
项目参与者:戴礼荣,胡亚军,阮玉平,伍宏传,张雅洁,艾杨,张景宣
关键词:
文语转换语音合成语料库语音合成
结项摘要

Speech synthesis is an important research topic in the fields of speech information processing and artificial intelligence. Vocoder is a core module of statistical parametric speech synthesis. The traditional source-filter vocoder has the problems of the loss of spectrum details and phase, and the lack of nonlinear processing capability. In recent years, the emergence of neural network vocoder can alleviate the above problems, but there are still some deficiencies in its theoretical model and application effects. Therefore, this project intends to conduct a research on the neural network vocoder for speech synthesis, including the neural network waveform modeling and generation method with source-filter structure, the feature extraction method of the neural network vocoder, the efficiency optimization and parallel computing methods of the neural network vocoder, the adaptive training methods of neural network vocoder with limited data and so on. The purposes of this project include to explore a new model of speech generation with nonlinear filtering, to complete the neural network vocoder framework, to significantly reduce the naturalness gap between synthetic speech and human voice under the premise of run-time efficiency, and to enhance the effects of personalized speech synthesis with limited data of target speakers. The research on the waveform generation neural network and other aspects in this project can also have important reference value for the research on voice conversion, speech enhancement, speech coding and other related fields.

语音合成是语音信息处理与人工智能领域的重要研究方向,声码器是统计参数语音合成的核心模块。传统源-滤波器声码器存在频谱细节与相位丢失、非线性处理能力缺乏等问题。近年来出现的神经网络声码器可改善以上问题,但是在理论模型和应用效果方面仍存在不足。因此,本项目拟开展面向语音合成的神经网络声码器研究,包括源-滤波器结构的神经网络波形建模与生成方法、神经网络声码器的特征提取方法、神经网络声码器的效率优化与并行计算方法、数据受限情况下神经网络声码器的自适应训练方法等。本项目旨在通过以上研究工作探索非线性滤波的语音生成新模型,完善神经网络声码器框架,在保证运行效率的前提下显著缩小统计参数方法合成语音与真人语音的自然度差距,提升目标话者少数据量情况下的个性化语音合成效果。本项目中波形生成神经网络等方面的研究工作对于声音转换、语音增强、语音编码等其他相关领域研究也有重要的参考价值。

项目摘要

声码器是统计参数语音合成的关键模块之一。本项目立项时神经网络声码器研究在理论模型和应用效果方面存在诸多不足,包括波形生成模型黑箱问题、特征提取模型研究欠缺、波形生成精度仍需提升、波形生成过程复杂度高、训练数据规模依赖性强等。本项目针对以上不足主要开展了4个方面的研究工作:(1)在源-滤波器结构的神经网络波形建模与生成方法方面,提出了基于幅度相位谱分级预测的神经网络声码器HiNet,进一步研究了神经网络声码器的混响控制方法、以及混响与噪声消除方法;(2)在神经网络声码器的特征提取方法方面,设计了基于WaveNet的波形自编码器,实现了包含分析端与生成端的完整神经网络声码器;(3)在神经网络声码器的效率优化与并行计算方法方面,提出了面向低比特神经网络声码器的谱增强方法,以及基于幅度相位谱平行直接预测的全帧级神经网络声码器APNet;(4)在数据受限情况下神经网络声码器的自适应训练方法方面,提出了神经网络声码器的在线话者自适应方法,并设计实现了结合声源滤波的话者无关声码器EPWG与SF-GAN。项目研究成果发表学术论文共25篇,包括IEEE/ACM 汇刊论文8篇,语音技术领域顶级国际学术会议ICASSP、Interspeech论文8篇;申请国家发明专利3项。项目培养毕业研究生7人,包括博士5人、硕士2人。本项目通过以上研究工作,探索了非线性滤波的语音生成新模型,完善了神经网络声码器建模方法,在保证运行效率的前提下显著提高了统计参数方法合成语音的自然度与相似度,研究成果对于语音增强、语音编码等相关领域研究也有着重要的参考价值。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

上转换纳米材料在光动力疗法中的研究进展

上转换纳米材料在光动力疗法中的研究进展

DOI:
发表时间:2017
2

胶东西北部北截岩体岩石成因: 锆石U-Pb年龄、岩石地球化学与Sr-Nd-Pb同位素制约

胶东西北部北截岩体岩石成因: 锆石U-Pb年龄、岩石地球化学与Sr-Nd-Pb同位素制约

DOI:10.18654/1000-0569/2020.05.10
发表时间:2020
3

移民背景下内蒙古晋语大包片传统民居形制特征与分异研究——以呼和浩特地区为例

移民背景下内蒙古晋语大包片传统民居形制特征与分异研究——以呼和浩特地区为例

DOI:10.19673/j.cnki.ha.2021.03.003
发表时间:2021
4

含碰撞的平面摩擦系统半解析半数值算法研究

含碰撞的平面摩擦系统半解析半数值算法研究

DOI:
发表时间:2016
5

杂臂星形共聚物研究的近期新进展

杂臂星形共聚物研究的近期新进展

DOI:10.14028/j.cnki.1003-3726.2019.10.014
发表时间:2019

凌震华的其他基金

相似国自然基金

1

基于神经网络分类器和HMM的话者自适应连续语音识别

批准号:69272035
批准年份:1992
负责人:戴蓓倩
学科分类:F0211
资助金额:6.00
项目类别:面上项目
2

面向语音合成的维吾尔语韵律特征及其建模方法研究

批准号:61063023
批准年份:2010
负责人:地里木拉提·吐尔逊
学科分类:F0211
资助金额:25.00
项目类别:地区科学基金项目
3

用神经网络研究基于听觉系统模型的语音识别

批准号:68905001
批准年份:1989
负责人:高雨青
学科分类:F0605
资助金额:3.50
项目类别:青年科学基金项目
4

面向人工神经网络的新型相变忆阻器的模型研究

批准号:61201439
批准年份:2012
负责人:王磊
学科分类:F0111
资助金额:22.00
项目类别:青年科学基金项目