Speech interaction is one of the most important communication ways for human. Not only linguistic information is included in speech, but also speaker's emotional state. Prosody model is paid more attention for emotional speech modeling and emotional speech synthesis in dimension space currently. The research on speech timbre analysis and the relationship between speech timbre and emotional state is.not matured at present. It is limited the development of emotional speech synthesis and natural human-computer interaction. This project will analyze and process speech timbre. Effective speech timbre compensation method will be investigated to improve the performance of emotional speech generation. This project will descript the association relation between speech timbre and emotional state in dimension space. The emotional state could be controlled according to speech timbre modeling and compensation. The prosody features and speech timbre features are fused to compensate in order to generating emotional speech in any dimension space. This project could contribute to the progress of emotional speech synthesis, articulation perception and speech understanding; this project also could promote the development of human computer interaction. Therefore, it possesses a great scientific importance and a wide application perspective.
语音交互是人类最基本的交互方式之一,语音中不仅包含着话语的内容信息,同时还包含了说话人的情感状态等信息。目前维度情感语音建模和生成的研究更多的关注于对韵律特征的建模,针对语音音色的分析和建模以及语音音色与情感状态的关系研究尚不成熟,从而制约了情感语音生成和自然人机交互的发展。针对该问题,本项目将对语音中的音色特征进行分析和处理,通过有效的音色补偿方法提高情感语音生成的表现力。本项目将在维度情感空间中分析语音音色与情感状态的关联关系,通过对语音音色特征的建模和补偿来控制语音的情感状态,并融合韵律特征补偿和音色特征补偿生成任意维度情感状态下的语音。本项目的研究可以同时促进情感语音合成、发音机理感知以及言语理解的推进,有助于促进人机语音交互技术的发展,具有很大的实际应用价值和重要的科学意义。
情感计算是信息技术和心理学的前沿交叉方向,在国计民生中有着广阔的应用前景,在医疗、金融、媒体、安全、交互等领域发挥着重要作用。全球著名咨询机构Gartner和麦姆斯咨询报告,全球情感计算市场预计到2024年市场规模将增至560亿美元。我国在《国家中长期科技发展规划》中已将情感计算列为核心技术。项目期间,完成的主要研究成果包括:(1)面向自然口语的高表现力语音生成;针对自然口语语音合成面临的自然度差、表现力不足、多说话人建模泛化性弱、算法性能依赖于音库规模等问题,突破面向小样本的多说话人自然口语语音合成技术,推动了面向任意发音人的语音合成实用化进程。(2)融合言语内容的语音情感分析;针对自然口语情感分析面临的鲁棒性不足、缺乏对情感感知机理探索、语义信息融合不充分等问题,突破面向自然场景下的情感语音分析技术,实现融合语义的细微情感建模。(3)面向自然场景的多模态情感识别;针对自然场景下多模态情感识别面临的细微情感表征能力不足、鲁棒性差、缺乏对情感含义的进一步理解等问题,突破多模态高鲁棒细微情感分析关键技术瓶颈,推动了在公共安全、医疗健康等国家重大工程中的落地应用。研究成果已应用在公安、网信办、信通院等多个部门,为国家安全发挥着重要作用。相关成果也在百度、腾讯、360、搜狗、三星、联想、华为、中国移动、蚂蚁金服等著名企业的产品中获得广泛应用。项目负责人获得2021年中国电子学会技术发明一等奖。本项目支持下发表学术论文96篇,国际期刊16篇(包括IEEE汇刊11篇),完成专利申请32项(其中23项已授权)。完成并发布了1项国内技术标准。共4次获国内重要学术会议最佳学生论文奖,3次获国际比赛第一名,3次获国内比赛第一名。
{{i.achievement_title}}
数据更新时间:2023-05-31
基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例
上转换纳米材料在光动力疗法中的研究进展
基于语义分析的评价对象-情感词对抽取
胶东西北部北截岩体岩石成因: 锆石U-Pb年龄、岩石地球化学与Sr-Nd-Pb同位素制约
移民背景下内蒙古晋语大包片传统民居形制特征与分异研究——以呼和浩特地区为例
基于Nrf2调节TGF-β1/smad3/NOX4信号通路探讨木香烃内酯对实验性肺纤维化的保护作用
耳语音情感特征分析与识别方法研究
基于情感上下文的视觉语音多模态协同情感分析方法研究
语音音色的参数化模型和模拟的研究
基于维度模型的情感语音建模及生成方法研究