基于观测图像的发音器官运动合成研究

基本信息
批准号:61175016
项目类别:面上项目
资助金额:59.00
负责人:魏建国
学科分类:
依托单位:天津大学
批准年份:2011
结题年份:2015
起止时间:2012-01-01 - 2015-12-31
项目状态: 已结题
项目参与者:党建武,王洪翠,李强,玄成君,黄典,吕方,张旭
关键词:
可视语音合成声道可视化多模态语音处理生理发音模型
结项摘要

发音器官运动的可视化是进行语音学习和语音康复指导的重要辅助手段。目前可视化语音合成主要包括可见发音器官,本课题是要基于观测图像来同时合成可见及不可见发音器官运动。声道中不可见发音器官如舌头,上颚等,其数据采集非常困难并涉及多模态数据的同步与融合。本研究将利用由超声仪、高速摄像头等设备组成的多模态数据采集系统,记录发音器官的运动,并建立保证各个模态数据间同步和融合的方法。利用语音学知识作为约束来解决从高噪声的超声图像中自动提取发音器官边界等特征的难题。利用生理发音模型用仿真拟合的方法从超声图像中重构完整声道形状。最后,利用隐马尔科夫模型生成的参数轨迹来进行图像拼接单元的选取,合成基于观测图像的发音器官运动视频。

项目摘要

发音器官运动的可视化是进行语音学习和语音康复指导的重要辅助手段。在语音教学中,一直以来老师都要教授所要发音的舌位。如果在学习中能看到标准发音人的舌头、唇部运动并与自己的发音器官运动进行比较, 必将大大提高语音学习的效果。 同样,对于有构音障碍的人,在语音训练中如果能够把自己发音器官与正确发音运动做比较必将大大提高语音矫正的效果、缩短语音矫正时间。然而实现基于真实图像的发音器官的可视化合成一直以来是个难点问题,主要因为不可见发音器官(如舌头,上颚等)观测困难、从记录的图像中进行特征自动提取困难、观测的声道形态有时不完整等原因。本课题对这些问题的解决方法进行了研究,从而实现基于观测数据来合成发音器官运动。目前可视化语音合成主要包括可见发音器官,本课题主要基于观测图像来同时合成可见及不可见发音器官运动。声道中不可见发音器官如舌头,上颚等,其数据采集非常困难并涉及多模态数据的同步与融合。本课题建立了由超声仪、高速摄像头、喉头仪和电磁发音记录仪(EMA)等组成的生理语音数据采集系统并开发多模态数据采集控制软件。基于该采集系统,本课题采集并构建了汉语普通话说话人数据库以及藏汉双语多模态生理语音数据库。此外,课题组赴日本国际电气通信基础技术研究所完成人体发音过程核磁共振图像(MRI)数据的采集工作。由于超声图像是高斑点噪声图像,本课题首先对其进行图像降噪处理从而提高边界自动提取的效果。虽然超声图像包含舌头发音时的主要形态,其记录的舌头表面信息却不完整,对此,在本课题中将超声图像、与EMA数据于空间进行融合进而驱动MRI图像以及生理发音模型,从而实现完整内部声道的构建。此外,课题组利用机器学习对超声图像与语音数据进行训练,从而得到超声图像与音频之间的映射模型。本课题建立了多模态生理语音数据采集系统、数据库以及对应生理、声学模型,不仅实现了发音器官可视化,为语言学习、语音康复提供帮助,更有效促进语音生理层面的研究,从而为研究生理发音机理, 进而促进语音处理的研究提供数据基础。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

粗颗粒土的静止土压力系数非线性分析与计算方法

粗颗粒土的静止土压力系数非线性分析与计算方法

DOI:10.16285/j.rsm.2019.1280
发表时间:2019
2

环境类邻避设施对北京市住宅价格影响研究--以大型垃圾处理设施为例

环境类邻避设施对北京市住宅价格影响研究--以大型垃圾处理设施为例

DOI:10.11821/dlyj020190689
发表时间:2020
3

中国参与全球价值链的环境效应分析

中国参与全球价值链的环境效应分析

DOI:10.12062/cpre.20181019
发表时间:2019
4

基于多模态信息特征融合的犯罪预测算法研究

基于多模态信息特征融合的犯罪预测算法研究

DOI:
发表时间:2018
5

基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例

基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例

DOI:
发表时间:2022

魏建国的其他基金

批准号:U1936102
批准年份:2019
资助金额:71.00
项目类别:联合基金项目
批准号:61471259
批准年份:2014
资助金额:85.00
项目类别:面上项目

相似国自然基金

1

基于影像和语音分析的发音器官运动可视化

批准号:61273288
批准年份:2012
负责人:杨明浩
学科分类:F0304
资助金额:81.00
项目类别:面上项目
2

基于GNSS/SLR并置观测的地心运动解析

批准号:41774013
批准年份:2017
负责人:赵春梅
学科分类:D0401
资助金额:71.00
项目类别:面上项目
3

基于计算机视觉的地面运动观测方法研究

批准号:61472373
批准年份:2014
负责人:戴志军
学科分类:F0209
资助金额:80.00
项目类别:面上项目
4

基于语义的图像合成

批准号:61172104
批准年份:2011
负责人:董未名
学科分类:F0117
资助金额:60.00
项目类别:面上项目