基于多模态观测的跨语言语音发音机理研究

基本信息

批准号：61862054

项目类别：地区科学基金项目

资助金额：37.00

负责人：安见才让

学科分类：

依托单位：青海民族大学

批准年份：2018

结题年份：2022

起止时间：2019-01-01 - 2022-12-31

项目状态：已结题

项目参与者：于瑞国,孙琦龙,张长宏,郭震,陈宗雷,刘祉成,苏志华,公保杰,拉毛杰

关键词：

语音生成多模态藏语音分析跨语言

结项摘要

The project will build a mapping between Tibetan and Mandarin,and we.propose a cross-language voice conversion model,which can help the Tibetans do.notspeak Mandarin synthesise Mandarin with his own characteristics.The.characteristics of the project include:(1)There isn't a systematic method of voice.conversion between the Tibetan and Mandarin.(2)This research build a mapping.between languages with articulatory features,and the method provides a new.theoretical basis of cross-language voice conversion.(3)The mapping between the.two languages is built with DNN(Deep Neural Network)..This study will establish a Tibetan and Chinese parallel corpus, which.involves not only acoustic signal but also articulatory parameters of face,track.and glottis.The acoustic and articulatory parameters are collected by the acoustic.and articulatory parameters collected system of Tianjin University Cognitive.Computing and Application Labratory.The corpus can also be used to other related.research..The speech group of Tianjin University and Tibetan speech information.process group of Qinghai Nationalities University have began to collect the.Tibetan data, and have participated in each other's Projects.

本项目将结合超声图像、MRI成像、电磁发音记录仪等多模态观测技术，对汉语、藏语以.及英语进行发音运动机理的研究，利用发音生理运动模型仿真来探究不同声学器官对人发音过.程的影响，从而进一步的揭示人在言语发音过程中的发声机理以及共性和个性化的特征。.本项目的特色之处包括：.（1）通过多模态数据结合技术从多个方面对发音运动进行观察和分析，从而实现对发音.运动的更加完整的描述和更加准确的追踪。.（2）利用固态机械发音模型来仿真模拟发音运动的过程，从而可以更加直观有效的分析.不同发音器官在发声过程中的作用。.（3）针对跨语言的发声特征进行分析，从而可以更好的观察和解释人的发音过程中的共.性和个性化的发音运动机理。.本项目中的天津大学语音团队及青海民族大学藏语信息处理团队已经开展了实质性的合作.，已开始共同采集藏语数据，互派学生参与到彼此的课题研究。

项目摘要

研究主要聚焦我国藏语中的区域性语音研究，借助超声仪和配套的AAA软件建立藏语康方言多模态生理数据库、进行语音特征的分析与验证，在多模态的数据支撑的基础上实现藏语康方言语音特征的系统分析，最终实现康方言的生理语音验证研究。. 研究结合超声舌位成图像和对应的声学信号，系统探究了康方言元音、辅音在生理上、声学上的区别特征和相应联系，规避了使用单一模态或方法对语音研究造成结论偏差的可能。实验结果表明，利用多模态的生理语音数据分析实现藏语方言在生理语音验证的可行性，为提高藏语语音处理的研究水平和藏语信息处理方面的应用水平提供一定的数据支撑，为进一步探究对生理语音验证结论在藏语语音处理方面的应用研究具有非常重要的研究价值和应用价值。. 研究借助先进的语言研究仪器采集数据，结合多通道的生理语音数据观测藏语康方言在音素发声过程中的舌体运动特性和声学特征，对单辅音、元音，以及藏语方言中普遍存在的复合辅音脱落现象为研究对象，对其同步的音频数据和超声舌位运动视频数据进行精准的测量和分析，最终实现对藏语康方言音素的生理语音验证研究。主要成果有以下几个方面：. (1)生理语音验证研究.研究中对康方言中对于音素的发声过程从生理、声学上进行了深入研究。采集数据阶段，需要记录发音人同步的音频信号和超声舌位视频，并对舌位视频进行分帧标记，明确发音人在发音过程中伴随的舌体运动轨迹，呈现发音人真实的舌体关节变化情况，结合康方言音频数据和超声舌面数据，可以更加准确地判断发声时的调音过程、发声类型等来发现更多的语音现象。. (2)基础元音分析. 研究在对藏语康方言基础元音进行分析时，采用了传统的元音分析与实验语音学分析相结合的方法进行了科学分析。从超声图像的角度按舌位高低、舌位前后、唇形圆展三个生理参数来描写元音，利用以共振峰主为声学特性来定义元音，并按照发音音系学理论将元音舌动过程分为五个阶段，以确定发音时舌体运动的不同阶段的特点，以及不同元音之间在舌运动方式上的异同，最终实现对康方言中基础元音的元音格局的描写和解释。

项目成果

DOI：{{i.doi}}

发表时间：{{i.publish_year}}

暂无此项成果

数据更新时间：2023-05-31

其他相关文献

DOI：

发表时间：

DOI：10.12198/j.issn.1673 − 159X.3895

发表时间：2021

DOI：10.19713/j.cnki.43-1423/u.t20201185

发表时间：2021

DOI：

发表时间：2018

DOI：10.16383/j.aas.2016.c150880

发表时间：2016

安见才让的其他基金

相似国自然基金

基于多模态观测的静态与动态个性化语音产生机理研究

批准号：61876131

批准年份：2018

负责人：路文焕

学科分类：F0605

资助金额：58.00

项目类别：面上项目

基于内容的跨语言语音检索方法研究

批准号：60776800

批准年份：2007

负责人：刘加

学科分类：F02

资助金额：28.00

项目类别：联合基金项目

基于多模态数据的语音相关面部形变机理研究

批准号：60803067

批准年份：2008

负责人：裴玉茹

学科分类：F0209

资助金额：20.00

项目类别：青年科学基金项目

面向小数据语音建模的跨语言迁移学习研究

批准号：61901473

批准年份：2019

负责人：易江燕

学科分类：F01

资助金额：26.00

项目类别：青年科学基金项目

基于多模态观测的跨语言语音发音机理研究

{{i.achievement_title}}

暂无此项成果

其他相关文献

玉米叶向值的全基因组关联分析

跨社交网络用户对齐技术综述

正交异性钢桥面板纵肋-面板疲劳开裂的CFRP加固研究

硬件木马:关键问题研究进展及新动向

基于SSVEP 直接脑控机器人方向和速度研究

安见才让的其他基金

相似国自然基金