语音生成和获取的控制问题,是机器人发声系统急需解决的问题。DIVA(Directions Into Velocities of Articulators)模型是一种为了生成单词、音节或者音素,被用来控制模拟声道运动的自适应神经网络,是一种关于语音生成与获取后描述相关处理过程的数学模型。但是,这个模型并不完全具备神经生理学意义上的控制功能。为使机器人模拟声道发出类似人类语言的声音,解决好运动感觉系统中感官反馈时间延迟以及各种神经控制系统的传导速率等问题,本申请课题拟在DIVA模型中复制人或动物小脑感觉运动系统的组织和结构,引入适当的小脑控制机制,从而使该模拟声道能像人或动物一样,成为可训练、可学习的发声系统,发出与真人类似的声音。通过学习训练,自组织地形成、发展和完善机器人发声系统的控制技能,这样的研究对于控制科学、机器人学和人工智能具有十分重要的意义。
围绕项目申请书中所提出的三项主要研究内容,课题组进行了充分研究和探讨,取得了较为满意的研究成果,为进一步的研究工作奠定了良好基础。现汇报如下:. 一、已完成的工作. ⑴在DIVA模型中嵌入了小脑控制机制及其算法;. ⑵对DIVA模型中控制对象的运动学和动力学特性进行了深入研究与分析,改进了原有模型中声道模型的驱动机构;. ⑶对原有模型的编码器结构和算法进行了研究和改进;. ⑷构建了小脑通用认知模型及其控制方案;. ⑸将引入小脑控制机制后的模型整体结构和算法与原有模型在性能上进行了充分比对和仿真。. 二、存在的问题和不足. ⑴声道模型的研究尚不够深入;. ⑵仿真样本不够丰富,只是对典型元音和辅音的发音过程进行了模拟。. 三、取得的成果. ⑴ 论文. 共发表论文36篇。其中SCI收录6篇,EI收录20篇,ISTP收录1篇。36篇论文中,国际会议论文10篇,国际期刊论文11篇,国内核心期刊8篇,国内一般期刊7篇;. ⑵ 申请专利4项 (仅对项目主持人数据进行统计,下同);. ⑶ 取得软件著作权4项;. ⑷ 培养硕士研究生20人。. 总体看来,三年的课题研究,使我们对此领域内的研究动向、研究成果、发展方向、疑难问题等有了较为深入的了解。. 正如我们在申请报告中所述:语音生成与获取是一个涉及大脑诸多部位的复杂认知过程,这个过程包括一种从依照句法和语义组织句子或短语的表述一直延伸到音素产生的分层结构,需要根据发声时大脑中各种感官和运动区域的交互作用建立相应的神经网络模型。DIVA模型较好地描述了这一过程,因而被用来仿真和描述有关大脑中涉及语音生成和语音理解区域的相关功能。. 我们的工作不仅完善了DIVA模型的控制机制,使得它能更好地完成语音生成与获取的任务。更重要的是,由于对DIVA模型有了较为深入的了解,我们发现,如果对DIVA模型只能工作在29个英文音素的语言背景做一些改进,使其能适应具有73个音素(甚至更多)的汉语语言背景,那么,我们就可以把中国人大脑里所想象的东西读出来。这是一项极具挑战性的工作,也是我们下一个研究的目标和任务。令我们十分自豪的是,正是由于我们目前所进行的研究才使得我们有了这样的发现和启迪!
{{i.achievement_title}}
数据更新时间:2023-05-31
粗颗粒土的静止土压力系数非线性分析与计算方法
硬件木马:关键问题研究进展及新动向
中国参与全球价值链的环境效应分析
端壁抽吸控制下攻角对压气机叶栅叶尖 泄漏流动的影响
基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例
基于维度模型的情感语音建模及生成方法研究
应用于语音增强的生成对抗网络模型研究
精神压力下基于物理模型的变异语音生成机理探索及检测方法研究
基于对象模型的机器人规划生成系统的多层并行推理研究