语音合成是实现文本信息到语音转换的技术,是实现智能人机交互的核心技术之一,其应用已深入到语音教育、语音交互软件与终端等人们日常生活和工作的方方面面。藏语语音合成研究起步较晚,制约其发展的关键技术尚未解决。本项目以基于隐马尔可夫模型(HMM)的统计声学建模藏语语音合成技术为研究目标,分别从前端藏文文本分析和后端藏语语音合成两个阶段开展研究,前端研究藏文文本在语言层、语法层、语义层的处理,即藏文文本转换成层次化的语音学表征,后端研究基于输入的层次化语音表征来合成藏语语音。重点解决面向拉萨语合成的韵律标注规则、藏语音素上下文属性及用于决策树聚类的问题集设计、结合藏语发音特点的谱参数和HMM状态数目优化、STRAIGHT声码器等关键技术,最终形成完善的藏语语音合成技术解决方案,从而加快藏语语音合成工程化的步伐,率先占领该领域的至高点,以此驳斥西方敌对势力和达赖分裂集团散布的"藏民族文化毁灭论"。
本项目申报时,藏语语音合成技术的研究处于刚起步阶段,因此亟待解决藏语语音合成技术的关键技术,形成整体解决方案。.在本项目的资助下,项目组成员借鉴成熟的基于HTK的汉语合成技术,主要开展了以下几方面的研究:(1)藏语的音素;(2)藏文的拉丁转写;(3)音段标注和韵律标注(4)藏语的发音规律;(5)藏语的多音词;(6)特殊符号处理;(7)藏文自动分词;(8)藏文词性标注;(9)藏文的L3预测;(10)音素及时间边界的生成(monolab);(11)音素的韵律信息及其时间边界(fulllab);(12)韵律文本的生成;(13)问题集的设计。.通过本项目的研究,取得了以下重要结果和关键数据:(1)传统藏文认为藏语有213个声母和77个韵母。但经我们测试,最终确定音素164个,其中声母73个,韵母91个。(2)通过打分算法筛选出了13000句的藏文文本,对进行了专业录音,声音格式为Windows PCM,录音采样率44100KHz,声道为立体声。以ToBI为蓝本,对13000句声音进行了音素层、语调层、音节层、韵律层进行了标注。(3)对藏语的发音规律进行了研究,得出了藏语77个虚词的发音规律,形成 了虚词发音规律表。(4)收集了藏文所有的多音字,共计4637个。(5)藏文辅音字为阳,元音字为阴,在三十个辅音字母中又分为五类:阳、中性、阴、最阴、极阴,对这方面进行了归纳总结;(6)对藏文中物理量、货币等特殊符号的读法做了统一的整理和规定;(7)研发出了基于藏文虚词切分的藏文自动分词模块,分词正确率达到90%以上。(8)建立了藏文词性标注集,并研发了基于三阶的HMM的藏文词性标注系统。(9)通过编写的程序,生成了藏文音素及时间边界信息(monolab)、音素的韵律信息及时间边界信息(fulllab)及生成了韵律文本。(10)设计出了用于决策树聚类的问题集。.在本项目的资助下,项目组突破了影响藏语语音合成的关键技术,不仅形成了面向卫藏方言的藏语语音合成的整体解决方案,而且为连续藏语语音识别奠定了夯实的理论基础,研发出的面向卫藏方言的藏语语音合成系统,经专家的评测,系统综合得分为3.8分以上。系统已应用于本项目负责人所在单位研发的语音汉藏机器翻译、藏汉多媒体交互式教学系统上,在西藏自治区成立五十周年期间,两个系统均向以俞正声为团长的中央代表团进行了展示,获得极高评价。
{{i.achievement_title}}
数据更新时间:2023-05-31
粗颗粒土的静止土压力系数非线性分析与计算方法
正交异性钢桥面板纵肋-面板疲劳开裂的CFRP加固研究
中国参与全球价值链的环境效应分析
基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例
气载放射性碘采样测量方法研究进展
藏语(拉萨话)语音声学分析与合成
藏语音素拼读法文语转换技术研究
维吾尔语情感语音合成关键技术研究
藏语命名实体识别关键技术研究