维吾尔语单元集优化关键技术研究及其在语音识别中的应用

基本信息
批准号:61462085
项目类别:地区科学基金项目
资助金额:45.00
负责人:米吉提·阿不里米提
学科分类:
依托单位:新疆大学
批准年份:2014
结题年份:2018
起止时间:2015-01-01 - 2018-12-31
项目状态: 已结题
项目参与者:艾克白尔·帕塔尔,麦合甫热提,艾尔肯·伊米尔,哈力木拉提·地里木拉提,吾加合买提·司马义,方超,古力努尔·艾尔肯,买哈铺热提·外力
关键词:
语料库语音识别自然语言处理维吾尔语人工智能
结项摘要

In agglutinative languages like Uyghur, words have a variety of derivatives, and increase the vocabulary size explosively, causing OOV (out-of-vocabulary) and data sparseness problems. Therefore, significantly decreese NLP(natural language processing) system efficiency. Present unit optimization researches are based on a specific unit-set using some simple statistical properties like co-occurance frequency,not considering the linguistic properties like multilayer structure of unit-sets, and the difference between text and speech. So difficult to obtain the best optimized results. In this research, we will build some multilayer unit-set based statitistical models, and compare their efficiency in order to select the preferential unit-set between the linguistic layers. In the basis of unit optimization by selecting the characteristics of various unit-sets, we will investigated the deep statistical and linguistic reasons related with the model efficiency. And implement a novel machine learning approach which has the ability to balance between multilayers ,and some highly sophysticated statisticle models which can automatically extract the optimal unit-sets,thus to improve the model efficiency and prediction accuracy. Furthermore, These unit optimation methods will realize on the Uyghur LVCSR (large vocabulary continuous speech recognition) for both linguistic and acoustic units. The clear multilayer morphological structures of the Uyghur language provide a new breakpoint for this research. The proposed idea can be conviniently applied to other agglutinative languages and other NLP domains. Unit selection is the fundamental problem for various NLP researches, so this project has a great potential and prospect for future researches.

对于维吾尔语这类黏着性语言,其单词较长,在自然语言处理实际应用当中,辞典容量会爆炸性的增长,因而会大幅降低统计模型的效率。国内外研究,主要采用同现频率等简单的统计特性,以某个特定单元为基础进行优化,还未充分考虑到语言单元的层次化结构以及文本和语音之间的不同点,因此没能达到最优效果。本研究将建立多个层次的单元集为基础的统计模型,比较他们的效率,择优地选择中间单元集。在完成多种单元集优化方法的基础上,探索影响效率的统计学及语言学原因,实现崭新的自动平衡各类单元的机器学习方法,以及高性能的单元自动抽取方法。从而提高模型的效率和预测精度。以提高预测正确率为评价标准,实现大词汇量维吾尔语语音识别系统的语言及语音单元集优化。维吾尔语层次化的形态学结构为本研究提供了创新点和突破点。其思路完全能够推广到其他黏性语言和其他研究领域。单元选择是自然语言处理研究中的根本性问题,有重大研究意义和深入研究前景。

项目摘要

粒度单元的选择是自然语言信息处理研究中的根本性问题。对基本单元的选择上,我门将词素粒度单元作为我门的最小基本单元。因为只有词素单元对所有语言是通用的。我们的优化单元集是词素基元序列的各种组合。所以我们的研究核心可以总结为两点:基元(词素)的提取及其最佳组合的方法研究。并在文本及语音处理领域验证其有效性。单元优化时,我门在语音学、形态学多个层次上考虑,通过比较多种单元集的具体应用场合上的表现情况,课题组研究了多种优化方法。特别是在语音识别研究中,我们通过辨别式(discriminative)方法,从两层单元集合中挑选出了最佳中间单元集,并验证了有效性和通用型。进而、该成果应用到了其他语言,和文本及语音信息的检索、分类等多个领域。.我门已将基本单元的分析及提取方法从维吾尔语推广到了维-哈-柯等多个语言上。开发了多语言语音-形态分析软件,注重工具的通用型,开辟了更多应用前景。从实验结果来看,我们的研究思路是正确的,在各种机器学习技术上普遍证明了单元集优化是正确并切实可靠的方法。最优粒度集合为基础的语音识别系统试验结果表明了 研究方法的普遍性、通用性,为该研究的广泛应用打下重要基础。因此,我们进一步在其他相近的语言上进行了试验,并努力完成其他应用领域,如:词干提取,命名体识别及挖掘、文本分类、和机器翻译等。.我们采用神经网络在复杂背景下提取术语、检测及归类文本中的噪音和OOV等研究上获得了很好的结果。少数民族术语的拼写错误、多语言、个性化等问题得到了有效解决途径。在CNN基础上进行短文本自动分类研究中达到正确率为95%。这些结果都是在词素基元的基础上达到最佳效果。而且,对于派生类少数民族语言,多种语言基元的提取以及多语言间的对齐关系的建立是这类语言的信息处理领域借助大语言间接处理等研究方面至关重要。因此,该研究建立了资源匮乏语言和资源丰富语言之间的一个桥梁,有广泛的应用前景。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

环境类邻避设施对北京市住宅价格影响研究--以大型垃圾处理设施为例

环境类邻避设施对北京市住宅价格影响研究--以大型垃圾处理设施为例

DOI:10.11821/dlyj020190689
发表时间:2020
2

居住环境多维剥夺的地理识别及类型划分——以郑州主城区为例

居住环境多维剥夺的地理识别及类型划分——以郑州主城区为例

DOI:10.11821/dlyj201810008
发表时间:2018
3

基于细粒度词表示的命名实体识别研究

基于细粒度词表示的命名实体识别研究

DOI:10.3969/j.issn.1003-0077.2018.11.009
发表时间:2018
4

基于协同表示的图嵌入鉴别分析在人脸识别中的应用

基于协同表示的图嵌入鉴别分析在人脸识别中的应用

DOI:10.3724/sp.j.1089.2022.19009
发表时间:2022
5

适用于带中段并联电抗器的电缆线路的参数识别纵联保护新原理

适用于带中段并联电抗器的电缆线路的参数识别纵联保护新原理

DOI:10.19783/j.cnki.pspc.200521
发表时间:2021

米吉提·阿不里米提的其他基金

批准号:61662078
批准年份:2016
资助金额:41.00
项目类别:地区科学基金项目

相似国自然基金

1

面向实际应用的维吾尔语语音检索关键技术研究

批准号:61662078
批准年份:2016
负责人:米吉提·阿不里米提
学科分类:F0211
资助金额:41.00
项目类别:地区科学基金项目
2

维吾尔语情感语音合成关键技术研究

批准号:61065005
批准年份:2010
负责人:艾斯卡尔·艾木都拉
学科分类:F0605
资助金额:26.00
项目类别:地区科学基金项目
3

基于多级语音基元及其音律参数的维吾尔语音合成技术研究

批准号:60662002
批准年份:2006
负责人:艾斯卡尔·艾木都拉
学科分类:F0111
资助金额:24.00
项目类别:地区科学基金项目
4

维吾尔语连续语音关键词识别系统研究与实现

批准号:60863008
批准年份:2008
负责人:帕力旦·赛力提尼牙孜
学科分类:F0211
资助金额:26.00
项目类别:地区科学基金项目