面向连续语音的哈萨克语关键词识别技术研究

基本信息
批准号:61462084
项目类别:地区科学基金项目
资助金额:45.00
负责人:达吾勒·阿布都哈依尔
学科分类:
依托单位:新疆大学
批准年份:2014
结题年份:2018
起止时间:2015-01-01 - 2018-12-31
项目状态: 已结题
项目参与者:努尔麦麦提·尤鲁瓦斯,木合亚提·尼亚孜别克,刘艳,海拉提·克孜尔别克,吐尔逊·库尔班,沙力木别克·毕山汗,于智娟
关键词:
特征提取哈萨克语关键词识别语音语料库
结项摘要

According to the Strategic Conception of the Silk Road Economic Belt and the urgent need of information construction of Xinjiang, we will research the key technologies of Kazakh Continuous Speech Keyword Spotting for Xinjiang and Central Asia region . Create a network and phone short message based Kazakh language speech corpus, which will be collected from phone, mobile and web. Extract and analyze the Kazakh oral speech feature parameters, the noise cancellation technologies, feature extraction methods, study continuous speech Kazakh keywords retrieval technology, construct network and communication equipments based Kazakh keyword retrieval system. This project not only provide a strong technical support for Intelligence collection from Kazakh speech document, but also create great social and economic value for the regions of Xinjiang and Central Asia in the future.

本项目根据国家丝绸之路经济带战略构想及新疆信息化建设的迫切需要,研究面向新疆及中亚地区信息领域的面向连续语音的哈萨克语关键词识别关键技术。面向网络和手机短信语料,创建哈萨克语电话、手机、互联网以及口语对话语音语料库,提取并分析哈萨克语口语语音特征参数、噪音消除技术、特征提取方法、研究基于连续语音识别技术的哈萨克语关键词检索技术,搭建基于网络及通讯设备的哈萨克语关键词检索系统。该项成果不仅对哈萨克语语音文档内容进行情报搜集等提供强大的技术支撑,并且将来会在新疆和中亚地区创造深远的社会及经济价值。

项目摘要

本项目根据国家构建“一带一路”经济带战略构想及新疆信息化构建的迫切需要,研究面向新疆及中亚地区信息领域的面向连续语音的哈萨克语关键词识别关键技术。在语料库方面,重点研究了哈萨克语语音语料的三音子选取方法,研发了哈萨克语语音标注及管理平台,建立了大约200人规模的哈萨克语语音语料库并对其进行了标注。构建了214MB规模的哈萨克语文本语料库,并对其进行了进一步加工和处理。特征方面,研究了哈萨克语音素的声学图像特征和哈萨克语音的韵律特征,建立了1000句规模的哈萨克语语音参数数据库。模型方面,研究了说话人自适应技术在哈萨克语连续语音识别中的应用,研究了基于长短期记忆网络的跨语言声学模型建模方法;研究了哈萨克语构词方法,研究了音节,词干词缀,词首词尾等不同建模单元及其在哈萨克语语音识别任务的性能。系统方面,研究了哈萨克语语音检索技术,研发了基于连续语音的哈萨克语关键词识别基线系统。与此同时,针对需求研究了哈萨克、柯尔克孜文文种识别技术,哈萨克文文本分类技术,哈萨克语情感分类技术。本项目部分研究成果在国内外学术会议上进行了交流为学术界提供了参考,并且在一些产品当中应用。本项成果为属于黏着语系的中亚语言语音识别技术提供了重要的参考价值。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

居住环境多维剥夺的地理识别及类型划分——以郑州主城区为例

居住环境多维剥夺的地理识别及类型划分——以郑州主城区为例

DOI:10.11821/dlyj201810008
发表时间:2018
2

基于细粒度词表示的命名实体识别研究

基于细粒度词表示的命名实体识别研究

DOI:10.3969/j.issn.1003-0077.2018.11.009
发表时间:2018
3

基于协同表示的图嵌入鉴别分析在人脸识别中的应用

基于协同表示的图嵌入鉴别分析在人脸识别中的应用

DOI:10.3724/sp.j.1089.2022.19009
发表时间:2022
4

适用于带中段并联电抗器的电缆线路的参数识别纵联保护新原理

适用于带中段并联电抗器的电缆线路的参数识别纵联保护新原理

DOI:10.19783/j.cnki.pspc.200521
发表时间:2021
5

基于Pickering 乳液的分子印迹技术

基于Pickering 乳液的分子印迹技术

DOI:10.1360/N972018-00955
发表时间:2019

达吾勒·阿布都哈依尔的其他基金

相似国自然基金

1

维吾尔语连续语音关键词识别系统研究与实现

批准号:60863008
批准年份:2008
负责人:帕力旦·赛力提尼牙孜
学科分类:F0211
资助金额:26.00
项目类别:地区科学基金项目
2

现代哈萨克语短语识别及其语块库构建技术研究

批准号:61063025
批准年份:2010
负责人:古丽拉·阿东别克
学科分类:F0211
资助金额:28.00
项目类别:地区科学基金项目
3

维吾尔语连续语音识别系统研究

批准号:69562001
批准年份:1995
负责人:王昆仑
学科分类:F0111
资助金额:6.00
项目类别:地区科学基金项目
4

哈萨克语语音声学分析研究

批准号:69143001
批准年份:1991
负责人:米尔卡玛
学科分类:F0211
资助金额:3.00
项目类别:专项基金项目