According to the Strategic Conception of the Silk Road Economic Belt and the urgent need of information construction of Xinjiang, we will research the key technologies of Kazakh Continuous Speech Keyword Spotting for Xinjiang and Central Asia region . Create a network and phone short message based Kazakh language speech corpus, which will be collected from phone, mobile and web. Extract and analyze the Kazakh oral speech feature parameters, the noise cancellation technologies, feature extraction methods, study continuous speech Kazakh keywords retrieval technology, construct network and communication equipments based Kazakh keyword retrieval system. This project not only provide a strong technical support for Intelligence collection from Kazakh speech document, but also create great social and economic value for the regions of Xinjiang and Central Asia in the future.
本项目根据国家丝绸之路经济带战略构想及新疆信息化建设的迫切需要,研究面向新疆及中亚地区信息领域的面向连续语音的哈萨克语关键词识别关键技术。面向网络和手机短信语料,创建哈萨克语电话、手机、互联网以及口语对话语音语料库,提取并分析哈萨克语口语语音特征参数、噪音消除技术、特征提取方法、研究基于连续语音识别技术的哈萨克语关键词检索技术,搭建基于网络及通讯设备的哈萨克语关键词检索系统。该项成果不仅对哈萨克语语音文档内容进行情报搜集等提供强大的技术支撑,并且将来会在新疆和中亚地区创造深远的社会及经济价值。
本项目根据国家构建“一带一路”经济带战略构想及新疆信息化构建的迫切需要,研究面向新疆及中亚地区信息领域的面向连续语音的哈萨克语关键词识别关键技术。在语料库方面,重点研究了哈萨克语语音语料的三音子选取方法,研发了哈萨克语语音标注及管理平台,建立了大约200人规模的哈萨克语语音语料库并对其进行了标注。构建了214MB规模的哈萨克语文本语料库,并对其进行了进一步加工和处理。特征方面,研究了哈萨克语音素的声学图像特征和哈萨克语音的韵律特征,建立了1000句规模的哈萨克语语音参数数据库。模型方面,研究了说话人自适应技术在哈萨克语连续语音识别中的应用,研究了基于长短期记忆网络的跨语言声学模型建模方法;研究了哈萨克语构词方法,研究了音节,词干词缀,词首词尾等不同建模单元及其在哈萨克语语音识别任务的性能。系统方面,研究了哈萨克语语音检索技术,研发了基于连续语音的哈萨克语关键词识别基线系统。与此同时,针对需求研究了哈萨克、柯尔克孜文文种识别技术,哈萨克文文本分类技术,哈萨克语情感分类技术。本项目部分研究成果在国内外学术会议上进行了交流为学术界提供了参考,并且在一些产品当中应用。本项成果为属于黏着语系的中亚语言语音识别技术提供了重要的参考价值。
{{i.achievement_title}}
数据更新时间:2023-05-31
居住环境多维剥夺的地理识别及类型划分——以郑州主城区为例
基于细粒度词表示的命名实体识别研究
基于协同表示的图嵌入鉴别分析在人脸识别中的应用
适用于带中段并联电抗器的电缆线路的参数识别纵联保护新原理
基于Pickering 乳液的分子印迹技术
维吾尔语连续语音关键词识别系统研究与实现
现代哈萨克语短语识别及其语块库构建技术研究
维吾尔语连续语音识别系统研究
哈萨克语语音声学分析研究