面向蒙古语新闻语音的新事件检测方法研究

基本信息
批准号:61563040
项目类别:地区科学基金项目
资助金额:38.00
负责人:飞龙
学科分类:
依托单位:内蒙古大学
批准年份:2015
结题年份:2019
起止时间:2016-01-01 - 2019-12-31
项目状态: 已结题
项目参与者:巩政,班志杰,张学良,包萨日娜,苏向东,王炜华,路敏,宝阿力塔
关键词:
事件检测语音识别命名实体识别蒙古语文本表示模型
结项摘要

Mongolian is a kind of influential language in the world, whose users are mainly distributed over China, Mongolia and Russia. The Mongolian script is different between China and Mongolia, but the pronunciation is identical. Under such circumstances, the Mongolian language, no doubt, holds a dominant position in safety and strategy of our country. Furthermore, with the rapid development of Internet, Mongolian news speech in various fields has explored over all areas of portals, both domestically and in Mongolia. This makes the application technology of the automatic identification and organization for a large-scale Mongolian news speech an urgent need. This project will take the Mongolian news speech as its research objective and research on a series of issues related to the Mongolian speech new event detection, such as Mongolian speech recognition based on deep neural networks, Mongolian named entity identification, text representation model, new event determination, etc. During this research, we will learn the advanced experience of other languages and exploit the own characteristics of the Mongolian language to make a breakthrough on the key issues. The research results will also be established a new event detection system for Mongolian news voice. The research of this project will not only has important academic value, but will also be helpful to the safeguard of the safety of our country, the stability of minority areas, and the prosperous and development of minority culture.

蒙古语是一个跨多国、多地区的语言,在国际上是有广泛影响的一种语言文字,使用者分布在中国、蒙古国和俄罗斯等国家。中国和蒙古国使用的蒙古语言文字是“语同文不同”,因此安全战略地位十分突出。另外,随着互联网的迅速发展,在国内外特别是蒙古国蒙古语语音资源越来越多,急需解决面向大规模蒙古语语音数据的自动识别与组织技术难题。本项目以蒙古语新闻语音为对象,对新事件检测任务所涉及到的基于深度神经网络的蒙古语语音识别、蒙古文命名实体识别、蒙古文文本表示方法和新事件判定等一系列关键问题进行研究。我们将借鉴其它语言的先进经验,并结合蒙古语自身特点,突破一系列难点问题,搭建一个基于蒙古语新闻语音的新事件检测系统。本项目研究不仅具有重要的学术价值,而且对维护国家安全及边疆少数民族地区的稳定,繁荣和发展少数民族文化具有重要意义。

项目摘要

蒙古语是一个跨多国、多地区的语言,在国际上是有广泛影响的一种语言文字,使用者分布在中国、蒙古国和俄罗斯等国家。本课题以蒙古语新闻语音报道为对象,围绕蒙古语新事件检测技术所涉及到的基于深度学习的蒙古语语音识别模型优化、蒙古文命名实体识别、蒙古文文本表示模型、新事件判定和蒙古文校正等一系列关键问题进行了研究。课题组提出了基于注意力机制的TDNN-LSTM混合模型蒙古语语音识别框架,搭建了蒙古语大词汇量连续语音识别系统,单词识别正确率达到了93%以上。结合蒙古文构词特点,利用深度迁移学习方法将传统蒙古文和西里尔蒙古文中的网络参数、语言知识共享,并采用基于蒙古文词素和字符向量的循环神经网络搭建了蒙古文命名实体识别系统,识别正确率达到了86%以上。提出了基于深度学习的提取新闻要素的新闻内容表示和新事件检测方法方法,搭建了面向蒙古语新闻语音的新事件检测系统。建立了800小时的蒙古语语音库和对应标注库、11GB的蒙古文文本库、3.5万句的蒙古文命名实体识别标注库和1000多篇蒙古文新闻事件标注库。课题组在国内外学术期刊和学术会议发表论文31篇,其中在Neural processing letters、COLING、InterSpeech等著名期刊和国际会议上发表11篇学术论文,被SCI、EI、ISTP检索论文24篇,CSCD收录论文5篇。已授权发明专利3项,获得软件著作权2项。本项目培养毕业了2名博士,8名硕士。本项目取得的这些成果对于蒙古文智能信息化工作具有重要意义,并对维护国家安全及边疆少数民族地区的稳定,繁荣和发展少数民族文化具有重要推动作用。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

粗颗粒土的静止土压力系数非线性分析与计算方法

粗颗粒土的静止土压力系数非线性分析与计算方法

DOI:10.16285/j.rsm.2019.1280
发表时间:2019
2

中国参与全球价值链的环境效应分析

中国参与全球价值链的环境效应分析

DOI:10.12062/cpre.20181019
发表时间:2019
3

基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例

基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例

DOI:
发表时间:2022
4

居住环境多维剥夺的地理识别及类型划分——以郑州主城区为例

居住环境多维剥夺的地理识别及类型划分——以郑州主城区为例

DOI:10.11821/dlyj201810008
发表时间:2018
5

基于细粒度词表示的命名实体识别研究

基于细粒度词表示的命名实体识别研究

DOI:10.3969/j.issn.1003-0077.2018.11.009
发表时间:2018

飞龙的其他基金

相似国自然基金

1

面向电话语音的蒙古语关键词检测技术的研究

批准号:61263037
批准年份:2012
负责人:高光来
学科分类:F0605
资助金额:43.00
项目类别:地区科学基金项目
2

面向汉语-泰语跨语言新闻事件检索方法研究

批准号:61462054
批准年份:2014
负责人:王红斌
学科分类:F0211
资助金额:45.00
项目类别:地区科学基金项目
3

蒙古语语音合成中韵律建模方法的研究

批准号:60465001
批准年份:2004
负责人:呼和
学科分类:F0605
资助金额:21.00
项目类别:地区科学基金项目
4

面向互联网新闻事件的演化式摘要研究

批准号:61402314
批准年份:2014
负责人:王红玲
学科分类:F0211
资助金额:24.00
项目类别:青年科学基金项目