With the rapid development of information technology, there is an explosive growth of Mongolian data on Internet. Many Mongolian users obtain the required information and services by Mongolian intelligent systems. A big Mongolian knowledge graph is needed to optimize these intelligent systems. Mongolian scripts are different in different districts, called Cyrillic Monglian in Mongolia and Traditional Mongolian in China. At present, Traditional Mongolian knowledge graph is unavailable. The research on Mongolian knowledge graph construction is still at its initial stage and many issues in the construction process remain unsolved. This project will investigate the key technology of Traditional Mongolian knowledge graph construction, including the conversion from Cyrillic Mongolian to Traditional Mongolian, data scheme construction, Traditional Mongolian named entity recognition and alignment, Traditional Mongolian relation and fact extraction. Meanwhile, we will build a knowledge graph construction system, and establish a Traditional Mongolian knowledge graph of certain size using the system. By referring to the fruits and methods of other related knowledge graphs and taking the characteristics of Mongolian into consideration, we will solve the key problems to construct Traditional Mongolian knowledge graph efficiently and accurately. This project has very important academic and application value, which can promote the development of Mongolian semantic technology, improve Mongolian intelligent information service level, and boost the development of border areas in China.
随着信息技术的发展,互联网上蒙古文数据量呈现爆炸式增长,大量蒙古文用户通过蒙古文智能知识系统来获取信息和服务,改进和优化这些系统需要大规模蒙古文知识图谱作为支撑。中国和蒙古国使用的蒙古文不同,分别为传统蒙古文和西里尔蒙古文。目前蒙古文知识图谱研究处于起步阶段,没有公开且满足应用需求的蒙古文知识图谱,构建这种知识图谱过程中有很多关键问题亟待解决。本项目将对构建传统蒙古文知识图谱的关键技术进行研究,包括西里尔蒙古文向传统蒙古文转换、传统蒙古文知识图谱数据模式建立、传统蒙古文命名实体识别和对齐、传统蒙古文关系和事实抽取,搭建整套知识图谱构建系统,建立大规模传统蒙古文知识图谱。我们将借鉴其它语言知识图谱的成果和方法,结合蒙古文特点,提出有效的方法解决知识图谱构建过程中的难点问题。本项目具有十分重要的学术和应用价值,能够推动蒙古文语义技术的发展,提高蒙古文智能信息服务水平,促进边疆地区的繁荣与发展。
蒙古文智能知识系统的优化依赖大规模蒙古文知识图谱,但是目前还没有开源的大规模蒙古文知识图谱。本项目的目标是利用互联网上的传统蒙古文和西里尔蒙古文两种文种的蒙古文数据,解决知识图谱构建过程中的关键问题,构建满足应用需求的蒙古文知识图谱。. 本项目对构建传统蒙古文知识图谱的关键技术进行研究,包括(1)西里尔蒙古文向传统蒙古文转换、(2)传统蒙古文知识图谱数据模式建立、(3)传统蒙古文命名实体识别和对齐、(4)传统蒙古文关系和事实抽取,搭建整套知识图谱构建系统,建立大规模传统蒙古文知识图谱。. 通过本项目的研究,我们提出了基于映射模式的蒙古文单词形态学分析方法,实现了蒙古文单词的精确分析;我们提出了融合词典和LSTM模型的西里尔蒙古文向传统蒙古文转换方法,西里尔蒙古文向传统蒙古文转换精度达到98%以上;我们提出了融合多特征的蒙古文命名实体识别方法,蒙古文命名实体的识别精度95%以上;我们提出蒙古文实体知识的多种技术融合的方案,实现了实体知识的精确抽取;我们提出了基于四元数差值的知识图谱推理方案,将知识图谱推理基线模型的Hit@1指标提升了9%。上述方案有效解决了蒙古文知识图谱构建过程中的难点问题。我们设计并开发了蒙古文知识图谱构建系统,构建了一个包含20万以上蒙古文实体的蒙古文通用知识图谱,其中三元组总数达到100万以上。. 项目成果包括发表论文14篇,软件著作权4项,CCF科学技术奖1项;授权发明专利2项,分别是“基于神经网络的蒙古文命名实体识别方法及识别系统”和“西里尔蒙古文和传统蒙古文双文种知识图谱构建方法”。项目共培养博士和硕士研究生11人。. 本项目具有十分重要的学术和应用价值,能够推动蒙古文语义技术的发展,可以被应用于智能问答、信息检索、内容推荐等领域,提高蒙古文智能信息服务水平,促进多语言信息技术研究与发展。
{{i.achievement_title}}
数据更新时间:2023-05-31
基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例
居住环境多维剥夺的地理识别及类型划分——以郑州主城区为例
基于细粒度词表示的命名实体识别研究
服务经济时代新动能将由技术和服务共同驱动
基于协同表示的图嵌入鉴别分析在人脸识别中的应用
面向特定领域的知识图谱构建与应用关键技术研究
面向商务大数据的知识图谱引擎构建方法与关键技术研究
异质网络环境下动态知识图谱构建技术研究
强化学习框架下的知识图谱构建技术研究