基于词向量的藏语实体知识抽取方法研究

基本信息
批准号:61501529
项目类别:青年科学基金项目
资助金额:21.00
负责人:孙媛
学科分类:
依托单位:中央民族大学
批准年份:2015
结题年份:2018
起止时间:2016-01-01 - 2018-12-31
项目状态: 已结题
项目参与者:才旺拉姆,王志娟,闫晓东,张阳,增宝当周,兰义湧,赵倩,朱臻,格知合南加
关键词:
藏语词向量实体知识
结项摘要

With the explosive growth of Web, the study of social network on Web from the Web structure analysis to the Web content analysis, Knowledge Graph is becoming a hot research of Natural Language Processing in the age of big data. At present, the existing knowledge graph only provides the relevant knowledge of English, Chinese or France, minority language knowledge graph research is just beginning..Based on the large scale of Tibetan corpus, this project will study and solve the following key technologies:.(1) Tibetan word embedding model construction..(2) The representation method on lexical semantic feature and sentence feature of Tibetan entity relationship..(3) Tibetan-Chinese cross language training corpus acquisition based on naturally annotated resources. .(4) Tibetan entity relationship classification model based on neural network..This project will realize the Tibetan entity knowledge extraction and Tibetan entity semantic knowledge base construction, which is the foundation of building Tibetan knowledge graph. It provides support for Tibetan question answering system, information retrieval, information extraction and other researches, and promotes national unity and social stability.

Web内容的爆炸式增长,使得对Web的社会网络研究从Web结构的分析转向以Web内容为研究对象的分析,其中知识图谱成为大数据时代自然语言处理领域的一个研究热点,而实体知识的抽取是主要研究内容之一。目前已有的知识图谱只提供英、汉、法等语言的相关知识,少数民族语言知识图谱的研究才刚刚起步。本课题基于大规模藏语语料库,研究与解决①藏语词向量模型构建;②藏语实体关系的词汇语义特征和句子特征向量表示方法;③基于自然标注语料的藏汉跨语言训练语料获取;④基于神经网络的藏语实体关系分类模型等关键技术问题,实现藏语实体知识的抽取,构建藏语实体语义知识库,为藏语知识图谱、问答系统、信息检索、信息抽取等领域研究提供支撑,有效地促进民族团结和社会稳定。

项目摘要

藏语实体知识抽取是藏语信息处理的一个重要研究课题,具有广泛的应用前景。目前已有的知识图谱只提供英、汉、法等语言的相关知识,少数民族语言知识图谱的研究才刚刚起步。本课题通过构建大规模藏语语料库,建立藏语词向量模型。针对藏语的语法特点,提出基于SVM和泛化模板协作的藏语人物属性抽取算法、基于联合模型的藏文实体关系抽取算法、基于改进词向量GRU神经网络的藏语实体关系抽取等相关模型和算法,实现藏语实体关系的抽取。同时,基于自然标注语料的藏文实体知识回标,构建藏文实体关系训练语料,藏文实体知识库95,090条,搭建藏文百科及知识图谱系统,为藏文问答系统、信息抽取、信息检索等领域研究提供重要的资源和技术支撑。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

基于LASSO-SVMR模型城市生活需水量的预测

基于LASSO-SVMR模型城市生活需水量的预测

DOI:10.19679/j.cnki.cjjsjj.2019.0538
发表时间:2019
2

基于细粒度词表示的命名实体识别研究

基于细粒度词表示的命名实体识别研究

DOI:10.3969/j.issn.1003-0077.2018.11.009
发表时间:2018
3

基于分形维数和支持向量机的串联电弧故障诊断方法

基于分形维数和支持向量机的串联电弧故障诊断方法

DOI:
发表时间:2016
4

服务经济时代新动能将由技术和服务共同驱动

服务经济时代新动能将由技术和服务共同驱动

DOI:10.19474/j.cnki.10-1156/f.001172
发表时间:2017
5

卡斯特“网络社会理论”对于人文地理学的知识贡献-基于中外引文内容的分析与对比

卡斯特“网络社会理论”对于人文地理学的知识贡献-基于中外引文内容的分析与对比

DOI:10.13249/j.cnki.sgs.2020.08.003
发表时间:2020

孙媛的其他基金

相似国自然基金

1

基于词向量表示的大规模知识图谱构建方法研究

批准号:61472428
批准年份:2014
负责人:刘桃
学科分类:F0211
资助金额:80.00
项目类别:面上项目
2

面向开放域知识网络的实体语义关系抽取方法研究

批准号:61672057
批准年份:2016
负责人:冯岩松
学科分类:F0211
资助金额:62.00
项目类别:面上项目
3

基于知识库和深度学习的生物医学实体关系抽取研究

批准号:61772109
批准年份:2017
负责人:周惠巍
学科分类:F0211
资助金额:63.00
项目类别:面上项目
4

面向大规模知识图谱的弱监督中文实体关系抽取研究

批准号:61573163
批准年份:2015
负责人:周光有
学科分类:F0607
资助金额:60.00
项目类别:面上项目