With the explosive growth of Web, the study of social network on Web from the Web structure analysis to the Web content analysis, Knowledge Graph is becoming a hot research of Natural Language Processing in the age of big data. At present, the existing knowledge graph only provides the relevant knowledge of English, Chinese or France, minority language knowledge graph research is just beginning..Based on the large scale of Tibetan corpus, this project will study and solve the following key technologies:.(1) Tibetan word embedding model construction..(2) The representation method on lexical semantic feature and sentence feature of Tibetan entity relationship..(3) Tibetan-Chinese cross language training corpus acquisition based on naturally annotated resources. .(4) Tibetan entity relationship classification model based on neural network..This project will realize the Tibetan entity knowledge extraction and Tibetan entity semantic knowledge base construction, which is the foundation of building Tibetan knowledge graph. It provides support for Tibetan question answering system, information retrieval, information extraction and other researches, and promotes national unity and social stability.
Web内容的爆炸式增长,使得对Web的社会网络研究从Web结构的分析转向以Web内容为研究对象的分析,其中知识图谱成为大数据时代自然语言处理领域的一个研究热点,而实体知识的抽取是主要研究内容之一。目前已有的知识图谱只提供英、汉、法等语言的相关知识,少数民族语言知识图谱的研究才刚刚起步。本课题基于大规模藏语语料库,研究与解决①藏语词向量模型构建;②藏语实体关系的词汇语义特征和句子特征向量表示方法;③基于自然标注语料的藏汉跨语言训练语料获取;④基于神经网络的藏语实体关系分类模型等关键技术问题,实现藏语实体知识的抽取,构建藏语实体语义知识库,为藏语知识图谱、问答系统、信息检索、信息抽取等领域研究提供支撑,有效地促进民族团结和社会稳定。
藏语实体知识抽取是藏语信息处理的一个重要研究课题,具有广泛的应用前景。目前已有的知识图谱只提供英、汉、法等语言的相关知识,少数民族语言知识图谱的研究才刚刚起步。本课题通过构建大规模藏语语料库,建立藏语词向量模型。针对藏语的语法特点,提出基于SVM和泛化模板协作的藏语人物属性抽取算法、基于联合模型的藏文实体关系抽取算法、基于改进词向量GRU神经网络的藏语实体关系抽取等相关模型和算法,实现藏语实体关系的抽取。同时,基于自然标注语料的藏文实体知识回标,构建藏文实体关系训练语料,藏文实体知识库95,090条,搭建藏文百科及知识图谱系统,为藏文问答系统、信息抽取、信息检索等领域研究提供重要的资源和技术支撑。
{{i.achievement_title}}
数据更新时间:2023-05-31
基于LASSO-SVMR模型城市生活需水量的预测
基于细粒度词表示的命名实体识别研究
基于分形维数和支持向量机的串联电弧故障诊断方法
服务经济时代新动能将由技术和服务共同驱动
卡斯特“网络社会理论”对于人文地理学的知识贡献-基于中外引文内容的分析与对比
基于词向量表示的大规模知识图谱构建方法研究
面向开放域知识网络的实体语义关系抽取方法研究
基于知识库和深度学习的生物医学实体关系抽取研究
面向大规模知识图谱的弱监督中文实体关系抽取研究