Knowledge Graph is the basis of intelligent applications.The higher the accuracy and coverage of the Knowledge Graph,the better the performance of the intelligent application system. Most of the current knowledge graphs are built on structured data, which has limited content with high accuracy. Thus it is necessary to add missing knowledge to the graph. Because of the huge and content-rich of the unstructured text in the Internet, we have a plan to refine the Knowledge graph using the unstructured text. Specifically speaking,in this proposal we will study the methods of knowledge graph expansion with adding new relations, entities and triples. Firstly, we will learn text topic embedding in an unsupervised manner, based on which we will propose a new way to mining relations. secondly, we will design a novel tagging scheme for converting the joint extraction of entities and relations task to a tagging problem. Then, based on our tagging scheme, we will study different end-to-end models to extract entities and their relations directly, without identifying entities and relations separately. Thirdly, we will propose a new method using collaborative filtering and multiple features for adding the entities to the knowledge graph. The proposed methods of this proposal have advantages of wide universality , and they will realize the efficient expansion of the knowledge graph with high accuracy and good coverage. Therefore it will be useful for improving the performance of intelligent application system.
知识图谱是智能应用的基础,其准确率和覆盖率的高低直接影响着智能应用系统性能的优劣。当前知识图谱大多基于结构化数据构建而来,一方面因结构化数据的规则性可保证较高正确率;另一方面结构化数据来源有限,导致其覆盖率严重不足,制约了智能应用系统性能的提升。而互联网中海量非结构化文本蕴含了丰富知识,可为知识图谱扩充提供足够多的数据源。本项目拟基于非结构化文本,围绕关系、实体、知识扩充及挂载问题,研究一套知识图谱扩充方法,拟分三步进行研究:首先,研究文本语义表示算法,基于文本的主题分类与关系发现,完成关系类型定义;然后,设计一套标记框架,利用端对端算法实现非结构化文本的知识抽取;最后,基于协同过滤思想,研究融合多特征的算法将新知识实体挂载至知识图谱中,完成知识图谱的扩充。本项目拟研究的方法通用性强,将可实现知识图谱的高效扩充,在保证正确率的同时,有效提高覆盖率,从而为提升智能应用系统性能打下坚实的基础。
自2006起,在深度学习的发展、大数据红利以及计算力的加持下,人工智能技术发现迅猛,尤其是感知智能进入了大范围的应用阶段。科学家们提出了第三代人工智能-认知智能。认知智能的基础是知识。知识图谱可为认知智能的实现提供重要的支撑作用。但成熟的面向结构化以及半结构化数据的知识图谱构建技术,收到数据源有限的问题,导致知识覆盖率不足,影响了认知智能的发展。在该背景下,研究面向非结构化数据的知识图谱构建方法成为一个充满意义的科学问题。..本项目以非结构化文本为基础,围绕关系、实体、知识扩充及挂载等问题进行了相关研究。本项目重点研究了以下几个问题:1)基于所提的双向Skip-gram主题向量化方法,对语料进行主题分类,并通过同一主题下,关系的共现关系,发现关系集合;2)提出了一种基于标记策略的多层语义结构的知识抽取方法,可协助解决知识构件的重叠问题。具体而言,先采用三元组标记策略将知识抽取任务转化为多序列标注任务,即文本中每个属于实体的词可有多个标签,每个标签由三部分组成:实体在三元组中位置、三元组的关系类型以及词在实体中的位置。然后,通过提出的MultiGRU模型实现文本序列与多层标签序列之间的映射关系。在NYT和KBP两组公开数据集上的对比实验表明该方法的有效性。3)提出了一种基于激活记忆网络的知识抽取方法,该方法通过卷积神经网络模型实现关系类型的语义编码向量,通过基于长短时记忆网络模型的解码模块对输入文本进行序列标注,获取知识。在中文数据集上进行了实验,表明了所提方法的有效性。
{{i.achievement_title}}
数据更新时间:2023-05-31
多能耦合三相不平衡主动配电网与输电网交互随机模糊潮流方法
二叠纪末生物大灭绝后Skolithos遗迹化石的古环境意义:以豫西和尚沟组为例
基于直观图的三支概念获取及属性特征分析
“阶跃式”滑坡突变预测与核心因子提取的平衡集成树模型
WMTL-代数中的蕴涵滤子及其应用
面向非结构化文本的领域知识获取方法的研究
面向临床决策辅助的电子病历文本结构化方法与知识挖掘研究
基于深度学习和迁移学习的非结构化临床文本挖掘的方法探索
融合知识图谱的文本个性化推荐机制研究