基于非结构化文本的知识图谱扩充方法研究

基本信息

批准号：61702514

项目类别：青年科学基金项目

资助金额：25.00

负责人：包红云

学科分类：

依托单位：中国科学院自动化研究所

批准年份：2017

结题年份：2020

起止时间：2018-01-01 - 2020-12-31

项目状态：已结题

项目参与者：姚轶群,陈修意,郝云喆,郝悦星,郑孙聪,周鹏

关键词：

三元组联合抽取知识扩充知识挂载知识图谱关系挖掘

结项摘要

Knowledge Graph is the basis of intelligent applications.The higher the accuracy and coverage of the Knowledge Graph,the better the performance of the intelligent application system. Most of the current knowledge graphs are built on structured data, which has limited content with high accuracy. Thus it is necessary to add missing knowledge to the graph. Because of the huge and content-rich of the unstructured text in the Internet, we have a plan to refine the Knowledge graph using the unstructured text. Specifically speaking,in this proposal we will study the methods of knowledge graph expansion with adding new relations, entities and triples. Firstly, we will learn text topic embedding in an unsupervised manner, based on which we will propose a new way to mining relations. secondly, we will design a novel tagging scheme for converting the joint extraction of entities and relations task to a tagging problem. Then, based on our tagging scheme, we will study different end-to-end models to extract entities and their relations directly, without identifying entities and relations separately. Thirdly, we will propose a new method using collaborative filtering and multiple features for adding the entities to the knowledge graph. The proposed methods of this proposal have advantages of wide universality , and they will realize the efficient expansion of the knowledge graph with high accuracy and good coverage. Therefore it will be useful for improving the performance of intelligent application system.

知识图谱是智能应用的基础，其准确率和覆盖率的高低直接影响着智能应用系统性能的优劣。当前知识图谱大多基于结构化数据构建而来，一方面因结构化数据的规则性可保证较高正确率；另一方面结构化数据来源有限，导致其覆盖率严重不足，制约了智能应用系统性能的提升。而互联网中海量非结构化文本蕴含了丰富知识，可为知识图谱扩充提供足够多的数据源。本项目拟基于非结构化文本，围绕关系、实体、知识扩充及挂载问题，研究一套知识图谱扩充方法，拟分三步进行研究：首先，研究文本语义表示算法，基于文本的主题分类与关系发现，完成关系类型定义；然后，设计一套标记框架，利用端对端算法实现非结构化文本的知识抽取；最后，基于协同过滤思想，研究融合多特征的算法将新知识实体挂载至知识图谱中，完成知识图谱的扩充。本项目拟研究的方法通用性强，将可实现知识图谱的高效扩充，在保证正确率的同时，有效提高覆盖率，从而为提升智能应用系统性能打下坚实的基础。

项目摘要

自2006起，在深度学习的发展、大数据红利以及计算力的加持下，人工智能技术发现迅猛，尤其是感知智能进入了大范围的应用阶段。科学家们提出了第三代人工智能-认知智能。认知智能的基础是知识。知识图谱可为认知智能的实现提供重要的支撑作用。但成熟的面向结构化以及半结构化数据的知识图谱构建技术，收到数据源有限的问题，导致知识覆盖率不足，影响了认知智能的发展。在该背景下，研究面向非结构化数据的知识图谱构建方法成为一个充满意义的科学问题。..本项目以非结构化文本为基础，围绕关系、实体、知识扩充及挂载等问题进行了相关研究。本项目重点研究了以下几个问题：1）基于所提的双向Skip-gram主题向量化方法，对语料进行主题分类，并通过同一主题下，关系的共现关系，发现关系集合；2）提出了一种基于标记策略的多层语义结构的知识抽取方法，可协助解决知识构件的重叠问题。具体而言，先采用三元组标记策略将知识抽取任务转化为多序列标注任务，即文本中每个属于实体的词可有多个标签，每个标签由三部分组成：实体在三元组中位置、三元组的关系类型以及词在实体中的位置。然后，通过提出的MultiGRU模型实现文本序列与多层标签序列之间的映射关系。在NYT和KBP两组公开数据集上的对比实验表明该方法的有效性。3）提出了一种基于激活记忆网络的知识抽取方法，该方法通过卷积神经网络模型实现关系类型的语义编码向量，通过基于长短时记忆网络模型的解码模块对输入文本进行序列标注，获取知识。在中文数据集上进行了实验，表明了所提方法的有效性。

项目成果

DOI：{{i.doi}}

发表时间：{{i.publish_year}}

暂无此项成果

数据更新时间：2023-05-31

其他相关文献

DOI：10.13334/j.0258-8013.pcsee.190276

发表时间：2020

DOI：10.7605/gdlxb.2022.03.033

发表时间：2022

DOI：10.3778/j.issn.1673-9418.2104120

发表时间：

DOI：10.16031/j.cnki.issn.1003-8035.2019.05.04

发表时间：2019

DOI：10.11897/SP.J.1016.2018.00886

发表时间：2018

包红云的其他基金

相似国自然基金

面向非结构化文本的领域知识获取方法的研究

批准号：60473136

批准年份：2004

负责人：郑庆华

学科分类：F0211

资助金额：22.00

项目类别：面上项目

面向临床决策辅助的电子病历文本结构化方法与知识挖掘研究

批准号：61702033

批准年份：2017

负责人：尚小溥

学科分类：F0214

资助金额：25.00

项目类别：青年科学基金项目

基于深度学习和迁移学习的非结构化临床文本挖掘的方法探索

批准号：81771937

批准年份：2017

负责人：雷健波

学科分类：H2806

资助金额：60.00

项目类别：面上项目

融合知识图谱的文本个性化推荐机制研究

批准号：61672100

批准年份：2016

负责人：辛欣

学科分类：F0211

资助金额：56.00

项目类别：面上项目

基于非结构化文本的知识图谱扩充方法研究

{{i.achievement_title}}

暂无此项成果

其他相关文献

多能耦合三相不平衡主动配电网与输电网交互随机模糊潮流方法

二叠纪末生物大灭绝后Skolithos遗迹化石的古环境意义:以豫西和尚沟组为例

基于直观图的三支概念获取及属性特征分析

“阶跃式”滑坡突变预测与核心因子提取的平衡集成树模型

WMTL-代数中的蕴涵滤子及其应用

包红云的其他基金

相似国自然基金