Relation extraction from patent text is the foundation for computers to understand semantics in patent content, but this research is suffered from highly professional content, complicated concept model, costly expert resources and tagged data.Even distant supervision method provides a way of relation extraction which can replace expert and tagged data by knowledge base , it can't properly extract relations with fresh entities due to these entities' diversity and dispersity in patent text. The rapid development of technologies causes such relations to be quite common in patent text. In this paper we study the problem in three aspects. First, we propose a method to extract relations from patent text by combination of simple concept model and relation annotation. Second, we extract networks of association rules from entity mentions in patent text, thus generate connections between fresh entities and long-term-existing entities. Thirdly, we explore new type of distant supervision method which can extract relations with fresh entities based on networks of association rules and knowledge base , and finally form a method of relation extraction which can tackle fresh entity problem in patent texts with less or no tagged data.
专利文本中的实体关系抽取是计算机理解专利内容的基础,但该方向的研究受制于高度专业的专利文本内容、复杂的信息概念模型以及代价高昂的专家资源和标引数据而进展缓慢。远程监督方法提供了一种使用知识库替代专家和标引数据的关系抽取方法,但它对专利中形式多样、分散稀疏的新实体,以及包含新实体的语义关系应对不足。由于新实体伴随技术发展纷至沓来,导致与其相关的语义关系在专利文本中普遍存在,探索新的远程监督方法以应对此类语义关系,成为一个亟待解决的重要问题。本项目从三个方面对展开研究,其一,提出采用简单信息概念模型+自动关系标注的方式从具有复杂语义关系的专利文本中抽取实体关系;其二,从专利文本中提取实体指称的关联规则网络,并使用它建立起新、旧实体之间的关联关系;其三,探索基于关联规则网络和知识库的远程监督关系抽取方法,最终形成一套无标引或者少标引、且可解决新实体问题的专利实体关系抽取方法。
项目执行期间,课题组按照既定目标,从三个方面展开研究,其一,创建一个包含1010篇专利摘要的标注数据集,并基于此构造出一个高度专业化、细粒度、可公开获取的领域知识库,为在专利文本上使用远程监督方法提供条件;第二,通过句法复杂度和词法复杂度指标,对专利文本相比普通文本如新闻、百科的独特特点进行梳理并转化为图结构和数值特征,为优化机器学习模型效果提供思路;其三,提出了一个融合BiGRU-HAN和GCN的深度学习框架,其中前者负责从实体对所在句子中收集线索,后者负责从其他相似实体对中收集线索,最终完成对专利实体关系类型的远程监督学习和判定。实验结果显示,与BiGRU-HAN相比,BiGRU-HAN-GCN框架在micro-average F1值上实现了3.3%的显著提升,这表明专利文本的独特特征具备提升实体关系抽取效果的价值,而新框架可以通过兼顾实体对所在句子信息以及与实体对存在相似关系的其他实体对信息,有效提炼出这种价值。项目执行期间,研究小组将研究成果在技术管理重要会议、SCI检索源国际期刊、中文核心期刊以及其他期刊上共发表5篇学术论文,其中包括一篇SCI检索国际期刊论文、三篇中文核心期刊文章、一篇JCDL2020会议论文。项目执行期刊,项目负责人协助培养五名硕士研究生,其中三名已经毕业,两名目前在读。
{{i.achievement_title}}
数据更新时间:2023-05-31
粗颗粒土的静止土压力系数非线性分析与计算方法
中国参与全球价值链的环境效应分析
基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例
基于细粒度词表示的命名实体识别研究
货币政策与汇率制度对国际收支的影响研究
面向大规模知识图谱的弱监督中文实体关系抽取研究
文本多粒度关系抽取半监督自适应学习的研究
面向开放域知识网络的实体语义关系抽取方法研究
面向科技监测的实体识别与关系抽取研究