面向科技监测的实体识别与关系抽取研究

基本信息
批准号:71403257
项目类别:青年科学基金项目
资助金额:22.00
负责人:石崇德
学科分类:
依托单位:中国科学技术信息研究所
批准年份:2014
结题年份:2017
起止时间:2015-01-01 - 2017-12-31
项目状态: 已结题
项目参与者:王惠临,何彦青,韩红旗,屈鹏,吕世炅,李路标
关键词:
关系抽取核函数术语识别科技监测
结项摘要

This project is based on data mining and natural language processing to do research on theory and algorithms of sci-tech entity recognition and relation extraction in sci-tech trends analysis. We propose a unified learning algorithm to incorporate different features. Based on deep language theory, we chose semantic relation sub-tree based on HPSG and use kernel method to learning and computing the similarity between sub-trees, which is to help producing better relation extraction performance. We also propose a bootstrapping algorithm, which uses small annotated corpus as seeds to yield a primary annotation model, which help to analyze relation extraction pattern and features and produce more annotated corpus from raw corpus. The new corpus with high confidence will be added in training, which will produce a better relation extraction model through a iteration process. The work of this project will be a fundamental part of large-scale text mining in sci-tech trends analysis.

本项目主要面向科技监测这一实际应用,基于数据挖掘和自然语言处理技术,研究不同类型科技文献中的科技实体识别和实体关系抽取理论和关键技术,并实现一个高性能、高适应性的科技实体识别和实体关系抽取系统。本项目通过多特征融合训练进行科技领域关键实体的识别;联系深层语法理论,基于中心语驱动语法(HPSG)的多层次句法语义信息选择语义关系树,并通过树核函数计算子树相似度,实现基于支持向量机的关系抽取算法;以自举(bootstrapping)算法为基础,通过在小规模标注语料训练生成原始抽取模型,进一步对大规模未标注语料进行标注,自动分析和归纳新的关系抽取模板、总结相应的特征,迭代生成准确率更高、覆盖面更广的抽取模型。本项目的研究成果能够为科技监测中大规模文本信息挖掘奠定基础。

项目摘要

传统的科技监测主要依赖于人工检索,科技政策制定依赖专家意见,具有一定的主观性,近年来随着计算机技术和互联网技术的发展,更多的数据挖掘相关研究方法被引入科技监测研究中,基于文本内容和大数据分析的方法受到越来越多的关注。.本项目主要开展面向科技监测的机器学习和自然语言处理关键技术研究,研究的核心为科技实体的识别和科技实体之间关系的自动抽取。项目执行过程中,一方面考虑到科技监测相关文本分析涉及的不同文本粒度、语种差异,另一方面结合最前沿的人工智能、深度学习技术,开展了基本的科技词汇构词理论、基于双向LSTM-CRF模型的实体识别与关系抽取、专利文献的长尾术语识别、基于LSTM-CRF的英汉双语术语识别、基于汉语主题词表和日语二维词汇化知识的机器翻译领域自适应、基于两步转换的依存篇章关系分析等课题的研究,取得了丰富的研究成果。.本项目研究对提升科技监测工作的自动化,实现基于大数据分析的科技决策具有重要意义。部分研究成果已经应用于面向科技的机器翻译应用服务和日本环保领域科技监测应用示范。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

涡度相关技术及其在陆地生态系统通量研究中的应用

涡度相关技术及其在陆地生态系统通量研究中的应用

DOI:10.17521/cjpe.2019.0351
发表时间:2020
2

拥堵路网交通流均衡分配模型

拥堵路网交通流均衡分配模型

DOI:10.11918/j.issn.0367-6234.201804030
发表时间:2019
3

内点最大化与冗余点控制的小型无人机遥感图像配准

内点最大化与冗余点控制的小型无人机遥感图像配准

DOI:10.11834/jrs.20209060
发表时间:2020
4

居住环境多维剥夺的地理识别及类型划分——以郑州主城区为例

居住环境多维剥夺的地理识别及类型划分——以郑州主城区为例

DOI:10.11821/dlyj201810008
发表时间:2018
5

基于细粒度词表示的命名实体识别研究

基于细粒度词表示的命名实体识别研究

DOI:10.3969/j.issn.1003-0077.2018.11.009
发表时间:2018

石崇德的其他基金

相似国自然基金

1

面向专利文本中实体关系抽取的远程监督方法研究

批准号:71704169
批准年份:2017
负责人:陈亮
学科分类:G0414
资助金额:19.00
项目类别:青年科学基金项目
2

面向开放域知识网络的实体语义关系抽取方法研究

批准号:61672057
批准年份:2016
负责人:冯岩松
学科分类:F0211
资助金额:62.00
项目类别:面上项目
3

藏文实体语义关系抽取理论与方法研究

批准号:61262054
批准年份:2012
负责人:于洪志
学科分类:F0211
资助金额:43.00
项目类别:地区科学基金项目
4

非结构化数据中威胁本体构建、实体识别与关系抽取方法研究

批准号:61902265
批准年份:2019
负责人:黄诚
学科分类:F0205
资助金额:25.00
项目类别:青年科学基金项目