融合语义控制实体识别和结构化要素识别的生物医学事件抽取

基本信息
批准号:61672126
项目类别:面上项目
资助金额:63.00
负责人:李丽双
学科分类:
依托单位:大连理工大学
批准年份:2016
结题年份:2020
起止时间:2017-01-01 - 2020-12-31
项目状态: 已结题
项目参与者:张宏颖,王占杰,蒋振超,何馨宇,宋鼎新,秦美越,郑洁琼,姜宇新,万佳
关键词:
词表示联合模型命名实体识别神经网络事件抽取
结项摘要

In recent years, biomedical event extraction from literature has become a new research focus in the field of biomedical natural language processing, which provides inspirations and evidence for diagnosis, prevention, treatment of diseases as well as new drug research and development. By far, three related issues demand urgent solutions: the uninformative representation of biomedical text data caused by limited annotated corpora, the weak generalization ability of existing biomedical named entity recognition tools and the lower performance of the complex biomedical event extraction. Therefore, this project proposes: (1) a fire-new biomedical domain oriented word representation model by integrating multiple functional units containing rich biomedical and linguistic information into the improved architecture of neural network, to enrich the information of data representation; (2) a new bidirectional LSTM-CRF deep learning model with embedded category semantic control to improve the accuracy and generalization performance of biomedical named entities recognition; (3) a novel structured argument recognition model to improve the performance of the complex event extraction, fused with the advanced dual decomposition method to overcome cascading errors in pipeline approach, so a biomedical event extraction model of high-performance will be obtained. Taking the cancer-related event extraction as an important example, this project will construct cancer-related biomedical event databases and an interactive network in cooperation with domain experts, aiming to provide biomedical knowledge for cancer research and verify the authenticity and validity of our model.

基于文献的生物医学事件抽取是生物医学自然语言处理领域的新兴研究热点,为疾病的诊断、预防、治疗和新药研发提供启发和依据。目前的方法存在如下亟待解决的问题:标注语料规模小而导致数据表示信息量不足、已有生物实体识别工具或方法泛化性较差、复杂事件抽取精度较低等。由此,本项目提出:1. 融入丰富的生物医学和语言学功能单位,并改进原有神经网络结构,建立全新的生物医学领域相关的词表示模型,改善数据表示信息不足的问题;2.研制新的嵌入类型语义控制的双向LSTM-CRF深度学习模型,提高生物实体识别的泛化性和精度;3.提出新的结构化要素识别方法,提高复杂事件抽取精度;并与先进的双分解算法相融合,避免分阶段方法中的级联错误,最终获得高性能的生物事件抽取模型。本项目与领域专家合作,以癌症相关的事件抽取为重要实例,通过构建癌症相关的生物事件数据库和交互网络,验证系统的真实有效性,同时为癌症的研究提供生物医学知识。

项目摘要

基于文献的生物医学事件抽取是生物医学自然语言处理领域的新兴研究热点,旨在把含有事件信息的非结构化文本以结构化的形式呈现出来,为疾病的诊断、预防、治疗和新药研发提供启发和依据。本项目针对生物医学文献,着重研究融合结构化要素识别和双分解算法的生物医学事件抽取。内容主要包括:研究融入多功能单位和多顶层的生物医学词表示模型、基于读入控制门的双向LSTM-CRF深度学习方法进行生物医学命名实体识别、融合结构化要素识别和双分解算法的生物医学事件联合抽取,最终获得高性能的生物医学事件抽取模型,以及包括生物医学命名实体识别和事件抽取的可视化系统平台。并与领域专家合作,构建了癌症相关的生物医学事件数据库和交互网络,为癌症的研究提供生物医学知识。本项目对于自然语言处理领域的信息抽取技术相关研究也起到了积极的推动作用。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

粗颗粒土的静止土压力系数非线性分析与计算方法

粗颗粒土的静止土压力系数非线性分析与计算方法

DOI:10.16285/j.rsm.2019.1280
发表时间:2019
2

中国参与全球价值链的环境效应分析

中国参与全球价值链的环境效应分析

DOI:10.12062/cpre.20181019
发表时间:2019
3

基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例

基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例

DOI:
发表时间:2022
4

居住环境多维剥夺的地理识别及类型划分——以郑州主城区为例

居住环境多维剥夺的地理识别及类型划分——以郑州主城区为例

DOI:10.11821/dlyj201810008
发表时间:2018
5

基于细粒度词表示的命名实体识别研究

基于细粒度词表示的命名实体识别研究

DOI:10.3969/j.issn.1003-0077.2018.11.009
发表时间:2018

李丽双的其他基金

相似国自然基金

1

非结构化数据中威胁本体构建、实体识别与关系抽取方法研究

批准号:61902265
批准年份:2019
负责人:黄诚
学科分类:F0205
资助金额:25.00
项目类别:青年科学基金项目
2

开放获取生物医学文献的实体关系抽取

批准号:61602207
批准年份:2016
负责人:丰小月
学科分类:F0607
资助金额:20.00
项目类别:青年科学基金项目
3

藏文实体语义关系抽取理论与方法研究

批准号:61262054
批准年份:2012
负责人:于洪志
学科分类:F0211
资助金额:43.00
项目类别:地区科学基金项目
4

基于知识库和深度学习的生物医学实体关系抽取研究

批准号:61772109
批准年份:2017
负责人:周惠巍
学科分类:F0211
资助金额:63.00
项目类别:面上项目