融合语义控制实体识别和结构化要素识别的生物医学事件抽取

基本信息

批准号：61672126

项目类别：面上项目

资助金额：63.00

负责人：李丽双

学科分类：

依托单位：大连理工大学

批准年份：2016

结题年份：2020

起止时间：2017-01-01 - 2020-12-31

项目状态：已结题

项目参与者：张宏颖,王占杰,蒋振超,何馨宇,宋鼎新,秦美越,郑洁琼,姜宇新,万佳

关键词：

词表示联合模型命名实体识别神经网络事件抽取

结项摘要

In recent years, biomedical event extraction from literature has become a new research focus in the field of biomedical natural language processing, which provides inspirations and evidence for diagnosis, prevention, treatment of diseases as well as new drug research and development. By far, three related issues demand urgent solutions: the uninformative representation of biomedical text data caused by limited annotated corpora, the weak generalization ability of existing biomedical named entity recognition tools and the lower performance of the complex biomedical event extraction. Therefore, this project proposes: (1) a fire-new biomedical domain oriented word representation model by integrating multiple functional units containing rich biomedical and linguistic information into the improved architecture of neural network, to enrich the information of data representation; (2) a new bidirectional LSTM-CRF deep learning model with embedded category semantic control to improve the accuracy and generalization performance of biomedical named entities recognition; (3) a novel structured argument recognition model to improve the performance of the complex event extraction, fused with the advanced dual decomposition method to overcome cascading errors in pipeline approach, so a biomedical event extraction model of high-performance will be obtained. Taking the cancer-related event extraction as an important example, this project will construct cancer-related biomedical event databases and an interactive network in cooperation with domain experts, aiming to provide biomedical knowledge for cancer research and verify the authenticity and validity of our model.

基于文献的生物医学事件抽取是生物医学自然语言处理领域的新兴研究热点，为疾病的诊断、预防、治疗和新药研发提供启发和依据。目前的方法存在如下亟待解决的问题：标注语料规模小而导致数据表示信息量不足、已有生物实体识别工具或方法泛化性较差、复杂事件抽取精度较低等。由此，本项目提出：1. 融入丰富的生物医学和语言学功能单位，并改进原有神经网络结构，建立全新的生物医学领域相关的词表示模型，改善数据表示信息不足的问题；2.研制新的嵌入类型语义控制的双向LSTM-CRF深度学习模型，提高生物实体识别的泛化性和精度；3.提出新的结构化要素识别方法，提高复杂事件抽取精度；并与先进的双分解算法相融合，避免分阶段方法中的级联错误，最终获得高性能的生物事件抽取模型。本项目与领域专家合作，以癌症相关的事件抽取为重要实例，通过构建癌症相关的生物事件数据库和交互网络，验证系统的真实有效性，同时为癌症的研究提供生物医学知识。

项目摘要

基于文献的生物医学事件抽取是生物医学自然语言处理领域的新兴研究热点，旨在把含有事件信息的非结构化文本以结构化的形式呈现出来，为疾病的诊断、预防、治疗和新药研发提供启发和依据。本项目针对生物医学文献，着重研究融合结构化要素识别和双分解算法的生物医学事件抽取。内容主要包括：研究融入多功能单位和多顶层的生物医学词表示模型、基于读入控制门的双向LSTM-CRF深度学习方法进行生物医学命名实体识别、融合结构化要素识别和双分解算法的生物医学事件联合抽取，最终获得高性能的生物医学事件抽取模型，以及包括生物医学命名实体识别和事件抽取的可视化系统平台。并与领域专家合作，构建了癌症相关的生物医学事件数据库和交互网络，为癌症的研究提供生物医学知识。本项目对于自然语言处理领域的信息抽取技术相关研究也起到了积极的推动作用。

项目成果

DOI：{{i.doi}}

发表时间：{{i.publish_year}}

暂无此项成果

数据更新时间：2023-05-31

其他相关文献

DOI：10.1051/jnwpu/20213920292

发表时间：2021

DOI：10.6041/j.issn.1000-1298.2022.07.022

发表时间：2022

DOI：10.16383/j.aas.c180673

发表时间：2021

DOI：

发表时间：2020

DOI：

发表时间：2018

李丽双的其他基金

批准号：61173101

批准年份：2011

资助金额：55.00

项目类别：面上项目

相似国自然基金

非结构化数据中威胁本体构建、实体识别与关系抽取方法研究

批准号：61902265

批准年份：2019

负责人：黄诚

学科分类：F0205

资助金额：25.00

项目类别：青年科学基金项目

开放获取生物医学文献的实体关系抽取

批准号：61602207

批准年份：2016

负责人：丰小月

学科分类：F0607

资助金额：20.00

项目类别：青年科学基金项目

藏文实体语义关系抽取理论与方法研究

批准号：61262054

批准年份：2012

负责人：于洪志

学科分类：F0211

资助金额：43.00

项目类别：地区科学基金项目

基于知识库和深度学习的生物医学实体关系抽取研究

批准号：61772109

批准年份：2017

负责人：周惠巍

学科分类：F0211

资助金额：63.00

项目类别：面上项目

融合语义控制实体识别和结构化要素识别的生物医学事件抽取

{{i.achievement_title}}

暂无此项成果

其他相关文献

一种基于多层设计空间缩减策略的近似高维优化方法

基于改进LinkNet的寒旱区遥感图像河流识别方法

二维FM系统的同时故障检测与控制

扶贫资源输入对贫困地区分配公平的影响

长白山苔原带土壤温度与肥力随海拔的变化特征

李丽双的其他基金

融合指代消解和迁移学习的蛋白质交互关系抽取的研究

相似国自然基金