In recent years, biomedical event extraction from literature has become a new research focus in the field of biomedical natural language processing, which provides inspirations and evidence for diagnosis, prevention, treatment of diseases as well as new drug research and development. By far, three related issues demand urgent solutions: the uninformative representation of biomedical text data caused by limited annotated corpora, the weak generalization ability of existing biomedical named entity recognition tools and the lower performance of the complex biomedical event extraction. Therefore, this project proposes: (1) a fire-new biomedical domain oriented word representation model by integrating multiple functional units containing rich biomedical and linguistic information into the improved architecture of neural network, to enrich the information of data representation; (2) a new bidirectional LSTM-CRF deep learning model with embedded category semantic control to improve the accuracy and generalization performance of biomedical named entities recognition; (3) a novel structured argument recognition model to improve the performance of the complex event extraction, fused with the advanced dual decomposition method to overcome cascading errors in pipeline approach, so a biomedical event extraction model of high-performance will be obtained. Taking the cancer-related event extraction as an important example, this project will construct cancer-related biomedical event databases and an interactive network in cooperation with domain experts, aiming to provide biomedical knowledge for cancer research and verify the authenticity and validity of our model.
基于文献的生物医学事件抽取是生物医学自然语言处理领域的新兴研究热点,为疾病的诊断、预防、治疗和新药研发提供启发和依据。目前的方法存在如下亟待解决的问题:标注语料规模小而导致数据表示信息量不足、已有生物实体识别工具或方法泛化性较差、复杂事件抽取精度较低等。由此,本项目提出:1. 融入丰富的生物医学和语言学功能单位,并改进原有神经网络结构,建立全新的生物医学领域相关的词表示模型,改善数据表示信息不足的问题;2.研制新的嵌入类型语义控制的双向LSTM-CRF深度学习模型,提高生物实体识别的泛化性和精度;3.提出新的结构化要素识别方法,提高复杂事件抽取精度;并与先进的双分解算法相融合,避免分阶段方法中的级联错误,最终获得高性能的生物事件抽取模型。本项目与领域专家合作,以癌症相关的事件抽取为重要实例,通过构建癌症相关的生物事件数据库和交互网络,验证系统的真实有效性,同时为癌症的研究提供生物医学知识。
基于文献的生物医学事件抽取是生物医学自然语言处理领域的新兴研究热点,旨在把含有事件信息的非结构化文本以结构化的形式呈现出来,为疾病的诊断、预防、治疗和新药研发提供启发和依据。本项目针对生物医学文献,着重研究融合结构化要素识别和双分解算法的生物医学事件抽取。内容主要包括:研究融入多功能单位和多顶层的生物医学词表示模型、基于读入控制门的双向LSTM-CRF深度学习方法进行生物医学命名实体识别、融合结构化要素识别和双分解算法的生物医学事件联合抽取,最终获得高性能的生物医学事件抽取模型,以及包括生物医学命名实体识别和事件抽取的可视化系统平台。并与领域专家合作,构建了癌症相关的生物医学事件数据库和交互网络,为癌症的研究提供生物医学知识。本项目对于自然语言处理领域的信息抽取技术相关研究也起到了积极的推动作用。
{{i.achievement_title}}
数据更新时间:2023-05-31
粗颗粒土的静止土压力系数非线性分析与计算方法
中国参与全球价值链的环境效应分析
基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例
居住环境多维剥夺的地理识别及类型划分——以郑州主城区为例
基于细粒度词表示的命名实体识别研究
非结构化数据中威胁本体构建、实体识别与关系抽取方法研究
开放获取生物医学文献的实体关系抽取
藏文实体语义关系抽取理论与方法研究
基于知识库和深度学习的生物医学实体关系抽取研究