A mass of biomedical literature contains enormous valuable biomedical knowledge. It has become a focus to extract complex biomedical knowledge to help biomedical experts with their study using information extraction method. In response to the problems that most of the present biological extraction methods are not able to recognize the triggers with multi-words and there are some problems such as feature sparse,short of annotated data,complex feature design and poor generalization performance. (1)We will develop the neural network algorithm to extract the triggers with multi-words and build the multi-driven biological event extraction model utilizing bag of words context and dependency-based context to solve the issues of ambiguity of triggers and sparse features. (2)A deep learning model based on convolution neural network will be established with the semantic vector information of words so as to extract the whole sentence level semantic information, and deal with the problems, such as high dependency of annotated data and the low generalization performance. (3)Applying our biological event extraction model to the background in the early diagnosis of pulmonary nodules, a visualization knowledge network system for the related diseases’ auxiliary diagnosis and treatment should be implemented. The study of the project conforms to the requirements and development trends of biomedical research and it can be expected to explore new ways to study biological event extraction based on biomedical literature.
海量生物医学文献中蕴藏着庞大的生物医学知识,如何运用信息抽取技术从中抽取和发现新的医学信息用以辅助疾病的早期诊疗,已成为一个新兴的研究热点。针对现有生物事件抽取方法对多词组成的触发词的识别关注不够,又存在标注语料有限、特征稀疏、泛化性能差等问题,(1)采用基于词向量的神经网络算法,关注多词组成的触发词识别,建立多词驱动的生物事件触发词识别模型,融入词袋上下文及依存句法上下文的词向量信息,解决触发词歧义和特征稀疏等问题。(2)结合词向量语义信息,建立基于卷积神经网络的深度学习模型,充分提取整句范围内深层次的语义信息,解决标注语料依赖性强,泛化性能差等问题。(3)以辅助肺结节早期诊断医学研究为应用背景,运用建立的生物事件抽取模型,构建肺结节疾病相关的可视化知识网络。本项目研究符合生物医学发展需求和趋势,有望探索基于生物医学文献的事件抽取研究的新途径。
在大数据时代,以电子形式捕获并存储的生物医学文献数量增长迅猛,如何运用信息抽取技术从海量文献中抽取有效信息备受研究者的关注。其中,生物医学事件抽取在构建通路、丰富数据库等领域具有广泛的应用价值,也是众多学者研究的热点。本项目以PubMed和电子病历等生物医学文献为数据源,以肺结节疾病的辅助诊断为应用场景,以生物医学事件抽取为主题,抽取多词驱动下的生物医学事件信息。本项目执行期间,为达到更好的生物事件抽取性能,探索了多种深度神经网络方法:如卷积神经网络模型(CNN)、长短期记忆网络(LSTM)、注意力机制(Attention)和条件随机场(CRF),并结合不同的预训练模型:如Word2Vec、FastText、GloVe、BERT等,从语义角度和解释性角度,去探究复杂生物事件的抽取工作。通过研究发现,在多种分布式语义空间下,采用双向LSTM模型获取句子的前向和后向语义特征,再结合Attention机制重点关注与任务相关的表示,以及CRF模型在全局条件下实现的生物事件抽取,其F1值达到57.95%的最佳值,超出目前同类最先进结果2.10%。另外,本项目在生物医学实体的二元关系抽取上进行了研究,采用图神经网络(GCN)实现了药物间的关系抽取(DDI)和药物与疾病间的关系抽取(CDR),分别取得了70.8%和63.5%的F1值。最后,本项目结合实际医学应用场景,在辅助肺癌的早期诊断方面进行了相关探索。采用深度学习方法,结合Attention机制,对患者的肺结节良恶性进行分类识别,可为医生判断患者的肺部疾病性质提供重要参考。.本项目实现了一个多词驱动下的生物医学事件抽取系统,相关研究成果在国际国内期刊和会议发表论文 23 篇,其中 SCI收录 13 篇;EI收录 8 篇。授权和受理发明专利共5项,取得软件著作权一项。培养了文本挖掘方向的研究生,先后参与项目研究的博士生8名,硕士生15,其中已毕业博士3名、硕士6名。较好地完成了预期研究目标。
{{i.achievement_title}}
数据更新时间:2023-05-31
一种光、电驱动的生物炭/硬脂酸复合相变材料的制备及其性能
宁南山区植被恢复模式对土壤主要酶活性、微生物多样性及土壤养分的影响
基于多模态信息特征融合的犯罪预测算法研究
疏勒河源高寒草甸土壤微生物生物量碳氮变化特征
五轴联动机床几何误差一次装卡测量方法
生物医学事件抽取的触发词驱动与论元特征泛化方法
基于词向量的藏语实体知识抽取方法研究
基于卷积神经网络的早期胃癌识别与检测研究
基于表示学习的事件抽取与演化分析研究