Information about genes and pathways involved in a disease is usually 'buried' in scientific literature, making it difficult to perform systematic studies for a comprehensive understanding. Text mining has provided opportunities to retrieve and extract most relevant information from literature, and thus might enable collecting and exploring relevant data to a certain disease systematically. However, text mining is also challenged by the problem of low data quality. Based on existing studies, the grant applicants consider that using biological pathways, which is one of the central concepts in systems biology, as the object for text mining and integrating information from curated pathway databases is one of the possible solutions. In this proposal, the applicants plan to study about the named entity recognition and normalization problem of biological pathways and apply it in the detection of molecular interactions from literature for the construction of molecular interaction network, which can provide a solid foundation of systematically understanding complex diseases with high quality data support. In terms of the challenges brought about by the daunting amount of literature, the applicants plan to rely on a massively parallel heterogeneous computing platform and perform large-scale analysis of all available biomedical literature and releases results for free, which could possibly boost disease diagnosis and the discoveries of novel biomarkers.
与疾病关联的基因和通路及他们之间的关系往往淹没在科学文献中,使得为获得对疾病分子机理全面理解的系统性研究十分困难。文本挖掘提供了从文献中提取和挖掘最相关信息的方法和手段,使得自动获取与疾病相关的分子信息称为可能。但也存在挖掘出的信息质量不高等问题。基于已有的研究基础,申请人认为,将系统生物学中的重要概念生物通路作为文本挖掘处理的对象之一,并利用经过审编和标注的通路数据库信息,将可以解决相关问题。本项目中,申请人拟通过研究关于生物通路的命名实体识别及其标准化方法,将其用于文献中分子相互作用的检测,并用于构建分子互作用网络,从而为系统性地理解复杂疾病提供高质量的基础。而针对海量文献所带来的挑战,申请人拟依托于大规模并行异构计算平台实施并行文献挖掘,完成对生物医学文献库全库的分析,并将分析和处理的结果发布,以期对疾病诊疗、生物标记的发现起到巨大的促进作用。
为对疾病的分子机理的系统性研究,需要大量关于与疾病关联的基因和通路等信息。这些信息往往蕴含在非结构的生物医学文献中。海量生物医学文献是一种很重要的生物医学大数据。但是由于计算机无法从非结构文本中直接获取信息,因此需要采用文献挖掘技术。文献挖掘提供了从文献中提取和挖掘相关信息的方法和手段。但已有方法也面临着挖掘出的信息质量不高、计算耗时、缺乏实际应用等问题。.本项目以海量生物医学文献为主要的处理、挖掘对象,以大规模异构超级计算机天河二号为主要的计算平台,通过部署文献库、对相关工具软件进行移植和优化、对文献挖掘中的命名实体识别和关系提取等关键算法进行改进、设计合理高效的负载均衡策略和任务调度实现大规模并行分析处理等方式,实现对海量生物医学文献的快速、准确分析。对已有的命名实体识别、关系提取方法进行了改进,在天河二号上对近3000万篇文献(包括摘要和免费全文)进行了挖掘分析,并已将挖掘结果初步应用到实际系统中,为临床NGS数据解读、疾病理解和诊疗等提供了坚实的知识基础。项目取得了较好的成果,成果形式发表高水平SCI论文8篇,申请专利两项,其中已授权一项),培养硕士研究生3名,博士研究生4名。具体包括以下几个方面:.(1).基于长短期记忆模型的关系提取方法;.(2).基于天河二号的疾病与变异关系并行挖掘框架.(3).疾病NER指代分析改进和变异NER的细节属性提取.(4).关系提取实例应用-CNVdigest.(5).Orion :天河二号上的大数据处理平台.(6).疾病和变异关系提取及其在NGS数据智能解读系统GTX.VCFDigest中的应用..从总体上讲,本项目的研究达到了预期目标。今后应继续促进应用深度学习方法和并行算法进行生物医学自然语言处理过程,同时引入相关的知识图谱技术,形成现实问题、理论研究和实际应用的良性循环。.
{{i.achievement_title}}
数据更新时间:2023-05-31
一种光、电驱动的生物炭/硬脂酸复合相变材料的制备及其性能
跨社交网络用户对齐技术综述
自然灾难地居民风险知觉与旅游支持度的关系研究——以汶川大地震重灾区北川和都江堰为例
宁南山区植被恢复模式对土壤主要酶活性、微生物多样性及土壤养分的影响
疏勒河源高寒草甸土壤微生物生物量碳氮变化特征
面向大规模基因表达谱的数据挖掘及并行分析方法研究
面向异构系统的可扩展的迭代方法并行优化模型及其应用研究
基于深度学习的面向海量科技文献的大规模高性能本体构建技术研究
海量高维天体光谱数据挖掘及其并行化研究