Identifying disease genes through computational methods is one of the key and top challenging issues in computational biology. It is not only critical in understanding the pathogenesis of complex diseases, but also helpful in developing novel diagnostic methods and drug development. Current methods are normally based on shallow machine learning, such as those classification or regression methods. However, those methods often have a poor feature representation problem when describing the complex relationship between genes and diseases due to the manually selected features. Hence, the performances of those methods are still limited when dealing with complicated datasets. This study intends to develop novel feature self-learning methods for identifying complex disease genes based on the deep learning technology. It focuses on a set of key challenging issues, such as the construction of a deep learning model for disease gene identification, the generation of a certain amount of disease-gene-related training samples, and the development of multiple data integration method. Overall, this study gives a novel solution for identifying complex disease genes. The self-learned features would work much better than those manually selected ones, and the prediction results can be used as experimental and theoretical basis for further analysis of disease pathogenesis.
通过计算的方法识别疾病基因是计算生物学研究的重点与难点问题之一。对人们理解复杂疾病的发病机理、设计诊断方法、开发治疗药物等都有着重要的作用。现有的疾病基因识别方法大多是基于浅层机器学习的分类算法。它们在描述复杂疾病基因关系时广泛存在着手动选取的特征表现能力不佳的问题,限制了算法对复杂数据的处理能力。本项目拟通过深度学习模型实现对多组学生物数据特征的自动学习,以提高特征选取对复杂数据的表现能力,并针对深度学习应用于疾病基因识别中存在的几个难点问题开展研究,解决其中的深度学习模型构建与优化、疾病信息的多样化表示以及多组学生物数据的整合等问题。利用这种自动学习的特征及相关分类算法,可以大幅提高疾病基因识别的精度,并且算法所识别的结果可以进一步为分析复杂疾病的发病机理提供实验基础和理论依据。
本项目主要是针对人类复杂疾病相关基因识别问题中传统的基于浅层分类算法普遍存在的特征表现能力不足,分类效果不佳的难题开展研究,主要解决多组学数据融合过程中的特征自动学习、非平衡样本分类以及多源异质数据整合等子问题。在本项目的执行过程中,我们严格按照上述研究内容与拟定的研究方案开展了研究,相继设计了针对特征自动学习与多源异质数据融合的Net2Image生物网络图像化表示算法,并利用现有的深度学习框架对复杂疾病相关基因进行识别;还设计了基于弹性网络的癌症特定阶段相关基因识别的算法,成功的将现有的基于单一疾病类型的相关基因识别细化到针对单一疾病特定发病阶段的相关基因识别问题中来,也很好的解决了非平衡样本的分类问题。另外,我们还创新性的提出了基于功能模块关联关系的多层次网络模型的构建方法,成功的将传统的针对孤立基因节点的分析思路推广到基于较为高层次、较为具体的针对生物功能模块的分析思路上去,大大的提高了识别算法的精确程度与可解释性,消除了传统方法中假阴性数据较多的难题。在此基础上,我们还深入探索了疾病相关基因识别问题中常遇到的差异基因识别问题,提出了针对小样本、高噪音、表达量分布不均匀的基因表达数据的多种差异基因识别算法,还创新性的设计了基于差异蛋白质交互关系的差异基因识别算法,大大提高了识别结果的功能关联性与可靠性,对于识别复杂疾病不同发病阶段的相关基因有着重要的作用。除此之外,我们还在DNA甲基化数据处理、拷贝数变异数据处理、基因本体数据与人类表型数据,小RNA与疾病的关联关系识别等问题中做了相应的工作。通过本项目的实施,我们共完成12篇科技论文的写作,其中SCI期刊论文5篇,EI会议论文6篇,培养毕业了博士生(国际留学生)1名,硕士生3名,完成本科毕业设计8份,还各有两名正在攻读博士生与硕士生的学生。综合来讲,通过本项目的实施,我们基本完成了项目申请时所预期的任务。
{{i.achievement_title}}
数据更新时间:2023-05-31
论大数据环境对情报学发展的影响
DeoR家族转录因子PsrB调控黏质沙雷氏菌合成灵菌红素
居住环境多维剥夺的地理识别及类型划分——以郑州主城区为例
基于细粒度词表示的命名实体识别研究
F_q上一类周期为2p~2的四元广义分圆序列的线性复杂度
人类复杂疾病基因表达谱特征基因识别技术
多基因复杂遗传疾病基因作图的模式识别与特征提取技术
复杂天空云状的特征描述及自动识别研究
基于生物谱的复杂疾病基因识别系统融合分析方法研究