本申请依据遗传疾病临床描述与蛋白质相互作用网络的关联关系,提出了一种新的人类遗传疾病基因预测方法。具体地说,首先对人类遗传疾病在线数据库进行文本挖掘,通过基于语境框架的向量空间模型方法,计算遗传疾病表型之间的重叠关系;其次,在传统的二维关联概率模型的基础上,提出了基于多维随机变量的两种新的概率模型- - 中心概率模型和外形概率模型;在此基础上,提出了基于多概率融合的致病基因预测数学模型,该模型通过综合利用联合概率、中心概率和外形概率,在多个层面上反映了表型相似性与蛋白质相互作用之间的关联规律,与传统的基于单一概率的模型相比,该数学模型更好地反映了生物系统的真实面貌,将具有更强的疾病基因预测能力。系统地调查蛋白质复合体与人类疾病之间关联性是破译人类疾病的遗传基础和分子基础研究方面的主要任务之一。诱发疾病基因的识别研究,对基因组学和医学具有重要的现实意义,是人类治愈遗传疾病的关键问题。
系统地调查蛋白质复合体与人类疾病之间关联性是破译人类疾病的遗传基础和分子基础研究方面的主要任务之一。诱发疾病基因的识别研究,对基因组学和医学具有重要的现实意义,是人类治愈遗传疾病的关键问题。本项目依据遗传疾病临床描述与蛋白质相互作用网络的关联关系,提出了一种新的人类遗传疾病基因预测方法。具体地说,首先对人类遗传疾病在线数据库OMIM进行文本挖掘,通过基于语境框架的向量空间模型方法,计算遗传疾病表型之间的重叠关系;其次,我们使用GeneOntology层次框架的拓扑结构和蛋白质功能词语的局部以及全局的语义影响,提出了一种新的蛋白质功能相似度以及蛋白质相似度计算方法。最后,在传统的二维关联概率模型的基础上,提出了基于多维随机变量的两种新的概率模型--中心概率模型和外形概率模型;在此基础上,提出了基于多概率融合的致病基因预测数学模型,该模型在多个层面上反映了表型相似性与蛋白质相互作用之间的关联规律。通过多次不同规模的数据试验结果的观察,我们认为,表型相似性与蛋白质相互作用关系来预测大规模遗传疾病与基因关系,有待于OMIM数据库的进一步充实,以及蛋白质相互作用网络的细化,面向机体层面的蛋白质关联关系数据库的完善。此外,考虑到micro-RNA也是诱发疾病的主要因素之一。因此本项目在micro-RNA相关疾病预测分析领域进行了有针对性的扩展研究,通过整合了基因组数据,提出了一种基于加权网络的microRNA相关的疾病预测分析方法。算法在10倍交叉验证下取得的ROC曲线面积达到了0.8884。最后,本项目组进行了面向大规模新一代DNA测序数据的SNP预测与检验算法研究,在基于BWT变换的参考基因组比对算法,尤其在模糊比对方面(即SNP位点的查找方面),进行了较深入的研究,取得了较好的效果。已完成的实验结果表明,我们的方法的比对速度和精度比现有的算法都有显著提高。
{{i.achievement_title}}
数据更新时间:2023-05-31
神经退行性疾病发病机制的研究进展
肺部肿瘤手术患者中肺功能正常吸烟者和慢阻肺患者的小气道上皮间质转化
血管内皮细胞线粒体动力学相关功能与心血管疾病关系的研究进展
城市生活垃圾热值的特征变量选择方法及预测建模
陆地棉无绒突变体miRNA的鉴定及其靶标基因分析
基于网络重构和多尺度模块分解的人类疾病基因预测方法研究
人类复杂遗传疾病基因定位的方法与优化策略
融合多种表型相似性和基因相似性的疾病关联基因预测方法
基于多组学数据整合的疾病基因预测方法研究