The biological issue proposed in this project is how to analyze the association of neurodegenerative diseases (NDDs) and amino acid variations by creating bioinformatics models based on existing literature and data. The aim is to predict variations’ contribution to the specific kind of diseases and provide assistance for accurate pathological study. It is a new research aspect which can meet the requirements of current precision medicine studies and has great social significance..The project proposed to (1) collect training data from scratch using event extraction models in text mining method. It can not only guarantee the quality of prediction models in this project but also be benefit for other researchers by supplying benchmark data set. (2) create new models for predicting the effects of amino acid variations on protein aggregation and structural stability, respectively. These two predictors are entirely based on residue and amino acid sequence information, and are designed as multi-classification using 2-layer structure with corresponding features selections. It can improve the generalization and robustness of the models effectively. (3) design a fusion strategy and establish an integrative model which is particular for analyzing the association of amino acid variations and NDDs based on the protein aggregation and stability predictors as well as existing solubility and disorder predictors for variations. In this way we can find variations which are close associated with NDDs and release online services for bio-medical researchers.
本项目提出的生物问题是,如何充分利用已有文献和数据,建立生物信息学模型分析氨基酸变异与神经退化疾病之间的关联关系。从而预测对该类疾病具有突出贡献的变异,为精准确定病理提供辅助。该课题是一个新的研究角度,符合当前精准医学的要求,有较大的社会意义和应用价值。.研究内容和创新包括:(1)通过事件发现模型,用文本挖掘方法从头收集训练数据。既是本项目预测模型的质量保障,也能为该领域研究者提供新的高质量的基准数据集。(2)完全基于氨基酸性质和序列信息,分别建立新的氨基酸变异对蛋白质聚集性和结构稳定性影响的预测模型,特色是通过设计级联结构的多分类预测和分层筛选特征,提高模型的泛化性和鲁棒性;(3)基于已有预测影响蛋白质溶解性、无序性模型和上述聚集性、稳定性模型,设计融合策略,建立特别适用于分析氨基酸变异与神经退化疾病关联的融合模型,用来寻找与这类疾病有紧密关联的变异,并发布软件系统供医学研究者使用。
蛋白质是生命体各类功能的载体,从氨基酸变异对蛋白质结构功能各方面的影响进行预测,是分析其是否有致病关联的重要途径。用实验方法研究步骤复杂、时间和经济成本高昂,而使用生物信息学方法,充分收集利用已有数据,通过计算来分析预测,可以有效地解决这一难题。神经退化类疾病具体分为40多种,症状各异,但发病机理相似。随着老龄化社会的到来,越来越受到广泛关注。.本课题基于机器学习的方法,研究了预测氨基酸变异对蛋白质结构和功能影响的方法和模型,并基于此构建融合模型,用于分析其与神经退化疾病的关联性,具体工作包括:(1)从文献中收集数据,构建和发布了与已报道37种神经退行性疾病有关联的6000多条变异信息的标准化数据库NDDVD,并进行更新维护:(2)通过数据挖掘和人工验证结合的方法,从头收集验证了氨基酸变异对于蛋白质结构稳定性变化的相关数据,修正了已有数据库存在的错漏,发布了高质量的标准数据集。在此基础上运用随机森林方法,并进行了相关属性筛选,建立了两层三分类的新预测模型PON-tstab;(3)运用梯度增强回归树等方法构建了基于序列信息预测蛋白质变性温度Tm的蛋白质稳定性预测模型ProTstab,并应用该工具,预测了全部人类蛋白质的变性温度。在上述工作基础上,构建了初步的NDD相关变异的融合分析方法,筛选了部分高致病性的候选变异。主要成果包括发表(接受)论文11篇,其中SCI期刊论文9篇,申请发明专利3项,软件著作权4项。.上述工作对于进一步深入探究神经退化类疾病的致病机理,寻找重要的生物标记物,从而辅助疾病分子诊断和药物设计具有重大定义。构建的NDDVD相关变异数据库质量可靠,访问便捷;设计实现的预测模型性能较高,泛化性强,软件使用方便,为进一步的研究提供了可靠的基础。.
{{i.achievement_title}}
数据更新时间:2023-05-31
演化经济地理学视角下的产业结构演替与分叉研究评述
玉米叶向值的全基因组关联分析
监管的非对称性、盈余管理模式选择与证监会执法效率?
粗颗粒土的静止土压力系数非线性分析与计算方法
基于LASSO-SVMR模型城市生活需水量的预测
miR-152靶向调控HLA-G影响蜕膜NK细胞功能参与子痫前期发病的机制研究及其胎盘外泌体源性检测
疾病相关氨基酸变异与生物功能关系的模型建立、软件开发与高通量计算分析
基于深度学习的多模态神经影像融合分析与脑疾病诊断
罕见遗传变异关联性分析的统计方法研究
基于稀疏表达模型的多组学数据融合研究及其在拷贝数变异相关疾病的应用