Single amino acid polymorphisms (SAPs) are commonly associated with inherited disease susceptibility in humans. Study of the functional impact of SAPs on protein function from protein sequence and structure information as well as the corresponding diseases mechanisms has become a hot and challenging topic in bioinformatics. Using disease-associated and cancer-associated SAPs as the research objective, in this project, we aim to develop innovative bioinformatic approaches and user-friendly tools to carry out innovative and systematic inteligent computing and bioinformatic analyses of the contributive features and underlying rules that arise from multiple different levels, including sequence, secondary structure, tertiary structure as well as residue-contact network features proximal to the SAP sites, which are relevant for discrminative prediction of the functional impact of Mendelian disease-associated, cancer-associated SAPs. We will develop effective and high-performing inference models using machine learning and feature selection techniques to quantify the contribution of sequence and structural features that collectively determine the functional impacts of SAPs. This study will significantly improve our understanding of the complex sequence-strucutre-function relationship of proteins and provide fundamental insights into the molecular-level determinants of the functional impact and disease susceptibility of different types of SAPs.
单氨基酸多态性(single amino acid polymorphisms, SAPs)与人类遗传疾病密切相关,如何从蛋白质序列和三维结构信息出发研究单氨基酸多态性对蛋白质的功能影响以及由此引起的致病机理,一直都是生物信息学领域的研究热点和难点问题。本项目以与孟德尔遗传疾病突变和致癌性突变相关的单氨基酸多态性作为主要研究对象,拟采用高效、准确的机器学习算法和特征选择方法,针对单氨基酸突变的临近序列和结构信息进行创新性、系统性的智能计算和生物信息学研究,找出导致孟德尔遗传疾病突变和致癌性突变的有判别力的重要序列、结构特征以及规律性信息,在此基础上构建合理、高准确率的单氨基酸多态性致病性或致癌性的推断模型,为深入探索孟德尔遗传及癌症等复杂疾病提供重要信息和理论依据。这一项目对深入理解和阐明蛋白质的结构-功能关系以及由氨基酸突变导致的分子水平上的致病机理有着重要的意义。
在本自然基金青年项目资助下,我们总共发表了16篇SCI论文,其中包括在国际生物信息学领域顶尖期刊Briefings in Bioinformatics (影响因子9.617) 发表3篇SCI论文,在Bioinformatics (影响因子5.766) 发表2篇SCI论文,在Scientific Reports (影响因子5.578) 发表6篇SCI论文。主要研究成果包括:(1) 对蛋白质结晶过程多步骤影响倾向性的重要理化性质进行了深入研究,设计了三种生物信息学工具PredPPCrys、Crysalis和Crysf,支持对目标蛋白的选择和结晶优化;(2) 在蛋白质糖基化位点的生物信息学法和工具开发研究上取得重要进展,开发出GlycoMine和 GlycoMinestruct生物信息学分析工具;(3) 构建了四种物种(包括酵母、人、老鼠和拟南芥)特异性的蛋白质泛素化数据集,并全面系统的比较综述了目前存在的各类蛋白质泛素化位点的预测方法的优劣;(4) 研发了磷酸酶特异性的去磷酸化位点生物信息学工具;(5) 开发了生物信息学算法RFCoil,用于准确的预测分析蛋白质结构中含有的形成二聚体和三聚体的卷曲螺旋;(6) 开发了一个高准确率的赖氨酸乙酰化位点预测算法 SSPKA,编程实现了带有用户友好界面的网络服务器及本地可执行预测程序,SSPKA可作为重要工具,用户蛋白质后修饰模式之间的功能交互应答关系研究。
{{i.achievement_title}}
数据更新时间:2023-05-31
玉米叶向值的全基因组关联分析
监管的非对称性、盈余管理模式选择与证监会执法效率?
基于 Kronecker 压缩感知的宽带 MIMO 雷达高分辨三维成像
基于SSVEP 直接脑控机器人方向和速度研究
基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例
基于多尺度特征和整合机器学习方法的载脂蛋白识别及调控机制研究
应用机器学习方法预测和分析蛋白质的结构柔性
面向蛋白质分子位点标记的多源特征提取和深度序列学习方法研究
融合GeneRank与机器学习方法实现小鼠生精过程基因筛选和功能预测