Existing researches of gene function prediction are still at the gene-level, they do not differentially annotate the functions of alternative splicing isoforms of the same gene and the consequent proteoforms, but functional annotations in the isoform-level are more significant for biology and medical research. To address the issues of scarce functional annotations of isoforms, large scale biological data, limited related computational researches, limitations in fusing data types and granularity, our project targets to efficiently fuse multi-level heterogeneous biological data to precisely annotate the functions of isoforms. The project firstly constructs and optimizes a biological network composed with multi-level molecules to integrative encode and represent heterogeneous data, which have direct or indirect connections with isoforms. Based on this network, to address the specific difficulties and demands of isoform function prediction, the project separately designs predictive models based on personalized random walks, weakly supervised multi-view multi-instance learning, and blocked-matrices collaborative factorization, and thus to drive gene function prediction research from gene-level toward the more fined isoform-level. In the end, this project plans to develop a system based on the above research, and applies it to annotate Silkworm isoforms and to visually uncover the biological network pattern of representative complex diseases at the isoform-level. This project has significant meanings in boosting the research and application of machine learning for large scale heterogeneous data integrative analysis.
现有基因功能预测研究仍停留在基因水平,并未区分标注同一基因受不同剪接方式产生的多个可变剪接异构体及对应多个蛋白亚型的功能,亚型水平的功能标注信息更具有生命医学指导意义。本项目针对剪接异构体功能标注信息缺乏、数据规模大、计算研究成果少、整合数据的类型和粒度有限等困难,以高效集成多层次异构生物数据,精准预测剪接异构体功能为目标。首先构建多层次生物分子网络对与剪接异构体直接或间接相关的数据进行集成表示与优化;在此基础上围绕剪接异构体功能预测的特有困难和需求,从不同角度出发分别设计基于个性化随机游走、弱监督多视图多示例学习、矩阵分块协同分解的预测模型,将基因功能预测研究向更精细的亚型水平推进;最后基于上述研究开发系统,并应用于亚型水平的家蚕剪接异构体功能标注和典型复杂疾病的多层次生物分子网络模式分析与可视化。本项目在促进面向大规模异构数据整合分析的机器学习理论和应用研究等方面均具有重要意义。
现有基因功能预测研究仍停留在基因水平,并未区分标注同一基因受不同剪接方式产生的多个可变剪接异构体及对应多个蛋白亚型的功能,亚型水平的功能标注信息更具有生命医学指导意义。本项目针对剪接异构体功能标注信息缺乏、数据规模大、计算研究成果少、整合数据的类型和粒度有限等困难,聚焦高效集成多层次异构生物数据,精准预测剪接异构体功能。首先构建多层次生物分子网络对与剪接异构体相关的多层次组学数据进行集成表示与联合建模;其次聚焦剪接异构体功能预测的特有困难和需求,针对剪接异构体、基因本体等组成的异质网络构建了异步多示例随机游走、矩阵协同分解、深度多示例学习和组织特异性的功能预测方法体系,证明了这些建模方法在可变剪接异构体功能预测中的先进性和有效性,解决了大规模剪接异构体功能预测难题;进一步研究大规模可变剪接异构体互作网络构建方法和剪接异构体与疾病关联预测技术,均获得了比当前方法最优的精度和可解释性,实现了从功能预测-网络构建-疾病关联识别的研究链条。与此同时,提炼上述生物数据挖掘问题为开放环境下的弱监督学习问题并设计了相应的弱监督学习方法体系,推动了弱监督学习科研与应用的开拓性发展。最后整合上述理论和方法研究成果,集成研发了可变剪接异构体数据库和功能预测平台并上线www.sdu-idea.cn/IsoformDB,将有力支撑可变剪接异构体更深入的研究与应用。.项目执行期共计发表(录用)学术论文71篇,其中中国计算机学会推荐A类期刊和会议14篇,B类期刊和会议41篇,最高影响因子19.118。共享相关30余个算法代码和数据集给国内外同行使用。项目执行期获重庆市自然科学奖1项,培养硕士生18人,3名研究生获重庆市优秀毕业生,20余人次获国家奖学金和省部级科技奖励。本项目对现实世界中典型的多示例、多标记、多视图和异质弱关联数据的智能融合挖掘方法和技术研究具有指导意义,深化并拓展面向上述复杂数据分析的机器学习研究。
{{i.achievement_title}}
数据更新时间:2023-05-31
论大数据环境对情报学发展的影响
跨社交网络用户对齐技术综述
基于SSVEP 直接脑控机器人方向和速度研究
基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例
城市轨道交通车站火灾情况下客流疏散能力评价
肿瘤相关基因可变剪接数据库构建及功能探寻
基于组学数据的可变剪接调控机制研究
JAK2可变剪接异构体调控周围神经再生的机制研究
仅基于RNA-Seq数据拼装可变剪接转录组的计算方法研究