近年来大量的基因组和蛋白质组序列、结构和功能数据不断增加,使得采用数据驱动的方法来解决蛋白质序列-结构-功能映射问题成为可能。生物序列和自然语言之间存在一定的相似性。大量语料库的出现推动了计算语言学的发展,同理,大量的蛋白质序列-结构-功能数据的出现,使得计算的方法和信息技术得以应用于此领域中。本项目将采用计算语言学的工具包括统计语言模型、文本分类技术、机器学习算法以及更高层的语言处理方法来理解细胞中蛋白质的结构和功能。通过将自然语言处理的相关技术引入到生物信息学中,针对蛋白质结构和功能预测的相关问题采用新的计算手段,简化蛋白质结构和功能预测的模型,提高蛋白质结构和功能预测的精度,进而推动蛋白质序列-结构-功能映射问题的发展。项目的研究在生物医学、人类生活、生产实践等方面都有着极为重要的意义。
项目采用自然语言处理的相关技术和方法解决蛋白质结构和功能预测的问题。通过将自然语言处理的相关技术引入到生物信息学中,针对蛋白质结构和功能预测的相关问题采用新的计算手段,简化蛋白质结构和功能预测的模型,提高蛋白质结构和功能预测的精度,进而推动蛋白质序列-结构-功能映射问题的发展。项目揭示了蛋白质序列的语言特征;提出了多种蛋白质同源性检测方法;实现了基于自然语言处理技术的蛋白质结构预测和功能预测方法,取得了良好的结果。项目的研究在生物医学、人类生活、生产实践等方面都有着极为重要的意义。
{{i.achievement_title}}
数据更新时间:2023-05-31
病毒性脑炎患儿脑电图、神经功能、免疫功能及相关因子水平检测与意义
基于被动变阻尼装置高层结构风振控制效果对比分析
基于LS-SVM香梨可溶性糖的近红外光谱快速检测
基于改进LinkNet的寒旱区遥感图像河流识别方法
混凝土SHPB试验技术研究进展
基于自然语言处理技术的DNA结合蛋白质预测
基于自然语言处理技术的蛋白质相互作用预测方法研究
基于自然语言处理语义分析技术的蛋白质远同源性检测和折叠识别
基于自然语言处理技术的生物实体语义网络研究和应用