基因组相关性研究是近几年倍受关注的课题,其研究如何在整个基因组上寻找与某种疾病相关的基因。人口结构问题是基因组相关性研究中的一个新兴热点问题。人口结构指样本中存在多组遗传背景相近的群落,这些群落来自不同的区域或者祖先,使得不同群落的基因组有系统性偏差。这些偏差往往干扰基因组相关性研究,使得识别出来的基因实际上只是和人口结构相关,而并非和疾病相关。因此需要有一种方法在基因组相关性研究中排除人口结构的干扰。这个问题可以推广到更多的领域,例如排除背景干扰的图像识别和排除实验室环境干扰的特征识别等。目前对人口结构的研究主要是统计方法。本项目试图从机器学习的角度研究该问题,包括人口结构的数学描述,优化问题的设计及求解,算法的稀疏性及复杂性和实际数据结果的生物学意义等。人口结构问题中许多的研究还尚处探索阶段,本项目研究是在该方面的有益探索,其结果对于数学,信息科学,生物学和医学都有着重要的意义。
本课题是数学,计算机和生物信息学的交叉学科,主要探索基因组相关性研究中的人口结构问题,试图用机器学习的方法通过修正人口结构更好得寻找和疾病有关的基因位点。我们侧重于数学模型和算法。该项目三年来的主要的研究成果有:1.我们具体地提出了两个模型用于人口结构问题,包括核相关修正模型,以及正交投影修正模型,有效地修正干扰因素对分类的影响,大幅提高了分类精度,并且计算简单。2.我们用迁移学习的思想,针对半监督分类问题提出了一个域适应模型,其算法收敛速度较快,分类效果好。3. 我们从多源数据融合的角度考虑如何更好地进行基因组相关性研究,提出了结合代谢网络的思想和相关的方法。 4. 我们提出通过估计疾病和位点的关系来寻找疾病相关的位点。我们提出一个估计不同物质间关系的半监督方法,我们的数据试验表明该方法可以有效地估计出不同物质间的相关性。以上这些方法从模型的角度给出了基因组相关性学习中修正人口结构的一些方案,可以促进生物信息学相关领域的发展。本课题基本完成原定计划,部分研究内容还在继续进行。
{{i.achievement_title}}
数据更新时间:2023-05-31
基于SSVEP 直接脑控机器人方向和速度研究
卫生系统韧性研究概况及其展望
基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例
居住环境多维剥夺的地理识别及类型划分——以郑州主城区为例
基于细粒度词表示的命名实体识别研究
关于新型机器学习方法实现链接预测任务的研究
关于图在全面嵌入中相关问题研究
基于视觉动力神经场的机器学习方法研究
基于机器学习方法的金属玻璃结构-性能研究