大规模个人基因组遗传相似性评价与可视化方法研究

基本信息
批准号:31601072
项目类别:青年科学基金项目
资助金额:20.00
负责人:隽立然
学科分类:
依托单位:哈尔滨工业大学
批准年份:2016
结题年份:2019
起止时间:2017-01-01 - 2019-12-31
项目状态: 已结题
项目参与者:胡杨,白杨,詹青,王永天,罗锡梅,付强,蒋璐凯
关键词:
遗传相似性个人基因组数据可视化基因组大数据聚类分析
结项摘要

Life science steps big data era. Individual genome sequencing and variant data are explosively increasing. Comparing and Analyzing large amount genetic traits of individual genomes becomes basic requirement of biology and medical research. Evaluation and visualization of genetic similarity among individual genomes are essential technologies for genome research in the 'big data' era. In this research, we plan to study the following topics: (1) large-scale individual genetic similarity evaluation model and method based on genome variants, (2) dimension reduction method for multi-individual genetic similarity, (3) Visualization technology for large-scale individual genetic similarity, (4) practical analysis of genetic similarity evaluation and visualization using 2504 individuals from the 1000 genomes project. We propose a variants-based large scale individual genome similarity evaluation model, and design the software prototype for multiple genome similarity visualization. The research focus on create new analysis methods, models and tools for the huge amount of individual genome sequencing data.

生命科学进入了大数据时代,个人基因组测序数据与变异数据已呈爆炸式增长。对大规模个人基因组的遗传特征进行比较、分析成为了生命科学和医学研究中的基本需求。基于变异的遗传相似性评价是大规模个人基因组之间比较、分析的基础,可视化能够显著提升多个体基因组的比较和分析效率,是大数据时代基因组研究中不可或缺的方法与技术。本课题主要研究内容包括:1)研究基于变异的大规模个人基因组遗传相似性评价模型与方法;2)研究多基因组遗传相似性的特征降维的有效模型与方法;3)开发大规模个人基因组遗传相似性的可视化技术;4)对国际千人基因组计划的2504个个体进行遗传相似性分析与可视化的实证研究,验证所提出的模型、方法和可视化技术。本课题将构建基于Jaccard距离和LDA模型的大规模个人基因组遗传相似性评价方法;并基于此方法设计和开发多基因组可视化框架体系,为海量个人基因组遗传数据提供新的研究模型、研究方法与研究工具。

项目摘要

本课题依据生物信息学的基本原理,结合生命科学与医学研究中的现实需求,使用公开的国际千人基因组计划第三阶段的变异数据,研究了大规模个人基因组的遗传相似性评价、多基因组遗传相似关系可视化等问题。课题组设计了相关模型、框架和算法,并基于这些方法对国际千人基因组计划第三阶段2504个个体的遗传相似性进行实证分析与可视化。.经过3年的研究工作,本课题建立了基于Hamming距离的大规模个人基因组的局部相似性评价方法,建立了基于LDA模型的大规模个人基因组全局相似性评价方法。并利用国际千人基因组计划数据对相关方法进行了可视化及验证。本课题对相似性评价方法的模型参数与性能进行了详细的探讨,掌握了大规模个人基因组相似性评价过程中特征选择与参数选取的主要规律,充分解释了建模结果与生物学问题之间的对应关系。达成了课题的研究目标。此外,在研究过程中,为了为比较不同方法之间的优劣,以及测试不同参数条件下方法的性能,课题组提出了Ranking score作为验证基因组相似度计算方法有效性的评价标准。针对千人基因组数据样本量有限的问题,课题组还开发了PGsim个人基因组模拟工具。.本课题使用LDA模型表征基因组相似性,与传统方法相比,LDA模型结果能够更加准确地表征基因组相似性的生物学意义。作为无监督学习方法,LDA只需很少的先验知识,相反,它可以从数据中挖掘知识,甚至可以纠正标注错误。模型建立后,还可以计算出新样本的祖源信息、评估已知个体基因组与新个体基因组之间的相似性,并进行可视化。. “基因组相似性”描述了两个个体的遗传关系。这一概念的内涵随研究背景而变化。例如,在研究遗传疾病时,“基因组相似性”与人口研究中的含义不同。在本课题条件下,“基因组相似性”的概念是基于人群分层的,但LDA模型还可以应用于更广阔的基因组研究领域,例如遗传疾病研究。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

论大数据环境对情报学发展的影响

论大数据环境对情报学发展的影响

DOI:
发表时间:2017
2

圆柏大痣小蜂雌成虫触角、下颚须及产卵器感器超微结构观察

圆柏大痣小蜂雌成虫触角、下颚须及产卵器感器超微结构观察

DOI:10.3969/j.issn.1674-0858.2020.04.30
发表时间:2020
3

湖北某地新生儿神经管畸形的病例对照研究

湖北某地新生儿神经管畸形的病例对照研究

DOI:
发表时间:2019
4

资源型地区产业结构调整对水资源利用效率影响的实证分析—来自中国10个资源型省份的经验证据

资源型地区产业结构调整对水资源利用效率影响的实证分析—来自中国10个资源型省份的经验证据

DOI:10.12202/j.0476-0301.2020285
发表时间:2021
5

多源数据驱动CNN-GRU模型的公交客流量分类预测

多源数据驱动CNN-GRU模型的公交客流量分类预测

DOI:10.19818/j.cnki.1671-1637.2021.05.022
发表时间:2021

隽立然的其他基金

相似国自然基金

1

介入放射学工作人员个人剂量监测与评价方法研究

批准号:11075040
批准年份:2010
负责人:卓维海
学科分类:A3007
资助金额:37.00
项目类别:面上项目
2

大规模移动轨迹与空间网络的地学可视化方法研究

批准号:41671384
批准年份:2016
负责人:张翔
学科分类:D0114
资助金额:65.00
项目类别:面上项目
3

基于图像空间视觉相似性的质量评价方法

批准号:60872162
批准年份:2008
负责人:明军
学科分类:F0113
资助金额:21.00
项目类别:面上项目
4

中药色谱指纹图谱相似性评价方法的研究

批准号:20475067
批准年份:2004
负责人:甘峰
学科分类:B0310
资助金额:24.00
项目类别:面上项目