复杂子克隆结构的肿瘤体细胞突变测序数据与多表型的双向聚类关联分析方法研究

基本信息
批准号:31701150
项目类别:青年科学基金项目
资助金额:23.00
负责人:王嘉寅
学科分类:
依托单位:西安交通大学
批准年份:2017
结题年份:2020
起止时间:2018-01-01 - 2020-12-31
项目状态: 已结题
项目参与者:赖欣,郭瑛,刘若愚,杨莹,许静,郑田,王以瑄,黄家丽
关键词:
双向聚类肿瘤基因组测序数据基因组大数据关联分析方法
结项摘要

The association studies on tumor susceptibility variants and mutations is one of the most important aspects in cancer research, and it is also one of the core modules in cancer sequencing data processing pipeline. The existing methods have some defects in handling the tumor heterogeneity, complex clonal structure, multiple-value phenotype and bi-clustering association on partial deminsions of phenotypes. This proposal is designed for these problems and issues. According to the actual problems, the project plans to carry out the research in the following three aspects: first, the correlation analysis model on the basis of existing, the introduction of multi baryon clonal structure, then distinguish different sub clones with somatic mutations, especially given based on the evolutionary relationship between clones, is associated with the design identification of susceptibility to somatic mutation of complex sub clonal structure analysis method. Second, to further consider the interaction of blood tumor genome variation and somatic mutation, interaction of mixed somatic mutations superimposed on the blood line variation analysis, one of the main considerations will interact on each sub cloning into the "aggregation" of rare variants, focus on improving the variation correlation analysis method on blood system the sensitivity and specificity of selection. Third, the design for two-way clustering algorithm in association analysis and efficient implementation of synchronization, cluster aggregation and multi dimension rare variant phenotype selection, to solve the associations of rare variants in recognition of phenotype identification problem dimension.

肿瘤的易感性变异关联研究是肿瘤组学研究的重要方向之一,也是肿瘤组学数据处理流程的核心计算模块之一。现有方法在处理肿瘤异质性、复杂子克隆结构、非二值表型和双向关联方面存在一定缺陷。本项目拟针对此实际问题,在以下三个方面开展研究:其一,在既有关联分析模型的基础上,引入多重子克隆结构,进而区分不同子克隆携带的体细胞突变,特别是在考虑子克隆的演化关系的基础上,设计适用于复杂子克隆结构的识别易感性体细胞突变的关联分析方法。其二,进一步考虑肿瘤基因组血系变异与体细胞突变的相互作用,对混合的体细胞突变叠加于血系变异的相互作用进行解析,将各个子克隆上的相互作用提炼为“聚合”罕见变异的主要考量之一,重点提高关联分析方法对血系变异的选取敏感性和特异性。其三,设计适用于关联分析问题的、高效的双向聚类算法,实现对罕见变异聚合和表型多维度选取的同步聚类,解决识别部分罕见变异的组合关联于部分表型维度的识别问题。

项目摘要

基因突变的关联分析是基因组学和生物信息学中的一类基础问题。现有的关联分析模型和算法不能满足针对癌症样本的突变关联分析需求。本项目经过研究,针对不同的应用场景,提出了一系列适用于复杂子克隆结构的识别易感性体细胞突变的关联分析方法;设计了小样本下求解组学特征的集合内/间共生、互斥模式的启发式方法,并通过隐马尔可夫随机场模型将多克隆结构、特征互作用等互作用分析结果引入罕见变异的聚合关联分析模型中,同时基于先验知识、互作用条件等设计了解空间限界;设计并实现了求解多维、非二值表型的关联分析模型的智能寻优算法:针对不同数据的特点,提出了对耦合模式表达式不同的编码方法,分别结合连续、离散优化的性质,构建了基于粒子群、鱼群思想的群体智能寻优框架;改进并融合了集成学习策略,使用较少的训练样本指导群体智能框架的快速迭代,降低算法落入局部最优陷阱的概率,实现特征间近似最优耦合关系的有效识别,最终实现了识别部分罕见变异的组合关联于部分表型的关联分析功能。本项目研究的科学意义体现在:从理论研究成果看,围绕肿瘤组学大数据的采集、分析、关联分析与智能决策开展了比较深入的理论研究工作,初步探索和建立了面向肿瘤组学数据的特征提取与数据质控、超高维关联分析建模、风险预警与动态决策的数据挖掘框架,对丰富和发展临床决策支持的理论与方法体系具有一定的科学意义;从国际科技合作看,项目团队面向世界科技前沿,深入参与TCGA、ICGC等国际大科学计划,综合运用数据分析技术和智能决策方法,较好的解决了云环境下的群体低频关键特征识别、有限异质样本的超高维关联分析、早期风险预警等问题,取得了一些创新性的研究成果,初步得到国际同行的认可。经过三年的研究工作,本项目超额完成预期指标,在执行期内发表SCI检索的期刊论文5篇(包括1篇Nature Communications),EI检索的论文4篇,申请国家发明专利5项,申请计算机软件著作权登记5项;参加国内会议4人次并作报告;培养博士研究生2人,硕士研究生4人。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

EBPR工艺运行效果的主要影响因素及研究现状

EBPR工艺运行效果的主要影响因素及研究现状

DOI:10.16796/j.cnki.1000-3770.2022.03.003
发表时间:2022
2

基于铁路客流分配的旅客列车开行方案调整方法

基于铁路客流分配的旅客列车开行方案调整方法

DOI:
发表时间:2021
3

基于LS-SVM香梨可溶性糖的近红外光谱快速检测

基于LS-SVM香梨可溶性糖的近红外光谱快速检测

DOI:
发表时间:
4

基于文献计量学和社会网络分析的国内高血压病中医学术团队研究

基于文献计量学和社会网络分析的国内高血压病中医学术团队研究

DOI:10.11842/wst.20190724002
发表时间:2020
5

新型树启发式搜索算法的机器人路径规划

新型树启发式搜索算法的机器人路径规划

DOI:10.3778/j.issn.1002-8331.1903-0411
发表时间:2020

王嘉寅的其他基金

相似国自然基金

1

复杂多视图高维数据子空间聚类方法研究

批准号:61602081
批准年份:2016
负责人:于红
学科分类:F06
资助金额:21.00
项目类别:青年科学基金项目
2

基于复杂网络的商务大数据聚类与关联应用研究

批准号:71461017
批准年份:2014
负责人:钱晓东
学科分类:G0112
资助金额:34.50
项目类别:地区科学基金项目
3

基于双向聚类算法的高通量组学数据融合方法研究

批准号:61103167
批准年份:2011
负责人:宁康
学科分类:F0213
资助金额:21.00
项目类别:青年科学基金项目
4

基于合作式的多视图数据深度子空间聚类的研究

批准号:61806035
批准年份:2018
负责人:王杨
学科分类:F0603
资助金额:24.00
项目类别:青年科学基金项目