复杂疾病相关SNP位点与基因的识别是后基因组计划最大的挑战之一,基因与环境的交互作用研究已成为能否准确反映复杂生物系统遗传效应的关键。本课题在融合多种生物信息资源的基础上获取数据,拟采用统计学、系统生物学和生物信息学与计算机相结合的技术,识别并定位2型糖尿病和/或冠心病相关因子的SNP位点,建立随机森林和支持向量机模型;重点对两种疾病的相关位点在代谢综合征患者和对照中进行实际检测,利用所构建的统计模型进行分析,寻找并定位代谢综合征相关因子的SNP位点;通过对比三种疾病相关位点的差异,判定代谢综合征的相关基因和位点对糖尿病和/或冠心病的预测价值;引入信息论的交互作用原理,结合医学专业知识,利用实际数据和计算机模拟实验,研究基因-基因、SNP-SNP及基因-环境的交互作用,解决由于单个基因与疾病的弱关联而导致不同研究结果相互矛盾的现象,构建疾病发生的结构方程模型,探讨各因素的直接或间接效应。
课题组采用统计学、系统生物学和生物信息学与计算机相结合的技术,对SNP组学数据的处理展开统计学方法研究,并将其用于代谢综合征、2型糖尿病、高血压和冠心病的实际数据分析中,致力于疾病SNP位点的筛选与定位,以及各影响因素之间交互作用的探讨。课题组依据计划任务书要求,各年度工作基本按原定计划顺利进行。本课题主要包括方法学研究和实际数据处理两个部分。. 方法学研究方面,课题组对WTCCC实际数据和模拟数据进行了大量研究,在熟悉WTCCC数据库数据格式的基础上,编译了数据格式的转换程序,学习了多种生物学分析软件。WTCCC数据库和一些生物学软件,目前缺少中文版使用说明,课题组的工作为同类研究提供了可借鉴的参考。在高维组学数据分析方法的研究中,较为系统地研究了SNP组学数据的分析方法,包括生成模拟数据、TagSNP的筛选、缺失值的填补、致病SNP位点筛选的单变量和多变量分析、交互作用的研究、单体型分析、通路分析、GO分析,许多分析方法目前国际上的借鉴也相对较少,课题组的研究具有一定科学价值。遗传算法优化的BP神经网络研究中,提出了多分类特征基因筛选的PS值算法,同时对普通的交叉验证算法进行了改良。在基于全模型的结构方程模型参数估计方法的性能研究中,对数据分布类型的设定更接近实际,不再是单一的多元二项或指数分布,而是多元轻度或重度偏态分布,对比ML、GLS、WLS三种参数估计方法的性能,总结各种方法在不同数据特征条件下的优劣,为更加准确地运用结构方程模型解决实际问题提供科学依据,为推广结构方程模型的应用提供方法支持。课题组运用R和RStudio Server软件架设R的远程服务器,从而可使大型统计分析运算和多人协作的软件开发工作更为快捷化和便携化,不再受因条件的限制使本地设备不具备R语言运行环境及机器性能不足的约束。. 实际数据处理方面,课题组对代谢综合征、高血压等复杂性疾病的实际数据,利用结构方程模型、多项logistic回归分析和BP神经网络探讨疾病的影响因素,考察因素的作用方式及效应大小,在了解北方汉族人群复杂性疾病的流行特征的同时,为疾病的预防和控制提供科学依据,也为复杂性疾病的病因研究提供方法学指导。
{{i.achievement_title}}
数据更新时间:2023-05-31
论大数据环境对情报学发展的影响
转录组与代谢联合解析红花槭叶片中青素苷变化机制
青藏高原狮泉河-拉果错-永珠-嘉黎蛇绿混杂岩带时空结构与构造演化
F_q上一类周期为2p~2的四元广义分圆序列的线性复杂度
结核性胸膜炎分子及生化免疫学诊断研究进展
PVRL1基因SNP与环境交互作用和非综合征唇腭裂的关联性研究
Th1通路肺功能相关基因与环境因素的交互作用对哮喘发病的影响及相关SNP位点功能学验证
男性不育的环境与遗传危险因素及其交互作用研究
呼吸机相关性肺炎与免疫相关基因多态性、环境危险因素及其交互作用的关联研究