One goal of genetic association study is the identification of important biomarkers that are associated with human diseases. The difficulty of identification lies in the high-dimensionality of datasets and the need to consider gene-gene interaction effect, which hinders traditional statistical analysis from being effective. In the past decade, a number of new methods aiming to tackle the problem have been proposed; and most of these methods targeted on marginal association effects. This proposal aims to address these problems. Based on an effective algorithm we have developed, which captures interaction effects in high-dimensional setting and results in very low error classification rate in disease prognosis, we intend to develop new methods to reduce false-positive markers in two ways, by controlling false discovery rate and change-point analysis. We will also demonstrate the effectiveness of the algorithm by a comparative study between proposed method and various feature selection algorithms, and apply the method on breast cancer and lung cancer datasets. Overall, the methods developed will have general applications in the field of medical genetics and bioinformatics, and the identified markers, once validated, would be ideal pharmaceutical targets and risk loci to conduct further laboratory and clinical research. In view of the urgent need of bioinformatics methods and methods deal with interaction effect, this project has very important value both in theory and in application.
生物信息学是当今自然科学发展的重大前沿领域,通过研究人类基因与疾病的关联性,我们能够找到影响疾病的基因,从而在遗传学上对疾病的成因有更深入的认识,并且对疾病进行更加准确的分类。大部分的人类疾病是复杂性的,即疾病是被多个基因的相互作用 (gene-gene interaction effect) 影响的,而单个基因的影响相当有限,因此在基因相关性 (genetic association study) 研究当中,特别需要考虑多个基因的联合效应。尽管如此,针对此重大需求的方法却相当有限。在本项目中,我们旨在已有的选取相互作用基因的成果上进一步提出新的方法,即通过控制错误发现率和转折点分析来减少具有相互作用基因中的假阳性基因,并以此进一步改善疾病分类的效果。我们将使用乳癌和肺癌的数据进行疾病分类的验证。本课题提出的新方法可以填补选择相互作用基因方法的需求,同时在实际问题上也有很好的应用价值。
本项目旨在提出一种新的检验基因交互作用的统计方法,以克服传统方法在大数据复杂数据结构的情况下过多假阳性结果的情况。本项目如期并超额完成了任务,提出一种检测多个基因交互作用的统计学方法W-test发表在影响因子为10.2的Nucleic Acids Research 上,并且进一步扩展延伸了这一方法,延伸方法也发表在Bioinformatics (7.1), Human Mutation (4.9), Genetic Epidemiology, BMC Genetics以及IEEE International Congress on Big Data 上。使用本项目提出的方法具有对复杂数据结构的鲁棒性,这是因为本方法具有一个data set adaptive 概率分布,结合了经典统计中的假设检验以及根据数据调整分布准确度的算法。在模拟数据上,本项目提出的算法的效能在多个模型上表现良好,超过了传统的统计方法逻辑回归以及卡方检验,同时很好的控制了错误发现率,达到了项目开始的初衷。在实际的GWAS数据上,我们也通过interaction effect找到了可重复的基因,这些基因具有明显的和躁郁症相关的生物实验结果。我们也与合作者开展了对此创新方法的实际应用,在临床肠炎病人的测序数据上,通过使用W-test,成功找到了有显著效果的基因-基因交互作用,其中包括MST1. 相关的生物实验正在持续进行中。我们也开发了W-test的R-软件包,C++软件包和linux软件包。
{{i.achievement_title}}
数据更新时间:2023-05-31
一种基于多层设计空间缩减策略的近似高维优化方法
萃取过程中微观到宏观的多尺度超分子组装 --离子液体的特异性功能
智能煤矿建设路线与工程实践
长链基因间非编码RNA 00681竞争性结合miR-16促进黑素瘤细胞侵袭和迁移
二维FM系统的同时故障检测与控制
一种生物合成碳点荧光微球的构建及其在高灵敏度病原体检测和疾病诊断中的应用研究
一种用于提高疾病预测准确率的新基因组特征选择方法以及其在阿尔茨海默病上的应用
纳米蛋白纤维传感器作癌症标记物的检测及其于疾病诊断中的应用
检测基因组上氧化损伤准确位置的高通量测序方法的开发和应用