Tumor gene expression data has the characteristics of small sample size, high dimensionality, big noise, high redundancy, and non-linearity, etc. Feature gene selection and gene function analysis are the two concernful and difficult points of tumor gene expression research . This project intends to conduct the study from the following aspects: 1) Against the drawback of univariate filter method that it does not consider the relationship between genes in the process of gene selection, this project proposes a novel multivariate filter method based on the statistical theory of Chi-square test for independence. 2) Contrary to the fact that most existing classifiers have the defects of complex classification rules and are easy to fall into over learning, in consideration of the characteristics of microarray data, this project designs a Chi-square classifier with simple classification rules and visual classification process. 3) In connection with the fact that the genes selected by filter method always can not make the filter's recognition ability of tumor is the best, this project advocates individually introducing the sorted genes to remove the redundancy and to obtain the effective tumor classification feature genes with the Chi-square classifier. 4) Relying on the several groups of feature genes obtained from several groups of stochastic taining samples, this project establishes the gene co-expression network and deeply analyzes the function and biological significance of feature genes combined with GO database. Based on these important improvements, this project is expected to greatly enhance the analytic capabilities for tumor gene expression data.
肿瘤基因表达谱数据具样本小、维数高、噪声大、冗余度高、非线性等特性,特征基因选择和基因功能解析是其研究的重点与难点。本项目拟从以下几个方面进行研究: 1)针对单变量过滤法在基因选择过程中不考虑基因间相互关系的缺陷,基于独立性卡方测验的统计理论,发展一种新的多变量过滤法。2)针对现有大多分类器分类规则复杂,易陷入过学习的缺陷,基于微阵列数据特点,设计了一种分类过程可视化分类规则简单的独立性卡方分类器。3)针对过滤法筛选出的基因难以使分类器对肿瘤的识别能力达到最优的问题,提出结合独立性卡方分类器,对排序后的基因逐个引入剔除冗余,得到用于肿瘤分类的特征基因。4)基于多组随机训练样本获得的多组特征基因,构建基因共表达网络,结合GO数据库,深度解析特征基因功能及生物学意义。基于上述重要改进,本项目有望较大幅度提升肿瘤基因表达谱数据分析能力。
我们严格按照本青年基金的研究计划,开展了各项研究内容。目前已按计划完成了全部研究内容。在本基金的资助下,我们共发表科研论文6篇,其中SCI论文4篇,SCI论文的影响因子累计为11.38,超额完成了本青年基金预期的成果产出。. 经过三年的研究,取得的主要结果如下: . (1)基于互作与卡方测验发展了信息基因选择新方法x2-IRG-DC 。 x2-IRG-DC特征选择过程为:先利用单基因卡方值和成对基因互作卡方值,计算基因的综合加权得分,得基因的重要性排序;再基于x2-DC直接分类器序贯引入排序基因,并依训练集的留一法精度和卡方增益去冗余,获得特征基因子集;最后基于x2-DC 和特征基因实施独立预测。经9个二分类和10个多分类肿瘤基因芯片实例验证,x2-IRG-DC 预测精度明显优于文献报道,泛化性能好,鲁棒性强。. (2)通过融合横向比较与纵向比较两种配对基因评价策略,发展了一种基于复杂度的信息基因选择新方法RS-based DC。RS-based DC针对多分类问题实施“私有信息基因选择”,即对每个肿瘤亚型筛选出最有区分能力的私有信息基因子集,并以此构建PK式直接分类器实施多分类预测。经9个多分类肿瘤基因芯片实例验证,RS-based DC能有效检测出基于肿瘤芯片数据特点总结的六类配对基因联合模式,相较参比算法,RS-based DC能以最少的基因子集获得最高的独立预测精度,并能有效控制过拟合问题。. (3)基于不同特征选择方法所选的多组特征基因子集,构建了基因互作网络。利用Spring在线工具构建特征基因互作网络,分析特征基因之间的关联,并结合GO 数据库和相关疾病数据库,解析特征基因功能。以二分类数据集Prostate1和多分类数据集leukemia2为例进行实证研究,结果表明,不同特征选择方法所选的基因子集虽然重叠较少,但部分基因之间存在共表达、共生等互作关系。
{{i.achievement_title}}
数据更新时间:2023-05-31
DeoR家族转录因子PsrB调控黏质沙雷氏菌合成灵菌红素
监管的非对称性、盈余管理模式选择与证监会执法效率?
跨社交网络用户对齐技术综述
城市轨道交通车站火灾情况下客流疏散能力评价
基于FTA-BN模型的页岩气井口装置失效概率分析
栉孔扇贝应答高温胁迫的关键基因及其共表达网络分析
高粱糖分相关基因共表达网络分析及甜高粱蔗糖代谢关键基因验证
基因-MicroRNA共表达肿瘤腺病毒治疗新方法的研究
基于普适性关联基因的共表达网络构建