With the fast development of technologies such as big data, high-dimensional data become more and more common. Before using these data, reducing their dimensions by feature selection methods not only reduces the system learning time, but also improves the learning accuracy. However, previous evolutionary feature selection methods face various problems, such as the "curse of dimensionality", the high cost of individual evaluation and the poor stability of feature subset. This project studies theories and methods of co-evolutionary particle swarm feature selection based on variable granularity division for high dimensional data, and expects to obtain the following achievements: (1) proposing a new dynamic division method of feature space guided by both the importance and the relevance degree of features, so as to divide a high-dimensional problem into multiple low-dimensional sub-problems with less computational cost and reduce the search space of each sub-population; (2) giving a low-cost and high-stability mechanism to evaluate sub-population individuals by combining a local information fusion mechanism and a sample weighting technology, so as to improve the stability of feature subset and reduce the evaluation cost; (3) by using multiple sub-populations to optimize sub-problems simultaneously, proposing a co-evolutionary particle swarm feature selection algorithm with variant populations and filter-based local search models and giving its implementation strategy, so as to improve the utilization efficiency of populations; (4) applying the proposed theories and methods in the identification problem of cancer gene for verifying their validity. This project has important meanings in theory and practical applications, its research results should produce a novel method for the feature selection of high dimensional data.
随着大数据等技术的快速发展,高维数据越来越普遍。在利用这些数据之前,采用特征选择方法对其降维,不仅可以减少系统学习的时间,而且能够提高学习的精度。但是,现有进化特征选择方法存在“维数灾难”、计算代价高昂和特征子集稳定性弱等问题。本项目研究高维数据的变粒度分割协同粒子群特征选择理论与方法。通过研究,期望提出重要性和相关性双重引导的特征空间变粒度分割方法,利用较小的代价将高维问题合理划分成若干个低维子问题,缩小子种群的搜索空间;建立基于局部特征信息融合和样本加权技术的子种群个体低代价高稳定性评价机制,在降低评价代价的同时,提高所选特征子集的稳定性;采用多个子种群同时优化若干子问题,给出融合过滤式局部搜索模型的变种群协同粒子群特征选择算法及并行实现,提高种群资源的利用效率;将所提理论与方法用于癌症基因识别问题,验证其有效性。研究成果将为高维数据特征选择提供新的求解途径,具有重要的理论和应用价值。
随着大数据等技术的快速发展,高维数据越来越普遍。在利用这些数据之前,采用特征选择方法对其进行降维,不仅可以减少系统学习的时间,而且能够提高学习的精度。但是,现有方法依然存在“维数灾难”、计算代价高昂等问题。针对高维数据的协同粒子群特征选择理论与方法,项目组进行了为期4年的全面深入研究,提出了重要性和相关性双重引导的特征空间变粒度分割方法,给出了基于局部特征信息和代理模型的种群个体低代价高稳定性评价机制,设计了融合过滤式局部搜索模型的变种群协同粒子群特征选择算法,并将所提理论与方法成功用于癌症基因识别、高光谱波段选择等实际问题。. 基于上述成果,获2022年教育部高等学校科学研究优秀成果奖自然科学二等奖1项、江苏省自动化学会科学技术奖一等奖1项;申请发明专利2项,已授权1项,登记计算机软件著作权3件;在“三高”学术期刊上发表论文25篇,其中,本领域顶级期刊论文8篇,中科院1区期刊论文14篇;培养博士研究生2名、硕士研究生6名,圆满完成了项目的预期目标。. 研究成果为高维数据提供了一系列新且高效的特征选择方法,丰富了特征选择理论与方法,显著提高了进化优化算法处理特征选择问题的性能,扩大了进化特征选择算法的应用范围,具有重要的理论意义和实用价值。
{{i.achievement_title}}
数据更新时间:2023-05-31
监管的非对称性、盈余管理模式选择与证监会执法效率?
水氮耦合及种植密度对绿洲灌区玉米光合作用和干物质积累特征的调控效应
物联网中区块链技术的应用与挑战
空气电晕放电发展过程的特征发射光谱分析与放电识别
一种改进的多目标正余弦优化算法
SDF-1/HOXB4融合蛋白介导间充质干细胞重建造血微环境及对脐血CD34+细胞定向募集的实验研究
河西走廊荒漠区道地中药材锁阳(Cynomorium songaricum Rupr.)的人工种植研究
面向高维混合数据的信息粒化与特征选择研究
基于特征聚类的高维混合属性数据特征选择方法
面向高维数据的粒计算理论与方法
基于多粒度信息粒化的数据分析方法及其应用研究