随着仪器采集能力和存储能力的不断提高,急剧增长的科学数据中含有大量的冗余特征和无关特征,它们损害了机器学习技术的泛化能力。近几年研究者提出冗余特征的概念,并开发出多种算法用于在机器学习建模过程中检测冗余信息。对于系统生物学中的蛋白质质谱识别等监督学习问题,已有算法检测冗余特征仅考虑特征之间的关系,忽略了问题的类别标记信息,而且对冗余特征多以去除对待。针对监督学习问题中的特征选择,建立在冗余特征也包含有用信息的假设基础上,本项目计划进行冗余特征的监督检测和重用技术的研究。研究将结合标记信息设计开发冗余特征监督检测准则,并结合特征抽取和多任务学习等技术设计开发冗余特征重用技术,来重新利用本将去除的冗余特征提高模型的泛化能力。冗余特征检测和重用技术将应用到系统生物学领域基于质谱的蛋白质识别等问题分析中,并结合特定问题数据集的产生特点设计开发新的算法,提高数据的处理精度和科学问题机理的认识能力。
{{i.achievement_title}}
数据更新时间:2023-05-31
EBPR工艺运行效果的主要影响因素及研究现状
基于国产化替代环境下高校计算机教学的研究
复杂系统科学研究进展
基于综合治理和水文模型的广西县域石漠化小流域区划研究
基于改进LinkNet的寒旱区遥感图像河流识别方法
冗余技术的理论研究
基于性能损失的电液伺服系统解析冗余在线故障检测与主动容错控制关键技术研究
复合测头的表面特征尺寸检测方法与技术研究
直流永磁球形电机的三维位置检测和冗余磁场控制的关键技术研究