Learning the rule of selecting the best one from group data (SBG) is a new machine learning problem. It brings some challenges for the existing machine learning models because of the new characteristics. To eliminate the negative impact on the comparison of the samples with same type between groups, this project first investigates the data preprocessing method,as well as the embedding methods in modeling without taking the comparison. Then, the quantitative measure of generalization performance for SBG is proposed. And some new models for the SBG learning problem are developed, in which a strong generalization performance and a good suitability for nonlinear separable problem within-group are guaranteed. Thirdly,to overcome the extremely unbalanced problem between the sizes of two classes, some methods without utilizing the weights of classes are investigated. Fourthly, the efficient algorithm for the new models with large scale data is presented after investigating the nature of the models. Finally, two applications on the optimizations of process parameters and investment are provided. SBG is a new foundation machine learning problem, this project will extend the models, algorithms and application ranges of the existing machine learning techinique,which is innovation in theory and has great application value.
组中选优是机器学习尚待研究具有挑战性的新问题,具有常规机器学习所没有的新特点。本项目针对组间同类样本之间的比较带来负面影响的问题,研究降低其影响的数据预处理方法,以及在建模中对组间同类样本不进行比较的嵌入方法;在此基础上,设计体现分组特点的泛化性能定量指标,建立具有强泛化性能和组内非线性可分处理能力的组中选优机器学习新模型;并针对最优样本与非最优样本数量极度不平衡问题,研究不使用类权重的处理方法;分析新模型的性质,给出大规模问题时的高效算法;结合工艺参数寻优和投资优化等领域的组中选优问题,开展新模型、新算法的应用研究。组中选优作为一个新的基础性机器学习问题,本项目的研究可以丰富现有机器学习的模型和算法,拓广现有机器学习的应用范围,既有很强的创新性,亦有重要的应用价值。
在自然、经济和社会领域,存在大量样本以组为单位出现,任务为选出每组最优样本的组中选优问题。组中选优问题具有常规机器学习问题所没有的新特点。首先,组中选优问题仅需学习组内不同类样本之间的差异性,无需学习组间同类样本之间的相似性;其次,组间同类样本之间相似性的学习甚至会带来负面影响。为此必须发展适合这些特点的机器学习新模型和相关算法。.本项目主要研究组中选优机器学习问题的数据预处理、建模、算法和在相关领域的应用。在组中选优机器学习问题的数据预处理方面,我们给出了保持组内不同类样本差异条件下,减弱组间同类样本比较影响的组内归一化和组内比例化方法。通过在约束中表达“仅需学习组内不同类样本之间的差异性,无需学习组间同类样本之间的相似性”的要求,我们建立了组中选优机器学习问题模型GSVMs,该模型为凸二次规划问题,具有传统支持向量机模型(support vector machine, SVM)的所有优点,即强泛化能力和非线性处理能力,不会陷入局部极小值等。针对最优和非最优样本极度不平衡问题,我们提出了给定经验风险水平的模型,通过精确保证给定训练样本的经验风险水平,解决了两类样本极度不平衡问题。进一步地,我们给出了组中选优机器学习模型的最小序贯算法,使之能处理大规模数据。最后将组中选优机器学习模型应用于新股申购问题,取得了比传统模型更高的预测准确率和收益率,表明了组中选优机器学习模型和算法的有效性和优越性。.GSVMs是传统SVM的一种推广,当学习样本仅有一组时,GSVMs就退化为传统的SVM。组中选优问题在现实世界中广泛存在,GSVMs具有广阔的应用前景。
{{i.achievement_title}}
数据更新时间:2023-05-31
论大数据环境对情报学发展的影响
基于LASSO-SVMR模型城市生活需水量的预测
基于SSVEP 直接脑控机器人方向和速度研究
自然灾难地居民风险知觉与旅游支持度的关系研究——以汶川大地震重灾区北川和都江堰为例
基于分形维数和支持向量机的串联电弧故障诊断方法
面向机器学习任务的优化建模与算法研究
基于数据特性分析的机器学习建模与算法研究
分数阶湍流问题的机器学习建模及谱元实现
基于机器学习的相关反馈算法中若干关键问题研究