Building and estimating models based on data sets is one of the most effective techniques in complex nonlinear systems. While date sampled form most of complex nonlinear systems are always with the properties of large scale and high dimension. Modeling on this kind of data sets, it is difficult to build nonlinear models which are required to achieve a reasonable computational cost with improved prediction accuracy and generalization. A fundamentally different ensemble approach that is based on multivariate fuzzy Taylor theorem, called Feature Subsets Ensemble (FSE), will be proposed in this item to deal with the large-scale and high-dimensional problem. FSE constructs all FSSs of the original feature space that are defined over from one to a fixed number of input features. The set of direct, exhaustive and independent feature-space subdivisions forms the basis to develop FSE. Then selects suitable base learner to build sub-models on all or a random subset of these FSSs, and combines all sub-models to obtain the needed ensemble model. The direct division of the original feature-spaces makes the generating process of FSSs simple and speed; the exhaustive division keeps the integrality of the information of original training sets and further insures the predictive accuracy of FSE; the independency division separates form each other of FSSs and induces the parallel structure of FSE. In each FSS the number of samples is same as the original training set, but the dimension of input features is substantially reduced. Learning on substantially lower dimension data sets, the FSE is characterized by low complexity.
数据建模是复杂工业系统最有效的建模方法之一,而复杂工业系统中的数据往往具有维数高规模大的特点。利用这类数据集进行建模,除了要求模型需要满足一定的精度外,还希望尽可能地减小模型的计算量,给建模方法的研究带来很大难度。针对高维数大规模数据,本项目拟根据多元模糊泰勒定理提出一种新颖的基于特征子集(Feature Sub-Sets-FSS)的集成建模方法。该方法从1维到设定的最大维数,直接、独立、全面地划分特征空间以建立FSS;通过选择适当的基学习算法,在所有或部分FSS上建立子模型;最终通过子模型的融合得到所需的模型。特征空间划分的直接性可促使FSS简单快速地获得;全面性保证原始数据集信息的完整性,确保集成模型的准确度;独立性使得FSS互不依赖,实现并行的集成结构。FSS的样本个数与原始训练集相同,而输入维数明显减低,在这些低维数的FSS上建立子模型大大降低模型的计算量。
数据建模是复杂工业系统最有效的建模方法之一,而复杂工业系统中的数据往往具有维数高规模大的特点。利用这类数据集进行建模,除了要求模型需要满足一定的精度外,还希望尽可能地减小模型的计算量,这给建模方法的研究带来很大难度。针对大规模高维数数据,本项目根据多元模糊泰勒定理提出一种新颖的基于特征子集(Feature Sub-Sets—FSS)的集成建模方法。该方法能够直接、快速、全面地划分特征空间,构建低维特征子集,节省更多的计算机存储空间,间接“缩小”样本规模、“均衡”数据分布;预测精度高、差异大的子模型是设计好的集成模型的必要条件。适合的基学习机是满足该条件的重要因素,同时能够帮助FSE方法解决大数据值密度低的问题。因此,分别以BP网络和fixed-size LS-SVM为代表,研究了FSE方法对不稳定学习机和稳定学习机的有效性问题;过多冗余的子模型会限制FSE模型的应用潜能,因此有必要在保证预测精度的条件下,减少子模型个数。针对该问题,提出了基于最大熵的集成修剪(MEP)算法。先按误差从小到大排列子模型,以误差最小的部分子模型作为初始工作集;再以工作集熵值最大为准则,不断替换工作集中的子模型。MEP算法可以充分利用子模型的预测精度和多样性。MEP-FSE方法在一定程度上解决了大数据种类多、价值密度低的问题。FSE方法全面划分特征空间,重复使用整个训练集,噪声数据也会被重复使用,限制了模型预测精度的提高。为增强FSE模型的鲁棒性,在特征子集中引入Bootstrap采样方法用以限制噪声数据的重复使用,并提出了Bootstrap-FSE方法。该方法能够有效解决大数据真实性低的问题,并在一定程度上解决了大数据要求处理速度快的问题。
{{i.achievement_title}}
数据更新时间:2023-05-31
论大数据环境对情报学发展的影响
粗颗粒土的静止土压力系数非线性分析与计算方法
基于 Kronecker 压缩感知的宽带 MIMO 雷达高分辨三维成像
小跨高比钢板- 混凝土组合连梁抗剪承载力计算方法研究
自然灾难地居民风险知觉与旅游支持度的关系研究——以汶川大地震重灾区北川和都江堰为例
基于多核的大规模高维数据并行索引研究
基于非显式隐私保护的大规模高维数据聚类方法研究
基于集成学习的高维癌症基因微阵列数据分析方法研究
海量数据驱动的高维材质外观建模方法