基于高维大规模数据的集成建模方法的研究

基本信息

批准号：61473072

项目类别：面上项目

资助金额：80.00

负责人：毛志忠

学科分类：

依托单位：东北大学

批准年份：2014

结题年份：2018

起止时间：2015-01-01 - 2018-12-31

项目状态：已结题

项目参与者：袁平,肖冬,高仝,王晓军,白晶,张俊,张庭丰

关键词：

集成模型特征子集高维大规模数据集

结项摘要

Building and estimating models based on data sets is one of the most effective techniques in complex nonlinear systems. While date sampled form most of complex nonlinear systems are always with the properties of large scale and high dimension. Modeling on this kind of data sets, it is difficult to build nonlinear models which are required to achieve a reasonable computational cost with improved prediction accuracy and generalization. A fundamentally different ensemble approach that is based on multivariate fuzzy Taylor theorem, called Feature Subsets Ensemble (FSE), will be proposed in this item to deal with the large-scale and high-dimensional problem. FSE constructs all FSSs of the original feature space that are defined over from one to a fixed number of input features. The set of direct, exhaustive and independent feature-space subdivisions forms the basis to develop FSE. Then selects suitable base learner to build sub-models on all or a random subset of these FSSs, and combines all sub-models to obtain the needed ensemble model. The direct division of the original feature-spaces makes the generating process of FSSs simple and speed; the exhaustive division keeps the integrality of the information of original training sets and further insures the predictive accuracy of FSE; the independency division separates form each other of FSSs and induces the parallel structure of FSE. In each FSS the number of samples is same as the original training set, but the dimension of input features is substantially reduced. Learning on substantially lower dimension data sets, the FSE is characterized by low complexity.

数据建模是复杂工业系统最有效的建模方法之一，而复杂工业系统中的数据往往具有维数高规模大的特点。利用这类数据集进行建模，除了要求模型需要满足一定的精度外，还希望尽可能地减小模型的计算量，给建模方法的研究带来很大难度。针对高维数大规模数据，本项目拟根据多元模糊泰勒定理提出一种新颖的基于特征子集（Feature Sub-Sets-FSS）的集成建模方法。该方法从1维到设定的最大维数，直接、独立、全面地划分特征空间以建立FSS；通过选择适当的基学习算法，在所有或部分FSS上建立子模型；最终通过子模型的融合得到所需的模型。特征空间划分的直接性可促使FSS简单快速地获得；全面性保证原始数据集信息的完整性，确保集成模型的准确度；独立性使得FSS互不依赖，实现并行的集成结构。FSS的样本个数与原始训练集相同，而输入维数明显减低，在这些低维数的FSS上建立子模型大大降低模型的计算量。

项目摘要

数据建模是复杂工业系统最有效的建模方法之一，而复杂工业系统中的数据往往具有维数高规模大的特点。利用这类数据集进行建模，除了要求模型需要满足一定的精度外，还希望尽可能地减小模型的计算量，这给建模方法的研究带来很大难度。针对大规模高维数数据，本项目根据多元模糊泰勒定理提出一种新颖的基于特征子集（Feature Sub-Sets—FSS）的集成建模方法。该方法能够直接、快速、全面地划分特征空间，构建低维特征子集，节省更多的计算机存储空间，间接“缩小”样本规模、“均衡”数据分布；预测精度高、差异大的子模型是设计好的集成模型的必要条件。适合的基学习机是满足该条件的重要因素，同时能够帮助FSE方法解决大数据值密度低的问题。因此，分别以BP网络和fixed-size LS-SVM为代表，研究了FSE方法对不稳定学习机和稳定学习机的有效性问题；过多冗余的子模型会限制FSE模型的应用潜能，因此有必要在保证预测精度的条件下，减少子模型个数。针对该问题，提出了基于最大熵的集成修剪（MEP）算法。先按误差从小到大排列子模型，以误差最小的部分子模型作为初始工作集；再以工作集熵值最大为准则，不断替换工作集中的子模型。MEP算法可以充分利用子模型的预测精度和多样性。MEP-FSE方法在一定程度上解决了大数据种类多、价值密度低的问题。FSE方法全面划分特征空间，重复使用整个训练集，噪声数据也会被重复使用，限制了模型预测精度的提高。为增强FSE模型的鲁棒性，在特征子集中引入Bootstrap采样方法用以限制噪声数据的重复使用，并提出了Bootstrap-FSE方法。该方法能够有效解决大数据真实性低的问题，并在一定程度上解决了大数据要求处理速度快的问题。

项目成果

DOI：{{i.doi}}

发表时间：{{i.publish_year}}

暂无此项成果

数据更新时间：2023-05-31

其他相关文献

DOI：10.3778/j.issn.1002-8331.1911-0012

发表时间：2020

DOI：10.1051/jnwpu/20213920292

发表时间：2021

DOI：10.13199/j.cnki.cst.2020.07.010

发表时间：2020

DOI：10.16383/j.aas.c180673

发表时间：2021

DOI：

发表时间：2020

毛志忠的其他基金

相似国自然基金

基于多核的大规模高维数据并行索引研究

批准号：61103171

批准年份：2011

负责人：周迪斌

学科分类：F0210

资助金额：22.00

项目类别：青年科学基金项目

基于非显式隐私保护的大规模高维数据聚类方法研究

批准号：61370213

批准年份：2013

负责人：张晓峰

学科分类：F0206

资助金额：75.00

项目类别：面上项目

基于集成学习的高维癌症基因微阵列数据分析方法研究

批准号：61100106

批准年份：2011

负责人：刘昆宏

学科分类：F0213

资助金额：22.00

项目类别：青年科学基金项目

海量数据驱动的高维材质外观建模方法

批准号：61303135

批准年份：2013

负责人：吴鸿智

学科分类：F0209

资助金额：22.00

项目类别：青年科学基金项目

基于高维大规模数据的集成建模方法的研究

{{i.achievement_title}}

暂无此项成果

其他相关文献

针对弱边缘信息的左心室图像分割算法

一种基于多层设计空间缩减策略的近似高维优化方法

智能煤矿建设路线与工程实践

二维FM系统的同时故障检测与控制

扶贫资源输入对贫困地区分配公平的影响

毛志忠的其他基金

相似国自然基金