Classification on massive imbalanced data has been a hot research topic in machine learning and data mining. Meanwhile, the dynamic and scalable computational capability of cloud computing provides an opportunity for effectively massive data mining. Solving this classification problem in the cloud computing environment can put forward a novel classification thought to improve machine learning system. By virtue of cloud computing capability of dynamics and scalability as well as favorable classification performance of support vector machine(SVM), the project intends to construct a classificaiton learning theory framework and present a classificaiton model, which is based on active learning SVM for massive imbalanced data. On the basis of the above mentioned framework and model, the project first presents novel massive imbalanced data preprocessing methods based on re-sampling and clustering. The project also puts forward samples' active seclection strategy based on probablility model and balanced datasets-based classifiers, and active learning stopping criteria. Secondly, the project gives an active learning SVM classification method for massive imbalanced data, which is parallelly implemented by MapReduce. Thirdly, an adaptive task scheduling method is presented in Hadoop platform to improve classfication efficiency. Lastly, the project develops and implements a MapReduce-based classification cloud flatform for massive imbalanced data. Thus, the project forms a complete solution for massive imbalanced data classification in the cloud computing environment.
海量不平衡数据分类是机器学习和数据挖掘领域的研究热点,而云计算的动态和可伸缩的计算能力为高效海量数据挖掘提供了机遇,在云计算环境下解决该问题可提出新的分类思想来完善机器学习体系。借助云计算的动态和可伸缩计算能力,以及支持向量机的良好分类性能,本项目拟构建一个海量不平衡数据分类学习理论框架,在云计算环境下提出一种基于主动学习支持向量机的海量不平衡数据分类模型。在此框架和模型下,首先提出云环境下的基于重采样和聚类的海量不平衡数据预处理方法;并提出基于概率模型以及平衡集分类器的样本主动选择策略,和适用于海量不平衡数据的主动学习停止准则;其次提出面向海量不平衡数据的主动学习支持向量机分类算法,并基于MapReduce实现;然后提出一种自适应的Hadoop任务调度策略来提高分类效率;最后开发一个基于MapReduce的海量不平衡数据分类云平台。从而在云环境下形成一个完整的海量不平衡数据分类解决方案。
海量不平衡数据的分类问题是机器学习和数据挖掘领域中的一个研究热点,在云计算环境下对该问题进行研究可以进一步完善机器学习体系。本项目针对海量不平衡数据的分类学习问题,提出了基于分层聚类及重采样的大规模数据分类方法、基于卡方检验尺度核支持向量机的不平衡数据分类方法、基于双加权极限学习机的不平衡数据流分类方法;结合集成学习思想,提出了基于差分进化的选择集成学习方法、基于神经网络的不平衡数据流集成分类方法;针对云计算环境下数据处理问题,提出了基于MapReduce框架的海量数据连续属性离散化算法的并行化方法、基于朴素贝叶斯的数据分类方法,以及基于MapReduce的关键字搜索方法;并对Hadoop平台的任务级调度优化策略进行分析与研究,建立了基于Markov链的Hadoop集群性能预估优化模型。项目组执行期间发表和录用了26篇论文,其中被SCI检索和待检索15篇,EI检索7篇,申请发明专利3项。
{{i.achievement_title}}
数据更新时间:2023-05-31
论大数据环境对情报学发展的影响
基于LASSO-SVMR模型城市生活需水量的预测
基于SSVEP 直接脑控机器人方向和速度研究
自然灾难地居民风险知觉与旅游支持度的关系研究——以汶川大地震重灾区北川和都江堰为例
面向云工作流安全的任务调度方法
云计算环境下海量遥感数据的节能存储研究
基于云计算的海量数据挖掘
云计算环境下基于图模型的海量RDF数据管理关键技术研究
云计算环境中身份基海量数据分布式PDP的研究