云计算环境下海量不平衡数据分类研究

基本信息

批准号：61373127

项目类别：面上项目

资助金额：72.00

负责人：张永

学科分类：

依托单位：辽宁师范大学

批准年份：2013

结题年份：2017

起止时间：2014-01-01 - 2017-12-31

项目状态：已结题

项目参与者：郑晓薇,任永功,刘青昆,黄丹,张大为,王建英,浮盼盼,张红蕊,张玉婷

关键词：

分类任务调度云计算不平衡数据支持向量机

结项摘要

Classification on massive imbalanced data has been a hot research topic in machine learning and data mining. Meanwhile, the dynamic and scalable computational capability of cloud computing provides an opportunity for effectively massive data mining. Solving this classification problem in the cloud computing environment can put forward a novel classification thought to improve machine learning system. By virtue of cloud computing capability of dynamics and scalability as well as favorable classification performance of support vector machine(SVM), the project intends to construct a classificaiton learning theory framework and present a classificaiton model, which is based on active learning SVM for massive imbalanced data. On the basis of the above mentioned framework and model, the project first presents novel massive imbalanced data preprocessing methods based on re-sampling and clustering. The project also puts forward samples' active seclection strategy based on probablility model and balanced datasets-based classifiers, and active learning stopping criteria. Secondly, the project gives an active learning SVM classification method for massive imbalanced data, which is parallelly implemented by MapReduce. Thirdly, an adaptive task scheduling method is presented in Hadoop platform to improve classfication efficiency. Lastly, the project develops and implements a MapReduce-based classification cloud flatform for massive imbalanced data. Thus, the project forms a complete solution for massive imbalanced data classification in the cloud computing environment.

海量不平衡数据分类是机器学习和数据挖掘领域的研究热点，而云计算的动态和可伸缩的计算能力为高效海量数据挖掘提供了机遇，在云计算环境下解决该问题可提出新的分类思想来完善机器学习体系。借助云计算的动态和可伸缩计算能力，以及支持向量机的良好分类性能，本项目拟构建一个海量不平衡数据分类学习理论框架，在云计算环境下提出一种基于主动学习支持向量机的海量不平衡数据分类模型。在此框架和模型下，首先提出云环境下的基于重采样和聚类的海量不平衡数据预处理方法；并提出基于概率模型以及平衡集分类器的样本主动选择策略，和适用于海量不平衡数据的主动学习停止准则；其次提出面向海量不平衡数据的主动学习支持向量机分类算法，并基于MapReduce实现；然后提出一种自适应的Hadoop任务调度策略来提高分类效率；最后开发一个基于MapReduce的海量不平衡数据分类云平台。从而在云环境下形成一个完整的海量不平衡数据分类解决方案。

项目摘要

海量不平衡数据的分类问题是机器学习和数据挖掘领域中的一个研究热点，在云计算环境下对该问题进行研究可以进一步完善机器学习体系。本项目针对海量不平衡数据的分类学习问题，提出了基于分层聚类及重采样的大规模数据分类方法、基于卡方检验尺度核支持向量机的不平衡数据分类方法、基于双加权极限学习机的不平衡数据流分类方法；结合集成学习思想，提出了基于差分进化的选择集成学习方法、基于神经网络的不平衡数据流集成分类方法；针对云计算环境下数据处理问题，提出了基于MapReduce框架的海量数据连续属性离散化算法的并行化方法、基于朴素贝叶斯的数据分类方法，以及基于MapReduce的关键字搜索方法；并对Hadoop平台的任务级调度优化策略进行分析与研究，建立了基于Markov链的Hadoop集群性能预估优化模型。项目组执行期间发表和录用了26篇论文，其中被SCI检索和待检索15篇，EI检索7篇，申请发明专利3项。

项目成果

DOI：{{i.doi}}

发表时间：{{i.publish_year}}

暂无此项成果

数据更新时间：2023-05-31

其他相关文献

DOI：10.13334/j.0258-8013.pcsee.190276

发表时间：2020

DOI：10.19328/j.cnki.2096-8655.2022.02.002

发表时间：2022

DOI：10.13199/j.cnki.cst.2020.07.010

发表时间：2020

DOI：10.3969/j.issn.1004-132x.2022.18.003

发表时间：2022

DOI：10.16798/j.issn.1003-0530.2020.01.008

发表时间：2020

张永的其他基金

批准号：61104027

批准年份：2011

资助金额：23.00

项目类别：青年科学基金项目

批准号：41471087

批准年份：2014

资助金额：85.00

项目类别：面上项目

批准号：61563042

批准年份：2015

资助金额：39.00

项目类别：地区科学基金项目

批准号：61873197

批准年份：2018

资助金额：63.00

项目类别：面上项目

批准号：70902029

批准年份：2009

资助金额：18.00

项目类别：青年科学基金项目

批准号：41001009

批准年份：2010

资助金额：22.00

项目类别：青年科学基金项目

批准号：71501049

批准年份：2015

资助金额：17.40

项目类别：青年科学基金项目

批准号：11262015

批准年份：2012

资助金额：50.00

项目类别：地区科学基金项目

批准号：61605112

批准年份：2016

资助金额：19.00

项目类别：青年科学基金项目

批准号：41006040

批准年份：2010

资助金额：20.00

项目类别：青年科学基金项目

批准号：61772252

批准年份：2017

资助金额：60.00

项目类别：面上项目

批准号：71372198

批准年份：2013

资助金额：55.00

项目类别：面上项目

相似国自然基金

云计算环境下海量遥感数据的节能存储研究

批准号：61363083

批准年份：2013

负责人：钱育蓉

学科分类：F0207

资助金额：43.00

项目类别：地区科学基金项目

基于云计算的海量数据挖掘

批准号：61035003

批准年份：2010

负责人：史忠植

学科分类：F0603

资助金额：230.00

项目类别：重点项目

云计算环境下基于图模型的海量RDF数据管理关键技术研究

批准号：61502504

批准年份：2015

负责人：卢卫

学科分类：F0202

资助金额：22.00

项目类别：青年科学基金项目

云计算环境下海量数据查询优化与智能处理的研究

批准号：61173162

批准年份：2011

负责人：李克秋

学科分类：F0207

资助金额：58.00

项目类别：面上项目

云计算环境下海量不平衡数据分类研究

{{i.achievement_title}}

暂无此项成果

其他相关文献

多能耦合三相不平衡主动配电网与输电网交互随机模糊潮流方法

"多对多"模式下GEO卫星在轨加注任务规划

智能煤矿建设路线与工程实践

基于颗粒阻尼的变频空调压缩机管路减振设计

TVBN-ResNeXt:解决动作视频分类的端到端时空双流融合网络

张永的其他基金

基于切换模型的网络控制系统有限时间鲁棒故障检测研究

基于树轮的祁连山山地滑坡的时空特征重建及其与气候要素和地震的关系分析

基于地面三维应力的奶牛早期跛行数字化识别技术的研究

基于多阶段退化特征的滚动轴承的智能自适应剩余寿命预测研究

面向扰动的生物质能供应链协调机制研究-以生物质发电和液体燃料产业为例

祁连山区千年树木年轮记录的古地震信息研究

集成专家意见的在线投资组合策略设计及竞争性能分析

挟沙风作用下风力机叶片涂层冲蚀过程及磨损评价的研究

基于亚波长光栅的硅基片上模式复用器

烟台市夹河口及其邻近的北黄海海域海气界面的一氧化碳通量研究

基于海量数据流挖掘的网络入侵检测方法研究

扰动下可持续生物燃料供应链系统鲁棒优化与仿真研究

相似国自然基金