云计算环境下海量不平衡数据分类研究

基本信息
批准号:61373127
项目类别:面上项目
资助金额:72.00
负责人:张永
学科分类:
依托单位:辽宁师范大学
批准年份:2013
结题年份:2017
起止时间:2014-01-01 - 2017-12-31
项目状态: 已结题
项目参与者:郑晓薇,任永功,刘青昆,黄丹,张大为,王建英,浮盼盼,张红蕊,张玉婷
关键词:
分类任务调度云计算不平衡数据支持向量机
结项摘要

Classification on massive imbalanced data has been a hot research topic in machine learning and data mining. Meanwhile, the dynamic and scalable computational capability of cloud computing provides an opportunity for effectively massive data mining. Solving this classification problem in the cloud computing environment can put forward a novel classification thought to improve machine learning system. By virtue of cloud computing capability of dynamics and scalability as well as favorable classification performance of support vector machine(SVM), the project intends to construct a classificaiton learning theory framework and present a classificaiton model, which is based on active learning SVM for massive imbalanced data. On the basis of the above mentioned framework and model, the project first presents novel massive imbalanced data preprocessing methods based on re-sampling and clustering. The project also puts forward samples' active seclection strategy based on probablility model and balanced datasets-based classifiers, and active learning stopping criteria. Secondly, the project gives an active learning SVM classification method for massive imbalanced data, which is parallelly implemented by MapReduce. Thirdly, an adaptive task scheduling method is presented in Hadoop platform to improve classfication efficiency. Lastly, the project develops and implements a MapReduce-based classification cloud flatform for massive imbalanced data. Thus, the project forms a complete solution for massive imbalanced data classification in the cloud computing environment.

海量不平衡数据分类是机器学习和数据挖掘领域的研究热点,而云计算的动态和可伸缩的计算能力为高效海量数据挖掘提供了机遇,在云计算环境下解决该问题可提出新的分类思想来完善机器学习体系。借助云计算的动态和可伸缩计算能力,以及支持向量机的良好分类性能,本项目拟构建一个海量不平衡数据分类学习理论框架,在云计算环境下提出一种基于主动学习支持向量机的海量不平衡数据分类模型。在此框架和模型下,首先提出云环境下的基于重采样和聚类的海量不平衡数据预处理方法;并提出基于概率模型以及平衡集分类器的样本主动选择策略,和适用于海量不平衡数据的主动学习停止准则;其次提出面向海量不平衡数据的主动学习支持向量机分类算法,并基于MapReduce实现;然后提出一种自适应的Hadoop任务调度策略来提高分类效率;最后开发一个基于MapReduce的海量不平衡数据分类云平台。从而在云环境下形成一个完整的海量不平衡数据分类解决方案。

项目摘要

海量不平衡数据的分类问题是机器学习和数据挖掘领域中的一个研究热点,在云计算环境下对该问题进行研究可以进一步完善机器学习体系。本项目针对海量不平衡数据的分类学习问题,提出了基于分层聚类及重采样的大规模数据分类方法、基于卡方检验尺度核支持向量机的不平衡数据分类方法、基于双加权极限学习机的不平衡数据流分类方法;结合集成学习思想,提出了基于差分进化的选择集成学习方法、基于神经网络的不平衡数据流集成分类方法;针对云计算环境下数据处理问题,提出了基于MapReduce框架的海量数据连续属性离散化算法的并行化方法、基于朴素贝叶斯的数据分类方法,以及基于MapReduce的关键字搜索方法;并对Hadoop平台的任务级调度优化策略进行分析与研究,建立了基于Markov链的Hadoop集群性能预估优化模型。项目组执行期间发表和录用了26篇论文,其中被SCI检索和待检索15篇,EI检索7篇,申请发明专利3项。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

论大数据环境对情报学发展的影响

论大数据环境对情报学发展的影响

DOI:
发表时间:2017
2

基于LASSO-SVMR模型城市生活需水量的预测

基于LASSO-SVMR模型城市生活需水量的预测

DOI:10.19679/j.cnki.cjjsjj.2019.0538
发表时间:2019
3

基于SSVEP 直接脑控机器人方向和速度研究

基于SSVEP 直接脑控机器人方向和速度研究

DOI:10.16383/j.aas.2016.c150880
发表时间:2016
4

自然灾难地居民风险知觉与旅游支持度的关系研究——以汶川大地震重灾区北川和都江堰为例

自然灾难地居民风险知觉与旅游支持度的关系研究——以汶川大地震重灾区北川和都江堰为例

DOI:10.12054/lydk.bisu.148
发表时间:2020
5

面向云工作流安全的任务调度方法

面向云工作流安全的任务调度方法

DOI:10.7544/issn1000-1239.2018.20170425
发表时间:2018

张永的其他基金

批准号:61104027
批准年份:2011
资助金额:23.00
项目类别:青年科学基金项目
批准号:41471087
批准年份:2014
资助金额:85.00
项目类别:面上项目
批准号:61563042
批准年份:2015
资助金额:39.00
项目类别:地区科学基金项目
批准号:61873197
批准年份:2018
资助金额:63.00
项目类别:面上项目
批准号:70902029
批准年份:2009
资助金额:18.00
项目类别:青年科学基金项目
批准号:41001009
批准年份:2010
资助金额:22.00
项目类别:青年科学基金项目
批准号:71501049
批准年份:2015
资助金额:17.40
项目类别:青年科学基金项目
批准号:11262015
批准年份:2012
资助金额:50.00
项目类别:地区科学基金项目
批准号:61605112
批准年份:2016
资助金额:19.00
项目类别:青年科学基金项目
批准号:41006040
批准年份:2010
资助金额:20.00
项目类别:青年科学基金项目
批准号:61772252
批准年份:2017
资助金额:60.00
项目类别:面上项目
批准号:71372198
批准年份:2013
资助金额:55.00
项目类别:面上项目

相似国自然基金

1

云计算环境下海量遥感数据的节能存储研究

批准号:61363083
批准年份:2013
负责人:钱育蓉
学科分类:F0207
资助金额:43.00
项目类别:地区科学基金项目
2

基于云计算的海量数据挖掘

批准号:61035003
批准年份:2010
负责人:史忠植
学科分类:F0603
资助金额:230.00
项目类别:重点项目
3

云计算环境下基于图模型的海量RDF数据管理关键技术研究

批准号:61502504
批准年份:2015
负责人:卢卫
学科分类:F0202
资助金额:22.00
项目类别:青年科学基金项目
4

云计算环境中身份基海量数据分布式PDP的研究

批准号:61272522
批准年份:2012
负责人:王化群
学科分类:F0205
资助金额:80.00
项目类别:面上项目