Privacy protection is an important research topic in the field of data mining, and the Privacy Preserving Support Vector Machine (PPSVM) obtains more and more attention. The data set processing by PPSVM is necessary to keep confidential but also to reflect the true situation, so the algorithm research of PPSVM is different to that of the general SVM. To improve the learning efficiency of large-scale data sets, the project mainly focuses on the incremental and parallel learning algorithms for PPSVM towards privacy protection. The first problem is to address the effective encryption of large data sets, so as to obtain an independent locally data set with an overall coordination. Secondly, the feasible solution algorithms are constructed for PPSVM. Especially for large-scale data set, the SOR method is introducted for solving the model of PPSVM. The third problem focuses on the incremental learning algorithms for PPSVM so as to improve the training speed and reduce storage space. Finally, the parallel learning algorithms are constructed for PPSVM so that it can quickly solve large-scale classification problems. The goal of the project is to establish the theoretical basis of the above problems and to prove the equivalence of solutions of the model and the convergence of the algorithm. Another goal is to to discuss the algorithm parameter optimization selected so as to optimize the performance of PPSVM algorithms. The project findings will be verifyed by in the applications fields such as banking and insurance.
隐私保护是当前数据挖掘领域中一个重要的研究课题,其中隐私保护支持向量机(PPSVM)日益受到关注。由于PPSVM所处理的数据集既要保密又要反映真实情况,对PPSVM的算法研究与一般SVM不尽相同。为提高大规模数据集的学习效率,本项目针对PPSVM的增量学习算法以及学习算法的并行化问题进行研究。首先研究大规模数据集有效加密措施,形成一个局部独立、整体协作的数据集。其次,构造PPSVM可行的求解算法,尤其是针对大规模的数据集探讨SOR方法在PPSVM求解中的应用。再次,引入PPSVM增量学习技术,减少存储空间,提高训练速度;最后,研究PPSVM的并行算法,使之能快速地求解超大规模的分类问题。本项目将建立上述问题的理论基础,研究模型解的等价性、各算法的收敛性。研究PPSVM算法的参数优化选取,使PPSVM算法的性能达到最优。项目研究结果将在银行、保险等行业中的予以应用验证。
本项目围绕“面向大规模数据挖掘的隐私保护支持向量机增量与并行学习算法研究”展开研究,着重解决了支持向量机及分布式学习算法、面向海量流程日志数据的挖掘算法、面向分布式数据挖掘的隐私保护策略、基于支持向量机的股票预测等应用案例研究。代表性成果包括:(1)支持向量机及分布式学习算法方面:提出了带有样本选择策略的支持向量机增量和减量学习算法、在线和成批增量回归学习算法、OOLSVM和OALSVM的在线增量学习算法、适用于大规模样本的增量模糊支持向量机算法,以及模糊支持向量机的增量学习算法。(2) 面向海量流程日志数据的挖掘算法方面,包括提出了一种海量流程日志数据挖掘的并行化启发式算法、海量流程日志数据的任务关系挖掘算法、基于案例簇和同步核的过程发现算法,解决了面向多源分布式引擎日志的跨组织协同工作流挖掘方法。(3)面向分布式数据挖掘的隐私保护策略研究方面,提出了支持隐私保护的跨组织部门业务流程相似度计算和智能构建方法、支持业务隐私保护的跨组织应急处置流程建模方法、支持隐私保护的跨部门应急处置流程的多视图相似度计算方法。(4)应用案例研究:将前述研究成果应用于金融领域的股票预测、应急领域的应急资源推荐,验证了所前述算法和模型研究的有效性。项目组成员在《IEEE Transactions on Systems, Man, and Cybernetics》、《Decision Support Systems》、《软件学报》、《电子学报》国内外权威学术期刊和重要国际会议上发表论文21篇,其中SCI索引4篇,EI索引17篇。项目组成员中2人获得博士学位,项目组成员以及项目负责人指导的硕士研究生中6人取得硕士学位。取得了《面向移动终端的数据上报与查询系统》等计算机软件著作权4项。目研究成果同时获得山东省科技进步二等奖、高等学校优秀科研成果奖三等奖、青岛市科技进步二等奖各1项,获山东省高等学校优秀科研成果奖、山东省优秀博士学位论文奖、山东省优秀学士学位论文奖以及山东省研究生优秀科技创新成果奖。在人才培养方面获得山东省研究生教育教学成果奖一等奖1项。
{{i.achievement_title}}
数据更新时间:2023-05-31
论大数据环境对情报学发展的影响
基于LASSO-SVMR模型城市生活需水量的预测
基于SSVEP 直接脑控机器人方向和速度研究
自然灾难地居民风险知觉与旅游支持度的关系研究——以汶川大地震重灾区北川和都江堰为例
基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例
面向隐私数据保护的支持向量机新方法及其抗攻击模型研究
增量式并行格机及其数据挖掘方法研究
不确定数据分类学习的支持向量机算法研究
基于支持向量机和流形学习的矿井突水数据挖掘与预测预警