A distributed data stream is a set of some related data streams which can occure at multiple nodes in a network. Mining distributed data streams has become a focus of data mining research, and discoving global patterns in a distributed data stream is an important issue. Mining global patterns needs collecting and transfering local data from local nodes in distributed ways, so a good method for mining distributed data streams should have a low transmission cost and a high mining precision. However, when reducing a transmission cost means less data to be transferred from local nodes to the central node, getting a high mining precision means more useful information from local nodes to be used, therefore, mining distributed data streams is a trade-off art of transmission cost and mining precision. This project proposes solving the problem in mining distributed data streams by evaluating data distributions and using SVM methods.It will study the theory and models of mining distributed data streams, explore the effective methods in data distribution evaluation and SVMs for getting learning samples in data streams, and design the efficient algorithms to classifying and clustering distributed data streams. Also, these models and methods will be tested by a series of experiments.
分布式数据流是指相关联的分布在不同节点的多数据流。分布式数据流挖掘已经成为数据挖掘新的研究分支,全局模式挖掘是其中的一个核心问题。全局模式挖掘是以局部数据或者模式的传输和集成为基础的,因此网络数据传输代价和挖掘精度是两个基本指标。减少传输代价意味着要尽量少的传输原始数据,而提高挖掘精度意味着要尽量多地利用局部数据流的有用信息,所以一个优秀的挖掘模型应该是追求"在适当的传输代价下寻求较高的挖掘精度"。本项目通过数据分布评估和支持向量机方法来解决分布式数据流的全局模式挖掘问题。在理论上,研究分布式数据流的全局模式挖掘模型及其对应的模式演化所需的理论基础。在方法上,面向于分布式数据流的全局模式挖掘目标,研究有效的分布式的数据分布评估和支持向量机技术,并且使用它们来发现可用的小容量的学习样本。设计对应的分布式数据流的全局分类和聚类算法,理论分析和实验验证算法的精度和效率。
本研究旨在研究分布式数据流中的模式挖掘问题。分布式数据流是指相关联的分布在不同节点的多数据流,因此发现全局共享的全局模式是其中的核心问题。由于数据的分布性,全局模式挖掘面临着网络传输代价和挖掘精度的双重困扰,所以一个优秀的挖掘模型是挖掘代价和挖掘精度平衡下的优化。本项目的研究通过数据分布评估和支持向量机等方法解决了分布式数据流的数据评估问题,并在此基础上研究全局模式挖掘的模型和关键算法。主要研究成果有:(1)在理论上,解决了分布式数据流的形式化描述及挖掘算子刻画问题;提出了面向于多节点的分布式数据流的分布式数据评估及学习样本选择方法。(2)在模型上,完成了层次式的分布式数据流挖掘对应的挖掘架构设计,解决了对应挖掘模型所需的理论基础、形式化定义及功能界定等问题。(3)在算法层面上,设计和实现了关键算法,完成了对应的理论评价和实验验证工作。
{{i.achievement_title}}
数据更新时间:2023-05-31
论大数据环境对情报学发展的影响
监管的非对称性、盈余管理模式选择与证监会执法效率?
硬件木马:关键问题研究进展及新动向
基于LASSO-SVMR模型城市生活需水量的预测
基于SSVEP 直接脑控机器人方向和速度研究
分布式数据流的集成模式挖掘模型和概念漂移检测算法研究
基于集成学习的分布式XML数据流的挖掘模型与概念漂移挖掘方法研究
基于压缩感知的分布式协同支持向量机
基于支持向量机和流形学习的矿井突水数据挖掘与预测预警