A distributed XML stream is a set of some related XML streams which can be from multiple nodes in a network. Though the concept of distributed data stream has been introduced and studied as a branch of data mining, current research jobs mostly do in relational data but XML documents as basic elements. However, based on strong requires of big data from Internet, the XML has become basic data format to exchange on Internet, and so many application of big data can be solved by the concept of distributed XML streams. This project will study how construct and analyze distributed XML streams from network big data, and explore its basic mining processes and pattern revolution rules and methods; study the theory and technology of ensemble learning in distributed XML streams, and design its classifying mining models; study its application models for mining concept drifts, and design some key algorithms to solve core problems which will be analyzed by theory and experiments.
分布式XML数据流是指相关联的分布在不同节点的多个XML数据流的集合。虽然分布式数据流的概念已经被提出和成为数据挖掘新的研究分支,但是目前关注的主要还是关系型的,对XML文档为基本元素的分布式XML数据流及其挖掘的正式研究还很少。然而,随着网络大数据应用的强烈需求,既然XML已经成为因特网上数据交换的事实上的标准,那么网络大数据的许多应用可以依附分布式XML数据流的概念得到解决。本项目将研究分布式XML数据流的构造及其代数分析空间,并以分布式XML数据流作为数据载体,探索分布式数据流挖掘的基本流程以及对应的模式演化理论和方法;研究分布式数据流的集成学习理论和方法,基于集成学习设计分布式数据流的分类挖掘模型;研究分布式数据流的概念漂移挖掘应用对应的关键方法,设计对应的算法,并且理论分析和实验验证算法的精度和效率。
分布式XML数据流是指相关联的分布在不同节点的多个XML数据流的集合。由于XML文档广泛应用在网络数据交换、Web服务中,而且是不依赖于软件和硬件的数据存储方式,可以用位置或元素名直接存取,所以XML文档是网络大数据交换和理解的主要手段之一。自然地,网络上随时间变化的XML文档就可以看作是XML数据流。随着大型电子商务等出现,多节点多服务器的网络应用系统成为主流,因而多个XML数据流在网络的一个应用系统中同时存在,构成分布式(多)XML数据流。因此,研究分布式XML数据流及其挖掘技术具有潜在的应用价值,同时也是目前数据挖掘中的前沿课题。.项目主要研究内容有:(1)分布式XML数据流的数学模型及其有效挖掘算子研究;(2)分布式XML数据流的全局知识挖掘模型研究;(3)分布式XML 数据流的集成学习方法和算法研究;(4)分布式XML 数据流的概念漂移挖掘理论与方法研究。.围绕着这4个研究内容,在分布式XML数据流挖掘的代数空间抽象和挖掘构架描述上取得理论研究成果,对应成果具有较好学术价值,可以为分布式数据流挖掘提供新的分析方法。在分布式XML数据流挖掘模型上,设计了局部XML数据流挖掘模型、分布式全局模式挖掘模型,在基于集成学习的分布式XML数据流挖掘模型等方面取得进展,是国内专注该领域不多的研究团队。在分布式XML数据流的概念漂移检测算法上,集成了动态自适应窗口、集成学习、冲突消减方法等自主研究的理论和方法,实现了突变式概念漂移的实时检测,这些算法具有一定先进性和实用价值。
{{i.achievement_title}}
数据更新时间:2023-05-31
论大数据环境对情报学发展的影响
针灸治疗胃食管反流病的研究进展
端壁抽吸控制下攻角对压气机叶栅叶尖 泄漏流动的影响
基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例
面向云工作流安全的任务调度方法
分布式数据流的集成模式挖掘模型和概念漂移检测算法研究
非均衡概念漂移网络舆情大数据流挖掘模型、算法与评价机制研究
融入概念漂移情境的商业数据流挖掘及可靠性研究
面向XML数据集成的完整性约束挖掘方法研究