When data evolve over time, that is when concepts drift or change completely, mining on such data stream is becoming one of the core issues. The project focuses on mining frequent patterns and high utility patterns over evolving data streams. Including: (1) study the probability dacay models and variable sliding window models to deal with concept drift problems. Design the approximation algorithms of mining compressed frequent patterns on data streams based on these models.(2) Study on discovering high utility patterns in a single phase using the transaction-weigthed-downward closure model. Research the compressed tree structure to represent itemsets and their utilities for finding compressed high utility patterns. (3) Research a multilayer framework based on pattern constraint, pattern compression and pattern clustering. The purpose is to discover more concise pattern set than compressed patterns. (4) Research pattern-based classification models. Because of frequent pattern mining can drop random noise and redundant information in the data stream and frequent pattern carries more information gain, frequent pattern can be used to build high-quality classification model. Study various types of pattern measure metrics for filtering and ranking to generate meaningful and distinct pattern sets. Study integrated classification model on the basis of these sets.
数据分布随着时间变化会出现概念漂移或概念完全改变,对包含此特征的数据流进行挖掘成为了研究的核心问题之一.本项目研究可变数据流中频繁模式和高效用模式挖掘的关键技术,主要包括:(1)研究概率衰减模型和可变滑动窗口模型处理模式挖掘中的概念漂移问题,设计基于这些模型的近似算法发现频繁压缩模式.(2)研究具有向下封闭性的一阶段方式发现高效用模式.研究一种无损压缩结构来表示压缩项集及其效用,用于发现高效用压缩模式.(3)研究一种基于约束、模式压缩和模式聚类的多层框架方法,目的是在压缩模式的基础上进一步筛选得到更加精简的非冗余的模式集.(4)研究基于频繁模式的数据流分类模型.由于频繁模式挖掘可以去除数据流中存在的随机噪声和冗余信息,且频繁模式携带了更多的信息增益,因此模式可用于建立高质量的分类模型.研究各类模式评估度量准则,排序和筛选出有趣的或有区别力的模式集合,在此集合的基础上进行集成分类模型学习.
本项目针对可变数据流,研究其精简频繁模式和高效用模式挖掘的关键技术.主要研究频繁压缩模式的挖掘,包括闭合模式、最大模式、top-k模式以及三者之间的组合模式;为了强调数据项的效用,研究精简高效用模式的挖掘技术;为了进一步的去除模式中的冗余信息,在压缩模式的基础上,研究设计一种精简模式的多层挖掘框架;最后,研究设计基于模式的数据流分类模型.由于可变数据流的特征,在项目的整个研究过程中都会对概念漂移问题进行检测与处理..(1)研究并设计一种基于时间衰减模型和可变滑动窗口模型的融合模型,并基于此类模型研究数据流模式挖掘方法。此类融合模型可以用于在模式挖掘过程中解决概念漂移问题。研究表明,采用此类方法处理概念漂移数据流,与已有方式相比,可以得到更加准确和完备的结果集合。.(2)研究并设计适用于具有向下封闭性模型的一阶段方法精简高效用模式挖掘方法。研究一种基于列表的压缩结构表示Top-K闭合效用模式及其效用,用于发现高效用压缩模式。研究表明,采用此类方法挖掘高效用模式可以有效减少时空消耗,并且在相同K值限定下可以得到信息含量更多的模式集合。.(3)研究并设计合理的多层框架结构挖掘精简模式。包括闭合模式/top-K模式/top-k闭合模式--约束模式。通过两层筛选得到非冗余精简的模式集合,可以有效减少冗余模式的数量和信息含量低的短模式。.(4)研究基于精简模式的数据流分类方法,包括决策树分类方法和关联规则分类方法。研究表明,基于模式的分类方法可以有效提高数据流分类的准确性。.(5)使用本项目研究的基于精简频繁模式的决策树分类方法和关联规则方法处理航空延误问题,可以有效提高延误预测。使用基于高效用模式的关联规则方法处理城市区域划分问题,可以有效预测用户在某个时间段所在的地点,在刑侦、交通服务等领域可以作出相应贡献。
{{i.achievement_title}}
数据更新时间:2023-05-31
监管的非对称性、盈余管理模式选择与证监会执法效率?
小跨高比钢板- 混凝土组合连梁抗剪承载力计算方法研究
宁南山区植被恢复模式对土壤主要酶活性、微生物多样性及土壤养分的影响
基于全模式全聚焦方法的裂纹超声成像定量检测
多源数据驱动CNN-GRU模型的公交客流量分类预测
实时数据流中动态模式的发现与跟踪
基于网上用户行为的Web使用挖掘模式发现关键技术研究
面向大数据流的信用攻击群体及关键人物发现方法研究
基于可变模式集合发现方法的移动用户行为变迁研究