传统的频繁模式发现算法主要用于从给定的数据库中挖掘所有的频繁模式或闭合模式,而不能够用于生成器模式的发现。一个等价类中生成器模式的平均长度通常小于该等价类中所有频繁模式的平均长度,更小于该等价类中所有闭合模式的平均长度。在面向分类的应用中,根据最小描述长度原则可知对生成器模式的挖掘比频繁模式和闭合模式的挖掘更有意义。本项目将重点研究面向复杂数据(如序列数据和图数据)的生成器模式挖掘算法,并探讨生成器模式在病句检测、机器翻译、舆情分析和图像分类中的应用。由于存在"组合爆炸"问题,从复杂数据中挖掘生成器模式具有很高的计算复杂性。本项目的挑战性问题之一是如何设计高效的空间裁减策略和模式枚举框架以提高序列生成器模式和图生成器模式的挖掘效率。另外,如何定义可用于分类的、高质量的序列生成器模式和图生成器模式,以及设计可直接挖掘这类模式的高效算法并依此建立分类模型是本项目的另外一个重点研究内容。
{{i.achievement_title}}
数据更新时间:2023-05-31
论大数据环境对情报学发展的影响
监管的非对称性、盈余管理模式选择与证监会执法效率?
宁南山区植被恢复模式对土壤主要酶活性、微生物多样性及土壤养分的影响
F_q上一类周期为2p~2的四元广义分圆序列的线性复杂度
基于全模式全聚焦方法的裂纹超声成像定量检测
序列大数据复杂情景模式发现算法研究
面向复杂数据的粒计算知识发现方法研究
面向动态复杂数据的粒化模型与知识发现研究
面向大规模复杂数据的多粒度知识发现关键理论与方法研究