随着XML标准被普遍采用,XML文档数量迅速增长,面向XML文档集的自动分类聚类等分析挖掘技术的研究逐渐受到关注。结构链接向量模型(SLVM)是我们提出的一种综合考虑结构信息与内容信息的XML文档模型,其在小规模XML文档集上具有良好的效果。然而,对于大规模的XML文档集,其结构复杂、内容丰富,随之而来的特征选择、降低算法时空复杂度等问题都值得深入研究。本项目以SLVM模型为基础,研究面向大规模XML文档集的自动分类和自动聚类的方法。拟重点解决面向大规模XML文档集分类聚类的特征选择与特征描述问题、特征归约与降维问题、增量式分类聚类算法问题以及动态数据环境下的算法自适应性问题。提出了用于结构特征选择的"频繁局部路径"的概念和多角度的特征归约与降维方法。本项目研究对XML文档集的分析利用具有重要理论意义和直接应用价值。
{{i.achievement_title}}
数据更新时间:2023-05-31
EBPR工艺运行效果的主要影响因素及研究现状
基于铁路客流分配的旅客列车开行方案调整方法
基于被动变阻尼装置高层结构风振控制效果对比分析
基于LS-SVM香梨可溶性糖的近红外光谱快速检测
基于改进LinkNet的寒旱区遥感图像河流识别方法
基于标记树的XML文档自动聚类和分类研究
面向大规模XML文档集的关键词检索系统关键技术研究
面向大规模动态短文本的快速聚类及演化分析技术研究
基于隐式反馈和伪反馈的XML文本文档检索技术研究