基于标记树的XML文档自动聚类和分类研究

基本信息
批准号:70803046
项目类别:青年科学基金项目
资助金额:17.00
负责人:潘有能
学科分类:
依托单位:浙江大学
批准年份:2008
结题年份:2011
起止时间:2009-01-01 - 2011-12-31
项目状态: 已结题
项目参与者:张蕊,丁楠,周英博,次仁拉珍
关键词:
XML数据挖掘标记树自动聚类自动分类
结项摘要

随着XML应用的日益广泛,XML文档的内容和文档之间的关系结构也日趋复杂。聚类和分类等数据挖掘技术不但可以增强网络中XML文档的组织性,从而为网络信息资源的搜集、整理及检索利用提供良好的技术支持,还可以在海量网络信息中发现XML文档间隐含的知识,确定XML文档内部标记的真实语义信息,为本体论和语义网的发展奠定坚实基础,因此具有重大研究意义。XML文档是一种结构化文本,其自动聚类和分类与一般的文本聚类分类有着较大差别,通过将XML文档和DTD转换为标记树并计算其相似度,可以找到一种实现XML文档自动聚类和分类的有效方法。在此过程中要解决的关键问题是文档元素结构信息的衡量及文档相似度的计算方法。本项目拟综合运用自动分词分类、数据挖掘、图论等多个领域的研究方法,提出一种计算XML文档元素层次权重和结构权重的算法以比较XML文档之间的相似度,从而提高XML文档自动聚类和分类的准确度和效率。

项目摘要

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

EBPR工艺运行效果的主要影响因素及研究现状

EBPR工艺运行效果的主要影响因素及研究现状

DOI:10.16796/j.cnki.1000-3770.2022.03.003
发表时间:2022
2

基于铁路客流分配的旅客列车开行方案调整方法

基于铁路客流分配的旅客列车开行方案调整方法

DOI:
发表时间:2021
3

智能煤矿建设路线与工程实践

智能煤矿建设路线与工程实践

DOI:10.13199/j.cnki.cst.2020.07.010
发表时间:2020
4

基于SSR 的西南地区野生菰资源 遗传多样性及遗传结构分析

基于SSR 的西南地区野生菰资源 遗传多样性及遗传结构分析

DOI:
发表时间:2017
5

“阶跃式”滑坡突变预测与核心因子提取的平衡集成树模型

“阶跃式”滑坡突变预测与核心因子提取的平衡集成树模型

DOI:10.16031/j.cnki.issn.1003-8035.2019.05.04
发表时间:2019

潘有能的其他基金

批准号:71273225
批准年份:2012
资助金额:54.00
项目类别:面上项目

相似国自然基金

1

面向大规模XML文档集的文本分类与聚类技术研究

批准号:60875033
批准年份:2008
负责人:杨建武
学科分类:F0603
资助金额:24.00
项目类别:面上项目
2

基于受限树函数依赖和多值依赖的XML文档规范化问题

批准号:60563001
批准年份:2005
负责人:吕腾
学科分类:F0202
资助金额:6.00
项目类别:地区科学基金项目
3

基于隐式反馈和伪反馈的XML文本文档检索技术研究

批准号:60763001
批准年份:2007
负责人:万常选
学科分类:F0207
资助金额:21.00
项目类别:地区科学基金项目
4

XML文档管理系统的关键技术的研究

批准号:60003008
批准年份:2000
负责人:田增平
学科分类:F0202
资助金额:17.00
项目类别:青年科学基金项目