面向大规模XML文档集的文本分类与聚类技术研究

基本信息
批准号:60875033
项目类别:面上项目
资助金额:24.00
负责人:杨建武
学科分类:
依托单位:北京大学
批准年份:2008
结题年份:2011
起止时间:2009-01-01 - 2011-12-31
项目状态: 已结题
项目参与者:万小军,黄小江,彭学政,王栋,张阜东,骆雄武,王晨峰,张国威
关键词:
结构分析文本挖掘XML文档文本聚类文本分类
结项摘要

随着XML标准被普遍采用,XML文档数量迅速增长,面向XML文档集的自动分类聚类等分析挖掘技术的研究逐渐受到关注。结构链接向量模型(SLVM)是我们提出的一种综合考虑结构信息与内容信息的XML文档模型,其在小规模XML文档集上具有良好的效果。然而,对于大规模的XML文档集,其结构复杂、内容丰富,随之而来的特征选择、降低算法时空复杂度等问题都值得深入研究。本项目以SLVM模型为基础,研究面向大规模XML文档集的自动分类和自动聚类的方法。拟重点解决面向大规模XML文档集分类聚类的特征选择与特征描述问题、特征归约与降维问题、增量式分类聚类算法问题以及动态数据环境下的算法自适应性问题。提出了用于结构特征选择的"频繁局部路径"的概念和多角度的特征归约与降维方法。本项目研究对XML文档集的分析利用具有重要理论意义和直接应用价值。

项目摘要

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

EBPR工艺运行效果的主要影响因素及研究现状

EBPR工艺运行效果的主要影响因素及研究现状

DOI:10.16796/j.cnki.1000-3770.2022.03.003
发表时间:2022
2

基于铁路客流分配的旅客列车开行方案调整方法

基于铁路客流分配的旅客列车开行方案调整方法

DOI:
发表时间:2021
3

基于被动变阻尼装置高层结构风振控制效果对比分析

基于被动变阻尼装置高层结构风振控制效果对比分析

DOI:10.13197/j.eeev.2019.05.95.fuwq.009
发表时间:2019
4

基于LS-SVM香梨可溶性糖的近红外光谱快速检测

基于LS-SVM香梨可溶性糖的近红外光谱快速检测

DOI:
发表时间:
5

基于改进LinkNet的寒旱区遥感图像河流识别方法

基于改进LinkNet的寒旱区遥感图像河流识别方法

DOI:10.6041/j.issn.1000-1298.2022.07.022
发表时间:2022

杨建武的其他基金

批准号:60642001
批准年份:2006
资助金额:7.00
项目类别:专项基金项目
批准号:61370116
批准年份:2013
资助金额:73.00
项目类别:面上项目

相似国自然基金

1

基于标记树的XML文档自动聚类和分类研究

批准号:70803046
批准年份:2008
负责人:潘有能
学科分类:G0414
资助金额:17.00
项目类别:青年科学基金项目
2

面向大规模XML文档集的关键词检索系统关键技术研究

批准号:61170091
批准年份:2011
负责人:邓志鸿
学科分类:F0211
资助金额:57.00
项目类别:面上项目
3

面向大规模动态短文本的快速聚类及演化分析技术研究

批准号:61300114
批准年份:2013
负责人:刘铭
学科分类:F0211
资助金额:23.00
项目类别:青年科学基金项目
4

基于隐式反馈和伪反馈的XML文本文档检索技术研究

批准号:60763001
批准年份:2007
负责人:万常选
学科分类:F0207
资助金额:21.00
项目类别:地区科学基金项目