面向过时信息自动发现的Web时态一致性研究

基本信息
批准号:61272109
项目类别:面上项目
资助金额:80.00
负责人:李石君
学科分类:
依托单位:武汉大学
批准年份:2012
结题年份:2016
起止时间:2013-01-01 - 2016-12-31
项目状态: 已结题
项目参与者:陈佘喜,余伟,刘斌,甘琳,杨莎,王俊,张云璐,丁永刚,贺瑶
关键词:
时态Web时态一致性过时信息发现Web数据质量
结项摘要

The prevalence that the web contains outdated information is one of the main reasons for the crappy web information quality. The solution for this problem is artificial both domestic and overseas for the present, while the systematic theory hasn't been formed. Therefore it is in desperate need for the theory and methodology to automatically discover the outdated information. The scientific issue of this phenomenon is how to keep the web temporal consistency, which challenges to semantic comprehension and extraction of the temporal information as well as complex constraint relation in it. As a result, this project will focus on these items: the web temporal object model which adds the temporal factor into the web content element; a unified tree model to build based on the content and temporal of the website, column, sub column and the pages; the automatic extraction and assessment approach of the temporal factors using the temporal features; the complex constraint relation observed for temporal consistency of the column, sub column and the pages in the temporal object model; as well as the reasoning mechanism and algebraic system for given information to unknown information. We will build a web temporal consistency theory system to present the methodology and implement to discover the outdated web information automatically. The view will be important on the aspects of the outdated web pages discovery and ranking automatically, the same theme websites quality ranking, and the time sensitive retrieval and ranking. Furthermore, our research will save human resource tremendously and improve the web information quality.

Web包含过时信息是一个普遍现象,严重影响了Web信息质量。目前解决这一问题主要采用人工排查,还没有形成系统的理论,迫切需要自动发现Web过时信息的理论和方法。从这一现象可提炼出科学问题"保持Web时态一致性",其挑战是时态信息的语义理解与抽取,以及时态信息的复杂约束关系。本项目研究在Web内容要素中加入时态要素的Web时态对象模型,对站点、栏目、子栏目与页面的内容和时态采用层次树统一建模;研究利用时态特征词对各时态要素的自动提取及评估方法;研究Web时态对象模型中栏目、子栏目与页面为保持时态一致性须遵循的复杂约束关系,以及由其中已知时态信息推断未知时态信息的推理机制和代数系统。从而建立Web时态一致性理论体系,提出自动发现Web过时信息的方法和工具,将在网站过时网页自动发现与排序、同类网站质量排序、时间感知的搜索排序等方面有着重要的应用前景,能极大地节约人力,提高Web信息质量。

项目摘要

随着信息化时代数据爆炸式增长,Web因包含大量过时信息而导致数据质量低劣,这已严重影响了Web数据的可用性。目前的研究主要针对数据库中结构化数据或采用人工排查,缺乏对Web时态数据研究的系统理论和方法。本项目通过研究“保持Web时态一致性”这一科学问题,完成了Web中过时信息的自动发现。本项目提出了Web时态对象模型,分析和度量Web信息时态敏感性,基于时间词词典抽取时态信息;建立了Web时态一致性的约束与推理机制,包括Web一致性公理系统和代数运算系统,用于Web时态一致性推理建模;构造了Web时态不一致自动发现、分类和度量模型,并提出了自动发现Web过时信息的工具;基于Web时态一致性进行了Web数据源排序和数据质量评估,并最终修复了Web时态不一致数据。本项目按照计划完成了预期的研究目标和研究成果。本项目对提高Web数据质量、促进Web数据发展提供了重要的理论框架和技术支撑,填补了国内外相关研究的空白,具有重要的学术价值。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

论大数据环境对情报学发展的影响

论大数据环境对情报学发展的影响

DOI:
发表时间:2017
2

肉苁蓉种子质量评价及药材初加工研究

肉苁蓉种子质量评价及药材初加工研究

DOI:10.11842/wst.2017.02.019
发表时间:2017
3

中外学术论文与期刊的宏观差距分析及改进建议

中外学术论文与期刊的宏观差距分析及改进建议

DOI:
发表时间:2021
4

资源型地区产业结构调整对水资源利用效率影响的实证分析—来自中国10个资源型省份的经验证据

资源型地区产业结构调整对水资源利用效率影响的实证分析—来自中国10个资源型省份的经验证据

DOI:10.12202/j.0476-0301.2020285
发表时间:2021
5

多源数据驱动CNN-GRU模型的公交客流量分类预测

多源数据驱动CNN-GRU模型的公交客流量分类预测

DOI:10.19818/j.cnki.1671-1637.2021.05.022
发表时间:2021

李石君的其他基金

批准号:60970018
批准年份:2009
资助金额:29.00
项目类别:面上项目
批准号:60773007
批准年份:2007
资助金额:8.00
项目类别:面上项目

相似国自然基金

1

面向业务流程感知的Web信息系统自动化构建研究

批准号:60673113
批准年份:2006
负责人:李红燕
学科分类:F0202
资助金额:24.00
项目类别:面上项目
2

面向大数据可用性的Web跨源实体数据不一致自动发现研究

批准号:61502350
批准年份:2015
负责人:余伟
学科分类:F0202
资助金额:20.00
项目类别:青年科学基金项目
3

面向资源自动发现的网络信息空间结构化模型研究

批准号:60273051
批准年份:2002
负责人:朱国进
学科分类:F0207
资助金额:20.00
项目类别:面上项目
4

基于WEB信息的信息错误自动检测与修复技术研究

批准号:61502390
批准年份:2015
负责人:刘海龙
学科分类:F0202
资助金额:20.00
项目类别:青年科学基金项目