深层网的大规模和自适应数据集成研究

基本信息
批准号:61073017
项目类别:面上项目
资助金额:28.00
负责人:苏伟峰
学科分类:
依托单位:北京大学
批准年份:2010
结题年份:2013
起止时间:2011-01-01 - 2013-12-31
项目状态: 已结题
项目参与者:黄石磊,赵静,李亚飞,纪燕燕,吕卫忠,梁栋,刘其波,季念星
关键词:
数据排序数据集成深层网数据抽取查询接口
结项摘要

深层网(Deep Web)指那些存储在Web数据库里、不能通过超链接访问而需要通过动态网页技术访问的资源集合。据估计,深层网的资源容量约为表层网(Surface Web)的500倍,而且包含更多有价值的资源。本课题的主要研究目标是在错综复杂的深层网,仔细分析深层网的特性,建立一套自适应的数据集成和排序模型,意在从数量庞大的数据源中找出最符合用户需求的记录优先返回给用户。着眼于大规模和自适应的数据集成,本项目研究具有四个创新点1)基于统计的数据源查询接口的分析方法; 2)基于加权属性值图的Web数据库采样方法;3)利用属性值相似度对齐记录和其他数据源的标签标注属性值;4)研究动态地根据记录相似度的记录排序算法。本项目拟通过实验论证模型适用性和实用性,为Web数据库集成的应用需求,也为其他异构数据库的数据集成研究提供新思路和新方法。

项目摘要

本项目针对通用和垂直搜素引擎对深层网搜索的实际需求,深入重研究在动态Web环境下大规模和自适应的深层网数据集成和排序理论。研究内容分为4个方面:1)数据源查询接口分析; 2)Web 数据库采样方法;3)记录抽取;4)记录排序。通过本项目的研究,取得了一批有意义的研究成果。特别在两个问题上做出有意义的探索:1)是提出基于最大熵原理自动地把查询接口根据语义组合分析成为一颗语义树,提出新的语法与特征,实验表明该模型能精确地把查询接口提取出来,有效地克服了现有查询接口分析所存在的问题。2)使用一个新的记录提取和对齐模型, 该模型结合了标记和属性值的相似度,进行数据抽取,有效地解决查询结果页面常见的三类问题。此外,项目组成员积极开拓、丰富相关领域的研究。提出新的数据采样方法和记录排序模型,努力将课题组的工作系统化、流程化。建立以从查询接口分析、数据采样、记录抽取和排序的系统化理论和方法。基本完善了Web数据库数据抽取与集成的理论和算法工作。已发表(录用)学术论文13篇。其中权威期刊4篇,包括IEEE Transaction on Knowledge and Data Engineering(TKDE), ACM Transaction on Web(Tweb)等,本领域顶级国际学术会议论文2篇,包括CIKM等。收录SCI 3 篇(含SCI源);另投出相关学术论文2篇。本项目达到并超过了预定的研究目标,系统化、完备化了Web数据库数据抽取与集成流程。因此本项目的研究不仅具有十分重要的学术价值,而且在课题组未来的研究工作中极大的拓展、完善相关研究问题的完整解决,具有广阔的应用前景。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

论大数据环境对情报学发展的影响

论大数据环境对情报学发展的影响

DOI:
发表时间:2017
2

基于SSVEP 直接脑控机器人方向和速度研究

基于SSVEP 直接脑控机器人方向和速度研究

DOI:10.16383/j.aas.2016.c150880
发表时间:2016
3

资源型地区产业结构调整对水资源利用效率影响的实证分析—来自中国10个资源型省份的经验证据

资源型地区产业结构调整对水资源利用效率影响的实证分析—来自中国10个资源型省份的经验证据

DOI:10.12202/j.0476-0301.2020285
发表时间:2021
4

多源数据驱动CNN-GRU模型的公交客流量分类预测

多源数据驱动CNN-GRU模型的公交客流量分类预测

DOI:10.19818/j.cnki.1671-1637.2021.05.022
发表时间:2021
5

基于混合优化方法的大口径主镜设计

基于混合优化方法的大口径主镜设计

DOI:10.3788/AOS202040.2212001
发表时间:2020

苏伟峰的其他基金

相似国自然基金

1

化学深层网数据自动提取方法研究

批准号:20673119
批准年份:2006
负责人:李晓霞
学科分类:B0310
资助金额:28.00
项目类别:面上项目
2

基于本体的深层网络数据集成方法研究

批准号:60973028
批准年份:2009
负责人:王念滨
学科分类:F0202
资助金额:30.00
项目类别:面上项目
3

大规模数据的语义集成

批准号:61170192
批准年份:2011
负责人:李莉
学科分类:F06
资助金额:54.00
项目类别:面上项目
4

集成大规模基因表达和代谢数据对物种调控机制的研究

批准号:61073068
批准年份:2010
负责人:王飞
学科分类:F0214
资助金额:36.00
项目类别:面上项目