海量深网数据源入口的自动发现与集成研究

基本信息
批准号:61472296
项目类别:面上项目
资助金额:81.00
负责人:李雁妮
学科分类:
依托单位:西安电子科技大学
批准年份:2014
结题年份:2018
起止时间:2015-01-01 - 2018-12-31
项目状态: 已结题
项目参与者:魏静萱,寇晓丽,范磊,李航,薛醒思,代才,魏飞,彭展,周魏
关键词:
深网数据源入口集成发现
结项摘要

The Web has been rapidly "deepened" by the tremendous Web databases (WDBs) online with the potentially unlimited high-quality information hidden behind each WDB only entry, searchable form/query interface. Since the Deep Web(most of the contents from WDBs) is an important yet largely-unexplored frontier, great attentions are being paid in the fields of Web information search and virtual Web Big Data etc. However, there remain two basic challenges in them, the Web-scale automatic discovery and integration for WDBs'query interfaces due to the non-structured query interfaces with the 4V properties of Big Data: Volume, Variety, Velocity and Value over the Web. To address the two challenging problems and overcome limitations with respect to their non-modeling,inefficiently heuristic serial algorithms, and infeasible or incomplete sulosions for the problems,we will deeply research on methods of optimal modeling and efficient distributed parallel algorithms based on cloud computating for the challenging problems with abstract and formal description and solving problems. More important, on this basis, some instructively basic theories and methods for the complex problems/Big Data analysis and processing are expected to by summarizing.

随着Web在线数据库(Web Database, WDB)的激增,Web正在迅速地"深化",其绝大部分高质量的海量信息隐藏在WDB对外提供的唯一入口--查询接口后而无法由传统的搜索引擎索引到,因此,研究在Web信息搜索和Web大数据集成领域的两个亟待解决的基本关键难题:"海量WDBs入口的自动发现与集成"具有重要意义。本项目针对已有研究缺乏对问题进行抽象建模,采用启发式的单机串行低效算法,没有给出问题可行的完整性解决方案等缺陷,采用抽象与形式化描述与求解问题的方法,创新研究上述两个领域关键问题的有效建模方法、高效分布式并行算法,以期突破这两个领域关键难题给出问题可行的完整性解决方案。在此基础上,通过概括总结,揭示出一般复杂/"大数据"问题分析处理时所蕴含的一些基础理论和方法,为该类问题的有效求解起到一定的推动和借鉴作用。

项目摘要

随着Web在线数据库(Web Database, WDB)的激增,Web正在迅速地“深化”,其绝大部分高质量的海量信息隐藏在WDB对外提供的唯一入口——查询接口后而无法由传统的搜索引擎索引到,因此,研究在Web信息搜索和Web大数据集成领域的两个亟待解决的基本关键难题:“海量WDBs入口的自动发现与集成”具有重要意义。本项目针对已有研究缺乏对问题进行抽象建模,采用启发式的单机串行低效算法,没有给出问题可行的完整性解决方案等缺陷,采用抽象与形式化描述与求解问题的方法,创新研究上述两个领域关键问题的有效建模方法、高效分布式并行算法,以期突破这两个领域关键难题给出问题可行的完整性解决方案。在此基础上,通过概括总结,揭示出一般复杂/“大数据”问题分析处理时所蕴含的一些基础理论和方法,为该类问题的有效求解起到一定的推动和借鉴作用。. . 在对项目研究内容进行深入系统研究的基础上,产生了以下主要研究成果:. 1) 提出了深网数据源的自动发现的有效方法,并实现了其高效的并行深网数据源入口发现的爬虫;. 2) 提出了深网数据源入口--查询接口的有效集成的模型与解决方案,并给出了具体高效的实现;. 3) 对项目研究中所涉及到以下大数据关键/NP-难问题实现了突破。这些问题的突破不仅具有较重要的理论与应用价值,而且为相关大数据问题的建模与求解起到了推动和借鉴作用。. a. MLCS(Multiple Longest Common Subsequence)问题的研究 ,其研究成果已在领域顶级会议上发表论文2篇;. b. 大数据高维数据的聚类与数据流的聚类,其研究成果论文正在审稿期;. c. 大规模静态/动态图的划分,其研究成果论文正在审稿期。. 4) 集本项目研究成果于一体新开设了一门本科生专业前沿技术课程:“Web信息搜索”; . 5) 出版学术译著一部:“C++程序设计——基础、编程抽象与算法策略”;. 6) 培养计算机科学与应用、软件工程研究生12名,博士生4名。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

二维FM系统的同时故障检测与控制

二维FM系统的同时故障检测与控制

DOI:10.16383/j.aas.c180673
发表时间:2021
2

血管内皮细胞线粒体动力学相关功能与心血管疾病关系的研究进展

血管内皮细胞线粒体动力学相关功能与心血管疾病关系的研究进展

DOI:10.13191/j.chj.2017.0028
发表时间:2016
3

“阶跃式”滑坡突变预测与核心因子提取的平衡集成树模型

“阶跃式”滑坡突变预测与核心因子提取的平衡集成树模型

DOI:10.16031/j.cnki.issn.1003-8035.2019.05.04
发表时间:2019
4

大倾角煤层无人工作面深孔爆破落煤参数设计

大倾角煤层无人工作面深孔爆破落煤参数设计

DOI:10.3963/j.issn.1001-487X.2020.02.006
发表时间:2020
5

A Fast Algorithm for Computing Dominance Classes

A Fast Algorithm for Computing Dominance Classes

DOI:
发表时间:2016

李雁妮的其他基金

相似国自然基金

1

面向实体信息集成的非合作半结构化深网数据源选择

批准号:61462037
批准年份:2014
负责人:邓松
学科分类:F0202
资助金额:44.00
项目类别:地区科学基金项目
2

基于领域本体的Petri网自动集成机理与应用模式研究

批准号:60903099
批准年份:2009
负责人:马炳先
学科分类:F0211
资助金额:17.00
项目类别:青年科学基金项目
3

深亚微米超高速集成电路时钟网优化布线算法研究

批准号:69576009
批准年份:1995
负责人:严晓浪
学科分类:F0402
资助金额:7.00
项目类别:面上项目
4

自动推断海量定制数据格式研究

批准号:61100050
批准年份:2011
负责人:朱其立
学科分类:F0202
资助金额:22.00
项目类别:青年科学基金项目