通用Web结构化信息检索引擎的关键技术研究

基本信息
批准号:61202331
项目类别:青年科学基金项目
资助金额:25.00
负责人:王秋月
学科分类:
依托单位:中国人民大学
批准年份:2012
结题年份:2015
起止时间:2013-01-01 - 2015-12-31
项目状态: 已结题
项目参与者:王珊,覃雄派,王会举,张倩,琚星星,宋少华,黄亮
关键词:
结构化信息检索Web结构化数据深层Web分面搜索语言模型
结项摘要

The Web saw an increasing amount of structured data. Most of them are buried in Deep Web, and can hardly be indexed or searched by search engines. How to make use of such data to satisfy users' information needs has attracted many researchers' attention since the early of this century. There are two fundamentally different approaches to incorporating the deep web into search engines: data integration and deep web crawling or surfacing. Data integration approach is more suitable for building vertical search engines in a specific domain. Deep web surfacing approach, which is adopted by the current general-purpose search engines, like Google, is to pre-compute as many dynamic pages as possible from the underlying structured database, then index and search these pages with other static HTML pages on the Web. However, the original structural information in data are thus ignored during search. In this project, we target at building a general-purpose search engine for structured data on the Web, which can exploit the structural information in data to improve search performance, and also it is a general-purpose one in the sense that it can search all the structured data on the Web in various domains. In particular, we take advantages of both data integration and deep web surfacing approaches. We employ our newly studied structured information retrieval model based on language modeling approaches to search data in Web databases with structural information in data and query taken into account. In addition, structured and unstructured data search can be unified in such a retrieval model, which makes it possible for a general-purpose search engine to search both structured and unstructured data on the Web simultaneously.

Web上存在大量的结构化数据,大多处于深层Web数据库中,很难被一般的搜索引擎所检索。如何利用这些数据来满足用户的信息需求是长期以来的一个研究问题。早期的数据集成法更适合特定领域的垂直搜索引擎。近年来通用搜索引擎中使用的数据抓取法是预计算出尽可能多的相关页面,但由于这些页面被作为普通HTML页面一样被索引和检索,因而无法利用数据中原有的结构信息来改善检索效果。针对两者的主要缺陷,本项目的研究目标是研制一个跨领域的通用Web结构化信息检索引擎,既能在检索中充分利用结构信息,又是跨领域和通用的。具体地,我们将数据集成法和数据抓取法两者的优势结合在一起,并使用新的基于语言模型的结构化信息检索模型,充分利用数据和查询中的结构信息改善检索效果,并能将结构化数据和非结构化数据的检索统一在一个系统中,从而使得通用搜索引擎即时搜索Web上的各种结构的和非结构的数据成为可能。

项目摘要

Web上存在着大量的结构化数据,如深层网中Web数据库,以及近年来不断构建发展的各种知识库和对非结构网页做的各种语义标注等等。如何利用这些结构化数据更好地满足用户的信息需求甚至直接返回答案是下一代搜索引擎一直致力于解决的一个主要问题。在本项目中,我们围绕这一目标,从深层网和语义网(链接数据集)两个部分分别进行了研究。.在深层网方面,我们主要研究了如何识别和爬取深层网数据源,以及联邦搜索中深层网数据源的选择问题。具体地,我们使用机器学习的方法构建了深层网数据源的识别和爬取器;提出了新的基于主题模型的深层网数据源选择算法,并在国际信息检索评测会议TREC FedWeb 2014的竞赛中获得了第二名的好成绩,最主要的,我们提出的新方法为该问题提供了新的思路。.在语义网(链接数据集)方面,我们主要侧重于研究如何将结构化和非结构化数据的搜索结合起来,用统一的检索模型对混合数据集进行更有效的搜索甚至自然语言问答。具体地,我们首先在往年INEX的基础上进一步组织和参加了INEX 2013 Linked Data Track。我们设计生成了一个包含结构化数据(DBpedia和YAGO)和非结构化数据(Wikipedia)的混合数据集,大约90G,并设计生成了关键词和自然语言形式的测试查询集,用众包的方法产生查询的标准答案。该评测集为结构化和非结构化数据上的关键词检索和自然语言问答方面的研究提供了一个统一的测试比较平台。另外,我们在研究如何结合结构化的知识库和非结构化的文本数据上的检索时,提出了基于实体关系检索模型,并用扩展的知识图谱的数据模型来统一两种数据表示的新的解决方法,并在大规模的知识图谱(YAGO)和文本集(ClueWeb09)集上进行了初步的实验,实验结果显示了该方法的优越性。描述这一工作的论文已被WSDM 2016会议正式接受。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

基于分形L系统的水稻根系建模方法研究

基于分形L系统的水稻根系建模方法研究

DOI:10.13836/j.jjau.2020047
发表时间:2020
2

论大数据环境对情报学发展的影响

论大数据环境对情报学发展的影响

DOI:
发表时间:2017
3

粗颗粒土的静止土压力系数非线性分析与计算方法

粗颗粒土的静止土压力系数非线性分析与计算方法

DOI:10.16285/j.rsm.2019.1280
发表时间:2019
4

中国参与全球价值链的环境效应分析

中国参与全球价值链的环境效应分析

DOI:10.12062/cpre.20181019
发表时间:2019
5

基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例

基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例

DOI:
发表时间:2022

王秋月的其他基金

相似国自然基金

1

信息物理融合的Web对象可视检索技术研究

批准号:61170034
批准年份:2011
负责人:寿黎但
学科分类:F0202
资助金额:57.00
项目类别:面上项目
2

基于Web的音频识别与检索关键技术研究

批准号:60673100
批准年份:2006
负责人:周明全
学科分类:F0605
资助金额:25.00
项目类别:面上项目
3

基于时空语义的Web信息检索研究

批准号:60776801
批准年份:2007
负责人:金培权
学科分类:F0202
资助金额:26.00
项目类别:联合基金项目
4

基于Web的图像检索与信息挖掘研究

批准号:60675003
批准年份:2006
负责人:刘青山
学科分类:F0304
资助金额:26.00
项目类别:面上项目