海量RDF数据探索式搜索关键技术与系统研究

基本信息
批准号:61472426
项目类别:面上项目
资助金额:80.00
负责人:陈跃国
学科分类:
依托单位:中国人民大学
批准年份:2014
结题年份:2018
起止时间:2015-01-01 - 2018-12-31
项目状态: 已结题
项目参与者:何军,张延松,张香玲,卞昊穹,陈峻,高乐喜,王泽华,黄璐,肖克
关键词:
数据库图数据库RDF大数据分析探索式搜索
结项摘要

Nowadays, with more and more Web of data represented by RDF(resource description framework), a number of massive RDF datasets are available for public, describing entities and their relationships. With RDF data management systems, people are able to query, search, analyze, and discovery rich semantics from massive RDF data. However, most existing techniques on RDF data query processing adopt the query-response paradigm. Due to the deficiency of query languages, they cannot meet the requirements of exploring and browsing RDF database when users do not have very clear search intention. They do not support users to find and learn interesting patterns and knowledge as they interact with the database system. As such, inspired by the concept of exploratory search, we propose a study on key technology in exploratory search over massive RDF data. Our study will be focused on the key components of exploratory search: primitives, query language, user interface, query processing and optimization,etc. Moreover, we will study on high performance semantic analysis of massive RDF data. We will implement a prototype of RDF database system that supports exploratory search over massive RDF data.

随着越来越多的语义网知识库使用资源描述框架RDF来表达信息实体及它们之间的联系,出现了一大批海量的RDF数据集。利用RDF数据管理系统,人们可以查询、搜索、分析和发现海量RDF数据中蕴含着的丰富语义信息。然而,当前RDF数据查询检索普遍采用一次性的"提交查询-返回结果"的交互模式,因查询语言表达能力不足或易用性差等问题,满足不了用户在没有明确的查询目标前提下交互性的探索和浏览RDF数据库的需求,无法支持用户随着交互过程而发现和学习海量RDF数据中有趣的知识内容和结构。为此,我们借鉴探索式搜索的概念,提出在存储海量RDF数据的数据库上支撑探索式搜索的交互模型和关键技术。我们的研究将围绕探索式搜索的基本原语、查询语言、交互界面、查询优化和处理等关键技术展开。此外,我们将在集群环境下,研究高性能的海量RDF数据关联分析处理技术,实现支撑海量RDF数据的探索式搜索的数据库原型系统。

项目摘要

本项目围绕海量RDF数据的探索式搜索技术展开研究,力图为大规模语义网数据提供除了关键字检索(包括自然语言问答)和结构化检索之外的数据访问途径,应对用户在知识图谱上信息需求不明确的场景。帮助用户提供数据探索式搜索发现问题和新的搜索目标的途径,为知识图谱大数据提供探索式搜索途径。研究内容围绕海量RDF数据上的关联分析核心算法、实体搜索技术、错误探测与知识修复技术、交互界面设计与原型系统实现等四个方面展开。项目总体研究上很好地达到之前设定的研究目标,既有很多高水平学术论文发表,又做出了RDF数据探索式搜索系统SEED的系列成果,先后在数据库、人机交互、概念模型等国际高水平会议上发表论文、演示了SEED系统各阶段的成果。该系统能够支持大规模语义网RDF数据上进行探索式的分析和搜索任务,进一步应用在金融欺诈行为识别、制造大数据故障根因分析等领域。在银行领域的应用还获得了2017年教育部科技进步一等奖。.我们提出的方法有效地解决了利用语义特征对实体集合进行扩展所面临的两个关键挑战:1)每个实体包含丰富的语义特征,如何从大量的语义特征中选取适合的语义特征对实体进行排序;2)RDF知识图谱虽然具有丰富的语义,但仍然存在大量的语义缺失现象,如何解决RDF知识图谱存在语义缺失的问题。基于公开的数据集和测试集,大量的对比实验表明我们提出的方法在效果方面显性地优于已知的方法。相关理论成果发表在SIGIR 2017和JWS 2018上。这方面的研究成果帮助我们在2018年成功地申请到了国家发明专利一项。围绕着本项目所设定的研究目标,我们提出一种面向RDF数据进行探索式搜索的交互模式与其对应的基本操作。基于上述所提出的交互模式,提出了几个关键技术方案,包括数据管理、查询处理、交互界面设计与探索式评估方法等。此外,基于上述关键技术,实现了多个原型系统,该系统能够支持大规模语义网RDF数据上进行探索式的分析和搜索任务。上述研究成果分别以演示视频、高水平论文、开源代码等形式发表。.我们将研究成果在互联网金融领域的欺诈行为识别、智能制造领域的根因分析等方面开展应用探索。我们采用RDF的形式构建专业领域的知识图谱,然后通过探索式搜索的方式进行搜索与分析,逐步地发现互联网金融场景下的欺诈行为和追溯智能制造场景下的故障根源。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

论大数据环境对情报学发展的影响

论大数据环境对情报学发展的影响

DOI:
发表时间:2017
2

F_q上一类周期为2p~2的四元广义分圆序列的线性复杂度

F_q上一类周期为2p~2的四元广义分圆序列的线性复杂度

DOI:10.11999/JEIT210095
发表时间:2021
3

基于协同表示的图嵌入鉴别分析在人脸识别中的应用

基于协同表示的图嵌入鉴别分析在人脸识别中的应用

DOI:10.3724/sp.j.1089.2022.19009
发表时间:2022
4

平行图像:图像生成的一个新型理论框架

平行图像:图像生成的一个新型理论框架

DOI:10.16451/j.cnki.issn1003-6059.201707001
发表时间:2017
5

职场排斥视角下服务破坏动因及机制研究——基于酒店一线服务员工的实证研究

职场排斥视角下服务破坏动因及机制研究——基于酒店一线服务员工的实证研究

DOI:10.19765/j.cnki.1002-5006.2019.08.011
发表时间:2019

陈跃国的其他基金

批准号:U1711261
批准年份:2017
资助金额:520.00
项目类别:联合基金项目
批准号:61003085
批准年份:2010
资助金额:20.00
项目类别:青年科学基金项目

相似国自然基金

1

海量RDF图数据的分布式存储与查询算法研究

批准号:61602354
批准年份:2016
负责人:李贺
学科分类:F0202
资助金额:21.00
项目类别:青年科学基金项目
2

云计算环境下基于图模型的海量RDF数据管理关键技术研究

批准号:61502504
批准年份:2015
负责人:卢卫
学科分类:F0202
资助金额:22.00
项目类别:青年科学基金项目
3

基于图数据库理论的海量RDF数据存储和查询方法研究

批准号:61003009
批准年份:2010
负责人:邹磊
学科分类:F0202
资助金额:19.00
项目类别:青年科学基金项目
4

基于人机协同的海量数据探索系统关键技术研究

批准号:61772492
批准年份:2017
负责人:谢希科
学科分类:F0202
资助金额:63.00
项目类别:面上项目