云计算环境下海量RDF数据管理系统核心技术研究

基本信息
批准号:61170010
项目类别:面上项目
资助金额:57.00
负责人:杜小勇
学科分类:
依托单位:中国人民大学
批准年份:2011
结题年份:2015
起止时间:2012-01-01 - 2015-12-31
项目状态: 已结题
项目参与者:荣垂田,刘真,王晓燕,蒋梦霞,聂志,康菁菁,华雯,章小路,张敏
关键词:
Reduce云计算RDF数据海量数据管理Map
结项摘要

云计算平台由于其高度的可伸缩性和容错能力,引起了学术界和产业界的极大关注。云计算平台下的海量数据管理问题是其研究热点之一。本课题以互联网上普遍存在并正以指数速度增长的海量RDF数据为研究对象,探索如何在云计算平台下有效地管理RDF数据的基础理论和关键技术,包括RDF数据的聚合与演化规律,以及在云计算平台上如何高效地组织和管理海量RDF数据。围绕这两个科学问题,本课题将在以下五个方面开展研究:RDF数据的聚合与演化规律的研究;RDF数据模式的自动抽取算法;基于云平台的RDF数据组织与自适应存储方法;基于云计算平台的SPAQRL查询处理与优化;原型系统研制和应用示范。通过基础理论、核心技术和系统研制的研究,深化对互联网上海量RDF数据性质的理解,掌握云平台上海量RDF数据管理的关键技术,为研制支持语义网应用的海量数据管理系统奠定坚实的基础。

项目摘要

本课题以互联网上以指数速度增长的海量RDF数据为研究对象,探索如何在云计算平台下有效地管理和查询RDF数据的关键技术问题。基本的科学问题有两个:1) 探索海量RDF数据模式发现和演化的理论基础及其聚类和模式抽取的高效算法。(RDF数据聚类问题)2) 提出利用云平台提高海量RDF数据的自适应存储、并提高海量RDF数据SPARQL查询的效率的关键技术。(查询效率问题).课题主要研究内容与成果如下:.在数据聚类和模式抽取方面,我们通过对RDF数据的分析,利用相同主语和谓词自动识别RDF数据的模式,并参考Dirichlet聚类算法实现对RDF数据模式的聚类,将模式相似的RDF实体聚集在一起,为之后的RDF数据组织和存储建立基础。.在数据分布和查询处理方面,我们实现了一个以Map/Reduce做计算、rdf查询引擎做存储的混合架构系统,提出了一种基于Query Pattern的数据划分方法,尽可能减少查询之间的跨节点连接。证明了将划分的小集合放置到各个节点是一个NP-hard问题,因此选择用LNS(Large Neighborhood Search)寻找最优解。在此基础上,我们研究了多种重要的技术,包括字符串的近似连接算法等,为实现高效的查询处理提供支撑。.在原型系统研制方面,我们开发了“方圆”系统,这是一个基于云计算平台的RDF数据管理系统。方圆系统作为异构系统的数据集成工具,被应用于国家863计划项目“开放环境下海量web数据提取集成分析和管理系统平台与应用”中,能支持超过100亿条RDF数据的管理任务。.经过4年的努力,课题组完成了该课题的技术指标:申请专利4项,发表论文14篇(包括2篇已经接受尚没有发表的论文),其中,SCI期刊论文3篇(其中CCF A类期刊2篇)CCF A类会议论文 2篇,CCF B类会议论文5篇,CCF C类会议论文 1篇,国内一级学报论文2篇。申请专利4项,其中一项已经获得授权。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

论大数据环境对情报学发展的影响

论大数据环境对情报学发展的影响

DOI:
发表时间:2017
2

资源型地区产业结构调整对水资源利用效率影响的实证分析—来自中国10个资源型省份的经验证据

资源型地区产业结构调整对水资源利用效率影响的实证分析—来自中国10个资源型省份的经验证据

DOI:10.12202/j.0476-0301.2020285
发表时间:2021
3

多源数据驱动CNN-GRU模型的公交客流量分类预测

多源数据驱动CNN-GRU模型的公交客流量分类预测

DOI:10.19818/j.cnki.1671-1637.2021.05.022
发表时间:2021
4

瞬态波位移场计算方法在相控阵声场模拟中的实验验证

瞬态波位移场计算方法在相控阵声场模拟中的实验验证

DOI:
发表时间:2020
5

混采地震数据高效高精度分离处理方法研究进展

混采地震数据高效高精度分离处理方法研究进展

DOI:10.3969/j.issn.1000-1441.2020.05.004
发表时间:2020

杜小勇的其他基金

批准号:31402040
批准年份:2014
资助金额:26.00
项目类别:青年科学基金项目
批准号:60573092
批准年份:2005
资助金额:25.00
项目类别:面上项目
批准号:61471374
批准年份:2014
资助金额:83.00
项目类别:面上项目
批准号:31872978
批准年份:2018
资助金额:59.00
项目类别:面上项目
批准号:69973050
批准年份:1999
资助金额:12.00
项目类别:面上项目
批准号:61002021
批准年份:2010
资助金额:20.00
项目类别:青年科学基金项目
批准号:60873017
批准年份:2008
资助金额:31.00
项目类别:面上项目

相似国自然基金

1

云计算环境下基于图模型的海量RDF数据管理关键技术研究

批准号:61502504
批准年份:2015
负责人:卢卫
学科分类:F0202
资助金额:22.00
项目类别:青年科学基金项目
2

云计算环境下海量XML数据管理关键技术研究

批准号:61272181
批准年份:2012
负责人:赵相国
学科分类:F0202
资助金额:81.00
项目类别:面上项目
3

基于云计算的海量网络数据管理与搜索技术

批准号:61073189
批准年份:2010
负责人:雷景生
学科分类:F0207
资助金额:33.00
项目类别:面上项目
4

云计算环境下医学RDF大数据的分布式查询处理与优化技术研究

批准号:61363018
批准年份:2013
负责人:杜方
学科分类:F0202
资助金额:45.00
项目类别:地区科学基金项目