面向大数据的数据一致性管理研究

基本信息
批准号:61572135
项目类别:面上项目
资助金额:64.00
负责人:谈子敬
学科分类:
依托单位:复旦大学
批准年份:2015
结题年份:2019
起止时间:2016-01-01 - 2019-12-31
项目状态: 已结题
项目参与者:施伯乐,沙朝锋,王智慧,胡昊,梁斌,刘畅,陈卿,何楚,郑华飞
关键词:
完整性约束数据一致性大数据
结项摘要

Big data is often characterized with three V’s: variety for its different forms and data sources, volume for the scale of the data, and velocity for its dynamic nature. The quality of data necessarily becomes far worse in the context of big data, and hence the importance of veracity, the fourth ‘V’ of big data is increasingly being recognized. With this comes the need for data quality management for big data. This project aims to study data consistency for big data, since data consistency is an important dimension for the evaluation of data quality. We highlight the substantial challenges that the first three V’s bring to dealing with data consistency in big data. Due to the heterogeneity of data, this project will study data consistency for data of complex structure, beyond the scope of relational data. In contrast to traditional approaches that consider a single data set, this project will study data consistency in the context of data exchange. With the sheer volume of data, this project will study techniques that distribute computations on big data to multiple machines, so as to leverage more resources for better scalability of data consistency management. To handle data of dynamic feature, this project will study effective techniques to manage data consistency for data that are dynamically updated. We contend that this research is not only of theoretical interest, but also important in practice, and will yield a series of promising results.

大数据的特性通常被描述为3V,即多数据类型和多数据源(variety)、海量规模(volume)和动态数据特征(velocity)。大数据时代不可避免地带来更多的数据质量问题,因此数据真实性(veracity)被广泛认为是大数据的又一个特性,凸显大数据数据质量研究的重大意义。本项目研究面向大数据的数据一致性管理,这是数据质量管理的核心内容之一。本项目的研究重点针对大数据的3V特性给数据一致性管理带来的重大挑战:针对多数据类型特性,我们将一致性管理扩展到更为复杂的数据模型,而不局限于关系数据;针对多数据源特性,我们将一致性管理扩展到数据交换等应用场景,而不局限于单个独立数据集;针对海量规模特性,我们将引入分布式架构以利用更多计算资源,改善一致性管理的计算性能;针对动态数据特征,我们将研究如何有效应对持续变化数据集上的一致性管理问题。本课题兼具理论意义和实用价值,将产生一系列有价值的研究成果。

项目摘要

大数据管理是近年来持续的热点研究领域,大数据的数据特征给数据管理带来了全新的挑战。存在各种质量问题的劣质数据非常普遍,直接影响基于数据所做的分析和决策。针对大数据的数据质量研究因而具有重大的理论意义和实用价值。本项目研究面向大数据的数据一致性管理,这是数据质量管理的核心内容之一。数据约束是数据语义的重要组成部分,用于描述数据应该遵循的准则,被用于评判数据是否具有一致性。项目研究的目标旨在基于数据约束模型来表述数据遵循的一致性准则,提供自动发现不一致数据的方法,设计高效修复(清洗)不一致数据的技术,利用分布式计算等手段提高数据一致性管理在大数据的可用性,以及探索数据一致性管理和具体应用的结合。.项目的研究取得了良好成果,在国内外重要期刊和会议上发表了一系列的高质量论文,并申请了相关专利。项目的研究成果主要体现在以下几个方面:.(1) 项目重点考察了次序依赖这一约束类型,它可以更好地支持和表达数据集中普遍存在的次序关系。项目研究了基于次序依赖的数据一致性检查和数据修复计算,次序依赖在数据集中的有效发现等问题。.(2) 项目创新性地在数据修复计算中引入了多样性这一概念,提出计算一组而不是单一的修复。项目引入兼顾修复质量和修复间差异的多样性目标函数,并给出了高效算法来求解多样性的修复计算问题。.(3) 项目考察了如何利用分布式的计算架构来进行数据一致性的检查和修复的计算问题。项目针对包括函数依赖、差别依赖、次序依赖等,提出了一系列的分布式一致性检查和数据修复算法。.(4) 项目考察了次序依赖的动态发现问题,以应对频繁变化的数据集。通过辅助的索引结构,项目提出有效的增量约束验证方法,并给出约束集的动态演进计算方法。.(5) 项目结合实际的时间序列数据,研究了层级电力时间序列的修复问题。通过电力数据挖掘与聚类分析,构建电力模式层级结构,将层级电力数据修复计算问题转化为求解底层预测调整的回归优化问题。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

论大数据环境对情报学发展的影响

论大数据环境对情报学发展的影响

DOI:
发表时间:2017
2

惯性约束聚变内爆中基于多块结构网格的高效辐射扩散并行算法

惯性约束聚变内爆中基于多块结构网格的高效辐射扩散并行算法

DOI:10.19596/j.cnki.1001-246x.8419
发表时间:2022
3

Himawari-8/AHI红外光谱资料降水信号识别与反演初步应用研究

Himawari-8/AHI红外光谱资料降水信号识别与反演初步应用研究

DOI:
发表时间:2020
4

圆柏大痣小蜂雌成虫触角、下颚须及产卵器感器超微结构观察

圆柏大痣小蜂雌成虫触角、下颚须及产卵器感器超微结构观察

DOI:10.3969/j.issn.1674-0858.2020.04.30
发表时间:2020
5

资源型地区产业结构调整对水资源利用效率影响的实证分析—来自中国10个资源型省份的经验证据

资源型地区产业结构调整对水资源利用效率影响的实证分析—来自中国10个资源型省份的经验证据

DOI:10.12202/j.0476-0301.2020285
发表时间:2021

谈子敬的其他基金

批准号:60603043
批准年份:2006
资助金额:22.00
项目类别:青年科学基金项目

相似国自然基金

1

面向无线传感器网络的数据一致性问题研究

批准号:60903055
批准年份:2009
负责人:汪炀
学科分类:F0202
资助金额:18.00
项目类别:青年科学基金项目
2

大数据一致性错误管理理论与关键技术

批准号:61502121
批准年份:2015
负责人:刘显敏
学科分类:F0202
资助金额:20.00
项目类别:青年科学基金项目
3

面向信息物理系统的实时数据一致性维护策略研究

批准号:61672252
批准年份:2016
负责人:李剑军
学科分类:F0202
资助金额:62.00
项目类别:面上项目
4

面向对象的数据库管理系统

批准号:68973022
批准年份:1989
负责人:王珊
学科分类:F0214
资助金额:3.80
项目类别:面上项目