大数据一致性错误管理理论与关键技术

基本信息
批准号:61502121
项目类别:青年科学基金项目
资助金额:20.00
负责人:刘显敏
学科分类:
依托单位:哈尔滨工业大学
批准年份:2015
结题年份:2018
起止时间:2016-01-01 - 2018-12-31
项目状态: 已结题
项目参与者:韩希先,苗东菁,叶晨,孙纪舟
关键词:
一致性错误错误评估数据修复大数据数据质量
结项摘要

The quality issue of big data is becoming an more and more important problem, has caused huge financial losses and serious problems. Consistency is one of five main dimensions of data quality, and it is an important aspect of data quality. Consistency errors such as “the same zip code represents different cities” bring wrong information and reduced the usability of data tremendously. Until now, there are only few works foucsing on the management of inconsistencies for big data. Providing the fundamental theories and key technologies for inconsistencies management of big data is very meaningful. This proposal will study the fundamental theories and key technologies for inconsistencies management of big data, which include theory fundation of inconsistency management, inconsistency evaluation on big data, inconsistency repair on big data and query evaluation on big inconsistent data. For the fundamental part, the related problems in managing inconsistent data will be investegated from the theoretical view, which will analyze the computational complexities and parameterized compleixties of those problems; based on sampling methods, linear and sublinear algorithms will be designed to evaluate the degree of inconsisntency of big data; to improve the data quality, based on user feedback on query results, inconsistency repair algorithms will be designed for big data; to tolerate the inconsistent data in real applications, query processing algorithms on inconsistent big data will be designed; finally, a protosystem of inconsistency management for big data will be implemented.

大数据的质量问题正在成为一个越来越重要的问题,已经给社会带来了巨大的经济损失和严重的后果。一致性是数据质量五大维度之一,是数据质量的重要方面。一致性错误会带来诸如“同一邮政编码代表两个不同城市”的错误信息,严重影响了数据的可用性。目前,大数据一致性错误管理的研究工作还很少。提供大数据一致性错误管理的理论与技术具有较大的学术和实际意义。为此,本项目主要研究大数据一致性错误管理的理论与关键技术,包括大数据一致性错误管理的理论基础,大数据一致性错误评估算法,大数据一致性错误修复算法以及不一致大数据查询处理算法。从理论角度研究一致性错误管理基本问题的复杂性与参数复杂性;基于采样等思想设计适用于大数据的线性、亚线性错误评估算法,评估数据质量;设计基于用户反馈的大数据一致性错误修复算法,改进数据质量;设计不一致大数据上的查询处理算法,支持对不一致数据的容忍;实现大数据一致性错误管理的原型系统。

项目摘要

大数据的质量问题正在成为一个越来越重要的问题,已经给社会带来了巨大的经济损失和严重的后果。一致性是数据质量五大维度之一,是数据质量的重要方面。一致性错误会带来诸如“同一邮政编码代表两个不同城市”的错误信息,严重影响了数据的可用性。目前,大数据一致性错误管理的研究工作还很少。提供大数据一致性错误管理的理论与技术具有较大的学术和实际意义。为此,本项目主要研究大数据一致性错误管理的理论与关键技术,包括大数据一致性错误管理的理论基础,大数据一致性错误评估算法,大数据一致性错误修复算法以及不一致大数据查询处理算法。本项目解决了大数据一致性错误管理基础问题的参数复杂性分析、亚线性时间代价的一致性错误评估算法、基于反馈的一致性错误修复算法以及融合多修复可能的一致查询处理算法等四个关键科学问题,建立了大数据一致性错误管理的理论基础,提出了一系列大数据一致性错误评估、修复算法,提出了支持劣质容忍的一致查询处理算法。本项目共发表学术论文17篇,其中CCF A类期刊1篇,CCF B类期刊7篇,CCF A类会议论文2篇,在理论计算机科学领域国际期刊《Theoretical Computer Science》上发表论文3篇。本项目在参数复杂性、亚线性算法等基础理论方面的成果为后续的研究打开了新的突破口。2018年本项目负责人以主要成员身份参与的国家自然科学基金重点项目《大数据分析的计算理论与高效算法》获批,其中一个重要的研究内容就是面向大数据设计亚线性时间的高效算法和研究大数据分析问题的参数复杂性。本项目应用所提出的理论和算法方面的研究成果,实现了大数据一致性错误管理的原型系统,验证了项目所提出理论与算法的正确性和有效性。在此基础上,形成了大数据一致性错误评估与修复算法库,2018年项目负责人参与的国家自然科学基金重大项目《基于超算的大数据分析处理基础算法与编程支撑环境》获批,将与天河二号深入合作,在其平台应用本项目在大数据一致性错误评估与修复方面的研究成果。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

论大数据环境对情报学发展的影响

论大数据环境对情报学发展的影响

DOI:
发表时间:2017
2

硬件木马:关键问题研究进展及新动向

硬件木马:关键问题研究进展及新动向

DOI:
发表时间:2018
3

肉苁蓉种子质量评价及药材初加工研究

肉苁蓉种子质量评价及药材初加工研究

DOI:10.11842/wst.2017.02.019
发表时间:2017
4

中外学术论文与期刊的宏观差距分析及改进建议

中外学术论文与期刊的宏观差距分析及改进建议

DOI:
发表时间:2021
5

圆柏大痣小蜂雌成虫触角、下颚须及产卵器感器超微结构观察

圆柏大痣小蜂雌成虫触角、下颚须及产卵器感器超微结构观察

DOI:10.3969/j.issn.1674-0858.2020.04.30
发表时间:2020

刘显敏的其他基金

相似国自然基金

1

大图数据管理与分析的基础理论与关键技术研究

批准号:61732003
批准年份:2017
负责人:王国仁
学科分类:F0202
资助金额:315.00
项目类别:重点项目
2

面向大数据的数据一致性管理研究

批准号:61572135
批准年份:2015
负责人:谈子敬
学科分类:F0202
资助金额:64.00
项目类别:面上项目
3

大数据错误检测与修复关键技术的研究

批准号:61472099
批准年份:2014
负责人:王宏志
学科分类:F0202
资助金额:82.00
项目类别:面上项目
4

不确定数据管理的理论与关键技术

批准号:60933001
批准年份:2009
负责人:王国仁
学科分类:F0202
资助金额:210.00
项目类别:重点项目