大数据错误检测与修复关键技术的研究

基本信息
批准号:61472099
项目类别:面上项目
资助金额:82.00
负责人:王宏志
学科分类:
依托单位:哈尔滨工业大学
批准年份:2014
结题年份:2018
起止时间:2015-01-01 - 2018-12-31
项目状态: 已结题
项目参与者:陈鄞,刘显敏,李涛,黎玲利,李默涵,刘永楠,叶晨
关键词:
数据清洗数据库数据管理大数据数据质量
结项摘要

Many applications contain big data. Big data management becomes one of the hot topics in data management field. Big data contain errors in higher possibility due to the features of volume, velocity and variety. Here, error means inconsistent, outdated, incomplete, inaccurate data or conflicts in the data referring to the same entity (conflicts for brief). Detecting and repairing errors effectively are essential for data-centric systems. However, existing error detection and repair technologies could not be applied to big data due to low scalability, not supporting mixed multiple error types and lack of knowledge. Therefore, this project attempts to study key technologies of error detection and repair for big data on the basis of our existing work. This project will design computation-efficient data quality model for big data, present algorithms to detect and repair inconsistency, outdating, incompleteness, inaccuracy and conflicts in big data respectively, propose detection and repair methods for mixed errors in multiple types in big data, and develop an error detection and repair system for big data to verify the correctness and effectiveness of proposed theories and techniques.

大数据在当前的应用中广泛存在,成为数据管理研究的热点之一。由于其规模性、高速性、多样性的特点,大数据中有更大可能出现错误,即存在不一致、过时、不完整、不精确的数据或描述同一实体的数据出现冲突(简称为实体不同一)。能否有效检测和修复错误是以数据为中心的系统成败的重要因素。然而,由于可扩展性不足、缺少对多类别错误的支持、缺乏知识等原因,当前错误检测和修复技术难以应用于大数据。故本项目基于课题组的研究基础,研究大数据上检测并修复错误的关键技术。本项目拟面向大数据提出计算有效的数据质量模型,针对不一致、过时、不完整、不精确和实体不同一这五类数据错误分别提出适用于大数据的错误检测与修复算法,提出大数据上多种类型混合错误的检测与修复方法,并开发一套大数据错误检测与修复系统,验证研究结果的正确性和有效性。

项目摘要

本课题是国家自然科学基金面上项目“大数据错误检测与修复关键技术的研究”,该课题针对数据质量这一大数据管理的热点问题,研究大数据上检测并修复错误的关键技术,具体来说,面向大数据提出计算有效的数据质量模型,针对不一致、过时、不完整、不精确和实体不同一这五类数据错误分别提出适用于大数据的错误检测与修复算法,提出大数据上多种类型混合错误的检测与修复方法,并开发一套大数据错误检测与修复系统。按照研究计划,课题组人员开展了研究工作,提出了通用大数据质量模型并分析其计算有效性,针对不一致错误提出了基于Hadoop的不一致数据检测与修复算法、扫描数据一次的不一致数据检测算法和基于正则表达式的不一致数据检测与修复算法,针对过时错误提出了基于Hadoop的过时数据检测算法、时鲜数据提取算法、过时数据检测规则自动发现算法和动态数据的时效性判定算法,针对不完整错误提出了基于众包的缺失值填充优化算法、贝叶斯网络与众包结合的缺失值填充算法、基于近似匹配的缺失值填充算法、不完整时间序列的修复算法、基于不完整数据分类的缺失值填充算法、基于知识库推理的缺失值填充算法和基于Web的缺失值填充,针对不精确错误提出了不精确数据检测算法,针对实体不同一错误提出了基于树的实体相似性测度、基于图内聚的实体识别算法、基于Map-Reduce的大数据增量真值发现算法;针对多种混合错误检测与修复,发现了数据错误类型关联,提出了数据混杂类型错误修复算法、不一致数据缺失值填充算法、基于任务合并的大数据混合错误并行清洗优化策略和多源数据自动修复算法。发表论文49篇,SCI收录26篇, EI收录45篇,并基于本项目提出的技术开发并研发了大数据清洗系统CleanCloud,在国际会议CIKM上进行了系统演示。课题组成员4次应邀在国际会议上进行国际大会特邀报告,7人次担任重要国内外学术会议组织委员会委员。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

论大数据环境对情报学发展的影响

论大数据环境对情报学发展的影响

DOI:
发表时间:2017
2

肉苁蓉种子质量评价及药材初加工研究

肉苁蓉种子质量评价及药材初加工研究

DOI:10.11842/wst.2017.02.019
发表时间:2017
3

中外学术论文与期刊的宏观差距分析及改进建议

中外学术论文与期刊的宏观差距分析及改进建议

DOI:
发表时间:2021
4

圆柏大痣小蜂雌成虫触角、下颚须及产卵器感器超微结构观察

圆柏大痣小蜂雌成虫触角、下颚须及产卵器感器超微结构观察

DOI:10.3969/j.issn.1674-0858.2020.04.30
发表时间:2020
5

资源型地区产业结构调整对水资源利用效率影响的实证分析—来自中国10个资源型省份的经验证据

资源型地区产业结构调整对水资源利用效率影响的实证分析—来自中国10个资源型省份的经验证据

DOI:10.12202/j.0476-0301.2020285
发表时间:2021

王宏志的其他基金

批准号:51172042
批准年份:2011
资助金额:60.00
项目类别:面上项目
批准号:40771088
批准年份:2007
资助金额:45.00
项目类别:面上项目
批准号:51672043
批准年份:2016
资助金额:62.00
项目类别:面上项目
批准号:50772022
批准年份:2007
资助金额:30.00
项目类别:面上项目
批准号:51072034
批准年份:2010
资助金额:37.00
项目类别:面上项目
批准号:61003046
批准年份:2010
资助金额:18.00
项目类别:青年科学基金项目
批准号:U1509216
批准年份:2015
资助金额:190.00
项目类别:联合基金项目

相似国自然基金

1

基于WEB信息的信息错误自动检测与修复技术研究

批准号:61502390
批准年份:2015
负责人:刘海龙
学科分类:F0202
资助金额:20.00
项目类别:青年科学基金项目
2

大数据一致性错误管理理论与关键技术

批准号:61502121
批准年份:2015
负责人:刘显敏
学科分类:F0202
资助金额:20.00
项目类别:青年科学基金项目
3

复杂网络应用的配置错误诊断及修复关键技术研究

批准号:61402453
批准年份:2014
负责人:陈伟
学科分类:F0203
资助金额:24.00
项目类别:青年科学基金项目
4

对象级视频修复与合成篡改检测关键技术研究

批准号:61379143
批准年份:2013
负责人:李雷达
学科分类:F0205
资助金额:73.00
项目类别:面上项目