Many applications contain big data. Big data management becomes one of the hot topics in data management field. Big data contain errors in higher possibility due to the features of volume, velocity and variety. Here, error means inconsistent, outdated, incomplete, inaccurate data or conflicts in the data referring to the same entity (conflicts for brief). Detecting and repairing errors effectively are essential for data-centric systems. However, existing error detection and repair technologies could not be applied to big data due to low scalability, not supporting mixed multiple error types and lack of knowledge. Therefore, this project attempts to study key technologies of error detection and repair for big data on the basis of our existing work. This project will design computation-efficient data quality model for big data, present algorithms to detect and repair inconsistency, outdating, incompleteness, inaccuracy and conflicts in big data respectively, propose detection and repair methods for mixed errors in multiple types in big data, and develop an error detection and repair system for big data to verify the correctness and effectiveness of proposed theories and techniques.
大数据在当前的应用中广泛存在,成为数据管理研究的热点之一。由于其规模性、高速性、多样性的特点,大数据中有更大可能出现错误,即存在不一致、过时、不完整、不精确的数据或描述同一实体的数据出现冲突(简称为实体不同一)。能否有效检测和修复错误是以数据为中心的系统成败的重要因素。然而,由于可扩展性不足、缺少对多类别错误的支持、缺乏知识等原因,当前错误检测和修复技术难以应用于大数据。故本项目基于课题组的研究基础,研究大数据上检测并修复错误的关键技术。本项目拟面向大数据提出计算有效的数据质量模型,针对不一致、过时、不完整、不精确和实体不同一这五类数据错误分别提出适用于大数据的错误检测与修复算法,提出大数据上多种类型混合错误的检测与修复方法,并开发一套大数据错误检测与修复系统,验证研究结果的正确性和有效性。
本课题是国家自然科学基金面上项目“大数据错误检测与修复关键技术的研究”,该课题针对数据质量这一大数据管理的热点问题,研究大数据上检测并修复错误的关键技术,具体来说,面向大数据提出计算有效的数据质量模型,针对不一致、过时、不完整、不精确和实体不同一这五类数据错误分别提出适用于大数据的错误检测与修复算法,提出大数据上多种类型混合错误的检测与修复方法,并开发一套大数据错误检测与修复系统。按照研究计划,课题组人员开展了研究工作,提出了通用大数据质量模型并分析其计算有效性,针对不一致错误提出了基于Hadoop的不一致数据检测与修复算法、扫描数据一次的不一致数据检测算法和基于正则表达式的不一致数据检测与修复算法,针对过时错误提出了基于Hadoop的过时数据检测算法、时鲜数据提取算法、过时数据检测规则自动发现算法和动态数据的时效性判定算法,针对不完整错误提出了基于众包的缺失值填充优化算法、贝叶斯网络与众包结合的缺失值填充算法、基于近似匹配的缺失值填充算法、不完整时间序列的修复算法、基于不完整数据分类的缺失值填充算法、基于知识库推理的缺失值填充算法和基于Web的缺失值填充,针对不精确错误提出了不精确数据检测算法,针对实体不同一错误提出了基于树的实体相似性测度、基于图内聚的实体识别算法、基于Map-Reduce的大数据增量真值发现算法;针对多种混合错误检测与修复,发现了数据错误类型关联,提出了数据混杂类型错误修复算法、不一致数据缺失值填充算法、基于任务合并的大数据混合错误并行清洗优化策略和多源数据自动修复算法。发表论文49篇,SCI收录26篇, EI收录45篇,并基于本项目提出的技术开发并研发了大数据清洗系统CleanCloud,在国际会议CIKM上进行了系统演示。课题组成员4次应邀在国际会议上进行国际大会特邀报告,7人次担任重要国内外学术会议组织委员会委员。
{{i.achievement_title}}
数据更新时间:2023-05-31
论大数据环境对情报学发展的影响
肉苁蓉种子质量评价及药材初加工研究
中外学术论文与期刊的宏观差距分析及改进建议
圆柏大痣小蜂雌成虫触角、下颚须及产卵器感器超微结构观察
资源型地区产业结构调整对水资源利用效率影响的实证分析—来自中国10个资源型省份的经验证据
基于WEB信息的信息错误自动检测与修复技术研究
大数据一致性错误管理理论与关键技术
复杂网络应用的配置错误诊断及修复关键技术研究
对象级视频修复与合成篡改检测关键技术研究