Big data has become an important asset of the information society. The analysis of multi-source space-related big data (such as environmental big data) can support both the promotion sustainable development and the improvement of the people's livelihood. But the error of data (such as data missing) greatly reduces the availability of multi-source space-related data. Therefore, it is important to clean up the error data. In order to clean up the multi-source space-related big data, building data cleaning system has become an urgent problem that should be solved quickly. .We study the key technologies of the data cleaning system for multi-source space-related big data. Taking advantage of characteristics (large scale, heterogeneous source and multi-correlation between data) of multi-source space-related big data, we achieve big data cleaning algorithm parallelization, and improve efficiency of data cleaning. First, we analyze the characteristics and correlation of multi-source space-related big data. The analysis result provides a basis for the follow-up research. Then, we study the function dependency discovery method for big data, and prune global tree via migrating dependency rule set. And we present the missing data imputation algorithm based on classification. That two algorithms are the core of the big data cleaning system. Finally, through the task merge, task scheduling and data placement strategy, we optimize the performance of big data cleaning system. .In this project, we provide a tool support for promoting the data quality and availability of multi-source space-related big data. This study is available reference for the design of other big data cleaning system.
大数据已成为信息社会的重要财富,以环境大数据为代表的多源空间相关大数据的研究能支撑民生改善和推进可持续发展,但数据质量问题极大降低了多源空间相关大数据的可用性。因此,为清洗该类大数据构建数据清洗系统成为亟待解决的问题。本项目面向多源空间相关大数据,针对其特点:数据规模庞大、数据多源异构、数据间存在时空源间相关性,研究多源空间相关大数据清洗系统的关键技术,解决大数据清洗算法并行化设计以及清洗系统运行效率不高的问题。首先,通过分析多源空间相关大数据时间、空间以及数据源间特征,为后续研究提供基础;然后,研究基于依赖规则集迁移的大数据函数依赖发现方法和基于分类划分的缺失数据填充算法并行化,以此完成大数据清洗系统核心构建;最后,通过任务合并、任务调度与副本放置策略优化大数据清洗系统性能。本项目为多源空间相关大数据质量与可用性提升,以及后续大数据分析提供工具支撑;为专题大数据清洗系统的设计提供借鉴。
大数据已成为信息社会的重要财富,以环境大数据为代表的多源空间相关大数据的研究能支撑民生改善和推进可持续发展,但数据质量问题极大降低了多源空间相关大数据的可用性。因此,为清洗该类大数据构建数据清洗系统成为亟待解决的问题。本项目围绕面向多源空间相关大数据的数据清洗系统关键技术展开研究:1.以环境大数据为案例,提出基于高斯分布的证据推理的综合评价方法、辅以主成分分析、模态分解等方法对多源空间相关大数据进行时空分析;2.针对大数据异常检测和数据修复分别进行相关研究:在数据异常检测方面,针对当前大数据检测存在的问题,本项目分别提出一种基于自适应区间估值的异常检测和一种针对大数据的改进变分LSTM异常检测等方法;3.在数据修复方面,本项目首先提出一种针对缺失数据集修复算法进行评测的方法,并对现有常用的缺失数据集修复算法进行了评测,4.提出基于EMD与LSTM的二阶段数据修复方法提高数据修复精度;5.提出基于密度过滤的抽样聚类修复方法对现有修复算法进行大数据移植;6.提出基于多源数据融合的文本信息去重方法解决数据去重问题。7.本项目在Hadoop集群框架上,构建了数据抽取与修复一体的多源流式数据清洗系统。本项目将构建的数据抽取与修复一体的多源流式数据清洗系统和清洗关键技术应用到环境分析评估、旅游规划和电网信息化等领域。系统应用到了湖南智成旅游文化咨询有限公司的“旅游世界观”产品中,采集9873万条网络数据并应用基于多源数据融合的文本信息去重方法进行旅游点去重;应用到国网湖南省电力有限公司大数据平台与企业中台建设中,在行业用电数据的抽取与清洗中小规模应用了项目组所研发的数据ETL和清洗算法组件,并取得了较好的使用效果;应用到湖南省湘江流域环境治理中,为湖南省环境治理提供数据分析支持。
{{i.achievement_title}}
数据更新时间:2023-05-31
基于分形L系统的水稻根系建模方法研究
论大数据环境对情报学发展的影响
拥堵路网交通流均衡分配模型
卫生系统韧性研究概况及其展望
面向云工作流安全的任务调度方法
面向数据空间内多模式查询和数据集成的关键技术研究
基于众包的数据清洗关键技术研究
多源数据挖掘的关键技术研究
面向领域本体的多源异构数据聚合和语义标注关键技术研究