With the increasing development of information technology, data plays a more and more important role in our daily life. As an example, data analysis can help enterprises make a better decision in the market. However, if data is not clean, the analysis based on dirty data may lead to completely wrong decisions, which may cause enormous losses to enterprises. According to a recent study from Experian QAS Inc., poor customer data cost British businesses $8 billion loss of revenue in 2011. In order to clean the dirty data, machine-based data cleaning approaches have been widely studied for several decades, but still remain far from perfect. Recently, crowdsourcing has attracted significant attention in both the industrial and academic communities. It is widely validated that crowdsourcing can obtain better results than sophisticated machine-based approaches. This insight motivates us to explore crowdsourced data-cleaning approaches. In particular, in this proposal, we mainly study the following four problems: (1) Crowdsourced data error detection; (2) Crowdsourced dirty data repairing; (3) Crowdsourced duplicate data detection; (4) Quality control of crowdsourced data-cleaning results. In addition, we will develop a real crowdsourced data-cleaning system by combining all research achievements, which aims to outperform the state-of-the-art machine-based data-cleaning systems in terms of result accuracy.
在信息化高速发展的今天,数据在各行各业发挥着越来越重要的地位,例如:数据分析常常可以帮助企业在市场上做出正确的商业决策。然而,如果数据不干净,那么基于脏数据所做的分析结果可能会导致完全错误的商业决策,给公司带来巨大的损失。根据益百利公司的最新调查结果表明,2011年英国的商业公司因为数据不干净的问题总共损失高达80亿英镑。为了清洗这些脏数据,基于机器算法的数据清洗技术已经得到了广泛关注,但是目前方法还不能达到满意的效果。最近几年,众包技术在工业界和学术界获得了广泛的关注,并被验证可以比精巧的机器算法获得更好的结果。受此启发,本课题研究基于众包的数据清洗技术,具体研究内容包括:(1)众包数据错误检测;(2)众包数据错误修复;(3)众包冗余数据去重;(4)众包数据清洗结果的质量控制。此外,我们还将把以上研究成果融为一体,开发一套比当前主流的数据清洗系统结果更好的众包数据清洗系统。
在信息化高速发展的今天,数据在各行各业发挥着越来越重要的地位,例如:数据分析常常可以帮助企业在市场上做出正确的商业决策。然而,如果数据不干净,那么基于脏数据所做的分析结果可能会导致完全错误的商业决策,给公司带来巨大的损失。根据益百利公司的最新调查结果表明,2011年英国的商业公司因为数据不干净的问题总共损失高达80亿英镑。为了清洗这些脏数据,基于机器算法的数据清洗技术已经得到了广泛关注,但是目前方法还不能达到满意的效果。最近几年,众包技术在工业界和学术界获得了广泛的关注,并被验证可以比精巧的机器算法获得更好的结果。受此启发,本课题研究基于众包的数据清洗技术。..本项目严格按照研究计划执行,在基于众包的数据清洗的方面取得了多项突破性成果,按照预期解决了关键问题。提出了基于知识图谱的数据清洗方法,人机协作数据修复方法,基于偏序的图迭代数据去重模型,质量感知的众包任务质量控制方法,基于信息论的众包质量控制机制,并将这些技术应用到教育数据、时空数据的清洗、修复和去重。..发表了CCF A类论文15篇。获得了CIKM 2017 最佳论文奖以及ICDE 2018最佳论文候选。
{{i.achievement_title}}
数据更新时间:2023-05-31
论大数据环境对情报学发展的影响
内点最大化与冗余点控制的小型无人机遥感图像配准
端壁抽吸控制下攻角对压气机叶栅叶尖 泄漏流动的影响
基于ESO的DGVSCMG双框架伺服系统不匹配 扰动抑制
肉苁蓉种子质量评价及药材初加工研究
大数据众包计算中真相发现关键技术研究
空间众包数据处理及其优化关键技术研究
基于众包的知识融合关键技术研究
众包数据库的基础理论与关键技术研究