面向大数据可用性的Web跨源实体数据不一致自动发现研究

基本信息

批准号：61502350

项目类别：青年科学基金项目

资助金额：20.00

负责人：余伟

学科分类：

依托单位：武汉大学

批准年份：2015

结题年份：2018

起止时间：2016-01-01 - 2018-12-31

项目状态：已结题

项目参与者：Weiyi Meng,彭煜玮,甘琳,杨莎,胡亚慧,吴岳廷,刘典

关键词：

跨源数据分析数据挖掘数据一致性数据管理数据质量

结项摘要

The prevalence of data inconsistency among web cross-source entities has gravely affected the usability of web big data. However, mainly focusing on the structured data, the current research is lack of theory and method for data inconsistency in web cross-source. Our project would study both theoretically modeling and automatically discovering the data consistency among web cross-source entities to achieve efficient detection and annotation for web inconsistent data.In the theory part, we would establish unified relation representation of data on account of heterogeneity and diversity; construct four basic consistency schema for different inconsistency phenomena; build algebraic system to operate data consistency; definite conditional approximate consistent dependency in data for semantic logical consistency constraint based on conditional option, as well as generate and deduce consistency dependency via progression processing and transfer learning; thus constitute inference mechanism for data consistency determination.In the method part, we would propose discovery algorithms of local traversal and hierarchy evolution for inconsistent data under parallel computation framework, which is to satisfy efficiency and accuracy from local consistency to global consistency. Our research would support both the theory and technology for usability promotion and development of web big data.

多源异构的Web大数据中普遍存在着数据不一致问题，严重降低了数据的可用性。目前的研究主要针对结构化数据，缺乏Web跨源数据一致性研究的理论和方法。本项目拟从Web跨源实体数据一致性理论建模和不一致自动发现方法实现这两个方面展开研究，实现Web不一致数据的有效探测和标注。在理论部分将针对Web异构多样的特征，建立数据的统一关系表示；针对不一致现象构造四种基本的一致模式；建立数据一致运算的代数系统；定义数据间的条件近似一致依赖，实现基于条件选择的语义逻辑一致性约束，并通过递进处理和迁移学习来生成和推导一致依赖；以此构成判定数据一致性的推理机制，形成完备的Web数据一致性模型。在方法部分，提出并行计算框架下局部遍历和层次演化不一致数据的发现方法，从局部一致到全局一致进行演化以满足效率和精度的要求。本项目的研究将对提高Web大数据的可用性、促进Web大数据发展提供理论和技术支撑。

项目摘要

项目成果

DOI：{{i.doi}}

发表时间：{{i.publish_year}}

暂无此项成果

数据更新时间：2023-05-31

其他相关文献

DOI：

发表时间：

DOI：10.11842/wst.20190724002

发表时间：2020

DOI：10.13199/j.cnki.cst.2020.07.010

发表时间：2020

DOI：10.3760/cma.j.issn.1001-9030.2019.11.040

发表时间：2019

DOI：

发表时间：2023

余伟的其他基金

批准号：81402958

批准年份：2014

资助金额：23.00

项目类别：青年科学基金项目

批准号：61803086

批准年份：2018

资助金额：27.00

项目类别：青年科学基金项目

批准号：71862022

批准年份：2018

资助金额：28.00

项目类别：地区科学基金项目

相似国自然基金

Web数据挖掘与知识发现

批准号：60205007

批准年份：2002

负责人：印鉴

学科分类：F0605

资助金额：5.00

项目类别：青年科学基金项目

面向市场情报的Web实体事件发现与踪迹分析研究

批准号：61303005

批准年份：2013

负责人：闫中敏

学科分类：F0202

资助金额：23.00

项目类别：青年科学基金项目

海量深网数据源入口的自动发现与集成研究

批准号：61472296

批准年份：2014

负责人：李雁妮

学科分类：F0214

资助金额：81.00

项目类别：面上项目

面向多维数据的自动导航和知识发现的理论与方法研究

批准号：60473072

批准年份：2004

负责人：谭少华

学科分类：F0202

资助金额：23.00

项目类别：面上项目

面向大数据可用性的Web跨源实体数据不一致自动发现研究

{{i.achievement_title}}

暂无此项成果

其他相关文献

基于LS-SVM香梨可溶性糖的近红外光谱快速检测

基于文献计量学和社会网络分析的国内高血压病中医学术团队研究

智能煤矿建设路线与工程实践

大鼠尾静脉注射脑源性微粒的半数致死量测定

新产品脱销等待时间对顾客抱怨行为的影响:基于有调节的双中介模型

余伟的其他基金

CYP4Z1参与调节NMT活性在乳腺癌侵袭转移的作用及分子机制

一类复杂系统精细建模与多级多粒度故障诊断方法研究

企业开放式创新的形成机理——基于员工多样性的解释与实证研究

相似国自然基金