The prevalence of data inconsistency among web cross-source entities has gravely affected the usability of web big data. However, mainly focusing on the structured data, the current research is lack of theory and method for data inconsistency in web cross-source. Our project would study both theoretically modeling and automatically discovering the data consistency among web cross-source entities to achieve efficient detection and annotation for web inconsistent data.In the theory part, we would establish unified relation representation of data on account of heterogeneity and diversity; construct four basic consistency schema for different inconsistency phenomena; build algebraic system to operate data consistency; definite conditional approximate consistent dependency in data for semantic logical consistency constraint based on conditional option, as well as generate and deduce consistency dependency via progression processing and transfer learning; thus constitute inference mechanism for data consistency determination.In the method part, we would propose discovery algorithms of local traversal and hierarchy evolution for inconsistent data under parallel computation framework, which is to satisfy efficiency and accuracy from local consistency to global consistency. Our research would support both the theory and technology for usability promotion and development of web big data.
多源异构的Web大数据中普遍存在着数据不一致问题,严重降低了数据的可用性。目前的研究主要针对结构化数据,缺乏Web跨源数据一致性研究的理论和方法。本项目拟从Web跨源实体数据一致性理论建模和不一致自动发现方法实现这两个方面展开研究,实现Web不一致数据的有效探测和标注。在理论部分将针对Web异构多样的特征,建立数据的统一关系表示;针对不一致现象构造四种基本的一致模式;建立数据一致运算的代数系统;定义数据间的条件近似一致依赖,实现基于条件选择的语义逻辑一致性约束,并通过递进处理和迁移学习来生成和推导一致依赖;以此构成判定数据一致性的推理机制,形成完备的Web数据一致性模型。在方法部分,提出并行计算框架下局部遍历和层次演化不一致数据的发现方法,从局部一致到全局一致进行演化以满足效率和精度的要求。本项目的研究将对提高Web大数据的可用性、促进Web大数据发展提供理论和技术支撑。
多源异构的Web大数据中普遍存在着数据不一致问题,严重降低了数据的可用性。目前的研究主要针对结构化数据,缺乏Web跨源数据一致性研究的理论和方法。本项目拟从Web跨源实体数据一致性理论建模和不一致自动发现方法实现这两个方面展开研究,实现Web不一致数据的有效探测和标注。在理论部分将针对Web异构多样的特征,建立数据的统一关系表示;针对不一致现象构造四种基本的一致模式;建立数据一致运算的代数系统;定义数据间的条件近似一致依赖,实现基于条件选择的语义逻辑一致性约束,并通过递进处理和迁移学习来生成和推导一致依赖;以此构成判定数据一致性的推理机制,形成完备的Web数据一致性模型。在方法部分,提出并行计算框架下局部遍历和层次演化不一致数据的发现方法,从局部一致到全局一致进行演化以满足效率和精度的要求。本项目的研究将对提高Web大数据的可用性、促进Web大数据发展提供理论和技术支撑。
{{i.achievement_title}}
数据更新时间:2023-05-31
基于LS-SVM香梨可溶性糖的近红外光谱快速检测
基于文献计量学和社会网络分析的国内高血压病中医学术团队研究
智能煤矿建设路线与工程实践
大鼠尾静脉注射脑源性微粒的半数致死量测定
新产品脱销等待时间对顾客抱怨行为的影响:基于有调节的双中介模型
Web数据挖掘与知识发现
面向市场情报的Web实体事件发现与踪迹分析研究
海量深网数据源入口的自动发现与集成研究
面向多维数据的自动导航和知识发现的理论与方法研究