开放链接数据(LOD)“使用质量”评估理论与方法研究

基本信息
批准号:61772201
项目类别:面上项目
资助金额:59.00
负责人:阮彤
学科分类:
依托单位:华东理工大学
批准年份:2017
结题年份:2021
起止时间:2018-01-01 - 2021-12-31
项目状态: 已结题
项目参与者:张欢欢,叶琪,刘江,谢晓玲,方之家,孙程琳,张乐,王婷,赵亮
关键词:
开放链接数据度量质量评估使用质量本体对齐与实例匹配
结项摘要

While the data quality is defined as “fitness for use”, traditional studies on quality evaluation cannot reflect the impact of application requirements on quality results. Furthermore, there are no common accepted form of the output of evaluation, since how to utilize of the result of evaluation is vague. The challenges become even greater when coping with the LOD datasets and applications: 1. There exist a wide range of LOD applications with varied requirement. 2. It costs high for human labor to evaluate a large number of LOD datasets containing millions of triples. 3. Mathematic models are required to address the problems of ranking and integration among datasets. Our project focuses on the theories and methods of dataset evaluation driven by “quality in use”. In particular, firstly the project formally defines applications context related to quality evaluation, and give a clear quantitative relationship between quality context, data sets and quality dimensions. Secondly we use equivalence class based sampling integrated with quadrature sampling, hypothesis testing and conformity statistic to reduce the subjectivity and evaluation costs of human assessment. Thirdly, we propose mathematical definitions and methods about quality ranking and integration of data sets. The theories and methods proposed in this project will form a solid foundation of quality evaluation of LOD datasets.

虽然数据质量被定义为“适合使用”,但现有质量研究未曾体现不同应用需求对评估的影响,且评估过程围绕度量计算展开,评估目标模糊并缺乏精确的质量模型。因此,无法应对开放链接数据(LOD)应用中,使用场景变化大、评估目标数据集合范围广、数据量大导致人工评估成本高等挑战。本项目重点研究“使用质量”驱动的多数据集合的质量评估理论与方法。特别地,项目形式化地定义了应用上下文,明确了应用需求与数据集合、质量维度之间的量化关系;并利用等价类采样、正交采样与一致性评估等方法来降低评估的主观性与评估成本;精确定义了LOD数据集合的质量评估排序模型与不同数据集合的最佳集成建议。本项目理论与方法的提出,为LOD数据集合的评估实践奠定了良好的基础。

项目摘要

虽然数据质量被称为“适合使用”,但现有数据质量评估并不能体现不同应用需求对评估的影响,且评估目标模糊并缺乏精确的质量模型。因此,无法应对开放链接数据(LOD)应用中,使用场景变化大、评估目标数据集合范围广、数据量大导致人工评估成本高等挑战。.本项目重点研究“使用质量”驱动的多数据集合的质量评估理论与方法,以及数据质量提升方法。本项目的主要研究成果包括:.(1)面向开放链接数据集,提出了基于使用质量的评估方法,解决了应用场景相关性问题。提出了基于语义和结构置信度的知识图谱质量自动校验方法,解决了由于数据量大导致人工评估和校验成本高的问题。.(2)针对语义异常数据自动检测问题,提出了两种方法,一种是使用改进的连续词袋模型检测异常数据的方法。核心假设是如果两类数据有语义相关性,则基于一组A数据可以预测一组B数据,而预测方法可以借助于语言模型,基于异常用药数据进行了方法验证,获得了良好的效果。另一种方法是,构造了一种自变量与应变量关联的语义偏序模型,用于找到异常应变量,方法在桥梁损伤数据集合上得到验证。.(3)针对多数据集合中术语名称不一致的问题,本课题研究了无标准术语库、标准术语库是无结构的术语集合和标准术语库为树状结构等三种情况的术语标准化方法,提出了基于多元特征的集成标准化算法、基于多视图输入的BERT标准化模型和基于语义和结构嵌入的关联预测模型,实验结果显示三个方法都取得了具备良好竞争力的效果..(4)针对多数据集合融合问题,提出了基于联合学习的图谱对齐模型,设计了基于Albert的名称编码器用于解决语义信息强关系类型单一的问题,提出了基于高速门控图卷积网络的图谱编码器用于聚合邻居术语实体信息,以及属性编码器用于生成属性编码,两者联合学习提升了效果。.基于上述成果,构建了多个开放链接数据集合,并在OpenKG上发布。同时构造了数据质量评估工具,供第三方开放使用。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

论大数据环境对情报学发展的影响

论大数据环境对情报学发展的影响

DOI:
发表时间:2017
2

跨社交网络用户对齐技术综述

跨社交网络用户对齐技术综述

DOI:10.12198/j.issn.1673 − 159X.3895
发表时间:2021
3

硬件木马:关键问题研究进展及新动向

硬件木马:关键问题研究进展及新动向

DOI:
发表时间:2018
4

基于ESO的DGVSCMG双框架伺服系统不匹配 扰动抑制

基于ESO的DGVSCMG双框架伺服系统不匹配 扰动抑制

DOI:
发表时间:2018
5

肉苁蓉种子质量评价及药材初加工研究

肉苁蓉种子质量评价及药材初加工研究

DOI:10.11842/wst.2017.02.019
发表时间:2017

阮彤的其他基金

相似国自然基金

1

开放数据环境下技术专家定位与评估方法研究

批准号:71673024
批准年份:2016
负责人:朱东华
学科分类:G0403
资助金额:49.00
项目类别:面上项目
2

基于涵盖误差的我国周期性普查数据质量评估方法:理论与应用研究

批准号:71301033
批准年份:2013
负责人:陶然
学科分类:G0104
资助金额:22.00
项目类别:青年科学基金项目
3

基于表示学习的RDF数据链接方法研究

批准号:61872172
批准年份:2018
负责人:胡伟
学科分类:F0203
资助金额:63.00
项目类别:面上项目
4

基于面板数据的政策评估方法:计量理论与应用

批准号:71571154
批准年份:2015
负责人:李迎星
学科分类:G0105
资助金额:49.30
项目类别:面上项目