面向多类不相容标注的真值推理与模型获取研究

基本信息
批准号:61876217
项目类别:面上项目
资助金额:64.00
负责人:崔志明
学科分类:
依托单位:苏州科技大学
批准年份:2018
结题年份:2022
起止时间:2019-01-01 - 2022-12-31
项目状态: 已结题
项目参与者:盛胜利,陆卫忠,傅启明,和天旭,姚宇峰,郭安倩,段杰,沈艺
关键词:
数据挖掘多类不相容标注真值推理机器学习众包技术
结项摘要

Crowdsourcing systems provide convenient platforms to collect human intelligence for a variety of tasks (e.g., labeling objects) from a vast pool of independent workers(a crowd). Compared with traditional expert labeling methods, crowdsourcing is obviously more efficient and cost-effective, but the quality of a single labeler cannot be guaranteed. In taking advantage of the low cost of crowdsourcing, it is common to obtain multiple labels per object from the crowd. Recent research on crowdsourcing focuses on deriving an integrated label from multiple noisy labels via expectation-maximization based(EM-based) ground truth inference. Most ground truth inference algorithms are for binary labeling. They do work for multi-class incompatible labels. .This project focuses on following three aspects: 1) a completely novel learning framework for ground truth inference of multi-class incompatible labels, which integrates learning theory with the characteristics of crowdsourcing and extracts features from multi-class incompatible labels to represent objects. It facilitates use of various learning algorithms for conducting ground truth inference and to develop novel inference algorithms; 2) ground truth inference for learning, in which ground truth inference algorithms that pursue high quality models, instead of a high integrated label quality only, will be developed. This is urgent and desired by data mining researchers and practitioners, since many real-world applications of crowdsourcing aim to build a good learning model. However, all existing ground truth inference algorithms focus on the integrated label quality; and 3) generic learning from crowds, in which novel solutions will be developed for building better models without ground truth inference. .This project will provide significant theoretical and technical support to the development of multi-class incompatible labels. Not only it has important theoretical significance, but also has a wide range of real-world applications.

利用众包技术对数据进行标注具有成本低、速度快的特点,是当前国际前沿研究热点。但是与传统专家标注相比,众包系统中单个标注者的数据标注质量无法得到有效保障。尽管当前基于期望最大化真值推理算法能够从多个噪声标注导出集成标签,但大多数仅适用于二分类标注,无法有效应对多类不相容标注问题。针对众包多类不相容标注的真值推理及模型获取,本项目主要开展如下研究:1) 通过统计查询可学习理论与众包标注特性相结合,构建利用多类不相容标注矩阵的通用学习框架;进一步,分析研究众包多类不相容标注真值推理及监督学习的有效算法;2) 研究实现具有高质量学习模型的真值推理算法;从多类不相容标签矩阵生成特征向量;重点研究如何从构建的数据中训练出高预测性能的学习模型;3) 利用噪声标注矩阵,面向众包标注直接构建高质量的有监督分类学习模型。本项目的研究成果有望解决多类不相容标注的数据质量问题,具有重要的理论意义和广泛的应用价值。

项目摘要

众包技术对数据标注成本低、速度高,但单个标注者的质量无法保障。基于期望最大化真值推理算法是从多噪声标注中导出集成标签,但大多数仅适用于二分类标注,无法有效应对多类不相容标注问题。因此,研究众包多类不相容标注的真值推理及模型获取具有重要意义。.本项目主要研究:1)多类不相容标注的真值推理研究。我们构建了通用学习框架进行真值推理,从噪声标注矩阵生成特征向量数据,并用机器学习算法对多类不相容标注进行真值推理和监督学习。2)面向有监督学习的真值推理研究。我们在训练数据有限的情况下,提高模型质量的数据增强方法。3)无真值推理研究。我们通过建立学习模型群,在没有预先进行真值推理的情况下,直接从噪声矩阵中建立学习模型。.(1)基于我们构建的通用学习框架,提出一种基于ALBERT模型融合学习的中文医疗病历命名实体识别模型;基于转移学习的集成深度神经网络用于图像检索,提出了一种帮助分析犯罪现场的足迹图像证据;句法分析是自然语言处理的一项基础工作,提出了一种将中文文本自然语句转换为标准句法树结构的自动分析方法。.(2)面向提高模型质量的数据增强方法,对于语篇分析中主位推进模式,构建了一个新的带有主题推进信息中文新闻语篇语料库;基于长文本摘要任务,构建了一个大规模的长中文文本摘要语料库以及对应模型;针对长文本自动摘要数据缺乏问题,提出了一种面向长文本自动摘要任务的数据增强方法EMDAM。.(3)围绕无真值推理研究,我们开展多项学习模型构建研究,分析了肝脏图像分割的五种代表性结构,对于医学图像分割的传统神经网络在网络深度、不同深度的重要性和跳跃连接的合理性,我们提出了一种方便、高效的肝脏和病变分割系统;针对深度神经网络可解释性差的问题,我们提出了一种随机连线图神经网络RWGNN。 .项目实施期间,在国际 SCI 期刊或顶级学术会议等发表了论文25篇,申报发明专利15项,其中授权发明专利9项,共培养青年教师2名,博士研究生2名,硕士研究生8名。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

涡度相关技术及其在陆地生态系统通量研究中的应用

涡度相关技术及其在陆地生态系统通量研究中的应用

DOI:10.17521/cjpe.2019.0351
发表时间:2020
2

论大数据环境对情报学发展的影响

论大数据环境对情报学发展的影响

DOI:
发表时间:2017
3

硬件木马:关键问题研究进展及新动向

硬件木马:关键问题研究进展及新动向

DOI:
发表时间:2018
4

基于SSVEP 直接脑控机器人方向和速度研究

基于SSVEP 直接脑控机器人方向和速度研究

DOI:10.16383/j.aas.2016.c150880
发表时间:2016
5

基于多模态信息特征融合的犯罪预测算法研究

基于多模态信息特征融合的犯罪预测算法研究

DOI:
发表时间:2018

崔志明的其他基金

相似国自然基金

1

面向众包标注的真值推断与监督分类关键问题研究

批准号:61603186
批准年份:2016
负责人:张静
学科分类:F0603
资助金额:22.00
项目类别:青年科学基金项目
2

面向大规模人脸标注的弱监督多视角谱聚类研究

批准号:61906077
批准年份:2019
负责人:贾洪杰
学科分类:F0607
资助金额:24.00
项目类别:青年科学基金项目
3

基于格值逻辑的语言真值归结自动推理研究

批准号:60474022
批准年份:2004
负责人:徐扬
学科分类:F0301
资助金额:26.00
项目类别:面上项目
4

不相容知识库中的推理研究

批准号:69573011
批准年份:1995
负责人:姜云飞
学科分类:F0201
资助金额:7.00
项目类别:面上项目