Active learning can effectively reduce the number of examples to be labeled. However, these examples should be labeled by experts, which causes high labelling cost. This problem can be resolved by introducing the crowdsourcing concept to active learning and substituting experts with public network users. However, compared with experts, public network users have lower labelling qualities, especially when there are many classes. This project will conduct research on crowdsourcing active learning for multi-class image classification. Main research includes: ①maximum classification optimization based informativeness measure methods, which dig out the most informative examples from the perspective of optimizing the classifier and then improve the generation performance of the classifier; ②active selection algorithms based on the combination of prediction probabilities with expected error reduction for image pairs, which convert multi-class labelling problems into binary ones and simplify the multi-class labelling problems via binary feedbacks of public network users for image pairs; ③User bias modeling and Bayesian estimation based label integration methods, which use sensibility and specificity to characterize the degree of bias of public network users and solve the bias problem of crowdsourcing labelling results. Besides, we will design and implement a multi-class image classification prototype system based on crowdsourcing active learning, which is used to verify the effectiveness of above methods and models.
主动学习可以有效降低需标注样本的数量,但其需由专家标注,标注代价很高。将众包理念引入到主动学习中,利用大众网络用户替代专家进行标注,可解决专家标注代价高的问题。然而,大众网络用户与专家相比,其标注质量较低,特别是当标注类别较多时。本项目拟开展面向多类图像分类的众包主动学习方法研究,其研究内容主要包括:①研究最大分类优化的样本信息含量度量方法,从分类器优化的角度挑选最具信息含量的样本,提高分类器的泛化性能;②研究结合预测概率和期望误差的图像样本对主动选择策略,将多类标注问题转化为二元标注问题,通过大众网络用户对图像样本对的二元反馈来简化多类标注问题;③研究基于用户偏置建模和贝叶斯估计的标签集成方法,采用敏感性和特异性表征大众网络用户的标注偏置程度,解决众包标注结果的偏置性问题。并设计实现基于众包主动学习的多类图像分类原型系统,验证上述方法和模型的有效性。
主动学习通过启发式学习策略从未标注样本集中挑选高信息含量的样本子集交由专家进行标注,然而专家标注代价很高。充分利用大众网络用户替代专家进行标注,可以有效地降低标注代价。但是,大众网络用户标注质量不高,特别是当图像类别较多时。针对该问题,本项目开展了面向多类图像分类的众包主动学习方法研究,提出了最大分类优化的样本信息含量度量方法,在考虑未标注样本不确定性的基础上,以样本的分类优化能力作为度量准则,进一步选择分类优化能力强的样本,在最大化数据有用信息量的情况下提高分类器的泛化性能,快速完成分类器的训练;提出了结合预测概率和期望误差的图像样本对主动选择策略,最有可能匹配成功的代表性图像将被优先选中,有效减少用户反馈的次数。大众网络用户只需判别选出的图像样本对的相似性,这极大地降低了样本标注的困难程度;提出了基于用户偏置建模和贝叶斯估计的标签集成方法,通过贝叶斯方法结合现有标注信息,将统计推断建立在后验分布基础上,采用敏感性和特异性表征大众网络用户的标注偏置程序,通过标签集成推理估计图像样本对的真实标注;在本项目研究成果和前期工作的基础上,设计并实现了基于众包主动学习的多类图像分类原型系统,有效地验证了本项目所提方法和模型的有效性。在项目实施过程中申请发明专利6项,其中1项已获授权;获得软件著作权1项;在国内、外核心期刊和国际会议发表学术论文21篇,其中CCF推荐的SCI论文7篇、国际学术会议论文14篇;培养了多名科研骨干人才,其中包括博士研究生4名(毕业3人、在读1人)、硕士研究生7名(毕业6人、在读1人)。
{{i.achievement_title}}
数据更新时间:2023-05-31
内点最大化与冗余点控制的小型无人机遥感图像配准
基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例
基于协同表示的图嵌入鉴别分析在人脸识别中的应用
一种改进的多目标正余弦优化算法
多源数据驱动CNN-GRU模型的公交客流量分类预测
面向不平衡分类任务的主动学习方法研究
面向众包标注的真值推断与监督分类关键问题研究
集成主动学习和众包技术的迁移学习算法研究
基于众包标注的多标记学习研究