多标记问题的不确定性分析与主动学习方法研究

基本信息
批准号:61772344
项目类别:面上项目
资助金额:62.00
负责人:王冉
学科分类:
依托单位:深圳大学
批准年份:2017
结题年份:2021
起止时间:2018-01-01 - 2021-12-31
项目状态: 已结题
项目参与者:邝得互,周宇,潘彬彬,高伟,吴梦远,贾育衡,朱红,姚鹏,祝宏玉
关键词:
多标记学习主动学习分治策略不确定性欺诈识别
结项摘要

Multi-label learning is an emerging kind of machine learning method in recent years, which provides reliable solutions to various complex learning problems by recognizing multiple labels of samples and fusing correlated traditional problems. However, compared to traditional single-label learning, multi-label learning has more obvious deficiencies of uncertainty, data redundancy, and high spatial-temporal complexity, etc, which pose difficulties to its theoretical analysis and real applications. This project aims to discuss the theories and algorithms of uncertainty analysis and active learning for multi-label problems. The contents include: (1) analyze the uncertainty of the input, output, and unlabeled samples for a multi-label method by mixed probability model; (2) propose “sample-label pair” selection strategy based on stable-matching theory and multi-label active learning framework; (3) construct multi-label active learning algorithms for big data with the divide-and-conquer strategy under parallel and distributed system, and further study the fusion of distributed results as well as their convergence to the objective function; (4) apply the above analytical results to abnormal user identification and fraud identification in Internet information exchange platform, and provide theoretical basis and technical support to the development of high-performance recognition systems.

多标记学习是近年来新兴的一类机器学习方法,通过识别样本的多重标签将相互关联、相互交叉的多个传统问题进行融合,为当下日趋复杂多样的学习任务提供了可靠的解决方案,具有广泛的应用前景。然而,与传统的单标记学习相比,多标记学习的各种不确定性、数据冗余、时间空间复杂度高等问题更加凸显,为其理论研究与实际应用增添了很大困难。本项目从理论和算法两方面深入研究多标记问题的不确定性建模与主动学习方法。研究内容包括:(1)利用混合概率模型对多标记学习的输入、输出及未标记样本进行不确定性分析;(2)提出基于稳定匹配理论的样本标签配对算法与基于不确定性的多标记主动学习理论框架;(3)构建分治并行策略下的大数据多标记主动学习算法,讨论分治算法下数据的分布形态以及结果经过融合后向目标函数的收敛;(4)将上述研究结果应用到互联网信息交互平台的异常用户与欺诈行为识别,为建立高性能的识别系统提供坚实的理论依据与技术支持。

项目摘要

大数据时代数据呈现的多样性、复杂性、关联性以及交叉性,致使传统单标记学习方法在许多现实领域有很大的局限。因此,多标记学习引起了越来越多学者的关注,并在过去若干年间取得了快速的发展。与传统的单标记学习不同,多标记学习已不再是一个单独的识别问题,而是多个相互关联、相互交叉的识别问题的融合。由于采集数据的空间和时间变化,多标记问题具有更大的不确定性,标注不足、信息缺失、样本冗余、噪声等现象更加严重。特别是标注不足的问题,在大规模多标记任务下更加凸显,需要通过一定的信息度评价准则选择出有价值的样本,以尽量低的人工代价获取紧致有效的训练集。因此,主动学习在多标记环境下有着更加重要的价值。本项目基于一定的前期工作基础,开展面向多标记数据的不确定性分析与主动学习方法研究,研究要点包括:.① 基础学习模型的性能改进:通过引入不同的数据分布假设,探讨并提升了传统模型在非传统数据类型下的适应性,并以神经网络为例探讨了模型泛化能力的影响因素与模型选择的方法;.② 单标记与多标记环境下的不确定性建模及不确定性引导的学习策略:包括不确定性降低策略引导的特征学习方法、参数不确定性对模型泛化能力和对抗鲁棒性的影响研究、基于模糊不确定测度的单调分类方法等;.③ 多标记环境下的基础分类方法与主动学习方法研究:包括多标签分类器链中基于贝叶斯网络的标签关联性分析、基于互信息或判别率的主动随机K标签集集成方法、基于不确定性与不一致性的多标记主动学习方法等;.④ 具体应用:将以上理论研究与算法研究的成果应用到实际的大数据问题上,包括大规模图像质量评价数据、大规模出租车GPS轨迹数据、以及图像去雾数据等,针对大数据分析提出可行性方案。.以上是本项目通过研究基础学习模型的性能提升、不确定性建模与不确定性引导的学习策略、多标记环境下的基础分类方法与主动学习方法等得到的主要结果。项目研究迄今发表学术论文32篇。其中,SCI检索27篇,包括中科院大类/小类/升级版一区TOP论文18篇,CCF A类论文1篇。这些研究成果丰富了不确定性建模理论与方法,对于多标记环境下的学习系统构建与大数据下的模型优化等有重要意义,在高性能复杂分类系统、大数据决策支持系统等领域有着广泛的应用。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

温和条件下柱前标记-高效液相色谱-质谱法测定枸杞多糖中单糖组成

温和条件下柱前标记-高效液相色谱-质谱法测定枸杞多糖中单糖组成

DOI:10.3724/ SP.J.1123.2019.04013
发表时间:2019
2

基于多模态信息特征融合的犯罪预测算法研究

基于多模态信息特征融合的犯罪预测算法研究

DOI:
发表时间:2018
3

基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例

基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例

DOI:
发表时间:2022
4

居住环境多维剥夺的地理识别及类型划分——以郑州主城区为例

居住环境多维剥夺的地理识别及类型划分——以郑州主城区为例

DOI:10.11821/dlyj201810008
发表时间:2018
5

基于细粒度词表示的命名实体识别研究

基于细粒度词表示的命名实体识别研究

DOI:10.3969/j.issn.1003-0077.2018.11.009
发表时间:2018

王冉的其他基金

批准号:61402460
批准年份:2014
资助金额:24.00
项目类别:青年科学基金项目
批准号:81402901
批准年份:2014
资助金额:23.00
项目类别:青年科学基金项目
批准号:81301150
批准年份:2013
资助金额:23.00
项目类别:青年科学基金项目
批准号:31302009
批准年份:2013
资助金额:24.00
项目类别:青年科学基金项目
批准号:11871382
批准年份:2018
资助金额:50.00
项目类别:面上项目
批准号:81473484
批准年份:2014
资助金额:74.00
项目类别:面上项目
批准号:81102710
批准年份:2011
资助金额:22.00
项目类别:青年科学基金项目
批准号:41402044
批准年份:2014
资助金额:24.00
项目类别:青年科学基金项目
批准号:11301498
批准年份:2013
资助金额:22.00
项目类别:青年科学基金项目
批准号:51505277
批准年份:2015
资助金额:20.00
项目类别:青年科学基金项目

相似国自然基金

1

面向蛋白质功能预测的多标记学习方法研究与应用

批准号:61402378
批准年份:2014
负责人:余国先
学科分类:F0213
资助金额:26.00
项目类别:青年科学基金项目
2

面向多类图像分类的众包主动学习方法研究

批准号:61402311
批准年份:2014
负责人:吴健
学科分类:F0210
资助金额:26.00
项目类别:青年科学基金项目
3

基于类属特征学习的高效鲁棒多标记学习方法研究

批准号:61806005
批准年份:2018
负责人:黄俊
学科分类:F0604
资助金额:28.00
项目类别:青年科学基金项目
4

基于多样化查询的多标记主动学习研究

批准号:61503182
批准年份:2015
负责人:黄圣君
学科分类:F0603
资助金额:22.00
项目类别:青年科学基金项目